由于在机器学习上浸淫多年,累积了丰富的知识,Chris 便将自己所识所学浓缩在一张张短小精悍的卡片中,并且在 Twitter 上不定期地更新卡片内容。
Chris 本人众所周知,机器学习是由计算机、科学统计学和数学共同支撑起的一个广阔领域,有数百个概念要学习,这些卡片旨在帮助你速记机器学习中的关键概念。
每一张卡片都包含一个机器学习概念,用图片搭配文字解释的方式生动地向你阐述概念背后的基础思路,范围从数学基础横跨到大热的深度学习。
这些公式由 Chris 先手工绘制,再数据化转换成你面前的一张张图片,比起一页页地翻教科书更轻松偷♂税。
你甚至能把图片复制进手机,哪里不会点哪里,路上通勤的时候也能随手翻看,这总比背英语单词有趣多了吧!
到底愉不愉悦?优达君花了点时间金钱集齐了这套卡片,并辛苦地做了汉化,同时对一些作者没讲到或者不全面的知识做了补充。今天先发一些给大家感受下,如果觉得好玩且有帮助,可以直接翻到文末,查看小卡片领取方法。
准确率:分类问题中的常见度量方法。当我们有极为不平衡的分类时则不能奏效。这种情况下使用 F1 分数更为合适。
自适应提升算法:1、为每一个观测值 Xi 赋一个初始的权重值,Wi = 1/n,n 是观测值总数。
2、训练一个 "弱" 模型。(通常是决策树)
3、对于每一个观测值:
a) 如果预测值错误,Wi 增加
b) 如果预测值正确,Wi 减少
4、训练一个新的弱模型,其中,有更高权重的观测值获得更高优先级。
5、重复第 3、4 步,直到观测值都能被完美预测出来或者预设数量的树都被训练完了。
调整 R 平方:直观上:一旦所有正确的特征都已经加上,额外的特征应该被惩罚。
(优达菌注:调整 R 平方有最大值,在此最大值下有最好的特征组合,常用于特征选择。)
凝聚型聚类:所有的观测值初始自成一个聚类。根据一些标准,聚类间相互合并。不断重复这一过程,直到到达某一终点。
AIC(Akaike information criterion):在特征选择时用于比较哪个模型更好。AIC 越小越好。
几乎处处:根据度量理论,一个几乎处处成立的性质对所有事物都是正确的,但是一些先锋案例就会自然地忽略掉。
岭回归中的 Alpha,不懂看图。
安斯库姆四重奏:安斯库姆四重奏用 4 组完全不同的数据,得出相同的汇总统计和回归线。这是对汇总统计的警示。
神经网络架构:神经网络架构指单元,他们的激活函数,有几层等等。
大多数的神经网络架构可被理解为单元堆积层。
某一问题的最好架构应该通过使用验证集试验后找到。
AUC:ROC 曲线代表二分类器中真正类比例和假正类比例的概率阈值。AUC 能评判模型的整体质量。AUC 越高越好。
来源: http://blog.csdn.net/sfM06sqVW55DFt1/article/details/78811023