机器学习的思路梳理一下: 机器学习的分类, 分类和预测; 分类这里包括线性分类, 贝叶斯分类, 决策树分类, adaboost 几种; 线性分了本质是根据样本来推测系数 (权重, weight), 基于损失函数,
不断地调整系数以实现损失函数值最小, 说的了损失函数, 我们就来讨论一下有哪几类损失函数, 这里包括 sigmod,Gradent, 对数; 怎么来求解呢? 一般采用 Gradent, 梯度下降的方式来进行求解. 但是这里
注意了, 每种损失函数都是尤其特定的使用场景的, 介绍如下.
svm 的分类方式和其他的不太一样, 不再是求权重, 而是求一个最大宽度, 这个最大宽度则是基于 SMO 算法来求解而得, svm 里面采用了拉格朗日的对偶的算法, 这个可以介绍如下.
贝叶斯分类方式则是基于概率 1 角度来计算每种分类的可能性, 这个和其他的分类方式又有些不同, 贝叶斯求解需要获取先验概率, 然后才能够获知后验概率. 他的隐喻就是开始的时候知道的局部概率, 然后
根据局部概率推断出全局概率.
决策树分类方式则是基于特征熵的原理来搞的; 总是选择熵值最小的那个列来进行分类, 决策树理论认为熵值最高的那一列的区分度是最高的.
关于 Adaboost, 和其他几个不同, 其他几个都是单一分类器, aboost 则是集成分类器, 他是汇聚多个弱分类器, 然后根据训练阶段每个分类器的学习的效果.
因为我们分类搞着搞着, 就会面临过拟合问题, 这里牵涉到了岭回归. L1,L2 都是啥?
那么我们再来聊一聊如何来评估机器学习, ROC, 混淆矩阵等, 还有那个 validate+train 曲线都是啥.
下面讲一下特征工程, 这个也会统计学类最重要的内容:
来源: http://www.bubuko.com/infodetail-3025377.html