【ML】对数据处理的几种方法

数据处理的几种方式：

1、All in
2、Backward Elimination (后退梯度)
3、Forward Elimination (前进梯度)
4、Bidirectional Elimination （比较梯度）
5、Score Comparison

===============================

All in

All in

是把所有的数据都扔进去。无脑。不推荐使用。

Backward Elimination

可以理解为一步一步抽掉无用的数据。（N -> A）
用所有的数据做出一个模型，留下p values > 5%的变量。
也就是留下影响比较大的数，影响越大，二者之间就越有某种关系。
然后再进行一次运算，再次留下影响大的数。如此循环。

Forward Elimination

可以理解为一步一步测试，如果精确度上升了，那么就加入（A -> N）

用所有的数据做出一个模型，导入其他特征数据，看看精确度是否提高。
如果有提高就加入，没有提高就不加入。然互就接着导入其他特征数据。

Bidirectional Elimination

通过循环比较，交叉比对的方法得到有关联的特征。

举个例子吧：

原来只有A和B做项目。后来来了C，发现工作效率A+B+C > A+B，说明这个人是有效率的。这个到底有多大的效率呢。
然后我们对比如果发现A+C > A+ B 并且 B+C > A+C，说明，加入这个C，是有确实的效率的。这个员工值得拥有。

Score Comparison

这个是建立在庞大的模型数量下进行。

是把拿到的各种模型来进行模型之间的比较。

最少需要用到1023个model！！！

而前面几种都是建立在庞大的有效数据的前提下运行。

来源: http://blog.csdn.net/wiki_su/article/details/78415800

暂无,快来抢沙发吧！