数据处理的几种方式:
1、All in
2、Backward Elimination (后退梯度)
3、Forward Elimination (前进梯度)
4、Bidirectional Elimination (比较梯度)
5、Score Comparison
===============================
是把所有的数据都扔进去。无脑。不推荐使用。
- All in
可以理解为一步一步抽掉无用的数据。(N -> A)
- Backward Elimination
可以理解为一步一步测试,如果精确度上升 了,那么就加入 (A -> N)
- Forward Elimination
用所有的数据做出一个模型,导入其他特征数据,看看精确度是否提高。
如果有提高就加入,没有提高就不加入。然互就接着导入其他特征数据。
通过循环比较,交叉比对的方法得到有关联的特征。
- Bidirectional Elimination
举个例子吧:
原来只有A和B做项目。后来来了C,发现工作效率A+B+C > A+B,说明这个人是有效率的。这个到底有多大的效率呢。
然后我们对比如果发现A+C > A+ B 并且 B+C > A+C,说明,加入这个C,是有确实的效率的。这个员工值得拥有。
这个是建立在庞大的模型数量下进行。
- Score Comparison
是把拿到的各种模型来进行模型之间的比较。
最少需要用到1023个model!!!
而前面几种都是建立在庞大的有效数据的前提下运行。
来源: http://blog.csdn.net/wiki_su/article/details/78415800