机器学习算法学习 --- 模型融合和提升的算法 (五)

Blending 的优点在于:

1. 比 stacking 简单 (因为不用进行 k 次的交叉验证来获得 stacker feature)

2. 避开了一个信息泄露问题: generlizers 和 stacker 使用了不一样的数据集

3. 在团队建模过程中, 不需要给队友分享自己的随机种子

而缺点在于:

1. 使用了很少的数据

2.blender 可能会过拟合 (其实大概率是第一点导致的)

3.stacking 使用多次的 CV 会比较稳健

bending 是一种模型融合方法, 对于一般的 blending, 主要思路是把原始的训练集先分成两部分, 比如 70% 的数据作为新的训练集, 剩下 30% 的数据作为测试集. 第一层我们在这 70% 的数据上训练多个模型, 然后去预测那 30% 数据的 label. 在第二层里, 我们就直接用这 30% 数据在第一层预测的结果做为新特征继续训练即可.

python 实现:

https://github.com/emanuele/kaggle_pbr

来源: http://www.bubuko.com/infodetail-3065829.html

与本文相关文章

暂无,快来抢沙发吧！