Blending 的优点在于:
1. 比 stacking 简单 (因为不用进行 k 次的交叉验证来获得 stacker feature)
2. 避开了一个信息泄露问题: generlizers 和 stacker 使用了不一样的数据集
3. 在团队建模过程中, 不需要给队友分享自己的随机种子
而缺点在于:
1. 使用了很少的数据
2.blender 可能会过拟合 (其实大概率是第一点导致的)
3.stacking 使用多次的 CV 会比较稳健
bending 是一种模型融合方法, 对于一般的 blending, 主要思路是把原始的训练集先分成两部分, 比如 70% 的数据作为新的训练集, 剩下 30% 的 数据作为测试集. 第一层我们在这 70% 的数据上训练多个模型, 然后去预测那 30% 数据的 label. 在第二层里, 我们就直接用这 30% 数据在第一层预测的 结果做为新特征继续训练即可.
python 实现:
https://github.com/emanuele/kaggle_pbr
来源: http://www.bubuko.com/infodetail-3065829.html