这部分内容没有固定主题, 不定期更新, 都是些零碎的, 我觉得有必要记一笔的知识. 希望能对其他人也有所帮助.
特征选择方法众多, sklearn 的特征选择模块里给出了几种非常简易高效的方法. 针对回归问题, sklearn 给出了两种方法, 其中一种是 F_regression 引起了我的注意. F_regression 在 sklearn 里只有寥寥几句的介绍, 好在源码简短易读. 之前搜了搜网上其它对这个函数的解读, 要么解释不全, 要么干脆是错的, 所以我就在这里详细讲讲.
先放源码如下:
F_regression 在干什么? 一句话就能讲清楚: 每个特征 X 单独拎出来和 Y 计算相关系数, 并排序. 特征选择就是基于 X 和 Y 的相关程度.
当然实际操作还是分了三步:
计算相关系数;
转化为 F score;
计算 p 值;
来源: http://www.bubuko.com/infodetail-2738502.html