如何避免维度灾难与过拟合

简而言之, 当训练样本数量不变, 分类器性能会随着选取的特征维度的增大先增大后减小, 也就是说只有在特征维度数量和样本数量稳定在一定范围内, 分类器性能才会最优, 但目前没有什么固定的方法去计算二者之间的关系.

过拟合就是当训练样本数量不变, 分类器性能随着特征维度增大而减小, 直观的体现就是测试训练样本分数很高, 一旦测试新数据分数就下降.

如何避免维度灾难?

那些对于非线性边界能拟合很好的分类器一般泛化性比较差, 而且容易过拟合. 所以当使用这些分类器时, 特征的数量尽量保持小些 (如神经网络, KNN, 决策树等). 如果使用一些易泛化的分类器, 那么特征数可以用多些 (如朴素贝叶斯, 线性分类器等)

来源: http://www.bubuko.com/infodetail-3255035.html

暂无,快来抢沙发吧！