机器学习之路——回归诊断

回归诊断:帮助我们发现并纠正问题，告诉我们模型是否合适，提供了评价回归模型适应性的必要工具。

比如：样品是否符合正态分布假设？是否存在离群群值使模型产生较大误差？线性模型是否合理？误差是否满足独立性（误差不会随着因变量大小而变化）、等方差、正态分布等假设条件？是否存在多重共线性（自变量不独立）？

标准方法：R中提供了大量检验回归分析中统计假设的方法。plot（）函数

R语言例子：

fit<-lm(weight~height,data=women)
par(mfrow=c(2,2)) %将plot绘制的四幅图形组合在一个大的2*2的图中
plot(fit)

运行结果：

回顾OLS回归假设：

1.正态性：当预测变量值固定时，因变量成正态分布。残差值也是均值为0的正态分布。

Normal Q-Q图：正态分布对应的值下，标准化残差的概率分布。若满足正态假设，图上的点应该落在呈45度角的直线上；若不是如此，那么久违反了正态性的假设。横坐标为样本值，纵坐标为正态分布的分位数。直线的斜率为标准差，截距为均值。

2.独立性：因变量直接相互独立。例如，一位女性的体重不会影响另一位女性的体重。

3.线性：（残差拟合图residualsVSfitted）若因变量和自变量线性相关，那么残差和预测值（拟合值）就没有任何线性关联。在左上的图中，暗示着可能需要对回归模型加上一个二次项。

4.同方差性：水平线周围的点应该随机分布。

5.残差与杠杆图（ResidualsVSLeverage）：从图中可以鉴别出离群点、高杠杆值点和强影响点。

离群点：一个观测值是离群点，表明拟合回归模型对其拟合效果不佳（产生了巨大的或正或负的残差）。

高杠杆值：一个观测点具有很高的杠杆值，表明它是一个异常的预测变量值的组合。

强影响点：表明它对模型参数的估计产生的影响过大，非常不成比例。可以通过cook距离和cook'D统计量来鉴别。

来源: http://lib.csdn.net/article/machinelearning/37517

暂无,快来抢沙发吧！