回归诊断:帮助我们发现并纠正问题,告诉我们模型是否合适,提供了评价回归模型适应性的必要工具。
比如:样品是否符合正态分布假设?是否存在离群群值使模型产生较大误差?线性模型是否合理?误差是否满足独立性(误差不会随着因变量大小而变化)、等方差、正态分布等假设条件?是否存在多重共线性(自变量不独立)?
标准方法:R中提供了大量检验回归分析中统计假设的方法。plot()函数
R语言例子:
fit<-lm(weight~height,data=women)
par(mfrow=c(2,2)) %将plot绘制的四幅图形组合在一个大的2*2的图中
plot(fit)
运行结果:
回顾OLS回归假设:
1.正态性:当预测变量值固定时,因变量成正态分布。残差值也是均值为0的正态分布。
Normal Q-Q图:正态分布对应的值下,标准化残差的概率分布。若满足正态假设,图上的点应该落在呈45度角的直线上;若不是如此,那么久违反了正态性的假设。横坐标为样本值,纵坐标为正态分布的分位数。直线的斜率为标准差,截距为均值。
2.独立性:因变量直接相互独立。例如,一位女性的体重不会影响另一位女性的体重。
3.线性:(残差拟合图residualsVSfitted)若因变量和自变量线性相关,那么残差和预测值(拟合值)就没有任何线性关联。在左上的图中,暗示着可能需要对回归模型加上一个二次项。
4.同方差性:水平线周围的点应该随机分布。
5.残差与杠杆图(ResidualsVSLeverage):从图中可以鉴别出离群点、高杠杆值点和强影响点。
离群点:一个观测值是离群点,表明拟合回归模型对其拟合效果不佳(产生了巨大的或正或负的残差)。
高杠杆值:一个观测点具有很高的杠杆值,表明它是一个异常的预测变量值的组合。
强影响点:表明它对模型参数的估计产生的影响过大,非常不成比例。可以通过cook距离和cook'D统计量来鉴别。
来源: http://lib.csdn.net/article/machinelearning/37517