01 拟合优度是什么?
下面言归正传,敲黑板、划重点了啊!
所谓“拟合优度”,是回归分析中用来检验样本数据点聚集在回归线周围的密集程度,用于评价回归方程对样本观测值的拟合程度。
02 拟合优度是怎么来的?
英国统计学家F.Galton研究父亲身高和其成年儿子身高的关系时,从大量的样本观测值的散点图中,天才般地发现了一条贯穿其中的直线,这条直线能够描述父亲和成年儿子身高之间的关系。F.Galton把这种现象叫做“回归”,这条贯穿数据点的线称为“回归线”。
当然,F.Galton还发现,即便父亲身高都相同,他们的成年儿子身高也不尽相同。这就是说:成年儿子身高的差异会受到两个因素的影响:一个是他父亲身高的影响;另一个是其他随机因素的影响。
那么,我们可以这么理解,即“回归方程”中的被解释变量y的各观测值之间的差异,也是由两个方面原因造成的:一是由解释变量x的不同取值造成的;二是由其他随机因素所造成的。
实际上,回归方程所反映的是:解释变量x的不同取值变化对被解释变量y的影响规律,因此其本质上揭示的是上述第一个原因。
统计学上,我们把这个因素引起的y的变差平方和称为“回归平方和”(regression sum of squares,SSR)。
对于由随机因素造成的y的变差平方和称为“剩余平方和”(errors sum of squares,SSE)。
那么,y的总变差平方和(total sum of squares,SST),就等于其“回归平方和”与“剩余平方和”之和。即:
回到拟合优度的问题上,我们就容易理解,当所有样本点都落在回归线上时,回归方程的拟合优度一定是最高的。此时,y的SST只包含SSR部分,没有SSE。
由此可知,在y的SST中,如果SSR所占比例远大于SSE所占比例,换句话说,就是回归方程如果能够解释的变差所占比例较大,那么,这个回归方程的拟合优度就高。
在统计学中,对于一元线性回归方程,通常采用R^(R的平方)统计量来检验拟合优度,这个统计量也称为判定系数。
式中,R^(R的平方)反映了回归方程所能解释的变差比例,其取值在0~1之间,R^(R的平方)越接近1,说明回归方程对于样本数据点的拟合优度越高;反之,R^(R的平方)越接近0,说明回归方程对于样本数据点的拟合优度越低。
当然,上面是一元线性回归方程的拟合优度。对于其他的回归方程肯定有所区别啦!比如,多元线性回归方程的拟合优度,用的是“调整的判定系数”。
公式中,这个n-p-1,n-1是SSE和SST的自由度。实际上,这个调整的判定系数,其实还是拟合优度检验基本思路的体现!
03 拟合优度应该怎么看?
回归方程的拟合优度检验,本质上是一种描述性的刻画,不涉及到对解释变量和被解释变量的总体关系的推断。
那么,对于不同的模型,当然是拟合优度越大越好。但是,反过来问,拟合优度多少可以接受呢?这个不同学科往往有着不同的惯例和标准,有的说在社会学中差不多在0.3左右都很普遍的,也有的说动不动就高达0.9以上的拟合优度让人质疑;而且不同的样本观测值也会得出不同的值,以小编做过的回归分析拟合优度来看,同样的一个模型论文里能达到0.9,而自己才只能达到0.6。不过,总的来说,拟合优度如果超过0.5,那应该不必过于担心了,因为我们不能单纯以拟合优度作为判别模型好坏的标准,更应关注模型设定的合理性。
小伙伴们,对于回归分析,还需要进行回归方程的显著性检验、回归系数的显著性检验以及残差分析等,记住:“拟合优度”很重要,但要是只单单看“拟合优度”这一个指标,则是没有意义的哦!