回归分析的“拟合优度”是什么？

01 拟合优度是什么？

下面言归正传，敲黑板、划重点了啊！

所谓“拟合优度”，是回归分析中用来检验样本数据点聚集在回归线周围的密集程度，用于评价回归方程对样本观测值的拟合程度。

02 拟合优度是怎么来的？

英国统计学家F.Galton研究父亲身高和其成年儿子身高的关系时，从大量的样本观测值的散点图中，天才般地发现了一条贯穿其中的直线，这条直线能够描述父亲和成年儿子身高之间的关系。F.Galton把这种现象叫做“回归”，这条贯穿数据点的线称为“回归线”。

当然，F.Galton还发现，即便父亲身高都相同，他们的成年儿子身高也不尽相同。这就是说：成年儿子身高的差异会受到两个因素的影响：一个是他父亲身高的影响；另一个是其他随机因素的影响。

那么，我们可以这么理解，即“回归方程”中的被解释变量y的各观测值之间的差异，也是由两个方面原因造成的：一是由解释变量x的不同取值造成的；二是由其他随机因素所造成的。

实际上，回归方程所反映的是：解释变量x的不同取值变化对被解释变量y的影响规律，因此其本质上揭示的是上述第一个原因。

统计学上，我们把这个因素引起的y的变差平方和称为“回归平方和”（regression sum of squares,SSR）。

对于由随机因素造成的y的变差平方和称为“剩余平方和”（errors sum of squares,SSE）。

那么，y的总变差平方和（total sum of squares,SST）,就等于其“回归平方和”与“剩余平方和”之和。即：

回到拟合优度的问题上，我们就容易理解，当所有样本点都落在回归线上时，回归方程的拟合优度一定是最高的。此时，y的SST只包含SSR部分，没有SSE。

由此可知，在y的SST中，如果SSR所占比例远大于SSE所占比例，换句话说，就是回归方程如果能够解释的变差所占比例较大，那么，这个回归方程的拟合优度就高。

在统计学中，对于一元线性回归方程，通常采用R^（R的平方）统计量来检验拟合优度，这个统计量也称为判定系数。

式中，R^（R的平方）反映了回归方程所能解释的变差比例，其取值在0~1之间，R^（R的平方）越接近1，说明回归方程对于样本数据点的拟合优度越高；反之，R^（R的平方）越接近0，说明回归方程对于样本数据点的拟合优度越低。

当然，上面是一元线性回归方程的拟合优度。对于其他的回归方程肯定有所区别啦！比如，多元线性回归方程的拟合优度，用的是“调整的判定系数”。

公式中，这个n-p-1,n-1是SSE和SST的自由度。实际上，这个调整的判定系数，其实还是拟合优度检验基本思路的体现！

03 拟合优度应该怎么看？

回归方程的拟合优度检验，本质上是一种描述性的刻画，不涉及到对解释变量和被解释变量的总体关系的推断。

那么，对于不同的模型，当然是拟合优度越大越好。但是，反过来问，拟合优度多少可以接受呢？这个不同学科往往有着不同的惯例和标准，有的说在社会学中差不多在0.3左右都很普遍的，也有的说动不动就高达0.9以上的拟合优度让人质疑；而且不同的样本观测值也会得出不同的值，以小编做过的回归分析拟合优度来看，同样的一个模型论文里能达到0.9，而自己才只能达到0.6。不过，总的来说，拟合优度如果超过0.5，那应该不必过于担心了，因为我们不能单纯以拟合优度作为判别模型好坏的标准，更应关注模型设定的合理性。

小伙伴们，对于回归分析，还需要进行回归方程的显著性检验、回归系数的显著性检验以及残差分析等，记住：“拟合优度”很重要，但要是只单单看“拟合优度”这一个指标，则是没有意义的哦！

编辑于 2020-09-02 · 著作权归作者所有

赞同 134