回归分析 (Linear Regression)

孤独的超越者

纸上得来终觉浅，绝知此事要躬行。

什么是回归分析

回归分析描述变量之间关系的一种统计分析方法。

回归分析是预测性的建模技术，通常用于预测分析。

预测的结果一般是连续值，但也可以为离散值。

线性回归（linear regression)

例：预测房价

房价 = 1.6 + 0.31 * 房子面积 + 0.42 * 地段 + 0.27 * 层高 + 0.11 * 房屋年份

房价 -> 因变量

房子面积，地段，层高，房屋年份 -> 自变量

其中1.6为常数项（截距）

0.31，0.42，0.27，0.11为系数（斜率）

线性回归的目的就是找到最能匹配（解释）数据的截距与斜率。

线性假设

通常情况下，变量间是近似的线性关系

如何找到一条直线能够最好的解释（拟合）数据？

如何拟合数据

假设：只有一个自变量x和因变量y，每个训练样例表示为(x_{i}, y_{i})

用\hat{y}表示根据拟合直线和 x_{i} 对y_{i} 的预测值。

\hat{y} = b_{1} + b_{2}x_{i}

我们定义： e_{i} = y_{i} - \hat{y}_{i} 为误差项

目标：得到一条直线使得对于所有训练样例的误差项尽可能的小。

线性回归的基本假设

1.自变量与因变量之间存在线性关系。

2.数据点之间独立。

（即 y_{1} 与 y_{2} 等输出相互之间没有关系，或者说 y_{2}的输出不受 y_{1} 的影响。)

3.自变量之间无共线性，相互独立。

(即特征之间相互独立。eg:是否出行，特征‘天气’与‘包的重量’我们认为他们是独立的，但是如果是‘天气’与‘是否带伞’这两个特征，我们认为他们有共线性，是不独立的。)

4.残差独立，等方差，且符合正态分布。

（残差即我们的误差项 e_{i} ）

损失函数（loss function）的定义

多种损失函数都是可行的，考虑到优化等问题，最常用的是基于误差平方和的损失函数。

误差平方和可以放大误差大的项，比如误差为3，那么误差平方为9。同时可以缩小误差很小项，比如误差为0.1，那么误差平方为0.01。

最小二乘法(Least Square, LS)

为了求解最优的截距和斜率，可以转换为一个针对损失函数的凸优化问题，称为最小二乘法。

编辑于 2021-09-30 14:51

回归分析

机器学习

线性回归