首发于机器学习
回归分析  (Linear Regression)

回归分析 (Linear Regression)

什么是回归分析

回归分析描述变量之间关系的一种统计分析方法。

回归分析是预测性的建模技术,通常用于预测分析。

预测的结果一般是连续值,但也可以为离散值。

线性回归(linear regression)

例:预测房价

房价 = 1.6 + 0.31 * 房子面积 + 0.42 * 地段 + 0.27 * 层高 + 0.11 * 房屋年份

房价 -> 因变量

房子面积,地段,层高,房屋年份 -> 自变量

其中1.6为常数项(截距)

0.31,0.42,0.27,0.11为系数(斜率)

线性回归的目的就是找到最能匹配(解释)数据的截距与斜率。

线性假设

通常情况下,变量间是近似的线性关系

如何找到一条直线能够最好的解释(拟合)数据?

如何拟合数据

假设:只有一个自变量x和因变量y,每个训练样例表示为(x_{i}, y_{i})

\hat{y}表示根据拟合直线和 x_{i} y_{i} 的预测值。

\hat{y} = b_{1} + b_{2}x_{i}

我们定义: e_{i} = y_{i} - \hat{y}_{i} 为误差项

目标:得到一条直线使得对于所有训练样例的误差项尽可能的小。

线性回归的基本假设

1.自变量与因变量之间存在线性关系。

2.数据点之间独立。

(即 y_{1}y_{2} 等输出相互之间没有关系,或者说 y_{2}的输出不受 y_{1} 的影响。)

3.自变量之间无共线性,相互独立。

(即特征之间相互独立。eg:是否出行,特征‘天气’与‘包的重量’我们认为他们是独立的,但是如果是‘天气’与‘是否带伞’这两个特征,我们认为他们有共线性,是不独立的。)

4.残差独立,等方差,且符合正态分布。

(残差即我们的误差项 e_{i}

损失函数(loss function)的定义

多种损失函数都是可行的,考虑到优化等问题,最常用的是基于误差平方和的损失函数。

误差平方和可以放大误差大的项,比如误差为3,那么误差平方为9。同时可以缩小误差很小项,比如误差为0.1,那么误差平方为0.01。

最小二乘法(Least Square, LS)

为了求解最优的截距和斜率,可以转换为一个针对损失函数的凸优化问题,称为最小二乘法。

编辑于 2021-09-30 14:51