回归分析 (Linear Regression)
什么是回归分析
回归分析描述变量之间关系的一种统计分析方法。
回归分析是预测性的建模技术,通常用于预测分析。
预测的结果一般是连续值,但也可以为离散值。
线性回归(linear regression)
例:预测房价
房价 = 1.6 + 0.31 * 房子面积 + 0.42 * 地段 + 0.27 * 层高 + 0.11 * 房屋年份
房价 -> 因变量
房子面积,地段,层高,房屋年份 -> 自变量
其中1.6为常数项(截距)
0.31,0.42,0.27,0.11为系数(斜率)
线性回归的目的就是找到最能匹配(解释)数据的截距与斜率。
线性假设
通常情况下,变量间是近似的线性关系
如何找到一条直线能够最好的解释(拟合)数据?
如何拟合数据
假设:只有一个自变量x和因变量y,每个训练样例表示为(x_{i}, y_{i})
用\hat{y}表示根据拟合直线和 x_{i} 对y_{i} 的预测值。
\hat{y} = b_{1} + b_{2}x_{i}
我们定义: e_{i} = y_{i} - \hat{y}_{i} 为误差项
目标:得到一条直线使得对于所有训练样例的误差项尽可能的小。
线性回归的基本假设
1.自变量与因变量之间存在线性关系。
2.数据点之间独立。
(即 y_{1} 与 y_{2} 等输出相互之间没有关系,或者说 y_{2}的输出不受 y_{1} 的影响。)
3.自变量之间无共线性,相互独立。
(即特征之间相互独立。eg:是否出行,特征‘天气’与‘包的重量’我们认为他们是独立的,但是如果是‘天气’与‘是否带伞’这两个特征,我们认为他们有共线性,是不独立的。)
4.残差独立,等方差,且符合正态分布。
(残差即我们的误差项 e_{i} )
损失函数(loss function)的定义
多种损失函数都是可行的,考虑到优化等问题,最常用的是基于误差平方和的损失函数。
误差平方和可以放大误差大的项,比如误差为3,那么误差平方为9。同时可以缩小误差很小项,比如误差为0.1,那么误差平方为0.01。
最小二乘法(Least Square, LS)
为了求解最优的截距和斜率,可以转换为一个针对损失函数的凸优化问题,称为最小二乘法。