360精选
Logistic回归是机器学习算法中的一种分类算法。它进行分类的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。回归,是指根据现有的一些数据点,用一条直线对这些点进行拟合的过程。 为了实现Logistic回归分类器,我们想要一个函数,能够在输入一个值后能够预测出类型。如,当只有两个类型时,我们希望函数能够输出0或1,从而达到分类的效果。在这里我们使用Sigmoid函数来实现这一功能,尽管它并不是一个严格的跳跃函数。但是只要横坐标刻度足够大,Sigmoid函数看起来很像一个跳跃函数。 Sigmoid函数表达式: 当z为0时,Sigmoid函数值为0.5。随着z的增大,Sigmoid函数值将逼近1;而随着z的减小,Sigmoid函数值将逼近0。 Sigmoid函数分类的原理:在每个特征上都乘以一个回归系数,然后把所有结果相加,将这个总和带入Sigmoid函数中,从而得到一个范围在0~1之间的数值S(z);任何大于0.5的数据被分为1类,小于0.5的数值被分为0类。即z=0为两个类型的分界线,z0的数据被分为1类,z0的数据被分为0类。 Sigmoid函数的输入为z,z=w0*x0+w1*x1+w2*x2+…+wn*xn。其中x0=1,x1,x2,..,xn为数据的特征,w0,w1,...,wn为回归系数。之所以要添加一个x0=1,那是因为在确定分界线时,取z=0,在整个空间确定一个超平面需要一个常数做偏移。如:要确定一个直线a*x+b*y+c=0,其中的c就是相当于这里的x0的作用。 那么如何确定最佳回归系数呢?答案是使用最优化算法。下面介绍两种最优化算法:梯度下降法和随机梯度下降法。 梯度下降法的基本思想:要找到函数的最小值,最好的方法是沿着该函数的梯度的负方向探寻。梯度总是指向函数值增长最快的方面,反过来,梯度的负方向总是指向函数值下降最快的方面。梯度下降法的迭代公式: 这里的w是一个向量,w=(w0,w1,…,wn);a称为步长,是一个已经的数。 此时,我们需要知道在求解最佳回归系数时,梯度下降法中的f(w)是什么?f(w)的梯度怎么求? 第1步,导入数据。假设目前有m条数据,每条数据有n特征。我们需要一个m*(n+1)的矩阵X和一个m*1的矩阵L来存放数据。矩阵X的每一行存放特征(x0,x1,x2,…,xn),其中已知x0=1。矩阵L存放每条数据的类型,即0或1。初始化回归系数w=(1,1,…,1),即所有系数都为1。 第2步,计算误差E。将矩阵X的每一行分别与回归系数w相乘,带入Sigmoid函数。记矩阵X的每一行为x(i),w’表示w的转置。则求出的每一行的Sigmoid函数值为S(x(i)*w’),所有行的值组成一个m*1的矩阵S(X*w’)。误差E=S(X*w’)-L。 第3步,确定f(w)。我们希望求出的Sigmoid值与该数据的类型值很接近,即S(x(i)*w’)-L(i)的值很小。所以取: 又因为要求f(w)的最小值,所有就使用梯度下降法。 第4步,求f(w)的梯度。我们需要求出f(w)对于每个w(k)的梯度: 所有我们有 即,迭代公式可以改写为 到这里,我们已经可以求出最佳回归系数了。我们只需要设置一个迭代次数,然后一直迭代执行上述公式,便可以得到一个较好的回归系数。此时,我们取该回归系数作为最佳回归系数。 我们可以带入一组测试数据来检验该最佳回归系数的错误率是否在可以接受的范围。此外,我们还可以通过一个更直观的方式来检验该最佳回归系数。之前提到过,z=0为数据的分类边界线。所以,如果是特征只有2个的话,则有w0*x0+w1*x1+w2*x2=0。又x0=1,用x代替x1,y代替x2。则得到一条直线方程w0+w1*x+w2*y=0。我们使用画图软件画出所有的数据点以及该直线,观察两种类型数据是否几乎分散在该直线的两侧。 随机梯度下降法是改进后的梯度下降法。梯度下降法在每次更新回归系数时都需要遍历整个数据集,而改进后的随机梯度下降法在每次更新时仅用一个样本点更新回归系数。迭代公式也有一点小的变化: 1. 在求误差E时。随机选出矩阵X中的i行数据,然后求出Sigmoid函数值S(x(i)*w’)。E= S(x(i)*w’)-L(i),即此时的误差是一个数,而不是一个向量了。 2. 因为只选择了一行数据,所以此时的f(w)变为: 3. f(w)的梯度相应的变为: 即,迭代公式改写为 4. 梯度下降法只需要一次循环,即迭代次数的循环。而随机梯度下降法需要两次循环,最外层的循环仍然是迭代次数的循环。因为随即梯度下降法每次只随机选出矩阵X的一行更新回归系数,所以在里面需要添加一个m次的循环,使得能够随机遍历矩阵X的每一行。 总的来说,随机梯度下降法比梯度下降法的收敛性更好,更加适用。 总之,Logistic回归的目的是寻找一个Sigmoid函数的最佳拟合参数,而求解最佳你和参数可以由最优化算法来完成。 打开CSDN,阅读体验更佳
查看更多

【图】基于Logistic回归个人信用评估模型

360图片
没有更多结果了~