机器学习(2)——线性回归
0x00 前言
第一篇记录了机器学习的定义、分类和范围,这一篇开始从机器学习的方法学起,总结机器学习的经典方法,然后尽量自己写代码实现。
0x01 回归算法
回归算法属于机器学习中监督学习类的算法,是入门机器学习最基础的算法。
回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测,时间序列模型和找到变量之间关系。
回归算法就是量化因变量受自变量影响的大小,建立线性回归方程或者非线性回归方程,从而达对因变量的预测,或者对因变量的解释作用。
0x02 回归分析流程
①探索性分析,画不同变量之间的散点图,进行相关性检验等,了解数据的大致情况,以及得知重点关注那几个变量;
②变量和模型选择;
③回归分析假设条件验证;
④共线性和强影响点检查;
⑤模型修改,并且重复③④;
⑥模型验证。
0x03 回归算法分类
回归算法主要通过三种方法分类:自变量的个数、因变量的类型和回归线的形状。
常见的回归算法有:
- 线性回归
- 逻辑回归
- 多项式回归
- 逐步回归
- 岭回归
- Lasso回归
- ElasticNet回归
0x04 线性回归(Linear Regression)
线性回归是世界上最知名的建模方法之一,在线性回归模型中,因变量是连续型的,自变量可以使连续型或离散型的,回归线是线性的。
线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系。可以用公式来表示:
Y=A+B*X+e
A为截距,B为回归线的斜率,e是误差项。
简单线性回归与多元线性回归的差别在于:多元线性回归有多个(>1)自变量,而简单线性回归只有一个自变量。
简单线性回归
我们首先实现一个只有单一自变量的简单线性回归
我们实现这个算法,可以先以Andrew Ng机器学习讲义中美国俄亥俄州Portland Oregon城市房屋价格为例:
这个例子中近简化使用房屋面积一个因子作为自变量,y轴对应其因变量房屋价格。所以我们机器学习的线性回归就变为对于给定有限的数据集,进行一元线性回归,即找到一个一次函数y=y(x) + e,使得y满足
当x={2104, 1600, 2400, 1416, 3000, … }, y={400, 330, 369, 232, 540, … }
面积(feet²) | 价格(1000$) |
---|---|
2104 | 400 |
1600 | 330 |
2400 | 369 |
1416 | 232 |
3000 | 540 |
··· | ··· |
对这个问题我们先给出假设函数即需要拟合的直线:
其中a和b是我们要求得的参数,参数得变化会引起函数的变化。
而我们解出参数之后的函数是否为最优解,我们需要引入一个概念:Cost Function,即代价函数或成本函数。
代价函数(Cost Function)
在回归问题中,衡量最优解的常用代价函数为平方误差。
平方误差在高中和大学的概率论、统计学等课程中我们都有所了解,就是用样本数据和拟合出的线做差值,然后对差值进行平方和并除以点数m计算平均值。
而在这里,我们要导出代价函数,额外除以1/2做数学简化,形成以下代价函数:
ps:这里额外除以1/2,是为了之后平方函数的微分项将抵消1/2项,以方便计算梯度下降。
下来我们求解最优解的问题就转变为了求解代价函数的最小值。
其中J是基于θ的函数,我们可以先将其简化成只有θ1的函数,令θ0=0.
然后我们不断给定θ1的值,基于样本值进行计算代价函数J,就可以得到一个θ1和J的函数,并在某一点取得极小值。
如样本数据为y ={(1,1), (2,2),(3,3)}时,可以得到如下的J-θ1图形:
我们求解线性回归最优解的方法一般是梯度下降法和最小二乘法
最小二乘法
代价函数中使用的均方误差,其实对应了我们常用的欧几里得的距离(欧式距离,Euclidean Distance), 基于均方误差最小化进行模型求解的方法称为“最小二乘法”(least square method),即通过最小化误差的平方和寻找数据的最佳函数匹配。
当函数子变量为一维时,最小二乘法就蜕变成寻找一条直线。
如我们上例中的模型,寻找J极小值就是分别用J对θ1和θ0求偏导,然后寻找偏导为零的点。
解得:
局限性
最小二乘法算法简单,容易理解,而然在现实机器学习却有其局限性:
并非所有函数都可以求出驻点,即导数为0的点,f(x)=0
求解方程困难,或求根公式复杂
导数并无解析解
最小二乘法的矩阵公式,计算一个矩阵的逆是相当耗费时间的, 而且求逆也会存在数值不稳定的情况
梯度下降法
正是由于在实际中,最小二乘法遇到的困难和局限性,尤其是多数超定方程组不存在解,我们由求导转向迭代逼近。也就是梯度下降算法。
首先我们了解一下什么是梯度,这在复变函数等大学课程中都曾经学过。
方向导数
方向导数即研究在某一点的任意方向的变化率,是偏导数的广义扩展。
梯度
梯度则基于方向导数,是一个向量而非数,梯度代表了各个方向导数中,变化趋势最大的那个方向。
那么,梯度方向就是增长最快的方向,负梯度方向就是减小最快的方向。
梯度下降算法
梯度下降算法通常也被称作最速下降法。其目的是找到一个局部极小值点;其目标与最小二乘法相同,都是使得估算值与实际值的总平方差尽量小。
其方法是采用计算数学的迭代法,先给定一初始点,然后向下降最快的方向调整,在若干次迭代之后找到局部最小。
比如我们给定上面的方程,初始参数是θ0,θ1,我们不断改变θ0,θ1从而减少J(θ0,θ1)的值,具体做法是求导。直到最终收敛。
迭代公式如下:
其中θj可以是θ0和θ1这两个参数,α为步长,整个式子的意义为,θ0,θ1每次向J(θ0,θ1)负梯度方向下降步长α。
学习率
公式中的步长α,也称为学习率,用来控制每次下降的幅度。
我们应该调整参数α以确保梯度下降算法在合理的时间内收敛。
- 如果α过小,每步会移动非常近,收敛时间就会很长。
- 如果α过大,每步会移动比较远,会导致直接越过极小值,甚至无法收敛到最低点。
如果我们时间耗费较长或无法收敛,那就说明我们要重新制定学习率α。
线性回归梯度下降
对于线性模型,我们可以这样写梯度下降函数。
h(x)是需要拟合的函数。
J(θ)称为均方误差或cost function。用来衡量训练集众的样本对线性模式的拟合程度。
m为训练集众样本的个数。
θ是我们最终需要通过梯度下降法来求得的参数。
接下来的梯度下降法就有两种不同的迭代思路。
批量梯度下降(Batch Gradient Descent)
可以看到上述每次迭代都需要计算所有样本的残差并加和,批量梯度下降是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新。
1.计算J(θ)关于θT的偏导数,也就得到了向量中每一个θ的梯度。
2.沿着梯度的反方向更新参数θ的值
3.迭代直到收敛。
优点:全局最优解,易于并行实现。
缺点:当样本数目很多时,训练过程会很慢。
随机梯度下降(Stochastic gradient descent)
和批量梯度有所不同的地方在于,每次迭代只选取一个样本的数据,一旦到达最大的迭代次数或是满足预期的精度,就停止。
随机梯度下降法的θ更新表达式。
迭代直到收敛。
优点:训练速度快。
缺点:准确度下降,并不是全局最优,不易于并行实现。
视觉效果
当我们的成本函数处于图的坑底时,J值最小,为最佳解。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!