线性回归-最小二乘法证明 - 程序员大晖 Blog

一.前言

本博客主要讲解线性回归最优求解用到的最小二乘法的证明(latex一个个敲打！！！)。在介绍回归算法之前，我们先来看下面的问题，这是很多样本数据的二维坐标图。（图1）对于上述的样本数据，我们希望找到一条直线，也就是y=ax+b，使得尽可能多的样本点落在直线上，或者说，让这些样本点和这条线性函数的拟合程度尽可能的高。

这里，我们很容易可以想到，只要每一个样本点的y值和我们的线性回归函数的对应x点的y值的差值的平方越小，那么表示当前样本点和直线的拟合度越高，误差越小。（平方是为了取正数）。这样，当所有样本点的差值平方的和最小的时候，说明当前的回归函数的直线就是我们要找的误差最小的预测函数了。如下所示：（也就是取差值和最小的时候的θ，就是我们要的最好的回归函数了）这样的证明很容易理解，也很符合常理，看上去就是不需要证明的。实际上，这样的判断最优解的方式叫做最小二乘法，这也是机器学习算法的线性回归算法中求解最优回归方程的方式，下面我们将来一起证明下，并且介绍一下，怎样可以对最小二乘法进行求解，找到这样的θ值（梯度下降法）。

二.线性回归算法原理和最小二乘证明

2.1 通过特征进行回归预测

假设我们存在以下数据：

工资和年龄就是我们的特征值，额度就是信贷产品给当前用户的最高贷款额度。那么，假设这些不同的特征我们使用x1，x2，x3这样的变量表示，那么我们就可以得到下面的公式：这里等式左边就是预测的额度值，等式右边就是将每个特征都乘以一个系数θ，这里的每个特征的θ值应该取多少合适，取多少，通过上面的方程计算出来的预测值才和真实值最吻合，这就是我们需要做的事情。

这里我们说明下，为什么要在最前面加上了一个θ0，假设这组数据中有一列，是x0，每一组样本中x0的数据都是1，那么相乘之后就是θ0，他也叫做偏置项，其他的θ1，θ2叫做权重项，偏置项有如下几点作用：

调节预测输出的基线值：偏置项决定了当所有输入特征x1，x2，x3都为零时，模型的输出值。它可以调整整个模型的预测，使其更贴近实际情况。

**误差最小化：**在最小化误差的过程中，偏置项可以作为一个额外的自由度来调整模型，使得模型的预测值更接近实际值。也就是说如果我们的模型输出的结果总是大于或小于一个值，那么我们可以通过调整偏置项后。

不通过原点：没有偏置项时，模型的预测必须通过原点（即所有特征值为零时，模型输出也必须为零）。但在实际中，很少有这种严格的线性关系。例如，在预测某人的收入时，即使一个人没有任何工作经验或年龄为零，他的收入也不可能是零，可能有一个基本的生活补助。

这里，我贴了一张坐标图，其中的平面就表示我们的回归方程，可以看到，如果我们增大或者减小θ0，那么整个回归方程平面（预测平面）就会上下移动，通过这样的方式也可以在极端情况下，调整与真实值的拟合度，减小误差。

2.2 证明用于选取最优回归方程的最小二乘法

在回归算法中，我们第一步需要做的就是假设，如果我们假设真实值y和特征x之间的分布遵循高斯分布，那我们就可以得到线性回归。如果假设遵循伯努利分布，那么我们就得到了逻辑回归。再如果我们假设遵循多项分布，那么就会得到softmax分布。

所以在这里，我们假设真实值y和特征x之间的分布遵循高斯分布，所以这里的误差项也是遵循高斯分布。现在我们定义一个真实值 （2），其中是当前第i组样本回归计算之后的误差值。误差项函数的取值满足独立同分布，并且均差为0，方差为_σ_2的高斯分布（正态分布）。 （1）

正态分布公式：

首先来看下什么事独立性，独立意味着每个观测值的误差项彼此之间没有任何关系，即某一个观测值的误差项不会影响或预测另一个观测值的误差项。数学上，如果误差项是独立的，对于任意两个误差项 ϵ(i) 和 ϵ(j)，（其中 i≠j），它们的联合概率分布可以表示为各自的概率分布的乘积：

P(ϵ(i),ϵ(j))=P(ϵ(i))⋅P(ϵ(j))

同分布，意思是素有样本数据组计算后的误差的分布都是一样的（来自同一个高斯分布概率函数中的取样），在业务层面的含义，也就是当前这些样本数据的来源都是一个场景。比如这些贷款数据都要是来自同一家银行的同一款产品。

假设图(1)中的样本数据的y值是从一个符合高斯分布的样本中取样得到的，也就是说，其中的一个点的y值，只不过是其中一种采样结果，也就是高斯分布函数中的x值。由于对于任何一个给定的高斯分布中的x值，我们无法知道它是来自于怎样的高斯分布，因为理论上，高斯分布的定义域是负无穷到正无穷，但是我们知道，这个采样点真实的高斯分布中的最大概率的取值应该就是我们的预测值wx或者叫做θx才对（假设我们已经得到了最优的回归函数的θ值），所以只是我们需要在预测函数y=θx 中需要加上一个噪声项，也就是一个均值为0，方差为sigma方的噪声。于是我们就可以针对单个样本点，得到一下条件概率分布函数： （3）

也可以由（1）（2）两式推导得到

（3）式代表在给定x(1)的情况下，yi取值的条件概率密度函数。也就是在给定特征 x(i) 条件下目标变量 y(i) 的概率密度函数，描述了在特征 x(i)确定的情况下，目标变量 y(i) 的分布情况。(这里的y(i)是真实值)。因为我们的样本点很多，并且实际上，所有的样本都是遵循相同的概率分布，所以我们要做的就是，找到一个样本数据的高斯分布，使所有的样本在该高斯分布中的概率越大越好。因此似然函数进行最大似然估算，即可得到最小二乘的证明了。

排除掉常数项，我们可以得到，要想似然估算越大，那么就是让越小即可，也就是越小，也就是真实值（标签值）和预测值（回归方程的值）的差值的平方越小。至此，我们就证明了，为什么求解最优的回归方程需要使用最小二乘法。

三.总结

在线性回归中，我们假设真实值y本身遵循高斯分布，如果我们得到了最优的线性回归方程，预测值θx(i)肯定就是样本数据的y值遵循的高斯分布的均值，只是我们需要加一个噪声项，并且也是符合均值为0，方差为sigma平方的高斯分布，另外对于同一个线性回归模型，我们的所有样本数据的y值遵循的高斯分布一定是相同的，所以我们需要找到的这个样本数据y的高斯分布一定是要让所有的样本数据都尽可能的和预测值相同的概率越大越好。所以我们需要进行最大似然估算，然后来得到一个最大的概率的时候，需要满足什么条件。最终我们得到了最小二乘的结论。

本站文章除注明转载/出处外，均为本站原创或翻译，转载前请务必署名,转载请标明出处
最后编辑时间为: 2024/07/23 00:29