线性回归-最小损失函数求解

/ 默认分类 / 0 条评论 / 1096浏览

一.前言

latex配合gpt手动敲出来的,实属不易!!未完待续。

上一节我们推导了求解最优的线性回归方程,使用的最小二乘法公式。也就是得到,只要的值越小,那么我们的回归方程就会越拟合真实的样本数据。 而这里我们得到的,我们称为目标函数,在机器学习中,我们也叫做损失函数。顾名思义,可以简单理解为真实值和预测值之间的差值(实际不完是),所以我们要求解,什么样的θ值可以使得损失函数值最小呢?求解之后,我们不就可以得到最优的线性回归方程了嘛。

二.推导过程

首先我们通过矩阵的二次型变化,得到以下推导:

如果我们需要得到J(θ)损失函数的最小值,就需要对θ求偏导,因为这里的损失函数是一个凸函数,所以有最小值。

我们对损失函数求偏导数的目的是为了找到极值点。在线性回归中,我们希望找到的是损失函数的最小值。因此,我们需要确认这个极值点是最小值。

为什么求导等于零可以找到极值点?

通过对损失函数 J(θ)J(\theta)J(θ) 求偏导数并令其等于零,我们可以找到损失函数的驻点(即极值点)。在这些驻点处,函数的导数为零,意味着在这些点上函数的变化率为零,没有进一步上升或下降的趋势。

为什么极值点是最小值而不是最大值?

在线性回归中,损失函数通常是均方误差(MSE)函数,该函数是一个凸函数。凸函数的特性是它的二阶导数(Hessian 矩阵)总是半正定的,因此它只有一个全局最小值而没有局部最大值或鞍点。 关于这一点,可以参考对于一个只有一个维度的特征的回归方程的损失函数的推导: image.png

关于凹凸函数定义的歧义点(摘自csdn)

image.png

下面我们来进行求偏导:

要得到极小值点,我们可以让偏导函数为0,也就是那么我们得到

至此,我们推导除了θ应该取什么值,才能使得线性回归方程最优了。