彻底学会系列：一、机器学习之线性回归（二）

0. 概念和公式

请参考：一、机器学习之线性回归（一）

1. 涉及公式

1.1 简单线性回归

y = w x + b y = wx + b y=wx+b

1.2 多元线性回归

y ^ = w 1 X 1 + w 2 X 2 . . . w n X n + w 0 \hat y = w_1X_1 + w_2X_2 ... w_nX_n + w_0 y^=w1X1+w2X2...wnXn+w0

向量表示：

y ^ = W T X \hat y = W^TX y^=WTX

1.3 高斯密度函数

f ( x ; μ , σ 2 ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) \ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x;μ,σ2)=2π σ1exp(−2σ2(x−μ)2)

1.4 最大似然估计

连乘： L ( θ ∣ data ) = ∏ i = 1 n P ( X i ; θ ) \ L(\theta | \text{data}) = \prod_{i=1}^{n} P(X_i; \theta) L(θ∣data)=∏i=1nP(Xi;θ)
对数： ℓ ( θ ∣ data ) = ∑ i = 1 n log ⁡ P ( X i ; θ ) \ \ell(\theta | \text{data}) = \sum_{i=1}^{n} \log P(X_i; \theta) ℓ(θ∣data)=∑i=1nlogP(Xi;θ)

1.5 最小二乘法

J ( θ ) = 1 2 ∑ i = 1 n ( h θ ( x i ) − y i ) 2 J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2 J(θ)=21∑i=1n(hθ(xi)−yi)2

1.8 正规方程

θ = ( X T X ) − 1 X T y \theta = (X^T X)^{-1} X^T y θ=(XTX)−1XTy

1.9 均方误差

MSE = 1 n ∑ i = 1 n ( h θ ( x i ) − y i ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2 MSE=n1∑i=1n(hθ(xi)−yi)2

2. 公式推导(不考虑多项式)

2.1 解决问题

建模问题：
目标： 描述变量之间的线性关系。
问题描述： 给定一组观测数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1, y_1), (x_2, y_2), ..., (x_n, y_n) (x1,y1),(x2,y2),...,(xn,yn)，其中 (x) 是自变量，(y) 是因变量，线性回归的目标是找到一条直线 y = θ 0 + θ 1 x y = \theta_0 + \theta_1 x y=θ0+θ1x，使得这条直线最好地拟合给定的数据点。其中， θ 0 \theta_0 θ0 是截距， θ 1 \theta_1 θ1 是斜率。
解法： 通过最小化均方误差（MSE）来找到最优的参数 θ \theta θ。这等价于解一个线性方程系统，其中涉及到对参数的偏导数等于零，或者使用正规方程（Normal Equations）。
∂ J ( θ ) ∂ θ 0 = 0 \frac{\partial J(\theta)}{\partial \theta_0} = 0 ∂θ0∂J(θ)=0
∂ J ( θ ) ∂ θ 1 = 0 \frac{\partial J(\theta)}{\partial \theta_1} = 0 ∂θ1∂J(θ)=0
预测问题：
目标： 使用模型进行未知变量的预测。
问题描述： 在建立了线性回归模型后，我们希望利用这个模型对未知数据进行预测。例如，给定新的 x x x 值，我们希望预测对应的 y y y 值。
解法： 使用建立好的线性回归模型，将未知 x x x 值代入模型，得到预测的 y y y 值。
y ^ = θ 0 + θ 1 x \hat{y} = \theta_0 + \theta_1 x y^=θ0+θ1x

2.2 误差分析

误差计算：
ε i = ∣ y i − y ^ ∣ \varepsilon_i = |y_i - \hat y | εi=∣yi−y^∣
向量写法：
ε i = ∣ y i − W T x i ∣ \varepsilon_i = |y_i - W^T x_i | εi=∣yi−WTxi∣

ε i \varepsilon_i εi为误差
y i y_i yi为样本实际值
y ^ \hat y y^为预测值

假定所有的样本的误差都是独立的，上下的震荡，叠加之后形成的分布，它服从正态分布（高斯分布），服从均值为 0，方差为某定值的高斯分布。

2.3 误差分析到高斯密度函数

高斯密度函数（正态分布）公式：
f ( x ; μ , σ 2 ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) \ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x;μ,σ2)=2π σ1exp(−2σ2(x−μ)2)
μ \mu μ ：均值，为0
σ 2 \sigma^2 σ2 ：方差
x x x：误差变量 ε i \varepsilon_i εi
公式简化：
f ( ε i ∣ μ = 0 , σ 2 ) = 1 2 π σ exp ⁡ ( − ( ε i − 0 ) 2 2 σ 2 ) \ f(\varepsilon_i|\mu=0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right) f(εi∣μ=0,σ2)=2π σ1exp(−2σ2(εi−0)2)

f ( ε i ∣ 0 , σ 2 ) = 1 2 π σ exp ⁡ ( − ε i 2 2 σ 2 ) \ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right) f(εi∣0,σ2)=2π σ1exp(−2σ2εi2)

2.4 高斯密度函数到最大似然估计

有： f ( ε i ∣ 0 , σ 2 ) = 1 2 π σ exp ⁡ ( − ε i 2 2 σ 2 ) \ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right) f(εi∣0,σ2)=2π σ1exp(−2σ2εi2)

P = ∏ i = 1 n f ( ε i ∣ 0 , σ 2 ) = ∏ i = 1 n 1 2 π σ exp ⁡ ( − ε i 2 2 σ 2 ) P= \prod_{i=1}^{n}f(\varepsilon_i|0, \sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right) P=∏i=1nf(εi∣0,σ2)=∏i=1n2π σ1exp(−2σ2εi2)

有： ε i = ∣ y i − W T x i ∣ \varepsilon_i = |y_i - W^T x_i | εi=∣yi−WTxi∣

P = ∏ i = 1 n 1 2 π σ exp ⁡ ( − （ y i − W T x i ) 2 2 σ 2 ) P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right) P=∏i=1n2π σ1exp(−2σ2（yi−WTxi)2)

2.5 最大似然估计到最小二乘法

有： P = ∏ i = 1 n 1 2 π σ exp ⁡ ( − （ y i − W T x i ) 2 2 σ 2 ) P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right) P=∏i=1n2π σ1exp(−2σ2（yi−WTxi)2)
对数运算：
l o g e ( P ) = l o g e [ ∏ i = 1 n 1 2 π σ exp ⁡ ( − （ y i − W T x i ) 2 2 σ 2 ) ] log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right] loge(P)=loge[∏i=1n2π σ1exp(−2σ2（yi−WTxi)2)]

累乘变成累加：
l o g e ( P ) = l o g e [ ∏ i = 1 n 1 2 π σ exp ⁡ ( − （ y i − W T x i ) 2 2 σ 2 ) ] log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right] loge(P)=loge[∏i=1n2π σ1exp(−2σ2（yi−WTxi)2)]

= ∑ i = 1 n l o g e [ 1 2 π σ exp ⁡ ( − （ y i − W T x i ) 2 2 σ 2 ) ] = \sum_{i=1}^{n}log_e\left[\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right] =∑i=1nloge[2π σ1exp(−2σ2（yi−WTxi)2)]

= ∑ i = 1 n [ l o g e 1 2 π σ − （ y i − W T x i ) 2 2 σ 2 ] = \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right] =∑i=1n[loge2π σ1−2σ2（yi−WTxi)2]

= ∑ i = 1 n [ l o g e 1 2 π σ − 1 2 . 1 σ 2 . ( y i − W T x i ) 2 ] = \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2}. \frac{1}{\sigma^2}.(y_i - W^T x_i)^2\right] =∑i=1n[loge2π σ1−21.σ21.(yi−WTxi)2]

最大似然求对数后， π 、 σ \pi 、\sigma π、σ都是常量， ( y i − W T x i ) 2 (y_i - W^T x_i)^2 (yi−WTxi)2肯定大于零。求最大值问题，转变为求最小值问题：
L ( θ ∣ data ) = 1 2 . ∑ i = 1 n ( y i − W T x i ) 2 \ L(\theta | \text{data}) = \frac{1}{2}.\sum_{i=1}^{n} (y_i - W^T x_i)^2 L(θ∣data)=21.∑i=1n(yi−WTxi)2

可写成：
h θ ( x i ) = W T x i h_\theta(x_i) = W^T x_i hθ(xi)=WTxi
J ( θ ) = 1 2 ∑ i = 1 n ( h θ ( x i ) − y i ) 2 J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i )^2 J(θ)=21∑i=1n(hθ(xi)−yi)2

2.6 最小二乘法到正规方程

有： J ( θ ) = 1 2 ∑ i = 1 n ( h θ ( x i ) − y i ) 2 J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i )^2 J(θ)=21∑i=1n(hθ(xi)−yi)2

可写成：
J ( θ ) = 1 2 ( X θ − y i ) T ( X θ − y i ) J(\theta) = \frac{1}{2}(X\theta - y_i)^T(X\theta - y_i) J(θ)=21(Xθ−yi)T(Xθ−yi)

J ( θ ) = 1 2 ( θ T X T − y i T ) ( X θ − y i ) J(\theta) = \frac{1}{2}(\theta^TX^T - y_i^T)(X\theta - y_i) J(θ)=21(θTXT−yiT)(Xθ−yi)

J ( θ ) = 1 2 ( θ T X T X θ − θ T X T y i − y i T X θ + y T y i ) J(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i - y_i^TX\theta + y^Ty_i) J(θ)=21(θTXTXθ−θTXTyi−yiTXθ+yTyi)

进行求导（注意X、y是已知量， θ \theta θ是未知数）

J ′ ( θ ) = X T ( X θ − y ) J'(\theta) = X^T(X\theta - y) J′(θ)=XT(Xθ−y)

0 = X T ( X θ − y ) 0 = X^T(X\theta - y) 0=XT(Xθ−y)

X T X θ = X T y X^TX\theta = X^Ty XTXθ=XTy

使用逆矩阵进行转化：
( X T X ) − 1 X T X θ = ( X T X ) − 1 X T y (X^TX)^{-1}X^TX\theta = (X^TX)^{-1}X^Ty (XTX)−1XTXθ=(XTX)−1XTy

I θ = ( X T X ) − 1 X T y I\theta = (X^TX)^{-1}X^Ty Iθ=(XTX)−1XTy

θ = ( X T X ) − 1 X T y \theta = (X^TX)^{-1}X^Ty θ=(XTX)−1XTy

2.7 最小二乘法和均方误差

J ( θ ) = 1 2 ∑ i = 1 n ( h θ ( x i ) − y i ) 2 J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2 J(θ)=21∑i=1n(hθ(xi)−yi)2

MSE = 1 n ∑ i = 1 n ( h θ ( x i ) − y i ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2 MSE=n1∑i=1n(hθ(xi)−yi)2

相似但用处不同：
J ( θ ) J(θ) J(θ) : 模型训练的损失函数，通过梯度下降等优化算法最小化代价函数
MSE \text{MSE} MSE: 评估模型的性能，衡量模型的预测值与真实值之间的平均平方误差

挑大梁