最小二乘法的矩阵推导

最小二乘法的矩阵形式推导

  1. 问题设定

给定一组观测数据 (xi,yi)(x_i, y_i),其中 i=1,2,,ni = 1, 2, \dots, n,我们希望拟合一个线性模型:

y=Xβ+εy = X\beta + \varepsilon

其中:
yRny \in \mathbb{R}^n 是观测值向量;
XRn×pX \in \mathbb{R}^{n \times p} 是设计矩阵(每一行对应一个样本的特征);
βRp\beta \in \mathbb{R}^p 是待估计的参数向量;
εRn\varepsilon \in \mathbb{R}^n 是误差向量。

我们的目标是找到 β^\hat{\beta},使得残差平方和(RSS)最小:

RSS(β)= yXβ 2=(yXβ)(yXβ)\text{RSS}(\beta) = \ y - X\beta \ ^2 = (y - X\beta)^\top (y - X\beta)

  1. 目标函数展开

展开 RSS:

RSS(β)=(yXβ)(yXβ)=yyyXββXy+βXXβ=yy2βXy+βXXβ\begin{aligned} \text{RSS}(\beta) &= (y - X\beta)^\top (y - X\beta) \\ &= y^\top y - y^\top X\beta - \beta^\top X^\top y + \beta^\top X^\top X \beta \\ &= y^\top y - 2\beta^\top X^\top y + \beta^\top X^\top X \beta \end{aligned}

(利用了标量转置不变性和 (Xβ)y=βXy(X\beta)^\top y = \beta^\top X^\top y
3. 求导并令梯度为零

β\beta 求梯度(使用矩阵微分):

RSSβ=2Xy+2XXβ\frac{\partial \text{RSS}}{\partial \beta} = -2 X^\top y + 2 X^\top X \beta

令梯度为零:

2Xy+2XXβ=0XXβ=Xy-2 X^\top y + 2 X^\top X \beta = 0 \quad \Rightarrow \quad X^\top X \beta = X^\top y

这就是正规方程(Normal Equation)。
4. 解出最优参数

XXX^\top X 可逆(即 XX 列满秩),则最小二乘解为:

β^=(XX)1Xy\hat{\beta} = (X^\top X)^{-1} X^\top y

这个 β^\hat{\beta} 使得残差平方和最小。
5. 总结
最小二乘法通过最小化残差平方和来估计线性模型参数。矩阵形式简洁且便于编程实现。关键公式:β^=(XX)1Xy\hat{\beta} = (X^\top X)^{-1} X^\top y, 要求 XXX^\top X 可逆(即 XX 列满秩)。