最小二乘法的矩阵形式推导
- 问题设定
给定一组观测数据 (xi,yi),其中 i=1,2,…,n,我们希望拟合一个线性模型:
y=Xβ+ε
其中:
y∈Rn 是观测值向量;
X∈Rn×p 是设计矩阵(每一行对应一个样本的特征);
β∈Rp 是待估计的参数向量;
ε∈Rn 是误差向量。
我们的目标是找到 β^,使得残差平方和(RSS)最小:
RSS(β)= y−Xβ 2=(y−Xβ)⊤(y−Xβ)
- 目标函数展开
展开 RSS:
RSS(β)=(y−Xβ)⊤(y−Xβ)=y⊤y−y⊤Xβ−β⊤X⊤y+β⊤X⊤Xβ=y⊤y−2β⊤X⊤y+β⊤X⊤Xβ
(利用了标量转置不变性和 (Xβ)⊤y=β⊤X⊤y)
3. 求导并令梯度为零
对 β 求梯度(使用矩阵微分):
∂β∂RSS=−2X⊤y+2X⊤Xβ
令梯度为零:
−2X⊤y+2X⊤Xβ=0⇒X⊤Xβ=X⊤y
这就是正规方程(Normal Equation)。
4. 解出最优参数
若 X⊤X 可逆(即 X 列满秩),则最小二乘解为:
β^=(X⊤X)−1X⊤y
这个 β^ 使得残差平方和最小。
5. 总结
最小二乘法通过最小化残差平方和来估计线性模型参数。矩阵形式简洁且便于编程实现。关键公式:β^=(X⊤X)−1X⊤y, 要求 X⊤X 可逆(即 X 列满秩)。