最小二乘法简单例题计算过程,跟着算一遍就会了
最小二乘法是一种常用的数学优化技术,它通过最小化误差的平方和来寻找数据的最佳函数匹配。这种方法在统计学和数据分析中非常常见,特别是在线性回归模型中。下面是一个简单的最小二乘法计算过程的例子。
最小二乘法例题
假设我们有一组实验数据,其中包括两个自变量x1和x2,以及一个因变量y。我们的任务是找到一条直线,能够最好地拟合这些数据点。
数据集
| x1 | x2 | y |
| | | |
| 1 | 2 | 3 |
| 2 | 3 | 4 |
| 3 | 4 | 5 |
| 4 | 5 | 6 |
最小二乘法计算步骤
1. 建立模型:
假设我们的直线方程为 y = ax1 + bx2 + c,其中a、b和c是需要我们求解的参数。
2. 计算均值:
x1的均值:\(x_{1,mean} = \frac{1+2+3+4}{4} = 2.5\)
x2的均值:\(x_{2,mean} = \frac{2+3+4+5}{4} = 3.5\)
y的均值:\(y_{mean} = \frac{3+4+5+6}{4} = 4\)
3. 计算协方差:
\(x1\)和\(y\)的协方差:\(x_{1y} = \frac{(1 \times 3) + (2 \times 4) + (3 \times 5) + (4 \times 6) - 4 \times 2.5 \times 4}{4} = 7.5\)
\(x2\)和\(y\)的协方差:\(x_{2y} = \frac{(2 \times 3) + (3 \times 4) + (4 \times 5) + (5 \times 6) - 4 \times 3.5 \times 4}{4} = 8.5\)
4. 计算协方差矩阵的逆:
协方差矩阵为:
\[
C =
\begin{bmatrix}
\sum x_{1}^{2} - n x_{1,mean}^{2} & x_{1y} - n x_{1,mean} x_{2,mean} \\
x_{1y} - n x_{1,mean} x_{2,mean} & \sum x_{2}^{2} - n x_{2,mean}^{2}
\end{bmatrix}
\]
其中,\(\sum x_{1}^{2}\) 和 \(\sum x_{2}^{2}\) 是x1和x2的平方和,n是数据点的数量。
计算逆矩阵C_inv,这通常是一个复杂的数学过程,但在这个简单的例子中,我们可以直接得到:
\[
C_{inv} =
\begin{bmatrix}
\frac{1}{2} & -\frac{1}{4} \\
-\frac{1}{4} & \frac{1}{12}
\end{bmatrix}
\]
5. 计算参数:
参数a和b可以通过以下公式得到:
\[
\begin{bmatrix}
a \\
b
\end{bmatrix}
= C_{inv}
\begin{bmatrix}
x_{1y} - n x_{1,mean} x_{2,mean} \\
x_{2y} - n x_{2,mean} y_{mean}
\end{bmatrix}
\]
计算得到:
\[
\begin{bmatrix}
a \\
b
\end{bmatrix}
=
\begin{bmatrix}
\frac{1}{2} & -\frac{1}{4} \\
-\frac{1}{4} & \frac{1}{12}
\end{bmatrix}
\begin{bmatrix}
7.5 \\
8.5 - 4 \times 3.5 \times 4
\end{bmatrix}
=
\begin{bmatrix}
1 \\
2
\end{bmatrix}
\]
我们的直线方程是 y = x1 + 2x2 + (-0.5)(注意,这里的-0.5是c的值,但由于c在这个例子中不影响直线在y轴上的截距,所以我们通常忽略它)。
6. 评估模型:
为了评估我们的模型,我们可以计算每个数据点到拟合直线的垂直距离(即残差),然后计算这些残差的平方和。如果这个值很小,那么我们的模型就是一个好的模型。
通过上面的例子,我们可以看到最小二乘法的基本步骤包括建立模型、计算均值、协方差、协方差矩阵的逆,以及计算参数。在实际应用中,可能还需要进行更复杂的计算,比如处理缺失数据、异常值、多重共线性等问题。对于简单的线性回归模型,上面的步骤已经足够了。

