大家好，又见面了，我是你们的朋友全栈君。

最小二乘法

1、什么是最小二乘思想？

简单地说，最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近（在古汉语中“平方”称为“二乘”），“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出，最小二乘也可用于拟合数据模型。

2. 最小二乘法推导

我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面…

对于一元线性回归模型, 假设从总体中获取了 $n$ 组观察值 $（X_1，Y_1）$ ， $（X_2，Y_2）$ ，
…， $（X_n，Y_n）$ 。对于平面中的这 $n$ 个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。
选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

（1）用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。

（2）用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。

（3）最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。

公式推导

1 拟合直线： $y = a + bx$

2 有任意观察点 $(x_i, y_i)$

3 误差为 $d_i = y_i - (a + bx_i)$

4 当 $D=\sum_{i=1}^n d_i^2 = 0$ 取值最小时，直线拟合度最高。

5 $D = \sum_{i=1}^n d_i^2 = \sum_{i=1}^n(y_i -a - bx_i)^2$ , 对 $a, b$ 分别求一阶偏导：

\partial D \partial a = \sum i = 1 n 2 (y i - a - b x i) * (- 1)

$\frac{\partial D}{\partial a} = \sum_{i=1}^n2(y_i -a -bx_i)*(-1)$

\partial D \partial b = 2 \sum i = 1 n (y i - a - b x i) (- x i) = - 2 (\sum i = 1 n x i y i - a \sum i = 1 n x i - b \sum i = 1 n x 2 i)

$\frac{\partial D}{\partial b} = 2\sum_{i=1}^n(y_i -a -bx_i)(-x_i) \\ = -2(\sum_{i=1}^n x_iy_i -a\sum_{i=1}^nx_i -b\sum_{i=1}^nx_i^2)$

这里写图片描述

求和性质

求和性质，具体可以参考Introductory Econometrics A Modern Approach (Fourth Edition) 一书（计量经济学导论，第4版，杰弗里·M·伍德里奇著）的附录A。

这里写图片描述

一般形式

有了上述推导证明，普通最小二乘法一般形式可以写成（字母盖小帽表示估计值，具体参考应用概率统计）：

$y = \beta_1 x + \beta_0$ 的普通最小二乘解为：

这里写图片描述

多元线性回归

这里写图片描述