简单回归模型：普通最小二乘法OLS（一）

简单回归模型

基本概念

回归分析：在其他条件不变的情况下，考察一个变量对另一个变量的影响。

X	自变量	解释变量
Y	因变量	被解释变量

设变量u表示关系式中的干扰项，表示除X之外其他影响Y的因素。

我们用一个简单的方程来表示它们之间的关系：

$Y=\beta_0+\beta_1 x+u$

当X发生变化时， $\triangle Y=\beta_1\triangle X+\triangle u$ ,如果 $\triangle u=0$ ,那么 $\triangle Y=\beta_1\triangle X$ ,从而可以用 $\beta_1$ 衡量X对Y的影响。

零条件均值假定

如何保证其他条件不变？简单地，如果X和u是独立的，即X的变化不会对u造成系统性影响，那么 $\beta_1$ 就可以度量其他条件不变的情况下X对Y的影响。在计量分析中，采用一个更弱的技术性假定——零条件均值假定

首先，对于 $Y=\beta_0+\beta_1 x+v$ ，若 $E (v) = a = 0$ ，令u=v;若 $E(v)=a\neq0$ ,令 $u = v - a$ ,这样使 $E (u) = 0$ ，这样变换后的方程为 $Y=(\beta_0+a)+\beta_1 x+u$ 使得干扰项的均值为0.

因为u和x是随机变量，所以我们能在任何给定x下定义u的条件分布，所以关键假设是u的均值与x无关。写作: $E (u ∣ x) = E (u)$

该方程表示：u的均值独立于x，（用均值独立来近似说明u独立于x）结合 $E (u) = 0$ ，就得到了零条件均值假定： $E (u ∣ x) = 0$ .

零条件均值假定的直观含义：由于误差项的存在，x对y的影响是随机的。但如果零条件均值假定成立，那么无论x取什么值，误差项对y的平均影响为零，从而x对y的均值的影响是确定性的。换言之，我们无法确定x与y的关系，但可以确定x与y的均值之间的关系。

总体回归函数

根据零条件均值假定：

$E(y|x)=E(\beta_0+\beta_1 x+u|x)$

$=E(\beta_0|x)+E(\beta_1 x|x)+E(u|x)=\beta_0+\beta_1 x$

$E(y|x)=\beta_0+\beta_1 x$ 被称为总体回归函数。 $\triangle E(y|x)=\beta_1$ ,因此 $\beta_1$ 衡量了x增加一个单位对y的条件均值的影响。

进而推得 $y = E (y ∣ x) + u$ ,该方程把y分成两部分，一部分是 $E (y ∣ x)$ ,被称为y的系统部分，可以由x解释；另一部分u被称为非系统部分，不能被x解释，但它的均值为0。
在这里插入图片描述

普通最小二乘法(OLS)

矩估计

接下来讨论如何估计参数 $\beta_0$ 和 $\beta_1$ ,我们通过矩估计的方法，用样本矩估计总体矩。令{
$(x_i,y_i):(i=1,2,\cdots,n)$ }表示从总体中抽取容量为n的样本，对每个i，都有

$y_i=\beta_0+\beta_1 x_i +u_i$

其中 $u_i$ 为第i次观测的干扰项。

根据零条件均值假定，我们知道 $E (u) = 0$ , $C o v (x, u) = 0$ ,所以有 $C o v (x, u) = E (x u) - E (x) E (u) = E (x u) = 0$

所以 $E(u)=E(y-\beta_0-\beta_1 x)=0$

$E(ux)=E[x(y-\beta_0-\beta_1 x)]=0$

用样本均值代替总体均值，选择估计值 $\hat \beta_0$ 和 $\hat \beta_1$ 来代替 $\beta_0$ 和 $\beta_1$ ，以上两式就可以写成:

$\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat \beta_0 -\hat \beta_1 x)=0$

$\frac{1}{n}\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0$

对于等式一，可以改写为 $\hat\beta_0=\bar y-\hat\beta_1 \bar x$

对于等式二，做进一步的替换：

$\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0$

$\sum_{i=1}^{n}x_i[y_i-(\bar y-\hat \beta_1 \bar x) -\hat \beta_1 x]=0$

$\sum_{i=1}^{n}x_i(y_i-\bar y)=\hat \beta_1\sum_{i=1}^{n}x_i(x_i-\bar x)$

根据求和运算的性质，有

$\sum_{i-1}^n(x_i-\bar x)^2=\sum_{i=1}^{n}(x_i^2-2x_i\bar x+\bar x^2)$

$=\sum_{i=1}^n(x_i^2-x_i\bar x)=\sum_{i=1}^{n}x_i(x_i-\bar x)$

同理， $\sum_{i-1}^n x_i(y_i-\bar y)=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)$

所以只要有 $\sum_{i-1}^n(x_i-\bar x)^2>0$ 就有 $\hat\beta_1=\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i-1}^n(x_i-\bar x)^2}$

根据代数知识， $\hat \beta_1=\frac{Cov(x,y)}{S_x^2}=\frac{Cov(x,y)}{S_xS_y}\cdot \frac{s_y}{S_x}=\hat r_{xy}\cdot \frac{S_y}{S_x}$

由样本推得总体： $\beta_1=r_{xy}\cdot\frac{S_y}{S_x}$

可以看出，若x与y正相关，则斜率为正；若x与y负相关，则斜率为负。但是，简单回归本质上是两个变量之间的相关性分析，所以在推导因果关系时需要非常小心。

最小化残差平方和

对任意斜率和截距 $\beta_0$ 和 $\beta_1$ ,定义y在 $x=x_i$ 时的一个拟合值为

$\hat y_i=\hat\beta_0+\hat\beta_1 x_i$

这是在给定斜率和截距下，y在 $x=x_i$ 时的预测值。样本中每一次观测都有一个拟合值，第i次观测的残差就是其实际值与拟合值之差： $u_i=y_i-\hat\beta_0-\hat\beta_1 x_i$

事实上，普通最小二乘法之所以得名，就是因为 $\hat\beta_0,\hat\beta_1$ 这些估计值最小化了残差的平方和：

$\sum_{i=1}^{n}\hat u_i^2=\sum_{i=1}^{n}(y_i-\hat\beta_0-\hat\beta_1 x_i)^2$

其一阶条件恰为

$\sum_{i=1}^{n}(y_i-\hat \beta_0 -\hat \beta_1 x)=0 \sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0$

一旦确定了截距和斜率的估计值，就能够建立OLS回归线：

$\hat y=\hat \beta_0+\hat \beta_1 x$ 从该方程中得到的预测值便是估计值。

该方程又被称作样本回归函数，因为它是总体回归函数 $E(y|x)=\beta_0+\beta_1 x$ 的一个样本估计。（总体回归函数是唯一且未知的）样本回归函数来自于给定一组数据的样本，所以对于不同的样本，OLS回归线有不同的斜率和截距。

在大多数情形中，斜率的估计值可以写成： $\hat\beta_1=\triangle\hat y/\triangle x$ ,它告诉我们x变化一个单位时的 $\hat y$ 的变化量；

类似的，有 $\triangle \hat y=\hat \beta_1\triangle x$ ,所以在给定x的一个变化，我们都能计算出y的预期变化。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/177885.html原文链接：https://javaforall.net

简单回归模型：普通最小二乘法OLS（一）

简单回归模型