简单回归模型:普通最小二乘法OLS(一)

简单回归模型:普通最小二乘法OLS(一)简单回归模型基本概念回归分析 在其他条件不变的情况下 考察一个变量对另一个变量的影响 X 自变量解释变量 Y 因变量被解释变量设变量 u 表示关系式中的干扰项 表示除 X 之外其他影响 Y 的因素 我们用一个简单的方程来表示它们之间的关系 Y 0 1x uY beta 0 beta 1x uY 0 1 x u 当 X 发生变化时 Y 1 X u triangleY beta 1 triangleX triangleu Y 1 X u 如果 u 0 t

简单回归模型

基本概念

回归分析:在其他条件不变的情况下,考察一个变量对另一个变量的影响。

X 自变量 解释变量
Y 因变量 被解释变量

设变量u表示关系式中的干扰项,表示除X之外其他影响Y的因素。

我们用一个简单的方程来表示它们之间的关系:

Y = β 0 + β 1 x + u Y=\beta_0+\beta_1 x+u Y=β0+β1x+u

当X发生变化时, △ Y = β 1 △ X + △ u \triangle Y=\beta_1\triangle X+\triangle u Y=β1X+u,如果 △ u = 0 \triangle u=0 u=0,那么 △ Y = β 1 △ X \triangle Y=\beta_1\triangle X Y=β1X,从而可以用 β 1 \beta_1 β1衡量X对Y的影响。

零条件均值假定

如何保证其他条件不变?简单地,如果X和u是独立的,即X的变化不会对u造成系统性影响,那么 β 1 \beta_1 β1就可以度量其他条件不变的情况下X对Y的影响。在计量分析中,采用一个更弱的技术性假定——零条件均值假定

首先,对于 Y = β 0 + β 1 x + v Y=\beta_0+\beta_1 x+v Y=β0+β1x+v,若 E ( v ) = a = 0 E(v)=a=0 E(v)=a=0,令u=v;若 E ( v ) = a ≠ 0 E(v)=a\neq0 E(v)=a=0,令 u = v − a u=v-a u=va,这样使 E ( u ) = 0 E(u)=0 E(u)=0,这样变换后的方程为 Y = ( β 0 + a ) + β 1 x + u Y=(\beta_0+a)+\beta_1 x+u Y=(β0+a)+β1x+u使得干扰项的均值为0.

因为u和x是随机变量,所以我们能在任何给定x下定义u的条件分布,所以关键假设是u的均值与x无关。写作: E ( u ∣ x ) = E ( u ) E(u|x)=E(u) E(ux)=E(u)

该方程表示:u的均值独立于x,(用均值独立来近似说明u独立于x)结合 E ( u ) = 0 E(u)=0 E(u)=0,就得到了零条件均值假定: E ( u ∣ x ) = 0 E(u|x)=0 E(ux)=0.

零条件均值假定的直观含义:由于误差项的存在,x对y的影响是随机的。但如果零条件均值假定成立,那么无论x取什么值,误差项对y的平均影响为零,从而x对y的均值的影响是确定性的。换言之,我们无法确定x与y的关系,但可以确定x与y的均值之间的关系。

总体回归函数

根据零条件均值假定:

E ( y ∣ x ) = E ( β 0 + β 1 x + u ∣ x ) E(y|x)=E(\beta_0+\beta_1 x+u|x) E(yx)=E(β0+β1x+ux)

= E ( β 0 ∣ x ) + E ( β 1 x ∣ x ) + E ( u ∣ x ) = β 0 + β 1 x =E(\beta_0|x)+E(\beta_1 x|x)+E(u|x)=\beta_0+\beta_1 x =E(β0x)+E(β1xx)+E(ux)=β0+β1x

E ( y ∣ x ) = β 0 + β 1 x E(y|x)=\beta_0+\beta_1 x E(yx)=β0+β1x被称为总体回归函数。 △ E ( y ∣ x ) = β 1 \triangle E(y|x)=\beta_1 E(yx)=β1,因此 β 1 \beta_1 β1衡量了x增加一个单位对y的条件均值的影响。

进而推得 y = E ( y ∣ x ) + u y=E(y|x)+u y=E(yx)+u,该方程把y分成两部分,一部分是 E ( y ∣ x ) E(y|x) E(yx),被称为y的系统部分,可以由x解释;另一部分u被称为非系统部分,不能被x解释,但它的均值为0。
在这里插入图片描述

普通最小二乘法(OLS)

矩估计

接下来讨论如何估计参数 β 0 \beta_0 β0 β 1 \beta_1 β1,我们通过矩估计的方法,用样本矩估计总体矩。令{
( x i , y i ) : ( i = 1 , 2 , ⋯   , n ) (x_i,y_i):(i=1,2,\cdots,n) (xi,yi):(i=1,2,,n)}表示从总体中抽取容量为n的样本,对每个i,都有

y i = β 0 + β 1 x i + u i y_i=\beta_0+\beta_1 x_i +u_i yi=β0+β1xi+ui

其中 u i u_i ui为第i次观测的干扰项。

根据零条件均值假定,我们知道 E ( u ) = 0 E(u)=0 E(u)=0, C o v ( x , u ) = 0 Cov(x,u)=0 Cov(x,u)=0,所以有 C o v ( x , u ) = E ( x u ) − E ( x ) E ( u ) = E ( x u ) = 0 Cov(x,u)=E(xu)-E(x)E(u)=E(xu)=0 Cov(x,u)=E(xu)E(x)E(u)=E(xu)=0

所以 E ( u ) = E ( y − β 0 − β 1 x ) = 0 E(u)=E(y-\beta_0-\beta_1 x)=0 E(u)=E(yβ0β1x)=0

E ( u x ) = E [ x ( y − β 0 − β 1 x ) ] = 0 E(ux)=E[x(y-\beta_0-\beta_1 x)]=0 E(ux)=E[x(yβ0β1x)]=0

用样本均值代替总体均值,选择估计值 β ^ 0 \hat \beta_0 β^0 β ^ 1 \hat \beta_1 β^1来代替 β 0 \beta_0 β0 β 1 \beta_1 β1,以上两式就可以写成:

1 n ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x ) = 0 \frac{1}{n}\sum_{i=1}^{n}(y_i-\hat \beta_0 -\hat \beta_1 x)=0 n1i=1n(yiβ^0β^1x)=0

1 n ∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x ) = 0 \frac{1}{n}\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0 n1i=1nxi(yiβ^0β^1x)=0

对于等式一,可以改写为 β ^ 0 = y ˉ − β ^ 1 x ˉ \hat\beta_0=\bar y-\hat\beta_1 \bar x β^0=yˉβ^1xˉ

对于等式二,做进一步的替换:

∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x ) = 0 \sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0 i=1nxi(yiβ^0β^1x)=0

∑ i = 1 n x i [ y i − ( y ˉ − β ^ 1 x ˉ ) − β ^ 1 x ] = 0 \sum_{i=1}^{n}x_i[y_i-(\bar y-\hat \beta_1 \bar x) -\hat \beta_1 x]=0 i=1nxi[yi(yˉβ^1xˉ)β^1x]=0

∑ i = 1 n x i ( y i − y ˉ ) = β ^ 1 ∑ i = 1 n x i ( x i − x ˉ ) \sum_{i=1}^{n}x_i(y_i-\bar y)=\hat \beta_1\sum_{i=1}^{n}x_i(x_i-\bar x) i=1nxi(yiyˉ)=β^1i=1nxi(xixˉ)

根据求和运算的性质,有

∑ i − 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i 2 − 2 x i x ˉ + x ˉ 2 ) \sum_{i-1}^n(x_i-\bar x)^2=\sum_{i=1}^{n}(x_i^2-2x_i\bar x+\bar x^2) i1n(xixˉ)2=i=1n(xi22xixˉ+xˉ2)

= ∑ i = 1 n ( x i 2 − x i x ˉ ) = ∑ i = 1 n x i ( x i − x ˉ ) =\sum_{i=1}^n(x_i^2-x_i\bar x)=\sum_{i=1}^{n}x_i(x_i-\bar x) =i=1n(xi2xixˉ)=i=1nxi(xixˉ)

同理, ∑ i − 1 n x i ( y i − y ˉ ) = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \sum_{i-1}^n x_i(y_i-\bar y)=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y) i1nxi(yiyˉ)=i=1n(xixˉ)(yiyˉ)

所以只要有 ∑ i − 1 n ( x i − x ˉ ) 2 > 0 \sum_{i-1}^n(x_i-\bar x)^2>0 i1n(xixˉ)2>0 就有 β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i − 1 n ( x i − x ˉ ) 2 \hat\beta_1=\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i-1}^n(x_i-\bar x)^2} β^1=i1n(xixˉ)2i=1n(xixˉ)(yiyˉ)

根据代数知识, β ^ 1 = C o v ( x , y ) S x 2 = C o v ( x , y ) S x S y ⋅ s y S x = r ^ x y ⋅ S y S x \hat \beta_1=\frac{Cov(x,y)}{S_x^2}=\frac{Cov(x,y)}{S_xS_y}\cdot \frac{s_y}{S_x}=\hat r_{xy}\cdot \frac{S_y}{S_x} β^1=Sx2Cov(x,y)=SxSyCov(x,y)Sxsy=r^xySxSy

由样本推得总体: β 1 = r x y ⋅ S y S x \beta_1=r_{xy}\cdot\frac{S_y}{S_x} β1=rxySxSy

可以看出,若x与y正相关,则斜率为正;若x与y负相关,则斜率为负。但是,简单回归本质上是两个变量之间的相关性分析,所以在推导因果关系时需要非常小心。

最小化残差平方和

对任意斜率和截距 β 0 \beta_0 β0 β 1 \beta_1 β1,定义y在 x = x i x=x_i x=xi时的一个拟合值为

y ^ i = β ^ 0 + β ^ 1 x i \hat y_i=\hat\beta_0+\hat\beta_1 x_i y^i=β^0+β^1xi

这是在给定斜率和截距下,y在 x = x i x=x_i x=xi时的预测值。样本中每一次观测都有一个拟合值,第i次观测的残差就是其实际值与拟合值之差: u i = y i − β ^ 0 − β ^ 1 x i u_i=y_i-\hat\beta_0-\hat\beta_1 x_i ui=yiβ^0β^1xi

事实上,普通最小二乘法之所以得名,就是因为 β ^ 0 , β ^ 1 \hat\beta_0,\hat\beta_1 β^0,β^1这些估计值最小化了残差的平方和:

∑ i = 1 n u ^ i 2 = ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) 2 \sum_{i=1}^{n}\hat u_i^2=\sum_{i=1}^{n}(y_i-\hat\beta_0-\hat\beta_1 x_i)^2 i=1nu^i2=i=1n(yiβ^0β^1xi)2

其一阶条件恰为

∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x ) = 0 ∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x ) = 0 \sum_{i=1}^{n}(y_i-\hat \beta_0 -\hat \beta_1 x)=0 \sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0 i=1n(yiβ^0β^1x)=0i=1nxi(yiβ^0β^1x)=0

一旦确定了截距和斜率的估计值,就能够建立OLS回归线:

y ^ = β ^ 0 + β ^ 1 x \hat y=\hat \beta_0+\hat \beta_1 x y^=β^0+β^1x 从该方程中得到的预测值便是估计值。

该方程又被称作样本回归函数,因为它是总体回归函数 E ( y ∣ x ) = β 0 + β 1 x E(y|x)=\beta_0+\beta_1 x E(yx)=β0+β1x的一个样本估计。(总体回归函数是唯一且未知的)样本回归函数来自于给定一组数据的样本,所以对于不同的样本,OLS回归线有不同的斜率和截距。

在大多数情形中,斜率的估计值可以写成: β ^ 1 = △ y ^ / △ x \hat\beta_1=\triangle\hat y/\triangle x β^1=y^/x,它告诉我们x变化一个单位时的 y ^ \hat y y^的变化量;

类似的,有 △ y ^ = β ^ 1 △ x \triangle \hat y=\hat \beta_1\triangle x y^=β^1x,所以在给定x的一个变化,我们都能计算出y的预期变化。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/177885.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月26日 下午6:31
下一篇 2026年3月26日 下午6:31


相关推荐

  • 字典序算法详解

    字典序算法详解一 字典序字典序 就是按照字典中出现的先后顺序进行排序 1 单个字符在计算机中 25 个字母以及数字字符 字典排序如下 0 lt 1 lt 2 lt lt 9 lt a lt b lt lt z 比如在 python 中

    2026年3月19日
    2
  • BigDecimal 乘法除法

    BigDecimal 乘法除法code java 乘法 System out println newBigDecima 9 multiply newBigDecima 9 MathContext DECIMAL128 除法 System out println newBigDecima 96 11

    2026年3月17日
    2
  • Python 生成随机数_python 随机字符串

    Python 生成随机数_python 随机字符串python中生成随机数主要使用random模块和numpy库中的random函数。前者主要用于生成随机数和实现序列中随机数和随机数列的挑选,后者用来生成a*b维的随机矩阵。一、random模块random模块中将近有7个函数都是可以用来生成随机数,列举如下:1.random.random()功能:随机生成一个[0,1)的浮点数示例:importrandomnumber=random.random()print(number)print(‘%.2f’%num

    2026年4月17日
    7
  • es6 模板字符串_模板字符串如何实现

    es6 模板字符串_模板字符串如何实现es6的模板字符串个人觉得是很好用的,尤其简化了字符串拼接这块,下面说下它是如何使用的首先,模板字符串是增强版的字符串,使用反引号“来包括字符串,如果需要拼接上变量,那拼接的格式是使用${}包裹变量即可举个例子看下最基本的用法,可以看出来跟普通字符串拼接比较起来简洁容易了很多2:模板字符串的另一优点是,空格和缩进都会保留在输出中,之前的字符串换行的话需要拼接换行符,缩进需要使用缩…

    2022年8月21日
    9
  • vmware15最新激活码(最新序列号破解)

    vmware15最新激活码(最新序列号破解),https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月18日
    159
  • java aba问题_JAVA与ABA问题

    java aba问题_JAVA与ABA问题在 JAVA 并发编程实战 的第 15 4 4 节中看到了一些关于 ABA 问题的描述 有一篇文章摘录了书里的内容 书中有一段内容为 如果在算法中采用自己的方式来管理节点对象的内存 那么可能出现 ABA 问题 在这种情况下 即使链表的头结点仍然只想之前观察到的节点 那么也不足以说明链表的内容没有发生变化 如果通过垃圾回收器来管理链表节点仍然无法避免 ABA 问题 那么还有一个相对简单的解决方法 不是只是更新某个引用

    2026年3月16日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号