【计量经济学导论】16. 面板数据模型

【计量经济学导论】16. 面板数据模型本文主要介绍了面板数据模型的几种常用的模型设定及其参数估计方法 以及模型选择的检验方法

面板数据模型

经济数据模型

在介绍面板数据之前,我们先回顾一下计量经济学中涉及的各类数据类型。

横截面数据,Cross-sectional Data ,指在特定的时点上,对个人、家庭、企业、城市、省份、国家或一系列其他单位采集的样本所构成的数据集。

  • 通常假定样本是从总体中随机抽样而得到的,常用指标集 i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,,n 表示随机样本。
  • 计量分析的结果与数据的排序无关。

时间序列数据,Time-series Data ,指由一个或几个变量不同时间的观测值所构成,或是由同一观测个体在不同时点上所观测的数据构成。

  • 时间序列的数据前后之间具有相关性。
  • 常用时间指标集 t = 1 , 2 , ⋯   , T t=1,2,\cdots,T t=1,2,,T 表示有序样本数据,不满足随机样本的设定。

混合截面数据,Pooled Cross-sections Data ,指既有横截面数据的特点,又有时间序列数据特点的数据。为了扩大样本容量,可以将数据合并成一个混合截面数据。

  • Cross-section 与 Time-series 同时存在,需引入两组指标集 i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,,n t = 1 , 2 , ⋯   , T t=1,2,\cdots,T t=1,2,,T 分别表示随机样本和时间序列。
  • 在计量分析过程中,需要引入表示时间变化的虚拟变量以扩大样本容量。
  • 不同时间点上的截面个体可能不一样。
  • 例如:2008年,随机抽取一组家庭针对某些变量做调查;2010年,再随机抽取一组新家庭做调查。

面板数据,Panel Data,指将横截面数据域时间序列数据结合起来的数据,即对横截面中的观测个体在时间上进行连续观测所得到的数据。

  • 不同时点上相同截面个体,即只在第一期做随机抽样,后面都在观察这一组样本的数据。
  • 例如:收集同一组公司不同时点的财务信息。
  • 面板数据通常能够研究决策行为或结果中滞后的重要性,所以反映的信息更有意义。
  • 由于面板数据要求对同一组个体在不同时期进行重复观测,因此面板数据的收集成本更大。

面板数据模型的基本形式

面板数据模型同时包含了截面和时间两个维度,设 i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,,n 表示截面个体, t = 1 , 2 , ⋯   , T t=1,2,\cdots,T t=1,2,,T 表示时间。面板数据模型的基本形式为
y i t = f ( x 1 i t , x 2 i t , ⋯   , x k i t ) + u i t   , y_{it}=f(x_{1it},x_{2it},\cdots,x_{kit})+u_{it} \ , yit=f(x1it,x2it,,xkit)+uit ,

λ t \lambda_t λt 表示时间效应,用于控制随时间改变的影响,如用于表示技术进步的时间趋势项。

ε i t \varepsilon_{it} εit 表示特异性误差、时变误差,是整个模型的随机误差项。

在这里将 α i \alpha_i αi λ t \lambda_t λt 设定为干扰项,因为 α i \alpha_i αi λ t \lambda_t λt 在多数情况下都是无法直接观测或难以量化的,因此也就无法作为解释变量进入模型。使用截面分析的模型往往会引起遗漏变量的问题。一般地,我们不考虑时间效应,或者说将 λ t \lambda_t λt 的作用并入了 ε i t \varepsilon_{it} εit 中。此时,我们可以设定线性的面板数据模型为
y i t = α i + β 1 x 1 i t + β 2 x 2 i t + ⋯ + β k x k i t + ε i t   . y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . yit=αi+β1x1it+β2x2it++βkxkit+εit .

其中 α i + ε i t = u i t \alpha_i+\varepsilon_{it}=u_{it} αi+εit=uit ,并且假设 ε i t ∼ N ( 0 ,   σ ε 2 ) \varepsilon_{it}\sim N(0,\,\sigma_{\varepsilon}^2) εitN(0,σε2)

根据 α i \alpha_i αi 的不同状态,我们可以将面板数据模型分为三类:混合回归模型,固定效应模型,随机效应模型。其差异主要反映在对个体效应的处理上。

混合回归模型就是由混合截面数据构成的计量经济学模型。正如我们在经济数据模型中介绍的,这里的混合回归模型严格来说并不属于面板数据模型,它是面板数据模型的一种退化形式。当对所有的截面个体 i i i ,个体效应 α i \alpha_i αi 均相等时,模型退化为混合回归模型。

混合回归模型的基本形式

y i t = α + β 1 x 1 i t + β 2 x 2 i t + ⋯ + β k x k i t + ε i t   . y_{it}=\alpha+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . yit=α+β1x1it+β2x2it++βkxkit+εit .

i = 1 , 2 , ⋯   , n   ;      t = 1 , 2 , ⋯   , T   . i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . i=1,2,,n ;    t=1,2,,T .

混合回归模型假设所有的横截面个体在各个不同的时期的截距和斜率都是相同的,这样可以直接把面板数据混合在一起,或是直接收集不同时间点上的不同截面个体数据,即混合截面数据。

混合回归模型可以直接用 OLS 方法进行参数估计。

固定效应模型的基本形式

y i t = α i + β 1 x 1 i t + β 2 x 2 i t + ⋯ + β k x k i t + ε i t   . y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . yit=αi+β1x1it+β2x2it++βkxkit+εit .

i = 1 , 2 , ⋯   , n   ;      t = 1 , 2 , ⋯   , T   . i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . i=1,2,,n ;    t=1,2,,T .

固定效应模型的每一个截面个体具有不同的截距项(常数项)。即 α i \alpha_i αi 概括了影响着 y i t y_{it} yit 但不随着时间而变化的所有无法观测的因素。

固定的含义: α i \alpha_i αi 是个常数。虽然每个截面个体具有不同的截距项,但是每个截面个体的截距项并不随着时间而变化。即在时间上是固定的,只和个体相关。

由于 α i \alpha_i αi 表现出个体异质性,观测不到,所以一般假设 a i a_i ai x i t x_{it} xit 相关: C o v ( α i ,   x i t ) ≠ 0 {\rm Cov}(\alpha_i,\,x_{it})\neq 0 Cov(αi,xit)=0

随机效应模型的基本形式

y i t = α i + β 1 x 1 i t + β 2 x 2 i t + ⋯ + β k x k i t + ε i t   . y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . yit=αi+β1x1it+β2x2it++βkxkit+εit .

i = 1 , 2 , ⋯   , n   ;      t = 1 , 2 , ⋯   , T   . i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . i=1,2,,n ;    t=1,2,,T .

其中,截距项 α i \alpha_i αi 是一个随机变量,设其均值为 E ( α i ) = α {\rm E}(\alpha_i)=\alpha E(αi)=α ,则可以将 α i \alpha_i αi 写为
α i = α + v i   . \alpha_i=\alpha+v_i \ . αi=α+vi .
这里的 v i v_i vi 是一个随机变量,满足零均值假设和同方差假设。随机效应的含义为,假设个体间的差异是随机的,反应在随机干扰项的设定上。

一般假设这种随机的个体间差异与 x i t x_{it} xit 无关: C o v ( α i ,   x i t ) = C o v ( v i ,   x i t ) = 0 {\rm Cov}(\alpha_i,\,x_{it})={\rm Cov}(v_i,\,x_{it}) = 0 Cov(αi,xit)=Cov(vi,xit)=0

C o v ( v i ,   ε i t ) = 0        ∀   i ,   t   . {\rm Cov}(v_i,\,\varepsilon_{it})=0 \, \ \ \ \ \forall\,i,\,t \ . Cov(vi,εit)=0    i,t .

C o v ( ε i t ,   ε i s ) = 0        ∀   i ,   s ≠ t   . {\rm Cov}(\varepsilon_{it},\,\varepsilon_{is})=0 \, \ \ \ \ \forall \, i,\,s\neq t \ . Cov(εit,εis)=0    i,s=t .

V a r ( v i ∣ X ) = σ v 2   ,      ∀   i   . {\rm Var}(v_i|X)=\sigma_v^2 \ , \ \ \ \ \forall\,i \ . Var(viX)=σv2 ,    i .

V a r ( ε i t ∣ X ) = σ ε 2   ,      ∀   i ,   t   . {\rm Var}(\varepsilon_{it}|X)=\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ . Var(εitX)=σε2 ,    i,t .

从上到下依次为:假设两种随机误差项 v i v_i vi ε i t \varepsilon_{it} εit 均满足零均值假设,假设两种随机误差项 v i v_i vi ε i t \varepsilon_{it} εit 相互独立,假设时变误差 ε i t \varepsilon_{it} εit 不具有序列相关性,假设两种随机误差项 v i v_i vi ε i t \varepsilon_{it} εit 均满足同方差假设。

由于两种随机误差项均不可观测,因此我们常常将两者写在一起。设 u i t = v i + ε i t u_{it}=v_i+\varepsilon_{it} uit=vi+εit ,根据上述假设条件可以得到:
E ( u i t u i s ) = σ v 2   ,      ∀   i ,   s ≠ t   . {\rm E}(u_{it}u_{is})=\sigma_v^2 \ , \ \ \ \ \forall \, i,\,s\neq t \ . E(uituis)=σv2 ,    i,s=t .

E ( u i t 2 ) = σ v 2 + σ ε 2   ,      ∀   i ,   t   . {\rm E}(u_{it}^2)=\sigma_v^2+\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ . E(uit2)=σv2+σε2 ,    i,t .

C o r r ( u i t u i s ) = σ v 2 σ v 2 + σ ε 2   ,      ∀   i ,   s ≠ t   . {\rm Corr}(u_{it}u_{is})=\frac{\sigma_v^2}{\sigma_v^2+\sigma_\varepsilon^2} \ , \ \ \ \ \forall \, i,\,s\neq t \ . Corr(uituis)=σv2+σε2σv2 ,    i,s=t .

对于个体 i i i ,设 u i T = ( u i 1 , u i 2 , ⋯   , u i T ) \boldsymbol{u}_i^{\rm T}=(u_{i1},u_{i2},\cdots,u_{iT}) uiT=(ui1,ui2,,uiT) ,我们可以写出随机误差项的协方差矩阵:
E ( u i u i T ) = [ σ v 2 + σ ε 2 σ v 2 σ v 2 ⋯ σ v 2 σ v 2 σ v 2 + σ ε 2 σ v 2 ⋯ σ v 2 ⋮ ⋮ ⋮ ⋱ ⋮ σ v 2 σ v 2 σ v 2 ⋯ σ v 2 + σ ε 2 ] T × T = σ ε 2 I + σ v 2 1 ≜ Ω   . {\rm E}(\boldsymbol{u_i}\boldsymbol{u_i}^{\rm T})=\left[ \begin{array}{ccccc} \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 & \sigma_v^2&\cdots & \sigma_v^2 \\ \sigma_v^2 & \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 &\cdots & \sigma_v^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots\\ \sigma_v^2 & \sigma_v^2& \sigma_v^2 &\cdots& \sigma_v^2+\sigma_\varepsilon^2 \\ \end{array} \right]_{T\times T} =\sigma_\varepsilon^2\boldsymbol{I}+\sigma_v^2\boldsymbol{1}\triangleq\boldsymbol\Omega \ . E(uiuiT)=σv2+σε2σv2σv2σv2σv2+σε2σv2σv2σv2σv2σv2σv2σv2+σε2T×T=σε2I+σv21Ω .

固定效应模型的参数估计

最小二乘虚拟变量估计法 LSDV

由于固定效应模型假设存在着“个体效应”,每个截面个体都有其单独的截距项。这就相当于在经典的线性回归模型中,通过加法方式引入 n − 1 n-1 n1 个虚拟变量来代表不同的个体。如果省略模型的常数项 β 0 \beta_0 β0 ,则引入 n n n 个虚拟变量。

假设上式为含截距项的模型,因此我们可以引入 n − 1 n-1 n1 个虚拟变量:
KaTeX parse error: Undefined control sequence: \ at position 215: …\ \cdots \ \ \ \̲ ̲D_{n-1}=\left\{…
此时我们的虚拟变量模型设定为:
y i t = α i + β 1 x i t + γ 1 D 1 + γ 2 D 2 + ⋯ + γ n − 1 D n − 1 + ε i t   . y_{it}=\alpha_i+\beta_1x_{it}+\gamma_1D_1+\gamma_2D_2+\cdots+\gamma_{n-1}D_{n-1}+\varepsilon_{it} \ . yit=αi+β1xit+γ1D1+γ2D2++γn1Dn1+εit .
对上式进行 OLS 回归,我们可以得到 LSDV 估计量 β ^ 1 \hat\beta_1 β^1



该模型还可以用来检验应该选择混合回归模型还是固定效应模型。利用受约束回归模型和 F F F 检验,约束条件为 γ 1 = γ 2 = ⋯ = γ n − 1 = 0 \gamma_1=\gamma_2=\cdots=\gamma_{n-1}=0 γ1=γ2==γn1=0 。如果接受原假设,则认为不存在个体异质性,此时应该选择混合回归模型。如果拒绝原假设,则认为存在个体异质性,此时应该选择固定效应模型。

一阶差分法 FD

在固定效应模型中,截距项 α i \alpha_i αi 表示的个体异质性是一个常数,且并不随着时间而变化。因此,我们可以通过差分的方式消去模型中的个体异质性,从而可以使用 OLS 进行回归。

可以看到,非观测效应 α i \alpha_i αi 被差分掉了,因此上述模型只要满足经典假设便可以通过 OLS 回归进行参数估计。由一阶差分方程得到的 OLS 估计量称为一阶差分估计量 β ^ 1 , f d \hat\beta_{1,fd} β^1,fd

为了保证 β ^ 1 , f d \hat\beta_{1,fd} β^1,fd 的一致性,需假定 Δ X i t \Delta X_{it} ΔXit Δ ε i t \Delta\varepsilon_{it} Δεit 无关:
C o v ( Δ X i t ,   Δ ε i t ) = 0   . {\rm Cov}(\Delta X_{it},\,\Delta\varepsilon_{it})=0 \ . Cov(ΔXit,Δεit)=0 .
需要注意的是,一阶差分法可能会存在 Δ ε i t \Delta\varepsilon_{it} Δεit Δ ε i , t − 1 \Delta\varepsilon_{i,t-1} Δεi,t1 相关的问题。

固定效应转换法 FE

又称为除时间均值法、固定效应估计法、组内变换法。当 n n n 很大时,利用 LSDV 回归会损失大量的自由度,可以考虑对模型进行变化,消去常数项,再用变换后的模型进行回归。该模型的另一好处是可以消除 α i \alpha_i αi 与其他解释变量的相关性。

经过变换后的模型即可通过混合 OLS 进行参数估计。基于除时间均值变量的混合 OLS 估计量被称为固定效应估计量 β ^ 1 , f e \hat\beta_{1,fe} β^1,fe

随机效应模型的参数估计

随机效应模型将固定效应模型的个体异质性归入到随机误差项中,因此更加灵活,也具有更加复杂的随机误差项的结构。此时我们需要通过变换,构造出符合基本假设的随机误差项。因此我们使用 GLS 进行参数估计。

定义: λ = 1 − σ ε σ ε 2 + T σ v 2 \lambda=1-\displaystyle\frac{\sigma_\varepsilon}{\sqrt{\sigma_\varepsilon^2+T\sigma_v^2}} λ=1σε2+Tσv2
σε
y ˉ i = 1 T ∑ t = 1 T y i t \bar{y}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Ty_{it} yˉi=T1t=1Tyit x ˉ i = 1 T ∑ t = 1 T x i t \bar{x}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Tx_{it} xˉi=T1t=1Txit 。我们可以做如下变换:
y i t − λ y ˉ i = β 0 ( 1 − λ ) + β 1 ( x i t − λ x ˉ i ) + u i t − λ u ˉ i   . y_{it}-\lambda\bar{y}_i=\beta_0(1-\lambda)+\beta_1(x_{it}-\lambda\bar{x}_i)+u_{it}-\lambda\bar{u}_i \ . yitλyˉi=β0(1λ)+β1(xitλxˉi)+uitλuˉi .

可以验证此时的随机误差项不存在序列相关性: C o v ( u i t − λ u ˉ i ,   u i s − λ u ˉ i ) = 0 {\rm Cov}(u_{it}-\lambda\bar{u}_i,\,u_{is}-\lambda\bar{u}_i)=0 Cov(uitλuˉi,uisλuˉi)=0 。对变换后的方程进行 OLS 回归得到 GLS 估计量 β ^ 1 , r e \hat\beta_{1,re} β^1,re ,也被称作随机效应估计量。在满足 E ( u i t ∣ x i t ) = 0 {\rm E}(u_{it}|x_{it})=0 E(uitxit)=0 假设条件下,随机效应估计量是有效的。

随机效应模型与固定效应模型的选择

豪斯曼检验

这里的豪斯曼检验并非内生性检验,而是随机效应检验。检验的基本思路:如果 C o v ( α i ,   x i t ) ≠ 0 {\rm Cov}(\alpha_i,\,x_{it})\neq0 Cov(αi,xit)=0 ,则 GLS 估计量是有偏和非一致的,但是固定效应估计量是无偏且一致的。所以,如果模型的异质性与解释变量之间是正交的,则应将模型设定为随机效应模型,否则设定为固定效应模型。

这里的正交指的是:若 E ( X Y ) = 0 {\rm E}(XY)=0 E(XY)=0 ,则称随机变量 X X X Y Y Y 正交。

H 0 H_0 H0 :个体异质性与 x i t x_{it} xit 不相关。

H 1 H_1 H1 :个体异质性与 x i t x_{it} xit 相关。

如果拒绝原假设,则选择固定效应模型;如果接受原假设,则选择随机效应模型。

实证研究中的模型选择问题

  1. 固定效应模型仅适用于所抽到的横截面单位,不适用于样本以外的单位。即如果所抽取的样本本身是总体,例如从全国抽取所有的省份,那么固定效应模型就是一个合理的面板数据模型。
  2. 如果想以样本结果对总体进行推断分析,那么应该选用随机效应模型,即把反映个体差异的特定常数项看作是跨个体成员的随机分布更为合适。例如从全国抽取部分省,固定效应模型便仅适用于所抽到的个体成员单位,而不适用于样本之外的其他单位,这时采用随机效应模型就较为合适。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/220491.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午8:21
下一篇 2026年3月17日 下午8:22


相关推荐

  • jenkins+SVN配置「建议收藏」

    jenkins+SVN配置「建议收藏」开发项目,版本控制必不可少,我用的版本控制软件为SVN,那么如何把jenkins和SVN结合,使得SVN源码一有上传更新,jenkins就马上构建项目呢?下面说一下配置过程1)首先要在jenkins中添加svn的用户名和密码:打开“Credentials”界面进行添加,如下图2)配置项目工作空间3)配置项目:源码管理选择SVN,如下图:4)配置项目:设置构建触发器…

    2025年11月2日
    5
  • Kali 更新源(国内镜像)

    Kali 更新源(国内镜像)1.更新软件源sudovim/etc/apt/sources.list2.选择比较合适的源(选择一个即可)#中科大debhttp://mirrors.ustc.edu.cn/kalikali-rollingmainnon-freecontribdeb-srchttp://mirrors.ustc.edu.cn/kalikali-rollingmainnon-freecontrib#阿里云debhttp://mirrors.aliyun.com/kalikali-ro

    2022年5月8日
    171
  • kafka和flume区别

    kafka和flume区别Flume更趋向于消息采集系统,Kafka更趋向于消息缓存系统。 kafka:目前项目中主要是用来做消息推送中间件,消息的处理完全由业务方自己定义,请求频次单机吞吐量轻轻松松50W+/s,数据在集群不全挂的情况下是不会丢数据,消费也很灵活,可以指定分区和offset,可以当做成一个数据库。 flume:用来做数据采集和落地,目前使用的是flume-ng,流程是source(kafka)->channel->hdfs相比较kafka比较轻量级,就是一个数据的流通管道,当..

    2022年6月23日
    29
  • mysql不执行命令_linux mysql启动命令

    mysql不执行命令_linux mysql启动命令Linux下使用mysql命令需要配置好环境以及各种文件,下面由学习啦小编为大家整理了linux下mysql命令不能用的相关知识,希望对大家有帮助!linux的mysql命令没用解决方法1.重新安装mysql命令,方法步骤如下:一安装步骤从这里下载你需要的版本(注意选择你操作系统是64位的还是32位的):这里只介绍两种判断linux是64位还是32的方法:命令:file/bin/cat[roo…

    2025年12月3日
    4
  • stm32F103中文参考手册

    stm32F103中文参考手册今天你在网上查找STM32F103的中文手册很多都需要积分下载,所以小编在此发送一个免费下载的连接,希望帮助有需要的朋友,在此声明感谢所有网上开源的朋友;之前链接失效现在重新上传,如在失效请联系;链接:https://pan.baidu.com/s/1fQCQ3WEePOu6W3dfi7GCLg提取码:wuqk…

    2022年10月16日
    3
  • 【翻译自mos文章】当指定asm disk 为FRA时,11.2.0.3的dbua hang住

    【翻译自mos文章】当指定asm disk 为FRA时,11.2.0.3的dbua hang住

    2022年1月25日
    44

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号