偏最小二乘法的几种解释

偏最小二乘法的几种解释文章目录基础准备最小二乘法的几何意义典型相关分析主成分分析第一种解释经过一段时间的学习 对偏最小二乘法有了一些了解 下面主要是针对 PLS1 也就是单响应变量的情况基础准备最小二乘法的几何意义 y X 1×1 nxn mathbf y X mathbf beta beta 1 mathbf x 1 dots beta n mathbf x n y X 1 x1 n xn 找到一个 XXX 的列的线性组合 使得这个线性组合最多的表达了 yyy 中的信息由上图可知

经过一段时间的学习,对偏最小二乘法有了一些了解,这里做一个总结。下面主要是针对PLS1,也就是单响应变量的情况

前面的文章

  1. 偏最小二乘法(NIPALS经典实现–未简化)
  2. 偏最小二乘法 基本性质推导
  3. 偏最小二乘法(SIMPLS—未简化)
  4. 偏最小二乘法PLS(matlab自带代码)
  5. PLSR的扩展性质
  6. PLS中的权值和载荷
  7. OLS,PCA,CCA,PLS和CR的关系总结及几何解释

基础准备

最小二乘法的几何意义

y = X β = β 1 x 1 + ⋯ + β n x n (1) \mathbf{y} = X\mathbf{\beta} = \beta_1\mathbf{x_1}+\dots+\beta_n\mathbf{x_n} \tag{1} y=Xβ=β1x1++βnxn(1)
在这里插入图片描述
找到一个 X X X的列的线性组合,使得这个线性组合最多的表达 y y y中的信息。 由上图可知, y = y p + y e y = y_p+y_e y=yp+ye.当 y e y_e ye正交于 X X X列空间时,达到最小,此时, y p y_p yp y y y的夹角最小,即相关性最大。普通最小二乘法(OLS)的解如下
β ^ = ( X T X ) − 1 X T y \hat{\beta}=(X^TX)^{-1}X^Ty β^=(XTX)1XTy


典型相关分析

典型相关分析是从两组数据 X X X Y Y Y中,找到两个相应的组合,使得两者相关性最大。其目标如下
a r g   m a x w , c [ ( X w ) T ( Y c ) ] 2 ∣ ∣ ( X w ) ∣ ∣ 2 ∣ ∣ ( Y c ) ∣ ∣ 2 ⇔ a r g   m a x w , c   c o s ( X w , Y c ) 2 (2) arg \ \underset{w,c}{max} \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \Leftrightarrow arg \ \underset{w,c}{max} \ cos(Xw,Yc)^2 \tag{2} arg w,cmax(Xw)2(Yc)2[(Xw)T(Yc)]2arg w,cmax cos(Xw,Yc)2(2)

G c c a = [ ( X w ) T ( Y c ) ] 2 ∣ ∣ ( X w ) ∣ ∣ 2 ∣ ∣ ( Y c ) ∣ ∣ 2   ∈ [ 0 , 1 ] G_{cca} = \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \ \in [0,1] Gcca=(Xw)2(Yc)2[(Xw)T(Yc)]2 [0,1]

在单响应变量的情况下,则有 X w Xw Xw y y y的相关性最大,则可以得到

w ∝ ( X T X ) − 1 X T y w \propto (X^TX)^{-1}X^Ty w(XTX)1XTy

主成分分析

PCA的思想是找到数据 X X X中代表最大方差方向的权值,通过减秩消除矩阵中的无关信息
在这里插入图片描述
这个方向的确定很容易,即 X T X X^TX XTX的最大特征向量
w ^ = a r g   m a x w ^   w T X T X w = a r g   m a x w ^ w T X T X w [ ρ ( X T X ) ] 2 s . t .   ∣ ∣ w T w ∣ ∣ = 1 (3) \hat{w} = arg \ \underset{\hat{w}}{max} \ w^TX^TXw =arg \ \underset{\hat{w}}{max} \tfrac{w^TX^TXw}{[\rho(X^TX)]^2} \tag{3}\\ s.t. \ ||w^T w||=1 w^=arg w^max wTXTXw=arg w^max[ρ(XTX)]2wTXTXws.t. wTw=1(3)
G p c r = w T X T X w [ p ( X T X ) ] 2 G_{pcr} = \tfrac{w^TX^TXw}{[p(X^TX)]^2} Gpcr=[p(XTX)]2wTXTXw, G p c r ∈ [ 0 , 1 ] G_{pcr} \in [0,1] Gpcr[0,1]
对比OLS和PCA可以发现,前者的目标是使得 G c c a G_{cca} Gcca最大化,后者是使 G p c r G_{pcr} Gpcr最大化。在实际应用中,两个目标往往难以同时达到最大。




第一种解释

P L S 可 以 看 作 是 C C A 和 P C A 的 一 个 折 中 。 \color{red}{PLS可以看作是CCA和PCA的一个折中。} PLSCCAPCA
PLS是一种数据减秩的方法,跟PCA类似,是用原数据的部分数据(成分)代替原始数据。构造成分的方法和CCA,PCA不同之处在于,PLS是两者的一个平衡点,由下面的目标式可以清楚得看到。
w ^ = a r g   m a x w ^   ( y T X w ) 2 = a r g   m a x w ^ ( ( y T X w ) 2 y T y w T X T X w ) ( ( w T X T X w ) [ ρ ( X T X ) ] 2 ) ( y t y ) = a r g   m a x w ^   G c c a G p c r s . t .   ∣ ∣ w T w ∣ ∣ = 1 (4) \hat{w} = arg \ \underset{\hat{w}}{max} \ (y^TXw)^2 =arg \ \underset{\hat{w}}{max} (\tfrac{ (y^TXw)^2}{y^Tyw^TX^TXw})(\tfrac{ (w^TX^TXw)}{[\rho(X^TX)]^2} )(y^ty) =arg \ \underset{\hat{w}}{max} \ G_{cca}G_{pcr} \tag{4}\\ \\s.t. \ ||w^T w||=1 w^=arg w^max (yTXw)2=arg w^max(yTywTXTXw(yTXw)2)([ρ(XTX)]2(wTXTXw))(yty)=arg w^max GccaGpcrs.t. wTw=1(4)
更直观一些看下图,假设 ∣ ∣ w ∣ ∣ = 1 ||w||=1 w=1,对于所有的可能的点 X w Xw Xw,构成了如下的的超椭圆空间。CCA,PCR,PLS在成分或者说得分向量的构造方式上存在以下的几何关系。
在这里插入图片描述
具体可以看参考文献部分




第二种解释

P L S 是 一 种 共 轭 梯 度 法 \color{green}{PLS是一种共轭梯度法} PLS
在这里插入图片描述
上图中,左边是最速下降法的优化路径,右图是共轭梯度下降法的优化路径。可见,共轭梯度法的效率要远高于最速下降法的速率。直观得看,最速下降法的缺点在走回头路,导致收敛速度缓慢,共轭梯度法的特点保证了其不走回头路,所以,收敛的速度是有保障的。所谓共轭,就是权值方向满足
w i T X T X w j = 0 , i ≠ j (5) w_i^TX^TXw_j=0,i \neq j \tag{5} wiTXTXwj=0,i=j(5)
这个的证明可以看前面的文章。无论是NIPALS(基于残差),SIMPLS(基于载荷矩阵正交投影)这一点都是可以满足的。



从几何的角度来看,构造共轭正交的权值,是为了保证得分向量 t = X w t=Xw t=Xw的正交性,因为得分矩阵 T T T最终代替X, 响应变量 y y y最终通过将自身投影到 T T T的空间中,获得 y y y T T T的回归关系。如下图所示, t t t是两两正交的,新增的 t i t_i ti不影响原来 y y y在其他 t j , j < i t_j,j<i tj,j<i上的投影, y y y因此一定是收敛的。
在这里插入图片描述

第三种解释

P L S 是 一 种 基 于 K r y l o v 空 间 降 维 打 击 的 方 法 。 \color{blue}{PLS是一种基于Krylov空间降维打击的方法。} PLSKrylov

L e t   s = X T y , S = X T X f o r   a l l   w i ∗ , i ∈ ( 1 , r )   s p a n   s p a c e   K r K r = s p a n ( s , S s , S 2 s , … , S r − 1 s ) t i = X w i ∗ y ^ = X β ^ = λ 1 t 1 + ⋯ + λ r t r ∗ ⇒ β ^ P L S = λ 1 w 1 ∗ + ⋯ + λ r w r ∗ = ∑ i = 0 r − 1 β i S i s (8) Let \ s= X^Ty ,S = X^TX \\ for\ all \ w_i^*,i \in (1,r)\ span\ space\ K_r\\ K_r = span(s,Ss,S^2s,\dots,S^{r-1}s) \\ t_i = Xw_i^*\\ \\\hat{y}=X \hat{\beta} =\lambda_1t_1+\dots+\lambda_rt_r^* \Rightarrow\\\tag{8} \hat{\beta}_{PLS} = \lambda_1w^*_1+\dots+\lambda_rw_r^* =\sum_{i=0}^{r-1}\beta_iS^is Let s=XTy,S=XTXfor all wi,i(1,r) span space KrKr=span(s,Ss,S2s,,Sr1s)ti=Xwiy^=Xβ^=λ1t1++λrtrβ^PLS=λ1w1++λrwr=i=0r1βiSis(8)

只要 r r r足够大, β ^ P L S → β ^ O L S \hat{\beta}_{PLS} \rightarrow \hat{\beta}_{OLS} β^PLSβ^OLS

第四种解释

最 大 化 信 噪 比 方 向 \color{#fbbc05}{最大化信噪比方向}
Maximinze Signal-To-Noise Ratio(SNR)体现了PLS在权值w上的选取意义
PLS的解是是有偏估量,本质上是以无偏估量 β O L S \beta_{OLS} βOLS解作为信号,以最大化信噪比的方向去提取 β O L S \beta_{OLS} βOLS中的信息,构造近似的解。
按照有偏估量的计算,可以得到如下方程
a r g   m a x w q   ∣ w T β ^ O L S ∣ σ w T ( X T X ) − 1 w ⇔ a r g   m a x w q   c o s ( w , β ^ O L S ) 2 w T ( X T X ) w ,   s . t .   w q ⊥ ( w 1 , w 2 , … , w q − 1 ) (10) arg \ \underset{w_q }{max} \ \frac{|w^T\hat{\beta}_{OLS}|}{\sigma\sqrt{w^T(X^TX)^{-1}w}}\Leftrightarrow arg \ \underset{w_q }{max} \ cos(w,\hat{\beta}_{OLS})^2w^T(X^TX)w ,\tag{10}\\ \ s.t. \ w_q \perp (w_1,w_2,\dots,w_{q-1}) arg wqmax σwT(XTX)1w
wTβ^OLS
arg wqmax cos(w,β^OLS)2wT(XTX)w, s.t. wq(w1,w2,,wq1)(10)

看上面左边的公式,分子部分代表了相关性,即信息最大,分母部分代表了噪声的估计量。两者结合在一起就是信噪比,这和PLS的目标是一致的。
对上式重写,可以转换为如下的形式
a r g   m a x w q   ∣ w q T β ^ O L S ∣ , s . t .   w q ⊥ ( w 1 , w 2 , … , w q − 1 ) ,   w q T S − 1 w q = 1 arg \ \underset{w_q }{max} \ |w_q^T\hat{\beta}_{OLS}| , s.t. \ w_q \perp (w_1,w_2,\dots,w_{q-1}), \ w_q^TS^{-1}w_q=1 arg wqmax wqTβ^OLS,s.t. wq(w1,w2,,wq1), wqTS1wq=1






λ q w q = − s − ∑ i = 1 q − 1 λ i ∗ S ∗ w i ⇒ β ^ P L S = λ 1 w 1 + ⋯ + λ r w r \lambda_qw_q = -s – \sum_{i=1 }^{q-1}\lambda_i*S*w_i \Rightarrow \hat{\beta}_{PLS} = \lambda_1w_1+\dots+\lambda_rw_r λqwq=si=1q1λiSwiβ^PLS=λ1w1++λrwr

总结

偏最小二乘当然还有许多其他的解释,这里不再一一介绍。一直以来,偏最小二乘法总是偏向于直觉,而缺乏坚实的理论而受到诟病,特别是统计学界。另外,目前的文献资料显示,偏最小二乘法的解绝并非统计学意义上的最优解,这一点已有诸多文献讨论并且做出相关证明。但由于其在小样本,高维共线的领域里出色效果,在化学计量,经济计量等受到广泛的应用。这里主要是将自己对偏最小二乘法的理解总结一下,以后大概不会再写普通的偏最小二乘法,更多地是讨论一下改进的偏最小二乘法,如稀疏,鲁棒等版本的偏最小二乘模型。

参考文献

Optimizing a vector of shrinkage factors for continuum regression

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/232767.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • jdk环境变量的配置[通俗易懂]

    jdk环境变量的配置[通俗易懂]jdk下载并配置下载jdk下图是自己资源管理器中jdk的安装路径,双击然后next就好,不需要改什么配置手里没有安装包的,下载地址在这里:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下面主要讲怎么配置Java的环境变量,也是为了以后哪天自己忘记了做个备份1.在电脑桌面右键点击“此电脑”的“属性”选项2.选择“高级系统设置”选项…

    2022年7月12日
    13
  • 基于arduino的lcd1602显示_LCD1602接口类型

    基于arduino的lcd1602显示_LCD1602接口类型Arduino小实验LCD1602A_I2C液晶显示魔法传送门Arduino小实验LCD1602A_I2C液晶显示准备元件LCD1602A原理图接线部分Arduino代码常见bug汇总及解决方法准备元件准备元件:1.Arduino主板(UNO)//Arduino主板(Mega)崭新出厂2.LCD1602A液晶显示屏3.LCD1602A的驱动—PCF8574驱动板LCD1602A原理图接线部分ArduinoMega:ArduinoUNO实物图Arduino代码常见bug汇总

    2022年9月22日
    2
  • java防止接口重复请求_前端防止重复提交

    java防止接口重复请求_前端防止重复提交PopularMVC框架接口防重复提交功能使用示例简介1、简介此项目用于演示如何使用popularmvc提供的接口防重复提交功能。使用防重提交功能,只需要在需要防重的接口上添加@RequiredNoRepeatSubmit注解即可。主要有以下内容:防重复提交码模式自定义防重复提交码自定义防重复提交码需要调用者保证防重复提交码的全局唯一性,推荐结构:userId+timestamptimestamp在数据更新后才允许更新使用sign作为防重码如果接口开启了数字签

    2022年9月1日
    4
  • jQuery的下载以及使用[通俗易懂]

    jQuery的下载以及使用[通俗易懂]一、版本选择jQuery的版本有很多,大家在选择版本的时候,一般原则是越新越好,但其实不然,jQuery版本是在不断进步和发展的,最新版是当时最高技术水平,也是最先进的技术理念。如何选择jQuery版本是个值得思考的问题目前jQuery有三个大版本:1.x:兼容ie678,使用最为广泛的,官方只做BUG维护,功能不再新增。因此一般项目来说,使用1.x版本就可以了,最终版本:1.12.4(2…

    2022年5月22日
    36
  • 《大白AI周报》精华内容整理汇总「建议收藏」

    《大白AI周报》精华内容整理汇总「建议收藏」在人工智能学习中,大家或多或少都会关注一些公众号,但随着每天信息量的暴增,碎片化的内容让大家应接不暇。如何挖掘有价值的内容,如何快速查阅自己需要的内容,是一个头疼的问题。因此大白每周都会将人工智能领域,几十个公众号每周发布的精华内容汇总起来。同时进行系统的分类,让大家对于人工智能行业每周的技术动态**可以一目了然,希望对大家有帮助。《大白AI周报》每周精华文章链接:每周日报的内容还是有点多,大白将其中的更加系统性,或者对项目来说,更有针对性的文章,整理到本文中,方便大家更好的查看。整理汇总:江大白

    2022年8月31日
    6
  • 背板管理——“绿色”点亮IDC

    背板管理——“绿色”点亮IDC

    2021年7月29日
    52

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号