偏最小二乘法的几种解释

文章目录

前面的文章
基础准备
第一种解释
第二种解释
第三种解释
第四种解释
总结
参考文献

经过一段时间的学习，对偏最小二乘法有了一些了解，这里做一个总结。下面主要是针对PLS1，也就是单响应变量的情况

前面的文章

偏最小二乘法（NIPALS经典实现–未简化）
偏最小二乘法基本性质推导
偏最小二乘法(SIMPLS—未简化)
偏最小二乘法PLS（matlab自带代码）
PLSR的扩展性质
PLS中的权值和载荷
OLS,PCA,CCA,PLS和CR的关系总结及几何解释

基础准备

最小二乘法的几何意义

$\mathbf{y} = X\mathbf{\beta} = \beta_1\mathbf{x_1}+\dots+\beta_n\mathbf{x_n} \tag{1}$
在这里插入图片描述
找到一个 $X$ 的列的线性组合，使得这个线性组合最多的表达 $y$ 中的信息。由上图可知， $y = y_p+y_e$ .当 $y_e$ 正交于 $X$ 列空间时，达到最小，此时， $y_p$ 与 $y$ 的夹角最小，即相关性最大。普通最小二乘法（OLS）的解如下
$\hat{\beta}=(X^TX)^{-1}X^Ty$

典型相关分析

典型相关分析是从两组数据 $X$ 和 $Y$ 中，找到两个相应的组合，使得两者相关性最大。其目标如下
$\ \underset{w,c}{max} \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \Leftrightarrow arg \ \underset{w,c}{max} \ cos(Xw,Yc)^2 \tag{2}$

$G_{cca} = \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \ \in [0,1]$

在单响应变量的情况下，则有 $X w$ 和 $y$ 的相关性最大，则可以得到

$\propto (X^TX)^{-1}X^Ty$

主成分分析

PCA的思想是找到数据 $X$ 中代表最大方差方向的权值，通过减秩消除矩阵中的无关信息
在这里插入图片描述
这个方向的确定很容易，即 $X^TX$ 的最大特征向量
$\hat{w} = arg \ \underset{\hat{w}}{max} \ w^TX^TXw =arg \ \underset{\hat{w}}{max} \tfrac{w^TX^TXw}{[\rho(X^TX)]^2} \tag{3}\\ s.t. \ ||w^T w||=1$
令 $G_{pcr} = \tfrac{w^TX^TXw}{[p(X^TX)]^2}$ , $G_{pcr} \in [0,1]$
对比OLS和PCA可以发现，前者的目标是使得 $G_{cca}$ 最大化,后者是使 $G_{pcr}$ 最大化。在实际应用中，两个目标往往难以同时达到最大。

第一种解释

$\color{red}{PLS可以看作是CCA和PCA的一个折中。}$
PLS是一种数据减秩的方法，跟PCA类似，是用原数据的部分数据（成分）代替原始数据。构造成分的方法和CCA，PCA不同之处在于，PLS是两者的一个平衡点，由下面的目标式可以清楚得看到。
$\hat{w} = arg \ \underset{\hat{w}}{max} \ (y^TXw)^2 =arg \ \underset{\hat{w}}{max} (\tfrac{ (y^TXw)^2}{y^Tyw^TX^TXw})(\tfrac{ (w^TX^TXw)}{[\rho(X^TX)]^2} )(y^ty) =arg \ \underset{\hat{w}}{max} \ G_{cca}G_{pcr} \tag{4}\\ \\s.t. \ ||w^T w||=1$
更直观一些看下图，假设 $∣ ∣ w ∣ ∣ = 1$ ，对于所有的可能的点 $X w$ ，构成了如下的的超椭圆空间。CCA,PCR，PLS在成分或者说得分向量的构造方式上存在以下的几何关系。
在这里插入图片描述
具体可以看参考文献部分

第二种解释

$\color{green}{PLS是一种共轭梯度法}$
在这里插入图片描述
上图中，左边是最速下降法的优化路径，右图是共轭梯度下降法的优化路径。可见，共轭梯度法的效率要远高于最速下降法的速率。直观得看，最速下降法的缺点在走回头路，导致收敛速度缓慢，共轭梯度法的特点保证了其不走回头路，所以，收敛的速度是有保障的。所谓共轭，就是权值方向满足
$w_i^TX^TXw_j=0,i \neq j \tag{5}$
这个的证明可以看前面的文章。无论是NIPALS（基于残差），SIMPLS（基于载荷矩阵正交投影）这一点都是可以满足的。

从几何的角度来看，构造共轭正交的权值，是为了保证得分向量 $t = X w$ 的正交性，因为得分矩阵 $T$ 最终代替X，响应变量 $y$ 最终通过将自身投影到 $T$ 的空间中，获得 $y$ 和 $T$ 的回归关系。如下图所示， $t$ 是两两正交的，新增的 $t_i$ 不影响原来 $y$ 在其他 $t_j,j<i$ 上的投影, $y$ 因此一定是收敛的。
在这里插入图片描述

第三种解释

$\color{blue}{PLS是一种基于Krylov空间降维打击的方法。}$

$\ s= X^Ty ,S = X^TX \\ for\ all \ w_i^*,i \in (1,r)\ span\ space\ K_r\\ K_r = span(s,Ss,S^2s,\dots,S^{r-1}s) \\ t_i = Xw_i^*\\ \\\hat{y}=X \hat{\beta} =\lambda_1t_1+\dots+\lambda_rt_r^* \Rightarrow\\\tag{8} \hat{\beta}_{PLS} = \lambda_1w^*_1+\dots+\lambda_rw_r^* =\sum_{i=0}^{r-1}\beta_iS^is$

只要 $r$ 足够大， $\hat{\beta}_{PLS} \rightarrow \hat{\beta}_{OLS}$

第四种解释

$\color{#fbbc05}{最大化信噪比方向}$
Maximinze Signal-To-Noise Ratio(SNR)体现了PLS在权值w上的选取意义
PLS的解是是有偏估量，本质上是以无偏估量 $\beta_{OLS}$ 解作为信号，以最大化信噪比的方向去提取 $\beta_{OLS}$ 中的信息，构造近似的解。
按照有偏估量的计算，可以得到如下方程
$\ \underset{w_q }{max} \ \frac{|w^T\hat{\beta}_{OLS}|}{\sigma\sqrt{w^T(X^TX)^{-1}w}}\Leftrightarrow arg \ \underset{w_q }{max} \ cos(w,\hat{\beta}_{OLS})^2w^T(X^TX)w ,\tag{10}\\ \ s.t. \ w_q \perp (w_1,w_2,\dots,w_{q-1})$
看上面左边的公式，分子部分代表了相关性，即信息最大，分母部分代表了噪声的估计量。两者结合在一起就是信噪比，这和PLS的目标是一致的。
对上式重写，可以转换为如下的形式
$\ \underset{w_q }{max} \ |w_q^T\hat{\beta}_{OLS}| , s.t. \ w_q \perp (w_1,w_2,\dots,w_{q-1}), \ w_q^TS^{-1}w_q=1$

$\lambda_qw_q = -s – \sum_{i=1 }^{q-1}\lambda_i*S*w_i \Rightarrow \hat{\beta}_{PLS} = \lambda_1w_1+\dots+\lambda_rw_r$

总结

偏最小二乘当然还有许多其他的解释，这里不再一一介绍。一直以来，偏最小二乘法总是偏向于直觉，而缺乏坚实的理论而受到诟病，特别是统计学界。另外，目前的文献资料显示，偏最小二乘法的解绝并非统计学意义上的最优解，这一点已有诸多文献讨论并且做出相关证明。但由于其在小样本，高维共线的领域里出色效果，在化学计量，经济计量等受到广泛的应用。这里主要是将自己对偏最小二乘法的理解总结一下，以后大概不会再写普通的偏最小二乘法，更多地是讨论一下改进的偏最小二乘法，如稀疏，鲁棒等版本的偏最小二乘模型。

参考文献

Optimizing a vector of shrinkage factors for continuum regression

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/232767.html原文链接：https://javaforall.net

文章目录

前面的文章

基础准备

最小二乘法的几何意义

典型相关分析

主成分分析

第一种解释

第二种解释

第三种解释

第四种解释

总结

参考文献

相关推荐

jdk环境变量的配置[通俗易懂]

基于arduino的lcd1602显示_LCD1602接口类型

java防止接口重复请求_前端防止重复提交

jQuery的下载以及使用[通俗易懂]

《大白AI周报》精华内容整理汇总「建议收藏」

背板管理——“绿色”点亮IDC

发表回复