PCA最小平方误差理论推导

PCA最小平方误差理论推导PCA求解其实是寻找最佳投影方向,即多个方向的标准正交基构成一个超平面。理论思想:在高维空间中,我们实际上是要找到一个d维超平面,使得数据点到这个超平面的距离平方和最小

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

PCA最小平方误差理论推导

PCA求解其实是寻找最佳投影方向,即多个方向的标准正交基构成一个超平面。

理论思想:在高维空间中,我们实际上是要找到一个d维超平面,使得数据点到这个超平面的距离平方和最小

假设\(x_k\)表示p维空间的k个点,\(z_k\)表示\(x_k\)在超平面D上的投影向量,\(W = {w_1,w_2,…,w_d}\)为D维空间的标准正交基,即PCA最小平方误差理论转换为如下优化问题$$z_k = \sum_{i=1}^d (w_i^T x_k)w_i—(1)$$

\[argmin \sum_{i=1}^k||x_k – z_k||_2^2 \]

\[s.t. w_i^Tw_j = p(当i==j时p=1,否则p=0) \]

注:\(w_i^Tx_k\)为x_k在w_i基向量的投影长度,\(w_i^Tx_kw_i\)为w_i基向量的坐标值

求解:

\(L = (x_k – z_k)^T(x_k-z_k)\)

\(L= x_k^Tx_k – x_k^Tz_k – z_k^Tx_k + z_k^Tz_k\)

由于向量内积性质\(x_k^Tz_k = z_k^Tx_k\)

\(L = x_k^Tx_k – 2x_k^Tz_k + z_k^Tz_k\)

将(1)带入得$$x_k^Tz_k = \sum_{i=1}dw_iTx_kx_k^Tw_i$$

\[z_k^Tz_k = \sum_{i=1}^d\sum_{j=1}^d(w_i^Tx_kw_i)^T(w_j^Tx_kw_j) \]

根据约束条件s.t.得$$z_k^Tz_k = \sum_{i=1}dw_iTx_k^Tx_kw_i$$

\[L =x_k^Tx_k – \sum_{i=1}^dw_i^Tx_kx_k^Tw_i \]

根据奇异值分解$$\sum_{i=1}dw_iTx_kx_k^Tw_i = tr(WTx_kTx_kW)$$

\[L =argmin\sum_{i=1}^kx_k^Tx_k – tr(W^Tx_k^Tx_kW) = argmin\sum_{i=1}^k- tr(W^Tx_k^Tx_kW) + C \]

等价于带约束得优化问题:$$argmaxtr(WTXXTW)$$

\[s.t. W^TW = I \]

最佳超平面W与最大方差法求解的最佳投影方向一致,即协方差矩阵的最大特征值所对应的特征向量,差别仅是协方差矩阵\(\xi\)的一个倍数

定理

\[argmin\phi(W,Z|X) = tr((X-W^TZ)^T(X-W^TZ)) = ||X-W^TZ||_F^2 \]

\[s.t.W^TW=I_q \]

注:X为(n,p),Z为(n,q),q < p,w为(p,q)

该定理表达的意思也就是平方差理论,将降维后的矩阵通过W^T投影回去,再与X计算最小平方差,值越小说明信息损失越少

\(\phi\)目标函数最小时,W为X的前q个特征向量矩阵且\(Z=W^TX\)

以上优化可以通过拉格朗日对偶问题求得,最终也会得到$$argmaxtr(WTXXTW)$$

\[s.t. W^TW = I \]

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120024.html原文链接:https://javaforall.net

(0)
上一篇 2021年12月30日 上午8:00
下一篇 2021年12月30日 上午9:00


相关推荐

  • netstat -an命令

    netstat -an命令netstat an 命令可以显示出激活的连接信息 如果你要查看 1433 端口是否被监听 可以利用这个命令查看没有显示 0 0 0 0 1433 详细的 netstat 命令 可参考 http study chyangwa com IT AIX aixcmds4 netstat htm

    2026年3月26日
    1
  • 玻尔兹曼公式推导碰撞项_玻尔兹曼方程表达式

    玻尔兹曼公式推导碰撞项_玻尔兹曼方程表达式在做别的事之前,让我们试做一个假想的研究。假定我们有一个很好的能跟踪单个运动粒子而不产生任何其他效应的激光探测器,把这个探测器应用在一个波尔兹曼气体上,可以很容易发现,无论粒子间碰撞能否忽略,牛顿轨道方程始终是有意义的(如果需要考虑碰撞,沿牛顿轨道的粒子存活几率是应该引进的)。问题就这样产生了:因为波尔兹曼方程和给定的初值边值条件已经构成了一个完全集合,我们是否应该简单的无视牛顿方程?如果牛顿方程…

    2022年8月11日
    8
  • 怎么安装pandas库_python第三方库pandas

    怎么安装pandas库_python第三方库pandas问题现象:PyCharm中运行程序,报错,提示“ModuleNotFoundError:Nomodulenamed’pandas’”第一种方法:1.电脑WIN+R,输入cmd,输入pipinstallpandas,等待下载完成即可。2.如果有以下提示,说明pip的版本可能不一致,需要解决冲突。想更新pip,输入pipinstall–upgradepip,报错,提示“Nomodulenamedpip”3.解决方法,输入python-mensu

    2022年8月29日
    7
  • 数据结构与算法邹永林周蓓课后答案_数据结构与算法分析第二版答案

    数据结构与算法邹永林周蓓课后答案_数据结构与算法分析第二版答案出版社:外语教学与研究出版社作者:郑诚出版日期:2012.4ISBN:9787513517409具体封面以实物为准目录数据结构导论自学考试大纲出版前言1.课程性质与课程目标2.考核目标3.课程内容与考核要求4.关于大纲的说明与考核实施要求附录题型举例后记数据结构导论前言第一章概论1.1引言1.2基本概念和术语1.2.1数据、数据元素和数据项1.2.2数据的逻…

    2022年8月18日
    10
  • Java冒泡排序实现

    Java冒泡排序实现Java冒泡排序原理:依次比较相邻的两个书,将较大的数放右边思路:依次比较相邻的两个数,将小数放在前面,大数放在后面。即在第一趟:首先比较第1个和第2个数,将小数放前,大数放后。然后比较第2个数和第3个数,将小数放前,大数放后,如此继续,直至比较最后两个数,将小数放前,大数放后。重复第一趟步骤,直至全部排序完成。冒泡排序的优点:每进行一趟排序,就会少比较一次,因为每进行一趟排序都会找出一个较大值。代码演示:…

    2022年7月8日
    23
  • formdata 赋值_FormData

    formdata 赋值_FormData1 FormData 对象的作用 模拟 HTML 表单 相当于将 HTML 表单映射成表单对象 自动将表单对象中的数据拼接成请求参数的格式 异步上传二进制文件 2 FormData 对象的使用 准备 HTML 表单注意 这个表单不需要请求方式和请求地址 这些内容可以在 Ajax 中设置 formdata 对象不能用于 get 请求 因为 formdata 的数据要放到 send 方法中 而 get 请求方式的请求参数只

    2026年3月19日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号