pca主要成分分析_通俗易懂的俗语

pca主要成分分析_通俗易懂的俗语转载自:http://blog.codinglabs.org/articles/pca-tutorial.html文章分析脉络梳理: 1.向量A和B的内积表示的是向量A在B上的投影长度。那么将一个向量与新的基做内积,结果则表示该向量在新的基下的坐标。2.将新选定的基表示成矩阵形式,与原向量相乘,就得到了原向量在新选定的基所表示的空间(或坐标系)中的坐标表示了。3.怎样选定这组基用于数据降维?(目标…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

转载自:http://blog.codinglabs.org/articles/pca-tutorial.html

文章分析脉络梳理:

 1.向量A和B的内积表示的是向量A在B上的投影长度。那么将一个向量与新的基做内积,结果则表示该向量在新的基下的坐标。

2.将新选定的基表示成矩阵形式,与原向量相乘,就得到了原向量在新选定的基所表示的空间(或坐标系)中的坐标表示了。

3.怎样选定这组基用于数据降维?(目标)

(1)首先将数据变换到选定基上后,数据的方差要大,尽量分散。

(2)各个基要正交(表示的信息要不相关,若单纯按方差选定基,则选定的基存在很大的相关性)

4.怎么做?怎么找这组正交基? (做法)

(1)协方差矩阵可以很好地表示各个特征的方差和不同特征之间的协方差

(2)按目标要求需要将协方差矩阵除去对角线元素化为0,对角线元素按从大到小排列。协方差矩阵对角化。

(3)对角化后按特征值大小排列,选定前k个最大的特征值对应的特征向量作为降维后的新基。


PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。

当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原理。

pca主要成分分析_通俗易懂的俗语

pca主要成分分析_通俗易懂的俗语

pca主要成分分析_通俗易懂的俗语

进一步讨论

根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。

因此,PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。

希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这个算法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/181489.html原文链接:https://javaforall.net

(0)
上一篇 2022年10月16日 上午7:16
下一篇 2022年10月16日 上午7:36


相关推荐

  • 怎么测试网站的稳定性_稳定性长期试验需进行多少个月试验

    怎么测试网站的稳定性_稳定性长期试验需进行多少个月试验今天面试遇到一个问题,如何进行网站的稳定性测试?因为之前从事的是电信行业,其稳定性测试是发送确定的traffic,运行72小时,观测系统的资源使用情况,traffic处理是否正常,有无内存泄漏,有无进程崩溃,其他资源使用是否正常等等。所以也给了一个类似的稳定性测试思路:按照系统设计容量的性能指标,模拟最大并发访问需求,运行72小时,看系统响应时间,监控资源利用的方法。回来查询发现,网易对这个问题也…

    2025年10月9日
    5
  • 初学使用vs2019和pycharm配置opencv的坑,以及对学习opencv的看法

    初学使用vs2019和pycharm配置opencv的坑,以及对学习opencv的看法最近在学习 opencv 今天中秋有空把之前遇到的坑分享出来对于 opencv 来说 我感觉用 python 写比较容易 因为他函数直接用就可以了 代码量没有那么多不过 opencv 是基于 c 写的 所以用 c 写应该更好 看个人喜好了 我觉得用哪个学习都可以 反正写法和函数是差不多的 pycharm python 配置 opencv 特别容易 直接安装库就可以了不想用 pycharm 的可以用 pipinstal

    2026年3月18日
    1
  • Tkinter python GUI程序在PyCharm远程服务器中运行并正常弹出界面

    Tkinter python GUI程序在PyCharm远程服务器中运行并正常弹出界面Tkinterpytho 程序在 PyCharm 远程服务器中运行并正常弹出界面 tkinter TclError nodisplaynam DISPLAYenv 报错代码 tkinter TclError nodisplaynam DISPLAYenvir 先举个例子 fromtkinteri root Tk THISISTHELIN

    2026年3月27日
    2
  • pycharm开启自动补全_python代码补全插件

    pycharm开启自动补全_python代码补全插件在使用python时候我们可能更倾向于能够使用到自动补全代码的功能在一段时间的找寻和使用过程中,发现了几种能补全代码的插件和方法吧pycharm中TabNine插件 这个我感觉还能用吧~啧百度kite官网下载kite插件百度aiXcoder插件下载aiXcoder插件GitHub开源项目1.首先第一个TabNine的插件 亲测了一段时间,感觉很一般 如果想体验一下也不是不行 安装插件过程如下: pycharm编译器->File->Settings

    2022年8月27日
    7
  • PHP之stripslashes()函数和htmlspecialchars()函数

    PHP之stripslashes()函数和htmlspecialchars()函数1 在进行表单验证中通常使用 stripslashes 函数对表单提交的数据进行处理 那么该函数是什么意思呢 nbsp stripslashes 函数用于清理字符串中的反斜杠 nbsp 与之相反的是 addslashes 函数 在字符串中的单引号 双引号 反斜杠 NULL 前面添加反斜杠 nbsp 通常默认的 php 会对所有的 GET POST 和 COOKIE 数据自动运行 addsl

    2026年3月26日
    2
  • 2026实战指南:怎么配置 OpenClaw 自动分类过滤垃圾邮件,并把重要邮件转成日历日程?

    2026实战指南:怎么配置 OpenClaw 自动分类过滤垃圾邮件,并把重要邮件转成日历日程?

    2026年3月13日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号