降维

降维

常见的降维方法有主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。

1 PCA最大方差理论

PCA属于一种线性、非监督、全局的降维算法

问题:如何定义主成分?从这种定义出发,如何设计目标函数使得降维达到提取主成分的目的?针对这个目标函数,如何对PCA问题进行求解?

PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。

在信号处理领域,认为信号具有较大方差,噪声具有较小方差,信号与噪声之比称为信噪比。信噪比越大意味着数据的质量越好,反之,信噪比越小意味着数据的质量越差。

引出PCA的目标,即最大化投影方差,也就是让数据在主轴上投影的方差最大。

向量内积在几何上表示为第一个向量投影到第二个向量上的长度。

x 投影后的方差就是协方差矩阵的特征值。要找到最大的方差也就是协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量。次投影方向位于最佳投影方向的正交空间中,是第二大特征值对应的特征向量。

求解PCA的求解方法:
(1)对样本数据进行中心化处理。
(2)求样本协方差矩阵
(3)对协方差矩阵进行特征值分解,将特征值从大到小排列。
(4)取特征值前d大对应的特征向量

由于PCA是一种线性降维方法,虽然经典,但具有一定的局限性。可以通过核映射对PCA进行扩展得到核主成分分析(KPCA),也可以通过流形映射的降维方法,比如等距映射、局部线性嵌入、拉普拉斯特征映射等,对一些PCA效果不好的复杂数据集进行非线性降维操作。

2 PCA最小平方误差理论

问题:PCA求解的其实是最佳投影方向,即一条直线,这与数学中线性回归问题的目标不谋而合,能否从回归的角度定义PCA的目标并相应地求解问题?

3 线性判别分析

线性判别分析是一种有监督学习算法,同时经常被用来对数据进行降维。LDA是目前机器学习、数据挖掘领域中经典且热门的一种算法。

相比于PCA,LDA可以作为一种有监督的降维算法。在PCA中,算法没有考虑数据的标签(类别),只是把原数据映射到一些方差较大的方向上。

问题:对于具有类别标签的数据,应当如何设计目标函数使得降维的过程中不损失类别信息?在这种目标下,应当如何进行求解?

LDA的中心思想——最大化类间距离,最小化类内距离

最大化的目标对应了一个矩阵的特征值,于是LDA降维变成 了一个求矩阵特征向量的问题。投影方向就是矩阵最大特征值对应的特征向量。

只需要求样本的均值和类内方差,就可以得出最佳的投影方向w

LDA相比于PCA更善于对有类别信息的数据进行降维处理,但它对数据的分布做了一些很强的假设,例如,每个类数据都是高斯分布、各个类的协方差相等。
尽管这些假设在实际中并不一定满足,但LDA已被证明是非常有效的一种降维方法。主要是因为线性模型对于噪声的鲁棒性比较好,但由于模型简单,表达能力有一定局限性,可以通过引入核函数扩展LDA方法以处理分布较为复杂的数据。

4 线性判别分析与主成分分析

问题:LDA和PCA作为经典的降维算法,如何从应用的角度分析其原理的异同?从数学推导的角度,两种降维算法在目标函数上有何区别与联系?

从PCA和LDA两种降维方法的求解过程来看,它们确实有着很大的相似性,但对应的原理却有所区别。

首先从目标出发,PCA选择的是投影后数据方差最大的方向。由于它是无监督的,因此PCA假设方差越大,信息量越多,用主成分来表示原始数据可以去除冗余的维度,达到降维。而LDA选择的是投影后类内方差小,类间方差大的方向。其用到了类别标签信息,为了找到数据中具有判别性的维度,使得原始数据在这些方向上投影后,不同类别尽可能区分开。

从应用的角度,一个基本原则——对无监督的任务使用PCA进行降维,对有监督的则应用LDA

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100181.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 手机兼容性测试_浏览器兼容性测试工具

    手机兼容性测试_浏览器兼容性测试工具AndroidApp兼容性测试,是一个比较重要的App评价内容说到测试阶段,兼容性测试主要是对App在各类机型上的兼容、适配等情况进行测试。搞清楚这一阶段的测试重点后,因此,AndroidApp在进行兼容性测试前,一定要做好其前序测试内容,否则兼容性测试效果将会较差。1.机型配置问题Android兼容测试一定要做到宽范围覆盖,如果做不到这个,那么就违背了兼容性测试的目标——测试App在各类机型、系统上的运行是否兼容、适配。因此,兼容性测试必须要在各个机型、系统上对App进行运行、测.

    2025年7月23日
    4
  • 最好用的mysql 管理工具_汽车行业质量管理五大工具

    最好用的mysql 管理工具_汽车行业质量管理五大工具对于数据库运维人员来说,想要保证数据库在高效平稳的运行就有点像杂技演员在转盘子,需要灵活、专注、能快速做出反应、并且拥有冷静的头脑。数据库几乎是所有能够成功运行系统的核心。而数据库运维人员对组织的数据… 对于数据库运维人员来说,想要保证数据库在高效平稳的运行就有点像杂技演员在转盘子,需要灵活、专注、能快速做出反应、并且拥有冷静的头脑。数据库几乎是所有能够成功运行系统的核心。而数据库运维人员对组织的数据负责,能找到可依靠的工具来更加高效的管理数据库,并且轻松的维护日常的工作就变得格外重要。数据库运维人

    2022年8月22日
    6
  • javascript 向数组中添加数组元素(输入元素,不太重要)「建议收藏」

    javascript 向数组中添加数组元素(输入元素,不太重要)「建议收藏」javascript中向数组中输入元素,基本上有三种方式。1、在定义数组对象的时候,直接输入元素,varlist=newArrey(1,2,3,’内容’)2、利用数组对象的元素下标向其中输入数组元素list=newArray(9)list[2]=2list[3]=3这样list的下标是2与3的内容就添加上值了。3、可以利用for语句向数组对象中输入数组元素可以批量向数组对象中输入数组元素,一般用于对数组对象赋初始值,例如,可以通过改变变

    2022年5月13日
    38
  • 日志大全_打印机日志

    日志大全_打印机日志日志信息每个用例都会生成一个对应的log日志,位置:<ProjectRootDir>/logs/TestCaseID.run.log.如果你想看到request和response、提取

    2022年7月30日
    8
  • emWin 介绍_emwin教程

    emWin 介绍_emwin教程一、emWin介绍emWin是Segger公司针对嵌入式平台开发的稳定、高效的图形软件库,适合用于任何图形LCD的操作应用,并可输出高质量的无锯齿的文字和图形,通过调用emWin提供的函数接口,开发嵌入式图形界面应用变得简单而快捷。二、emwWn、ucGUI、STemWin三者之间的关系1.三者都是Segger公司的产品。2.emwWn是Segger公司图形系统的正式统称。3.uc…

    2022年10月14日
    4
  • 数据库系统与数据挖掘的区别_数据挖掘与大数据的关系

    数据库系统与数据挖掘的区别_数据挖掘与大数据的关系数据库系统第一章绪论本章属于基础知识,主要是对一些概念的理解和记忆。没有难点,相对的重点在于ER模型的设计和关系模型的掌握。一、数据管理技术的发展阶段(识记)数据管理技术共经历了三个阶段:人

    2022年8月3日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号