机器学习降维之线性判别分析

1.LDA描述线性判别分析(LinearDiscriminantAnalysis,LDA)是一种有监督学习算法,同时经常被用来对数据进行降维,它是RonaldDisher在1936年发明的,

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

1. LDA描述

线性判别分析(Linear Discriminant Analysis,LDA)是一种有监督学习算法,同时经常被用来对数据进行降维,它是Ronald Disher在1936年发明的,有些资料上也称位Fisher LDA.LDA是目前机器学习、数据挖掘领域中经典且热门的一种算法

相比于PCA,LDA可以作为一种有监督的降维算法,在PCA中,算法没有考虑数据的类别,自己把原数据映射到方差较大的方向上而已

如下图,红色的点代表class1类别的数据,蓝色代表class2的数据,根据PCA算法,数据应该映射到方差最大的方向,即Y轴,但是class1和class2两个不同类别的数据就会完全的混合在一起,很难区分开。所以使用PCA算法进行降维后再进行分类的效果会非常差,这时候就需要我们使用LDA算法,将数据映射到X轴上。下面我们从二分类分析LDA原理

import numpy as np
import matplotlib.pyplot as plt

c1_x = np.random.uniform(-0.5,-2,100)
c1_y = np.random.uniform(-10,10,100)

c2_x = np.random.uniform(0.5,2,100)
c2_y = np.random.uniform(-10,10,100)

l1_x = [0 for _ in range(24)]
l1_y = [i for i in range(-12,12,1)]
l2_x = [i for i in range(-4,5,1)]
l2_y = [0 for _ in range(9)]

plt.scatter(c1_x,c1_y,c = 'r',marker = 'o',label='class1')
plt.scatter(c2_x,c2_y,c = 'b',marker = '*',label='class2')
plt.plot(l1_x,l1_y,'black',label='X')
plt.plot(l2_x,l2_y,'g',label='Y')
plt.legend()
plt.xlim(-5, 5)
plt.ylim(-12, 12)
plt.show()

机器学习降维之线性判别分析

2. 从二分类分析LDA原理

先抛出LDA原理中心思想:最大化类间距离和最小化类内距离,再进行说明

从一个简单的二分类问题出发,有C1、C2两个类别的样本,两类的均值分别\(\mu_1,\mu_2\),我们希望投影之后两类之间的距离尽可能大$$D(C1,C2) ={ ||W^T\mu_1 – WT\mu_2||}_22$$
注:\(W^T\mu_1为\mu_1再W方向上的投影向量\),从而转化为以下优化问题

\[\begin{cases} max{ ||W^T\mu_1 – W^T\mu_2||}_2^2\\ s.t. W^TW = 1 \end{cases}\]

容易发现,当W与\((\mu_1 – \mu_2)\)方向一致的时候,该距离最大

机器学习降维之线性判别分析

上面左边的图是按照最大化两类投影中心距离的准则绘制的,会发现原本可以被线性划分的两类样本,经过投影后又了一定程度的重叠

上面右边的图就是按照最大类间距,最小类内距思想绘制的,虽然两类的中心在投影之后的距离又所减小,但确使投影之后样本的可区分性提高了

如何表示类内距离?可以使用类内方差,类内方差定义为各个类分别的方差和,有类内距离表示再结合上图说明,继续对上面的优化函数进行优化得到:

\[\begin{cases} maxJ(W) = \frac{{ ||W^T\mu_1 – W^T\mu_2||}_2^2}{D1 + D2}\\ s.t. W^TW = 1 \end{cases}\]

注:D1为C1的类内方差和,D2为C2的类内方差和

3. LDA求解方法

\[\begin{cases} maxJ(W) = \frac{{ ||W^T\mu_1 – W^T\mu_2||}_2^2}{D1 + D2}\\ s.t. W^TW = 1 \end{cases}\]

\[D1 = \sum_{x\epsilon C_1}{(W^T(x_i – \mu_1))}^2 = \sum_{x\epsilon C_1}W^T(x_i – \mu_1){(x_i – \mu_1)}^TW \]

\[D2 = \sum_{x\epsilon C_2}{(W^T(x_i – \mu_2))}^2 = \sum_{x\epsilon C_2}W^T(x_i – \mu_2){(x_i – \mu_2)}^TW \]

因此J(W)可以写成:

\[J(W) = \frac{W^T(\mu_1 – \mu_2){(\mu_1 – \mu_2)}^TW}{\sum_{x\epsilon C_i}W^T(x – \mu_i){(x – \mu_i)}^TW} \]

定义类间距离\(S_B = (\mu_1 – \mu_2){(\mu_1 – \mu_2)}^T\),类内距离\(S_W = \sum_{x\epsilon C_i}(x – \mu_i){(x – \mu_i)}^T\)

则:$$J(W) = \frac{WTS_BW}{WTS_WW}$$

对W求导,并令导数为0

\[(W^TS_W W)S_B W = (W^T S_B W)S_W W \]

\(\lambda = J(W) = \frac{W^TS_BW}{W^TS_WW}\)则有:

\[S_B W = \lambda S_w W \]

整理得到:

\[{S_w}^{-1}S_BW = \lambda W \]

看到这里就以及很清楚了,我们最大化目标对应一个矩阵的特征值,于是LDA降维变成了一个求矩阵特征向量的问题。\(J(W)\)就对应矩阵\({S_w}^{-1}S_B\)的最大的特征值,而投影方向就是这个特征值对应的特征向量

将二分类推广到多分类也得到同样的结论,总结具有多个列别标签高维的LDA求解方法:

  • (1)计算数据集中每个类别样本的均值向量\(\mu_j\),以及总体均值向量\(\mu\)
  • (2)计算类内散度矩阵\(S_W\),全局散度矩阵\(S_T\),并得到类间散度矩阵\(S_B = S_T – S_W\)
  • (3)对矩阵\({S_W}^{-1}S_B进行特征值分解,将特征值从大到小排列\)
  • (4)特征值前d大的对应的特征向量\(W_1,W_2,…,W_d\),通过以下映射将n维映射到d维:$$\acute{X_i} ={(W_1Tx_i,W_2Tx_i,…,W_dTx_i)}T$$

参考:《百面机器学习》

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120012.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 7个支持图片外链的免费相册

    7个支持图片外链的免费相册有时候需要用到图片又要外链又要保持原图大小又要无水印所以收集一些支持图片外链的免费相册备用( ̄▽ ̄")当然这些免费这些外链都是有一定的限制的比如每月限制流量或图片最终页有一堆广告等这是没办法的事儿想使用免费相册的朋友所能做的只有耐心的挑选一个自己最满意的免费相册服务1.美国TripnTale–无限免费旅游网络图片相册  美国TripnTale是一个免费旅游图片存储空间,提…

    2022年6月15日
    48
  • awr报告 解读_且听AWR之父解读AWR报告

    awr报告 解读_且听AWR之父解读AWR报告原标题 且听 AWR 之父解读 AWR 报告 AWR 报告是数据库性能评估和优化的重要参考 将数据库的问题已量化的形式展现出来 给 DBA 带来了很多便利 然而 AWR 中的内容是非常多的 如何才能以最佳的方式解读 AWR 报告 最高效地找出数据库的性能问题所在呢 在刚刚过去的 OOW2017 大会上 AWR 之父 Graham 做了一个主题分享 名为 AWRAnalysisf Developersan

    2025年9月5日
    6
  • phpstorm2020激活码【在线破解激活】

    phpstorm2020激活码【在线破解激活】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月16日
    115
  • java单例模式有什么用_java单例模式代码实现

    java单例模式有什么用_java单例模式代码实现Java的单例实现方式经典:懒汉式、饿汉式、双重检测锁关键:私有化构造方法通过方法去获取单例对象懒汉(调用时再去初始化)、饿汉(直接初始化)Demo://饿汉式publicclassDemo1{privatestaticDemo1demo1=newDemo1();privateDemo1(){sout(“初始化”);}publicstaticDemo1getInstance(){returndemo1;}

    2022年8月11日
    5
  • MD5加密概述,原理及实现

    MD5加密概述,原理及实现MD5概述:MD5消息摘要算法,属Hash算法一类。MD5算法对输入任意长度的消息进行运行,产生一个128位的消息摘要(32位的数字字母混合码)。MD5主要特点:不可逆,相同数据的MD5值肯定一样,不同数据的MD5值不一样(一个MD5理论上的确是可能对应无数多个原文的,因为MD5是有限多个的而原文可以是无数多个。比如主流使用的MD5将任意长度的“字节串映射为一个128bit的大整数…

    2022年7月11日
    23
  • Java线程(二):线程同步synchronized和volatile

    Java线程(二):线程同步synchronized和volatile要说明线程同步问题首先要说明Java线程的两个特性,可见性和有序性。多个线程之间是不能直接传递数据交互的,它们之间的交互只能通过共享变量来实现。拿上篇博文中的例子来说明,在多个线程之间共享了Count类的一个对象,这个对象是被创建在主内存(堆内存)中,每个线程都有自己的工作内存(线程栈),工作内存存储了主内存Count对象的一个副本,当线程操作Count对象时,首先从主内存复制Co…

    2022年7月15日
    16

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号