nmf java_NMF & pLSA[通俗易懂]

全栈程序员-站长 • 2022年6月29日下午12:00 • 未分类 • 阅读 40

nmf java_NMF & pLSA[通俗易懂]今天在围脖中看到自动化所刘康的围脖中给了一个关于NMF和pLSA对比分析的链接http://ezcodesample.com/plsaidiots/NMFPLSA.html，大体读了一下，下面用中文对文中的思想重新解释，版权归原作者AndrewPolar。一、名词解释(1)NMF,nonnegativematrixfactorization，直观理解即非负矩阵分解，通常用于矩阵填充，推荐系…

大家好，又见面了，我是你们的朋友全栈君。

今天在围脖中看到自动化所刘康的围脖中给了一个关于NMF和pLSA对比分析的链接http://ezcodesample.com/plsaidiots/NMFPLSA.html，大体读了一下，下面用中文对文中的思想重新解释，版权归原作者Andrew Polar。

一、名词解释

(1)NMF, nonnegative matrix factorization，直观理解即非负矩阵分解，通常用于矩阵填充，推荐系统等。贡献较大的几位学者有Chris Ding，Daniel D. Le等，还有大陆浙江大学的Deng Cai和Xiaofei He等，还有台湾学者Chih-Jen Lin等。其严格的数学定义如下(1)所示，(1)中”*”范数通常取L2。

(1)

(2)pLSA, probabilistic latent semantic analysis，带概率的潜在语义模型，是Topic model家族中重要一员，其实质是一个生成模型，主要用于文档分类。它假设一篇文章中的词汇生成过程是这样的：文档d中包含有若干个以一定概率p(z)分布的topic，每个词汇w的生成有相应的概率p(w|z)决定。文档d和词汇w的联合概率分布如下(2)所示。

(2)

二、NMF和pLSA的对比分析

链接中对NMF和pLSA的比较是放在文档分类处理的背景下的。假设一批文档可以被分成若干个类别，由于这里是通过关键字来描述文档，同时也通过关键字来描述类别，根据实际经验，描述不同类别会有不同的关键字结合。比如描述大学文化，通常选课，逃课，挂科，恋爱，搞基等词出现的频率会相对较高，描述民生中蜗居，房价，医疗，死猪，雾霾等词汇出现比较频繁。文档分类的结果就是求文档所属的类别或者文档所属各类别的概率。

利用NMF进行文档分类的时候，首先已知文档的document-word矩阵N，其中N(i,j)表示词汇j在文档i中的出现频数。将文档N分解为W*H，其中W为document-category矩阵，H为category-word矩阵，W的行和H的行是归一化的。从概率的观点看，W(i,j)表达的物理含义想的那个鱼p(z|d)，H(i,j)表达的物理含义是p(w|z)，(W*H)(i,j)表达的就是p(w|d)。为了估计W和H，采用最大似然估计，假设各个词汇出现是相互独立的，似然函数取对数如下(3)所示。

(3)

对于函数(4)，

(4)

可以知道在r>=0时，f是一个凸函数，当pi=ri/(r1+r2+…rN)时f取得最大值。同理，在(3)中，

，所以当N(i,j)=(WH)(i,j)时，L取得最大似然。即说明了非负矩阵分解N≈WH其背后的概率解释是最大话似然(3)。

再来看看pLSA方法，通过上面的名词解释(2)知道，pLSA的概率图模型如下所示。

其对应的全概率表示为p(d,z,w)=p(d)*p(z|d)*p(w|z)，其中d表示文档，z表示类别，w表示词汇。通过变换易知，p(d,w|z)=p(d|z)p(w|z)，故上图所表示的条件独立也可以等价用下图表达，对应的全概率为p(d,z,w)=p(z)*p(d|z)*p(w|z)。

pLSa优化的似然函数为(5)，

(5)

参数估计的方法EM算法，

通过上述分析，我们可以从(3)(5)看到NMF和pLSA的相似性，同时，由于各自不同的特点，所采取的优化算法有所不同，一个是从纯粹线性代数的方式，一个是从概率参数估计EM算法出发。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/148215.html原文链接：https://javaforall.net

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

linux卸载mysql（完全卸载）[通俗易懂]

上一篇 2022年6月29日上午11:46

ＶＢＳｃｒｉｐｔ经典教程以及函数手册

下一篇 2022年6月29日下午12:00

kafka性能测试、性能分析与性能调优[通俗易懂]

kafka性能测试、性能分析与性能调优[通俗易懂]前言：最近在做kafka、mq、redis、fink、kudu等在中间件性能压测，压测kafka的时候参考了这篇文章，大家可以借鉴下！一、测试环境测试使用到三台机器，机器配置如下：共同配置：Intel®Core™i7-7700CPU@3.60GHz、Cores:4、Threads:232GB内存1000Mb/sec网卡差异化配置2TB、7200rpm、SATA3.1,6.0Gb/s(current:6.0Gb/s)1TB、7200rpm、SATA3.1,6.0Gb

全栈程序员-站长
2022年5月27日
46
idea

IDEA控制台乱码问题,原因&解决方式,解决不了算我输

IDEA控制台乱码问题,原因&解决方式,解决不了算我输IDEA 控制台乱码问题文章目录 IDEA 控制台乱码问题首先总结下网上大多编码问题解决方式乱码原因解决方式我为什么推荐控制台使用 GBK 我的编码设置思想第一种解决方案的弊端 end 关于这个乱码问题网上的解决方法大同小异但是即便你照着网上配置完之后也未必能够解决控制台乱码问题接下来由我从乱码角度来分析乱码问题让大家确保能够解决乱码问题首先总结下网上大多编码问题解决方式 IDEA 启动参数 IDEA 是使用 java 做的 IDEA 安装路径下 ideaIU 2019 3 3 w

全栈程序员-站长
2026年3月20日
1
用代码制作一个爱心表白_简单的代码表白跳动的爱心

用代码制作一个爱心表白_简单的代码表白跳动的爱心/*爱心代码：*/#include<stdio.h>#include<math.h>#include<windows.h>#include<time.h>#defineU0.1#defineV0.053voidSetColor(unsignedshortForeColor,unsignedshortBackGroundColor){HANDLEhCon=GetStdHandle(STD_OUTPUT_HANDL…

全栈程序员-站长
2022年8月31日
5
mysql的可视化工具_Mysql可视化工具Navicat的基本使用

mysql的可视化工具_Mysql可视化工具Navicat的基本使用一、写在前面的话相信大多数php初学者刚学习mysql的时候，应该都是在cmd黑窗口中进行一些基本sql的增删改查操作，但是在企业中几乎不会在黑窗口环境中进行sql的编写，主要有两点原因：1.界面不友好(虽然有点逼格)2.容易造成数据的误删除(不像女朋友没了可以再找)，下面就给大家介绍mysql可视化工具navicat的常用的操作。至于怎么安装navicat相信大家都会，基本一路next，然后选…

全栈程序员-站长
2025年7月23日
4
javascript trim_stripslashes()函数的作用

javascript trim_stripslashes()函数的作用[code="java"]通过PHP验证表单数据我们要做的第一件事是通过PHP的htmlspecialchars()函数传递所有变量。在我们使用htmlspecialchars()函数后，如果用户试图在文本字段中提交以下内容：location.href(‘http://www.hacked.com’)-代码不会执行，因为会被保存为转义代码，就像这样：&…

全栈程序员-站长
2022年8月30日
6
搜索引擎自动提交连接php文件,死链检测工具（自动提交给百度，逆天了）

搜索引擎自动提交连接php文件,死链检测工具（自动提交给百度，逆天了）每个网站都避免不了404死链的存在。造成死链的原因有很多，比如说文章页被删除、链接被修改、网页链接更换存储路径等，这些都会成为死链。这些死链的产生，降低了搜索引擎对网站的友好度、影响用户体验，甚至会导致网站排名下降等。刚操作MAY博客的时候，文章的内容不是很多，遇到死链，只是简单的手动一个个去站长平台提交。但随着文章及页面的不断增加，一个个手动去操作，是不是麻烦了些。咦，是否能借助死链检测工具，自…

全栈程序员-站长
2022年7月23日
14

nmf java_NMF & pLSA[通俗易懂]

关于作者

全栈程序员-站长

相关推荐

kafka性能测试、性能分析与性能调优[通俗易懂]

IDEA控制台乱码问题,原因&解决方式,解决不了算我输

用代码制作一个爱心表白_简单的代码表白跳动的爱心

mysql的可视化工具_Mysql可视化工具Navicat的基本使用

javascript trim_stripslashes()函数的作用

搜索引擎自动提交连接php文件,死链检测工具（自动提交给百度，逆天了）

发表回复