LDA主题模型及python实现

全栈程序员-站长 • 2026年3月19日上午7:54 • 未分类 • 阅读 2

LDA主题模型及python实现LDA LatentDirich 中文翻译为潜在狄利克雷分布 LDA 主题模型是一种文档生成模型是一种非监督机器学习技术它认为一篇文档是有多个主题的而每个主题又对应着不同的词一篇文档的构造过程首先是以一定的概率选择某个主题然后再在这个主题下以一定的概率选出某一个词这样就生成了这篇文档的第一个词不断重复这个过程就生成了整篇文章当然这里假定词与词之间是

LDA(Latent Dirichlet Allocation)中文翻译为：潜在狄利克雷分布。LDA主题模型是一种文档生成模型，是一种非监督机器学习技术。它认为一篇文档是有多个主题的，而每个主题又对应着不同的词。一篇文档的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某一个词，这样就生成了这篇文档的第一个词。不断重复这个过程，就生成了整篇文章（当然这里假定词与词之间是没有顺序的，即所有词无序的堆放在一个大袋子中，称之为词袋，这种方式可以使算法相对简化一些）。

LDA的使用是上述文档生成过程的逆过程，即根据一篇得到的文档，去寻找出这篇文档的主题，以及这些主题所对应的词。LDA是NLP领域一个非常重要的非监督算法。

1 LDA主题模型

假设我们有 $M$ 篇文档，对应第 $d$ 个文档中有有 $N_d$ 个词。即输入为如下图：
LDA主题模型及python实现

我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布。

在LDA模型中，我们需要先假定一个主题数 $K$ ，这样所有的分布就都基于 $K$ 个主题展开。那么具体LDA模型是怎么样的呢？具体如下图：
LDA主题模型及python实现

LDA假设文档主题的先验分布是Dirichlet分布，即对于任一文档 $d$ , 其主题分布 $θ_d$ 为：
$\theta_d = Dirichlet(\vec \alpha)$

其中， $α$ 为分布的超参数，是一个 $K$ 维向量。

LDA假设主题中词的先验分布是Dirichlet分布，即对于任一主题 $k$ , 其词分布 $β_k$ 为：
$\beta_k= Dirichlet(\vec \eta)$

其中， $η$ 为分布的超参数，是一个 $V$ 维向量。 $V$ 代表词汇表里所有词的个数。

对于数据中任意一篇文档 $d$ 中的第 $n$ 个词，我们可以从主题分布 $θ_d$ 中得到它的主题编号 $z_{dn}$ 的分布为：
$z_{dn} = multi(\theta_d)$

而对于该主题编号，得到我们看到的词 $w_{dn}$ 的概率分布为：
$w_{dn} = multi(\beta_{z_{dn}})$

理解LDA主题模型的主要任务就是理解上面的这个模型。这个模型里，我们有 $M$ 个文档主题的Dirichlet分布，而对应的数据有 $M$ 个主题编号的多项分布，这样( $\alpha \to \theta_d \to \vec z_{d}$ )就组成了Dirichlet-multi共轭，可以使用贝叶斯推断的方法得到基于Dirichlet分布的文档主题后验分布。

如果在第 $d$ 个文档中，第 $k$ 个主题的词的个数为： $n_d^{(k)}$ , 则对应的多项分布的计数可以表示为:
$\vec n_d = (n_d^{(1)}, n_d^{(2)},…n_d^{(K)})$

利用Dirichlet-multi共轭，得到 $θ_d$ 的后验分布为：
$Dirichlet(\theta_d | \vec \alpha + \vec n_d)$

同样的道理，对于主题与词的分布，我们有KK个主题与词的Dirichlet分布，而对应的数据有 $K$ 个主题编号的多项分布，这样( $\eta \to \beta_k \to \vec w_{(k)}$ )就组成了Dirichlet-multi共轭，可以使用贝叶斯推断的方法得到基于Dirichlet分布的主题词的后验分布。

如果在第 $k$ 个主题中，第 $v$ 个词的个数为： $n_k^{(v)}$ , 则对应的多项分布的计数可以表示为
$\vec n_k = (n_k^{(1)}, n_k^{(2)},…n_k^{(V)})$

利用Dirichlet-multi共轭，得到 $β_k$ 的后验分布为：
$Dirichlet(\beta_k | \vec \eta+ \vec n_k)$

由于主题产生词不依赖具体某一个文档，因此文档主题分布和主题词分布是独立的。理解了上面这 $M + K$ 组Dirichlet-multi共轭，就理解了LDA的基本原理了。

2 Sklearn实现LDA模型

sklearn.decomposition.LatentDirichletAllocation包中，其算法实现基于EM算法。

11个参数，在实际的应用中，我们需要对 $K$ , $α$ , $η$ 进行调参。

如果learning_method使用”batch”算法，则需要注意的参数较少。

如果用”online”,注意”learning_decay”, “learning_offset”，“total_samples”和“batch_size”等参数。

无论是”batch”还是”online”, n_topics( $K$ ), doc_topic_prior( $α$ ), topic_word_prior( $η$ )都要注意。如果没有先验知识，则主要关注与主题数 $K$ 。可以说，主题数 $K$ 是LDA主题模型最重要的超参数。

 1) n_topics: 即我们的隐含主题数K,需要调参。KK的大小取决于我们对主题划分的需求，比如我们只需要类似区分是动物，植物，还是非生物这样的粗粒度需求，那么K值可以取的很小，个位数即可。如果我们的目标是类似区分不同的动物以及不同的植物，不同的非生物这样的细粒度需求，则KK值需要取的很大，比如上千上万。此时要求我们的训练文档数量要非常的多。 　　　　2) doc_topic_prior:即我们的文档主题先验Dirichlet分布θd的参数α。一般如果我们没有主题分布的先验知识，可以使用默认值1/K。 　　　　3) topic_word_prior:即我们的主题词先验Dirichlet分布βk的参数η。一般如果我们没有主题分布的先验知识，可以使用默认值1/K。 　　　　4) learning_method: 即LDA的求解算法。有 ‘batch’ 和 ‘online’两种选择。 ‘batch’即我们在原理篇讲的变分推断EM算法，而"online"即在线变分推断EM算法，在"batch"的基础上引入了分步训练，将训练样本分批，逐步一批批的用样本更新主题词分布的算法。默认是"online"。选择了‘online’则我们可以在训练时使用partial_fit函数分布训练。不过在scikit-learn 0.20版本中默认算法会改回到"batch"。建议样本量不大只是用来学习的话用"batch"比较好，这样可以少很多参数要调。而样本太多太大的话，"online"则是首先了。 　　　　5）learning_decay：仅仅在算法使用"online"时有意义，取值最好在(0.5, 1.0]，以保证"online"算法渐进的收敛。主要控制"online"算法的学习率，默认是0.7。一般不用修改这个参数。 　　　　6）learning_offset：仅仅在算法使用"online"时有意义，取值要大于1。用来减小前面训练样本批次对最终模型的影响。 　　　　7） max_iter ：EM算法的最大迭代次数。 　　　　8）total_samples：仅仅在算法使用"online"时有意义， 即分步训练时每一批文档样本的数量。在使用partial_fit函数时需要。 　　　　9）batch_size: 仅仅在算法使用"online"时有意义， 即每次EM算法迭代时使用的文档样本的数量。 　　　　10）mean_change_tol :即E步更新变分参数的阈值，所有变分参数更新小于阈值则E步结束，转入M步。一般不用修改默认值。 　　　　11） max_doc_update_iter: 即E步更新变分参数的最大迭代次数，如果E步迭代次数达到阈值，则转入M步。

# 沙瑞金不分开 jieba.suggest_freq('沙瑞金', True)

# -*- coding: utf-8 -*- import jieba for i in range(3): with open('./doc%d.txt'%(i+1), 'r', encoding="utf-8") as f1: document = f1.read() document_cut = jieba.cut(document) result = ' '.join(document_cut) print(result) f1.close() with open('./result%d.txt'%(i+1), 'w', encoding="utf-8") as f2: f2.write(result) f2.close()

# 处理停用词 with open('./ChineseStopWords.txt', 'r', encoding="utf-8") as f: line = f.read() line = line.split('","') f.close() file_object = open('./stopwords.txt', 'w', encoding="utf-8") for i in range(len(line)): file_object.write(line[i] + '\n') file_object.close() with open('./stopwords.txt', 'r', encoding="utf-8") as f: lines = f.readlines() f.close() stopwords = [] for l in lines: stopwords.append(l.strip()) print(stopwords)

# 加载三个文件 with open('./result1.txt', 'r', encoding="utf-8") as f: res1 = f.read() f.close() with open('./result2.txt', 'r', encoding="utf-8") as f: res2 = f.read() f.close() with open('./result3.txt', 'r', encoding="utf-8") as f: res3 = f.read() f.close()

# 接着我们要把词转化为词频向量，注意由于LDA是基于词频统计的，因此一般不用TF-IDF来做文档特征。 from sklearn.feature_extraction.text import CountVectorizer corpus = [res1,res2,res3] cntVector = CountVectorizer(stop_words=stopwords) cntTf = cntVector.fit_transform(corpus) print(cntTf)

# 输出即为所有文档中各个词的词频向量。有了这个词频向量，我们就可以来做LDA主题模型了，选择主题数K=3 from sklearn.decomposition import LatentDirichletAllocation lda = LatentDirichletAllocation(n_topics=3, max_iter=5, learning_method='online', learning_offset=50., random_state=0) docres = lda.fit_transform(cntTf)

# 通过fit_transform函数，我们就可以得到文档的主题模型分布在docres中。而主题词分布则在lda.components_中。 print(docres)# 文档一属于主题三，文档二属于主题一，文档三属于主题二 print(lda.components_)

# 注意由于LDA是基于词频统计的，因此一般不用TF-IDF来做文档特征。 from sklearn.feature_extraction.text import TfidfVectorizer with open('./result1.txt', 'r', encoding="utf-8") as f: res1 = f.read() f.close() with open('./result2.txt', 'r', encoding="utf-8") as f: res2 = f.read() f.close() with open('./result3.txt', 'r', encoding="utf-8") as f: res3 = f.read() f.close() vector = TfidfVectorizer(stop_words=stopwords) tfidf = vector.fit_transform([res1,res2,res3]) print(tfidf) wordlist = vector.get_feature_names()#获取词袋模型中的所有词 #print(wordlist) # tf-idf矩阵 元素a[i][j]表示j词在i类文本中的tf-idf权重 weightlist = tfidf.toarray() #print(len(weightlist[0])) #print(len(weightlist[0])) #print(len(weightlist[0])) #print(weightlist) #打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重 print("-------第res1段文本的词语tf-idf权重------" ) for j in range(len(wordlist)): if wordlist[j] in res1: print(wordlist[j],weightlist[0][j]) print("-------第res2段文本的词语tf-idf权重------" ) for j in range(len(wordlist)): if wordlist[j] in res2: print(wordlist[j],weightlist[1][j]) print("-------第res3段文本的词语tf-idf权重------" ) for j in range(len(wordlist)): if wordlist[j] in res3: print(wordlist[j],weightlist[2][j])

from sklearn.decomposition import LatentDirichletAllocation lda = LatentDirichletAllocation(n_topics=3, max_iter=5, learning_method='online', learning_offset=50., random_state=0) docres = lda.fit_transform(tfidf) print(docres)

代码和数据可以去我的资源页下载

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/210290.html原文链接：https://javaforall.net

python 主题

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

RRC idle 和RRC connect

上一篇 2026年3月19日上午7:53

route命令linux详解,route命令详解-linux运维

下一篇 2026年3月19日上午7:54

大数据平台架构设计

大数据平台架构设计大数据架构大数据架构如下图 1 通过 ETL 工具将数据源抽取到 HDFS 存储 2 通过 Hive 清洗处理和计算原始数据 3 Hive 清洗处理后的结果如果是面向海量数据随机查询场景的可存入 Hbase 4 数据应用从 HBase 查询数据大数据架构实例 1 如下图大数据架构实例 2 如下图大数据架构实例 3 如下图大数据架构实例 4 如下图大数据架构实例 5 大数据架构实例 6 一场景 1 数据源主要为 M

全栈程序员-站长
2026年3月17日
2
有向无环图表示算术表达式

有向无环图表示算术表达式转载自 linkun 的博客题目描述用有向无环图描述表达式 A B A B A 至少需要顶点的数目为几个分析先画出算术表达式 A B A B A 的二叉树表示 A B A B A 有重复的子表达式 A B 二叉树中可实现对子表达式的共享所以相同的叶子节点可以共用所以至少需要五个顶点 A B 各一个

全栈程序员-站长
2025年9月23日
5
Pycharm切换Anaconda配置的python虚拟环境

Pycharm切换Anaconda配置的python虚拟环境Pycharm 切换 Anaconda 配置的 python 虚拟环境文章目录 Pycharm 切换 Anaconda 配置的 python 虚拟环境操作步骤具体实现截图操作步骤先找出 python 安装的位置包括原始的和 Anaconda 创建的虚拟环境找到 python exe 程序将 python exe 添加到 pycharm 的 ProjectInter 中具体实现截图 1 查找之前安装的 python exe 位置方法在 dos 命名中输入 whereispytho Anaconda 中默认的 pytho

全栈程序员-站长
2026年3月27日
1
五个步骤教你数据清洗_数据仓库ods层

五个步骤教你数据清洗_数据仓库ods层关于ODS层是否做数据清洗一直是存在争议的，但有一点是可以确定的，对于比较重的清洗工作是要留到后面数仓的ETL过程中进行处理。但是，有这么一种情况：我们在长期的生产实际过程中，发现部分已知的数据问题的处理可以通过自动化的方式来处理，这种方式通常在数据入库之前，做额外的加工处理后再做入库操作。数据清洗的主要工作是处理那些不符合要求的数据，从而提升数据质量，比如一些常见的问题：错误的数据、重复的数据错误的数据这种错误通常是业务系统处理不够健全造成的，比如字符串数据后面有回车空格、日期格式不正确、日期

全栈程序员-站长
2022年10月5日
4
网站seo如何优化效果好_网站seo运营

网站seo如何优化效果好_网站seo运营有些人会觉得，营销型网站不用做优化了，这是一个误区。就像不是所有有商城网站的公司都是电子商务公司一样，不是营销型网站就一定营销做得很好不需要优化。营销型网站优化是对营销型网站进行程序、内容、版块、布局等多方面的优化调整，也就是搜索互联网站设计时适合搜索引擎检索，满足搜索引擎排名的指标，从而在搜索引擎检索中获得NNT流量排名靠前，增强搜索引擎营销的效果使营销型网站的产品相关的关键词能有好的排位。使营…

全栈程序员-站长
2025年11月20日
7
Agent

ottomator-agents核心架构揭秘：从单智能体到多智能体协作的实现

ottomator-agents核心架构揭秘：从单智能体到多智能体协作的实现

全栈程序员-站长
2026年3月16日
3

LDA主题模型及python实现

1 LDA主题模型

2 Sklearn实现LDA模型

关于作者

全栈程序员-站长

相关推荐

大数据平台架构设计

有向无环图表示算术表达式

Pycharm切换Anaconda配置的python虚拟环境

五个步骤教你数据清洗_数据仓库ods层

网站seo如何优化效果好_网站seo运营

ottomator-agents核心架构揭秘：从单智能体到多智能体协作的实现

发表回复