Sklearn库计算TFIDF

全栈程序员-站长 • 2022年10月10日下午4:00 • 未分类 • 阅读 4

Sklearn库计算TFIDFSklearn库计算TFIDF贴代码fromsklearn.feature_extraction.textimportCountVectorizer,TfidfTransformer#定义函数defTF_IDF(corpus):vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值x=vectorizer.fit_tr

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

Sklearn库计算TFIDF

贴代码

from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
# 定义函数
def TF_IDF(corpus):
    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵
    transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值
    x = vectorizer.fit_transform(corpus)
    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵
    word=vectorizer.get_feature_names()#获取词袋模型中的所有词语
    word_location = vectorizer.vocabulary_  # 词的位置
    weight=tfidf.toarray()#tf-idf权重矩阵
    return weight,word_location,x.toarray()

# 调用函数
# 这里做分词，使用空格隔开
corpus = [
            '我 来到 北京 清华大学',
            '他 来到 了 中国',
            '小明 硕士 毕业 与 中国 科学院',
            '我 爱 北京 天安门'
           ]
weight,word_location,tf = TF_IDF(corpus)
print(weight)
print(word_location)
print(tf)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/183512.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

计算机发展史较为重大的事件,图说：15件计算机发展史中的重大事件(7)

上一篇 2022年10月10日下午4:00

集群分为几种，用的软件分别是什么?[通俗易懂]

下一篇 2022年10月10日下午4:00

Midjourney

即梦AI赛博朋克风格生成教程

即梦AI赛博朋克风格生成教程

全栈程序员-站长
2026年3月13日
3
ManagementObject 中WMI的一些参数(Win32_NetworkAdapterConfiguration)

ManagementObject 中WMI的一些参数(Win32_NetworkAdapterConfiguration)TheWin32_NetworkAdapterConfigurationclasshasthefollowingproperties.ArpAlwaysSourceRouteDatatype:booleanAccesstype:Read-only IfTRUE,TCP/IPtransmitsAddressResolutionProtocol(ARP

全栈程序员-站长
2022年10月2日
9
n8n

拆解Manus：沙盒架构深度解析

拆解Manus：沙盒架构深度解析

全栈程序员-站长
2026年3月15日
3
PyCharm的搜索/替换快捷键[通俗易懂]

PyCharm的搜索/替换快捷键[通俗易懂]查找：Ctrl+F替换：Ctrl+R查找是Find，替换是Replace。

全栈程序员-站长
2022年5月18日
274
矩阵卷积运算的具体过程，很简单

矩阵卷积运算的具体过程，很简单最近在看图像处理卷积运算这一块也查了很多但是感觉都写的太复杂我这里简单的写一下卷积到底是一个什么计算过程假设有一个卷积核 h 就一般为 3 3 的矩阵有一个待处理矩阵 x h x 的计算过程分为三步第一步将卷积核翻转 180 也就是成为了第二步将卷积核 h 的中心对准 x 的第一个元素然后对应元素相乘后相加没有元素的地方补 0 这样结果 Y 中的第一个元素值 Y11

全栈程序员-站长
2026年3月19日
1
spring事务隔离级别、传播机制以及简单配置_mysql查看事务隔离级别

spring事务隔离级别、传播机制以及简单配置_mysql查看事务隔离级别org.springframework.transactionpublicinterfaceTransactionDefinition定义符合Spring的事务属性的接口。基于类似于EJBCMT属性的传播行为定义。‎‎注意，除非启动实际的新事务，否则不会应用隔离级别和超时设置。‎‎仅‎PROPAGATION_REQUIRED,PROPAGATION_REQUIRES_NEWandPROPAGATION_NESTED‎可能导致这种情况，在其他情况下指定这些设置通常没有意义。此外

全栈程序员-站长
2022年8月30日
4

发表回复

关注全栈程序员社区公众号