Sklearn库计算TFIDF

Sklearn库计算TFIDFSklearn库计算TFIDF贴代码fromsklearn.feature_extraction.textimportCountVectorizer,TfidfTransformer#定义函数defTF_IDF(corpus):vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值x=vectorizer.fit_tr

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

Sklearn库计算TFIDF

  • 贴代码
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
# 定义函数
def TF_IDF(corpus):
    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵
    transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值
    x = vectorizer.fit_transform(corpus)
    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf,第二个fit_transform是将文本转为词频矩阵
    word=vectorizer.get_feature_names()#获取词袋模型中的所有词语
    word_location = vectorizer.vocabulary_  # 词的位置
    weight=tfidf.toarray()#tf-idf权重矩阵
    return weight,word_location,x.toarray()
# 调用函数
# 这里做分词,使用空格隔开
corpus = [
            '我 来到 北京 清华大学',
            '他 来到 了 中国',
            '小明 硕士 毕业 与 中国 科学院',
            '我 爱 北京 天安门'
           ]
weight,word_location,tf = TF_IDF(corpus)
print(weight)
print(word_location)
print(tf)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183512.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • .NET中pdb文件的作用是什么「建议收藏」

    .NET中pdb文件的作用是什么「建议收藏」.PDB是ProgramDatabase的缩写,全称为“程序数据库”文件。我们使用它(更确切的说是看到它被应用)大多数场景是调试应用程序。目前我们对.PDB文件的普遍认知是它存储了被编译文件的调试信息,作为符号文件存在。 PDB文件寻路 如果我们观察VS启动调试加载模块和符号文件的过程,会发现它通常会从可执行文件或者DLL文件的相同目录中加载符号文件。这正是调试器寻找PDB文件的

    2022年5月5日
    113
  • python interpolate.interp1d_我如何使用scipy.interpolate.interp1d使用相同的X数组插值多个Y数组?…

    python interpolate.interp1d_我如何使用scipy.interpolate.interp1d使用相同的X数组插值多个Y数组?…例如,我有一个二维数据数组,其中一个维度上带有误差条,如下所示:In[1]:numpyasnpIn[2]:x=np.linspace(0,10,5)In[3]:y=np.sin(x)In[4]:y_er=(np.random.random(len(x))-0.5)*0.1In[5]:data=np.vstack([x,y,y_er]).TIn[6]:da…

    2022年6月1日
    33
  • Web 安全工具篇:Burp Suite 使用指南

    Web 安全工具篇:Burp Suite 使用指南本文来自作者肖志华在GitChat上分享「Web安全工具篇:BurpSuite使用指南」,「阅读原文」查看交流实录。「文末高能」编辑|哈比前提声明:此次Gitchat分享所写,只作为教学使用,本课具有一定的危险性,对本文所出现的教程内容读者在进行安全评估和渗透测试的途中需要取得授权,非法测试所造成的结果作者(rNma0y)不承担任何法律责任。BurpSuite尖端的网络

    2022年5月8日
    59
  • 补码、二进制的减法

    补码、二进制的减法有关二进制的负数及减法运算二进制数表示方法:原码反码补码二进制减法运算法则:**二进制数表示方法:**无符号二进制数(正数)(8位)(能够表示的十进制数范围0-255)举例:10(8’b0000_1010)100(8’b0110_0100)255(8’b1111_1111)有符号二进制数(正数负数)(8位)(能够表示的十进制数范围-128~127)举例…

    2022年6月18日
    28
  • 为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?

    为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。一、事件起因关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看…

    2022年10月20日
    0
  • numpy 数组拼接方法

    numpy 数组拼接方法参考:https://blog.csdn.net/zyl1042635242/article/details/43162031方法一:转为list,使用“+”,append()或者extend()可做简单的拼接。不过要注意一些小问题,如下图:方法二:使用numpy提供的函数-append(arr,values,axis=None)不能对三个或者三个以上数组…

    2022年5月7日
    48

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号