Sklearn库计算TFIDF

Sklearn库计算TFIDFSklearn库计算TFIDF贴代码fromsklearn.feature_extraction.textimportCountVectorizer,TfidfTransformer#定义函数defTF_IDF(corpus):vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值x=vectorizer.fit_tr

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

Sklearn库计算TFIDF

  • 贴代码
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
# 定义函数
def TF_IDF(corpus):
    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵
    transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值
    x = vectorizer.fit_transform(corpus)
    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf,第二个fit_transform是将文本转为词频矩阵
    word=vectorizer.get_feature_names()#获取词袋模型中的所有词语
    word_location = vectorizer.vocabulary_  # 词的位置
    weight=tfidf.toarray()#tf-idf权重矩阵
    return weight,word_location,x.toarray()
# 调用函数
# 这里做分词,使用空格隔开
corpus = [
            '我 来到 北京 清华大学',
            '他 来到 了 中国',
            '小明 硕士 毕业 与 中国 科学院',
            '我 爱 北京 天安门'
           ]
weight,word_location,tf = TF_IDF(corpus)
print(weight)
print(word_location)
print(tf)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183512.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mac idea2021永久激活码【中文破解版】

    (mac idea2021永久激活码)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年3月25日
    163
  • uboot之—make smdk2410_config命令详细解析

    uboot之—make smdk2410_config命令详细解析

    2022年2月22日
    43
  • 双线性插值算法详解并用matlab实现「建议收藏」

    双线性插值算法详解并用matlab实现「建议收藏」参考:https://blog.csdn.net/huang1024rui/article/details/46545329数字图像处理双线性插值算法介绍双线性插值法又称为二次线性插值法。在传统的插值算法中,它的插值效果比nearest插值法要好的多,但是速度上也必然会慢很多,比bicubic(二次立方法)效果要差,但速度上要优于bicubic。它主要思想就是利用某像…

    2022年6月11日
    34
  • android开发笔记之SwipeRefreshLayout

    android开发笔记之SwipeRefreshLayoutSwipeRefreshLayout简介SwipeRefrshLayout是Google官方更新的一个控件,可以实现下拉刷新的效果,该控件集成自ViewGroup在support-v4兼容包下.在android源码中,主要是在联系人界面刷新联系人数据:packages/apps/Contacts/src/com/android/contacts/list/DefaultContactBrow…

    2022年6月25日
    29
  • java二维数组的创建,java二维数组创建方法

    java二维数组的创建,java二维数组创建方法java动态创建二维数组,从零学java笔录-第31篇图解二位数组在内存中存储,java二维数组动态赋值,java二维数组创建方法二维数组的定义typearrayName[][];type[][]arrayNameJava二维数组的声明、初始化和引用二维数组的声明、初始化和引用与一维数组相似,这里不再详……java定义二维数组的几种写法_计算机软件及应用_IT/计算…

    2022年6月10日
    46
  • Hadoop生态圈一览

    Hadoop生态圈一览根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解。这是Hadoop生态从Google的三篇论文开始的发展历程,现已经发展成为一个生态体系,并还在蓬勃发展中….这是官网上的Hadoop生态图,包含了大部分常用到的Hadoop相关工具软件这是以体系从下到上…

    2022年5月21日
    81

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号