Tfidf使用

Tfidf使用fromsklearn feature extraction textimportTf feature extraction textimportCo feature extraction textimportTf

from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer corpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?', ] tfidf = TfidfVectorizer() re = tfidf.fit(corpus) name = tfidf.get_feature_names() print (re) f = re.transform(['This is the first document.']) score = f.data i = f.indices tfScore = [(name[x[0]],x[1]) for x in zip(i , score)] print(tfScore) tfScore = sorted(tfScore, key=lambda x: x[1], reverse=False) print(tfScore) print(name) print(f.indices) print(f) print(f.data)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/222547.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午3:33
下一篇 2026年3月17日 下午3:33


相关推荐

  • pycharm离线安装python第三方库的方法

    pycharm离线安装python第三方库的方法1 下载 whl 或者 tar gz 文件 最好放在无中文的路径下 建议放在盘根目录一级目录下 方便后面安装 2 启动 pycharm 点击下部 Terminal 3 在 Terminal 中进入文件下载的目录路径 cd 盘符 下载文件夹路径 a 对于 whl 文件 输入 pyinstallerx whlb 对于 tar gz 文件 解压后 进入该解压文件夹路径 输入 pythonsetup pyinstall

    2026年3月27日
    2
  • 四阶龙格库塔法(Runge-Kutta)求解常微分方程的 Matlab程序及案例

    四阶龙格库塔法(Runge-Kutta)求解常微分方程的 Matlab程序及案例文章目录 1 算法 2 程序 3 案例 4 联系作者 1 算法上一篇介绍了显式欧拉法 隐式欧拉法 两步欧拉法和改进欧拉法求解常微分方程初值问题 其中显式欧拉法和隐式欧拉法是一阶算法精度 截断误差为 O h2 O left h 2 right O h2 两步欧拉法和改进欧拉法是二阶算法精度 截断误差为 O h3 O left h 3 right O h3 欧拉法的精度有限 需要求解步长 hhh 很小 本篇介绍求解精度更高的四阶龙格库塔法 Runge Kutta 其截断误差为 O h5

    2026年3月19日
    2
  • 保存决策树模型

    保存决策树模型步骤 graphviz 下载地址 https graphviz gitlab io pages Download Download windows html1 安装 graphviz 并设置环境变量 将 graphviz 的 bin 目录加到 PATH2 安装 pydotplus 打开 anacondaprom 输入命令 condainstall cconda forgepydotpl 在 anacondaprom 中 输入命令 pipinstallgr

    2026年3月26日
    1
  • Arm-A53资料「建议收藏」

    2012年10月Cortex-A53推出了市场,它带来了ARMv8指令集,在高能效比、节省面积基础上还有显著的性能提升。目前Cortex-A53已可以授权,ARM多个合作伙伴会在2014年推出相关芯片。开发者、OEM厂商和SoC设计者需要了解的Cortex-A53的几个重要特点如下:1、ARM低功耗/高效率的传承ARM9是ARM历史上授权最多的处理器,有超过250个授权。它树立了一个非常重要的功率/成本平衡的最有效点。基于ARM926的功能手机(Nokia…

    2022年4月13日
    277
  • NTP 协议介绍_什么是UTC协议

    NTP 协议介绍_什么是UTC协议NTP协议NTP(NetworkTimeProtocol,网络时间协议)是由RFC1305定义的时间同步协议,用来在分布式时间服务器和客户端之间进行时间同步。NTP基于UDP报文进行传输,使用的UDP端口号为123。使用NTP的目的是对网络内所有具有时钟的设备进行时钟同步,使网络内所有设备的时钟保持一致,从而使设备能够提供基于统一时间的多种应用。对于运行NTP的本地系统,既可以接收来…

    2022年10月12日
    4
  • 【180609】经典SQL语句大全(CHM)

    【180609】经典SQL语句大全(CHM)收集我们在平时使用SQL时的一些语法语句汇集,比如创建、备份、删除数据库的SQL脚本,这些当然是比较简了,还有复杂点的像备份、创建索引、复合SQL语句、创建视图、高级运算查询、EXCEPT运算符、INTERSECT运算符、使用外连接、SQL分组、复制或拷贝表、在线视图查询、存储过程调用、清理SQL、找重复记录等,另附有一些SQL经典技巧,比如精简SQL语句、压缩数据库、检查备份集、日志清除、数…

    2022年5月19日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号