Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107496.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月2日 下午10:35
下一篇 2022年4月2日 下午10:35


相关推荐

  • 笛卡尔积简单介绍「建议收藏」

    笛卡尔积简单介绍「建议收藏」title:简单介绍笛卡尔积date:2020-10-1320:26:18tags:“离散数学????”categories:“2020/10”简介这个博客参考左孝陵先生的《离散数学》,会尽量简单的讲讲笛卡尔积,能够给大家一个更加具体的认识。什么是序偶要知道什么是序偶,先得弄明白序偶的作用,我觉得序偶就是带顺序的集合,用来表示一些集合表示不了的东西。比如在小学学的直角坐标系上,有两个点,(2,3)和(3,2),点的坐标就是序偶,因为它自带顺序,为什么每次一个点都先读x坐标再读y坐标

    2022年7月11日
    24
  • testDirector如何对软件测试过程进行管理

    testDirector如何对软件测试过程进行管理需求管理定义测试范围定义需求树描述需求树的功能测试计划定义测试目标和测试策略分解应用程序 建立测试计划树确定每个功能点的测试方法将每个功能点连接到需求上 使测试计划覆盖全部的测试需求描述手工测试的测试步骤指明需要进行自动测试的功能点测试执行定义测试集合为每个测试人员制定测试任务和测试日程安排运行自动测试缺陷跟踪记录缺陷查看新增缺陷 并确定哪些是需要修正的

    2026年3月18日
    2
  • stm32中adc的讲解_stc单片机adc应用实例

    stm32中adc的讲解_stc单片机adc应用实例文章目录ADC简介ADC功能框图讲解ADC简介STM32f103系列有3个ADC,精度为12位,每个ADC最多有16个外部通道。其中ADC1和ADC2都有16个外部通道,ADC3一般有8个外部通道,各通道的A/D转换可以单次、连续、扫描或间断执行,ADC转换的结果可以左对齐或右对齐储存在16位数据寄存器中。ADC的输入时钟不得超过14MHz,其时钟频率由PCLK2分频产生。ADC功能框图讲解…

    2022年5月3日
    42
  • delphi 多线程详解及其详解例子

    delphi 多线程详解及其详解例子在了解多线程之前我们先了解一下进程和线程的关系一个程序至少有一个主进程 一个进程至少有一个线程 为了保证线程的安全性请大家看看下面介绍 nbsp Delphi 多线程同步的一些处理方案大家可以参考 http www cr173 com html 16747 1 html 主线程又程为 UI 线程 进程和线程的主要差别在于它们是不同的操作系统资源管理方式 进程有独立的地址空间 一个

    2026年3月19日
    3
  • 怎样选择一个好的虚拟主机

    怎样选择一个好的虚拟主机

    2021年9月22日
    48
  • ES7新特性

    ES7新特性文章目录 ES7 新特性 Array prototype includes 指数操作符 ES7 新特性 Array prototype includesincl 方法用来检测数组中是否包含某个元素 返回布尔类型值指数操作符在 ES7 中引入指数运算符 用来实现幂运算 功能与 Math pow 结果相同 constmingzhu 西游记 红楼梦 三国演义 水浒传 判断 console log mingzhu includes 西游记

    2026年3月26日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号