Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107496.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月2日 下午10:35
下一篇 2022年4月2日 下午10:35


相关推荐

  • 电子设备日常使用总结

    电子设备日常使用总结

    2021年5月17日
    125
  • iconst、bipush、sipush、ldc指令的区别

    iconst、bipush、sipush、ldc指令的区别文章目录 1 前言 2 iconst3 bipush4 sipush5 ldc 转载 1 前言 JVM 中 int 类型数值 根据取值范围将入栈的字节码指令就分为 4 类 取值 1 5 采用 iconst 指令 取值 128 127 采用 bipush 指令 取值 32768 32767 采用 sipush 指令 取值 采用 ldc 指令 2 iconst 当 int 取值 1 5 时 JVM 采用 iconst 指令将常量压入栈中 定义 Test ja

    2026年3月26日
    3
  • Java综合中级面试题

    Java综合中级面试题1.你用过哪些集合类?大公司最喜欢问的Java集合类面试题40个Java集合面试问题和答案java.util.Collections是一个包装类。它包含有各种有关集合操作的静态多态方法。java.util.Collection是一个集合接口。它提供了对集合对象进行基本操作的通用接口方法。Collection├List│├LinkedList│├ArrayList│└Ve…

    2022年6月15日
    29
  • srt 字幕格式 和 json数组之间的相互转换

    srt 字幕格式 和 json数组之间的相互转换srt 于 js 数组之间相互转换

    2026年3月17日
    1
  • 百度盘下载bin文件如何打开_bin文件是什么文件

    百度盘下载bin文件如何打开_bin文件是什么文件有些BIN文件用DAEMONTools也无法打开但是UltraISO可以打开,我们看到有Setup.exe,但是如果直接双击无法运行。我们可以先把所有东西都提取出来。这样之后再点击Setup.e

    2022年8月2日
    9
  • 流程图的绘图规范_流程图绘制的基本规则

    流程图的绘图规范_流程图绘制的基本规则画了多年的流程图,你真的画规范了吗?|人人都是产品经理流程有哪些作用?我们为什么要画流程图呢?正确的画流程图规范是什么?流程图是一个很强大的工具,在我们的日常工作中经常会使用到。但我们也发现,有时看到别人流程图的画法、规范都不太一样,这是为什么呢?难道流程图就没有统一的标准或规范吗?基于这个疑问,我出于好奇认http://www.woshipm.com/zhichang/2329530.html以上为笔记来源出!一、流程图的符号要求 有几个重要且常用的符号:…

    2025年7月15日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号