Doc2Vec,Word2Vec文本相似度初体验。

全栈程序员-站长 • 2022年4月2日下午10:35 • 未分类 • 阅读 37

大家好，又见面了，我是你们的朋友全栈君。

参考资料：
https://radimrehurek.com/gensim/models/word2vec.html

接上篇：

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%','：',
                        '/','\xa0','。','；','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型，参考英文官网，在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机')

Doc2Vec,Word2Vec文本相似度初体验。

转载于:https://blog.51cto.com/13000661/2121671

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/107496.html原文链接：https://javaforall.net

Doc2Vec,Word2Vec文本相似度初体验。

关于作者

全栈程序员-站长

发表回复

Doc2Vec,Word2Vec文本相似度 初体验。

关于作者

全栈程序员-站长

相关推荐

电子设备日常使用总结

iconst、bipush、sipush、ldc指令的区别

Java综合中级面试题

srt 字幕格式 和 json数组之间的相互转换

百度盘下载bin文件如何打开_bin文件是什么文件

流程图的绘图规范_流程图绘制的基本规则

发表回复

Doc2Vec,Word2Vec文本相似度初体验。

srt 字幕格式和 json数组之间的相互转换