Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107496.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux修改文件名称 rename_shell重命名文件指令

    linux修改文件名称 rename_shell重命名文件指令Linux命令中的rename命令主要用于给文件重命名,与mv命令有些类似,但rename可以对批量文件进行重命名,而mv命令则只能对单个文件重命名,下面就给大家详细介绍下Linuxrename命令的使用方法吧。Linux的rename命令有两个版本,一个是C语言版本的,一个是Perl语言版本的,早期的Linux发行版基本上使用的是C语言版本的,现在已经很难见到C语言版本的了,由于历史原因,…

    2025年9月12日
    7
  • Nginx配置反向代理

    Nginx配置反向代理Nginx配置反向代理,什么是反向代理反向代理服务器决定哪台服务器提供服务。返回代理服务器不提供服务器。只是请求的转发。

    2022年7月14日
    25
  • 彻底卸载pycharm 恢复环境

    彻底卸载pycharm 恢复环境彻底卸载pycharm配置文件恢复最初环境

    2022年8月28日
    3
  • 计算机二级C语言公共基础知识,以及习题总结(一)

    计算机二级C语言公共基础知识,以及习题总结(一)二级C语言公共基础知识,以及习题总结,算法的基本概念,算法的复杂度,数据结构的基本概念,什么是数据结构,数据结构的图形表示,线性结构和非线性结构,线性表的基本概念,线性表的顺序存储结构,栈和队列,队列及其基本运算,线性链表的基本概念

    2022年5月27日
    38
  • phpstrom 激活码2021【在线破解激活】

    phpstrom 激活码2021【在线破解激活】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月17日
    59
  • mos管做开关管_简单的mos管开关电路分析

    mos管做开关管_简单的mos管开关电路分析原文摘录:MOS管基本知识http://www.51hei.com/bbs/dpj-31879-1.html(出处:单片机论坛)一直以来模拟电路就学的不好,好不容易把三极管了解完了,就一直没敢碰MOSFET了,没想到两年后还是会遇到,不过有一句话倒是很不错,就是技术这个东西不能太深入,否则你会发现其实都很简单.(一)MOSFET管的基本知识MOSFET是利用半导体表面的电场效

    2026年1月30日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号