Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107496.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 开启Scrapy爬虫之路

    开启Scrapy爬虫之路七夜大佬的《python爬虫开发与项目实战》,买了好多年了,学习了好多东西,基本上爬虫都是在这里面学的,后期的scrapy框架爬虫一直不得门而入,前段时间补了下面向对象的知识,今天突然顿悟了!写个笔记记录下学习过程

    2022年6月26日
    24
  • 10分钟入门 – 微信小程序开发

    10分钟入门 – 微信小程序开发注册微信小程序如果你还没有微信公众平台的账号,请先进入微信公众平台首页,点击“立即注册”按钮进行注册。注册的账号类型可以是订阅号、服务号、小程序以及企业微信,我们选择“小程序”即可。接着填写账号信息,需要注意的是,填写的邮箱必须是未被微信公众平台注册、未被个人微信号绑定的邮箱,而且每个邮箱仅能申请一个小程序。激活邮箱之后,选择主体类型为“个人类型”,并按要求登记主体信息。主体信息提…

    2022年5月2日
    40
  • phpstorm免费永久激活码(JetBrains全家桶)「建议收藏」

    (phpstorm免费永久激活码)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.htmlF6EG2ZUBVX-eyJsaWN…

    2022年3月28日
    646
  • 接口测试抓包工具_接口测试请求头里面有哪些内容

    接口测试抓包工具_接口测试请求头里面有哪些内容1、Poster    Poster为Firefox浏览器的一个插件,主要用来模拟发并HTTP请求。随着Chrome浏览器的流行,它也出了chrome版本:ChromePoster  在Fiefox浏览器中的安装非常简单。首先,打开Fiefox浏览器,菜单栏“工具”–> “添加组件”,搜索“poster”,在搜索例表中点击“安装”,然后重启浏览器即可。  打开方法:菜

    2025年9月18日
    6
  • pycharm如何安装依赖包_pycharm导入第三方库

    pycharm如何安装依赖包_pycharm导入第三方库准备工作(源):默认源:https://pypi.python.org/simple清华源:https://pypi.tuna.tsinghua.edu.cn/simple/豆瓣源:http://pypi.douban.com/simple/阿里源:https://mirrors.aliyun.com/pypi/simple/打开设置,搜索interpreter点击下方的…

    2022年8月28日
    5
  • StringUtils方法全集

    StringUtils方法全集StringUtils方法的操作对象是java.lang.String类型的对象,是JDK提供的String类型操作方法的补充,并且是null安全的(即如果输入参数String为null则不会抛出NullPointerException,而是做了相应处理,例如,如果输入为null则返回也是null等,具体可以查看源代码)。除了构造器,StringUtils

    2022年6月11日
    28

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号