Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107496.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • QUOTEName用法[通俗易懂]

    QUOTEName用法[通俗易懂]  1.可以用在拼接字符串时候将参数名称替换为参数值到SQL里面,如下面代码:DECLARE@TableNameVARCHAR(50),@SqlNVARCHAR(MAX),@DJIDINT;SET@TableName=’DJ’;SET@DJID=1991906354;SET@sql=’SELECT*FROM’+QUOTENAME(…

    2022年7月25日
    5
  • 视频下载插件–Video Downloader for Chrome「建议收藏」

    视频下载插件–Video Downloader for Chrome「建议收藏」视频下载插件–VideoDownloaderforChromeVideoDownloaderforChrome的介绍VideoDownloaderforChrome的功能介绍VideoDownloaderforChrome的用法摘要:我想每一个小可爱在视频网站上在下载视频的时候,都会为了消除缓冲视频或者等待视频时的广告而感到烦恼。所以今天小编为大家带来一款非常好用的chrome视频下载插件–VideoDownloaderforChrome。VideoDownloade

    2022年7月14日
    27
  • 开源企业IM,免费企业即时通讯软件-ENTBOOST云通讯平台Windows(r174)版本号公布

    开源企业IM,免费企业即时通讯软件-ENTBOOST云通讯平台Windows(r174)版本号公布

    2021年11月21日
    71
  • pandownload激活码_pandownload账号

    pandownload激活码_pandownload账号yunfile网盘是国内的一个免费网盘,很多网站博客都会使用yunfile网盘的外链。但是该网盘广告多,等待时间长,免费用户只能一次下载一个文件,而且不能用迅雷等下载软件来下载,只能用IE,Chrome,Firefox等浏览器下载,下载速度又极其缓慢。但是有时候我们又不得不在该网盘下载文件,这个时候有一个yunfile网盘会员账号就可以解决上面所说的问题了。有求yunfile会员账号的朋友…

    2022年9月6日
    4
  • 广东公布重点项目名单:茂名天源石化碳三碳四资源利用项目等[通俗易懂]

    广东公布重点项目名单:茂名天源石化碳三碳四资源利用项目等[通俗易懂]广东省发展改革委官网3月31日公布《广东省2021年重点建设项目计划》。2021年广东共安排省重点项目1395个,总投资达7.28万亿元,年度计划投资8000亿元。石化重大项目方面:新开工项目有3个,总投资约267亿元,年度投资约60.5亿元,分别是恒力石化(惠州)PTA项目、东华能源(茂名)烷烃资源综合利用项目(一期)、茂名天源石化碳三碳四资源利用项目。续建项目有7个,总投资超过1500亿元,2021年度投资约160.9亿元。分别是埃克森美孚惠州乙烯项目、惠州石化产品结构优化及升级项目、惠州宇新轻

    2022年10月15日
    0
  • 【Spring Boot】使用Spring Boot来搭建Java web项目以及开发过程

    一、SpringBoot简介SpringBoot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Boot致力于在蓬勃发展的快速应用开发领域(rapidapplicationdevelopment)成为领导者。SpringMVC是非常伟大的框架,开源…

    2022年4月13日
    66

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号