Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107496.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 1分钟解决git clone 速度慢的问题

    1分钟解决git clone 速度慢的问题描述最近从githubclone一些项目的时候速度极慢,完全受不了,从网上look了很多办法,都以失败告终,直到看到了一篇文章…办法使用国内镜像,目前已知Github国内镜像网站有github.com.cnpmjs.org和git.sdut.me/。速度根据各地情况而定,在clone某个项目的时候将github.com替换为github.com.cnpmjs.org即可。示例//这是我们要clone的gitclonehttps://github.com/Hacke.

    2022年7月21日
    24
  • 0xffffffff在不同情况下的输出[通俗易懂]

    0xffffffff在不同情况下的输出[通俗易懂]问题起源于next_random=next_random*(unsignedlonglong)25214903917+11;k1=(next_random&0xFFFF):保留next_random的低16位(最大65535);&0xFFFF引起了我的兴趣,发现这个的操作是取低16位。然后我百度了下。发现。low16=(unsigneds…

    2022年5月17日
    72
  • Python将冰冰的第一条vlog并进行数据分析「建议收藏」

    Python将冰冰的第一条vlog并进行数据分析「建议收藏」Python爬取冰冰第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧文章目录数据分析数据预处理数据描述删除空值删除空值可视化点赞TOP20等级分布性别分布绘制词云图数据收集数据分析importpandasaspddata=pd.read_excel(r”bingbing.xlsx”)data.head()用户性别等级评论点赞.

    2022年4月29日
    63
  • idea中查看接口的所有实现类_idea查看方法在哪里被调用

    idea中查看接口的所有实现类_idea查看方法在哪里被调用

    2022年8月15日
    6
  • 安装sklearn库的命令_sklearn库手册中文版pdf

    安装sklearn库的命令_sklearn库手册中文版pdf首先,SKlearn需要三个依赖库,分别进行安装。如果已经安装好了Python,那么可以直接运用pip命令来安装这些库。pip命令自带版本一般比较旧,需要更新。使用如下命令更新:更新完成后,直接运行:pipinstallnumpypipinstallmatplotlibpipinstallscipypipinstallsklearn注:直接利用ana…

    2022年10月17日
    2
  • readprocessmemory函数分析_memory的用法及形式

    readprocessmemory函数分析_memory的用法及形式函数功能:该函数从指定的进程中读入内存信息,被读取的区域必须具有访问权限。函数原型:BOOLReadProcessMemory(HANDLEhProcess,LPCVOIDlpBaseAddress,LPVOIDlpBuffer,DWORDnSize,LPDWORDlpNumberOfBytesRead);参数:hProcess:进程句柄

    2022年10月4日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号