获得Bert预训练好的中文词向量

获得Bert预训练好的中文词向量安装肖涵博士的bert-as-service:pipinstallbert-serving-serverpipinstallbert-serving-client下载训练好的Bert中文词向量:https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip启动bert-as-s…

大家好,又见面了,我是你们的朋友全栈君。

  1. 安装肖涵博士的bert-as-service:
    pip install bert-serving-server
    pip install bert-serving-client
  2. 下载训练好的Bert中文词向量:
    https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
  3. 启动bert-as-service:
    找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12
    打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:
    bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
    即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。)
    启动后结果如下:
    在这里插入图片描述
    此窗口不要关闭,然后在编译器中即可使用。
  4. 获取Bert预训练好的中文词向量:
    from bert_serving.client import BertClient
    bc = BertClient()
    print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
    print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
    print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出分词并不会对句子的向量产生影响。
参考文章:
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144010.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 项目开发中DEV、QAS、PRD是什么意思

    开发常用名词说明IDES:InternetDemonstrationandEvaluationSystem交互式演示与评估系统DEV:DevelopmentSystem,开发系统QAS:QualityAssuranceSystem,质量保证系统UAT:UserAcceptance…

    2022年4月4日
    137
  • Lc5-最长回文字串

    Lc5-最长回文字串Lc5-最长回文子串js求数组求字符串的长度都是length方法js字符串截取,varlongestPalindrome=function(s){letres=”;for(leti=0;i<s.length;i++){letl=i-1,r=i+1;sub(l,r);l=i,r=i+1;sub(l,r);fu

    2022年7月24日
    9
  • doxygen教程_genedoc教程

    doxygen教程_genedoc教程综述 我们在编写代码的时候,最头疼的就属于说明书了,很多代码一边写具体代码,一边写说明书,Doxygen主要解决说明书问题,可以在我们写代码的时候讲注释转化为说明书,Graphviz主要是用于图形展示,htmlhelpworkshop主要使用生成CHM文档。1.Doxygen Doxygen能将程序中的特定批注转换成为说明文件。它可以依据程序本身的结构,将程序中按规范注释的批注经过处理…

    2025年6月13日
    2
  • 初识Python和使用Python爬虫

    初识Python和使用Python爬虫一.python基础知识了解:1.特点:Python的语言特性:Python是一门具有强类型(即变量类型是强制要求的)、动态性、隐式类型(不需要做变量声明)、大小写敏感(var和VAR代表了不同

    2022年7月6日
    20
  • 三极管开关电路_利用三极管设计开关电路[通俗易懂]

    三极管开关电路_利用三极管设计开关电路[通俗易懂]很多工程师在上学时被老师讲的三极管的各种电路接法,和小信号模型分析给绕晕了。而且大学的课本大多数都是在讲三极管的放大特性。其实在实际的电路设计中,三极管的很多应用场景只是利用三级管的开关特性,我们往往是运用三极管来实现开关电路,做一些电平转换的功能。这是由于两个原因造成的:由于数字电路的快速发展,模拟电路设计的比重越来越小;另外运算放大器,越来越便宜,各项特性也比分立器件实现的放大电路相…

    2022年9月20日
    3
  • string转换为jsonarray_jsonobject转jsonarray

    string转换为jsonarray_jsonobject转jsonarray//创建JSONArray,把JSONObject放到JSONArrayJSONArrayja=newJSONArray();//获取JSONArrayJSONArrayitems=response.getJSONArray(“items”);if(!items.isEmpty()){//获取JSO…

    2022年8月23日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号