获得Bert预训练好的中文词向量

获得Bert预训练好的中文词向量安装肖涵博士的bert-as-service:pipinstallbert-serving-serverpipinstallbert-serving-client下载训练好的Bert中文词向量:https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip启动bert-as-s…

大家好,又见面了,我是你们的朋友全栈君。

  1. 安装肖涵博士的bert-as-service:
    pip install bert-serving-server
    pip install bert-serving-client
  2. 下载训练好的Bert中文词向量:
    https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
  3. 启动bert-as-service:
    找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12
    打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:
    bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
    即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。)
    启动后结果如下:
    在这里插入图片描述
    此窗口不要关闭,然后在编译器中即可使用。
  4. 获取Bert预训练好的中文词向量:
    from bert_serving.client import BertClient
    bc = BertClient()
    print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
    print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
    print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出分词并不会对句子的向量产生影响。
参考文章:
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144010.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月11日 下午9:00
下一篇 2022年5月11日 下午9:00


相关推荐

  • VMWARE虚拟机上网三种方法分析

    VMWARE虚拟机上网三种方法分析VMWARE虚拟机不能上网三种方法分析  PostBy:2009-1-2320:43:00 bridged(桥接模式)、NAT(网络地址转换模式)host-only(主机模式)。理论理解:1.bridged(桥接模式)在这处模式下,虚拟机等同于网络内的一台物理主机,可对手动设置IP,子网掩码,DNS,且IP地址要和主机的IP在同一网段内。这样,虚拟机就和主

    2022年5月19日
    39
  • 数仓分层

    000概述数仓分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更容易理解和使用本文的大纲001,介绍数据分层的作用002,分层设计的原则以及介绍一种通用的数据分层设计003,具体案例004,落地实践意见005,思考001,数据分层的作用我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是数据分层。数据分层的好处有①,清晰数据结构:每一…

    2022年4月4日
    106
  • linux搭建git服务端_linux搭建git服务端

    linux搭建git服务端_linux搭建git服务端1、添加git用户useradd-mgit2、修改git用户密码(密码为git)passwdgit3、解压git-1.7.12.2.tar.gz并安装gittar-xvfgit-1.7.12.2.tar.gzcdgit-1.7.12.2makemakeinstall4、初始化一下git用户,为了安装gitosis做准备。在任何一台机器上使用git,第一次必须要初始化一…

    2026年4月15日
    3
  • B+树|MYSQL索引使用原则

    B+树|MYSQL索引使用原则

    2020年11月12日
    173
  • acwing1072. 树的最长路径(树形dp)

    acwing1072. 树的最长路径(树形dp)给定一棵树,树中包含 n 个结点(编号1~n)和 n−1 条无向边,每条边都有一个权值。现在请你找到树中的一条最长路径。换句话说,要找到一条路径,使得使得路径两端的点的距离最远。注意:路径中可以只包含一个点。输入格式第一行包含整数 n。接下来 n−1 行,每行包含三个整数 ai,bi,ci,表示点 ai 和 bi 之间存在一条权值为 ci 的边。输出格式输出一个整数,表示树的最长路径的长度。数据范围1≤n≤10000,1≤ai,bi≤n,−105≤ci≤105输入样例:65 1

    2022年8月8日
    6
  • 一次SQL查询优化原理分析(900W+数据,从17s到300ms)

    一次SQL查询优化原理分析(900W+数据,从17s到300ms)

    2022年2月13日
    52

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号