获得Bert预训练好的中文词向量

获得Bert预训练好的中文词向量安装肖涵博士的bert-as-service:pipinstallbert-serving-serverpipinstallbert-serving-client下载训练好的Bert中文词向量:https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip启动bert-as-s…

大家好,又见面了,我是你们的朋友全栈君。

  1. 安装肖涵博士的bert-as-service:
    pip install bert-serving-server
    pip install bert-serving-client
  2. 下载训练好的Bert中文词向量:
    https://storage.proxy.ustclug.org/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
  3. 启动bert-as-service:
    找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12
    打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:
    bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
    即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。)
    启动后结果如下:
    在这里插入图片描述
    此窗口不要关闭,然后在编译器中即可使用。
  4. 获取Bert预训练好的中文词向量:
    from bert_serving.client import BertClient
    bc = BertClient()
    print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
    print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
    print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出分词并不会对句子的向量产生影响。
参考文章:
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144010.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • MySQL字符串分割_c语言中如何截取字符串

    MySQL字符串分割_c语言中如何截取字符串有分隔符的字符串拆分题目要求数据库中num字段值为:实现的效果:需要将一行数据变成多行实现的SQLSELECTSUBSTRING_INDEX(SUBSTRING_INDEX(‘7654,7698,7782,7788′,’,’,help_topic_id+1),’,’,-1)ASnumFROMmysql.help_topic…

    2022年10月7日
    4
  • pycharm中替换快捷键_python函数参数的四种类型

    pycharm中替换快捷键_python函数参数的四种类型查找:CTRL+F替换:CTRL+R如果想删除,替换那一栏不填就可以了转载于:https://www.cnblogs.com/mghhzAnne/p/9324406.html

    2022年8月28日
    1
  • 查看Android apk签名信息

    查看Android apk签名信息必须先安装jdk并配置好环境变量,然后运行->CMD->输入以下命令keytool-list-printcert-jarfileapp.apkWmImac-52:~fanyuanhua$keytool-list-printcert-jarfile/Users/fanyuanhua/2019-10/备忘录记事本/10.25/app-tencent-release-…

    2022年6月8日
    39
  • SpringBoot2.X日志不打印Sql问题

    SpringBoot2.X日志不打印Sql问题改造项目过程中发现原来经常调试使用的插件MybatisLogPlugin失去了打印SQL的能力,日志框架是Lombok的@Slf4j解决方式如下:Mybatis-Plus框架:mybatis框架:运用之道,存乎一心。…

    2022年7月16日
    20
  • slam的核心技术有哪些_遥感技术在农业领域的应用

    slam的核心技术有哪些_遥感技术在农业领域的应用当今科技发展速度飞快,想让用户在AR/VR、机器人、无人机、无人驾驶领域体验加强,还是需要更多前沿技术做支持,SLAM就是其中之一。实际上,有人就曾打比方,若是手机离开了WIFI和数据网络,就像无人车和机器人,离开了SLAM一样。什么是SLAMSLAM的英文全称是SimultaneousLocalizationandMapping,中文称作「同时定位与地图创建」。SL…

    2022年9月30日
    3
  • 不平衡数据处理之SMOTE、Borderline SMOTE和ADASYN详解及Python使用

    不平衡数据处理之SMOTE、Borderline SMOTE和ADASYN详解及Python使用  不平衡数据在金融风控、反欺诈、广告推荐和医疗诊断中普遍存在。通常而言,不平衡数据正负样本的比例差异极大,如在Kaggle竞赛中的桑坦德银行交易预测和IEEE-CIS欺诈检测数据。对模型而言,不均衡数据构建的模型会更愿意偏向于多类别样本的标签,实际应用价值较低,如下图所示,为在不均衡数据下模型预测的概率分布。  不平衡数据的处理方法,常见方法有欠采样(under-sampling)和过采样(…

    2025年8月25日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号