中文情感词典的构建与使用_文本情感识别

中文情感词典的构建与使用_文本情感识别首先,国外英文的情感分析已经取得了很好的效果,得益于英文单词自身分析的便捷性与英文大量的数据集WordNet。但由于中文的多变性,语义的多重性与数据集的缺乏,使得国内的情感分析暂落后于国外。本文将记录博主在项目中构建情感词典的经验,欢迎大家指正。我们首先将情感词典分为通用情感词典与专用情感词典。1.通用情感词典的构建通用情感词典的构建主要是通过将目前开源的情感词典整合起来,筛去重复和无…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

首先,国外英文的情感分析已经取得了很好的效果,得益于英文单词自身分析的便捷性与英文大量的数据集 WordNet。但由于中文的多变性,语义的多重性与数据集的缺乏,使得国内的情感分析暂落后于国外。本文将记录博主在项目中构建情感词典的经验,欢迎大家指正。
我们首先将情感词典分为通用情感词典与专用情感词典。

1.通用情感词典的构建

通用情感词典的构建主要是通过将目前开源的情感词典整合起来,筛去重复和无用的单词。
目前网上开源的情感词典包含有:知网(HowNet)情感词典、台湾大学(NTSUSD)简体中文情感极性词典、大连理工大学情感词汇本体。
前两个都可以在网上找到,第三个需要到其学校官网申请,说明完用途即可获得。

2.通用情感词典的扩展

上述情感词典年代都已经比较久远,所以我们可以采取一定方法对其扩展。这里我们采用的方法是将词典的同义词添加到词典里。
我们通过使用哈工大整理的同义词词林来获取词典的同义词,需要一提的是第一版的同义词林年代较为久远,现在也有哈工大整理的同义词林扩展版。
使用的链接在这里:哈工大同义词林扩展版
使用代码编写时也可以利用Python的Synonyms库来获取同义词。
其已经开源,链接为:synonyms
如:

import synonyms
print("人脸: %s" % (synonyms.nearby("人脸")))
print("识别: %s" % (synonyms.nearby("识别")))

3.领域情感词典的构建

构建特定领域的情感词典需要利用PMI互信息计算与左右熵来发现所需要的新词。具体方法我们可以添加情感种子词,来计算分好词的语料中各个词语与情感种子词的互信息度与左右熵,再将互信息度与左右熵结合起来,选择出与情感词关联度最高的TopN个词语,将其添加到对应的情感词典。
这里可以参考链接link

互信息度计算

互信息度计算

  • p(x,y)为两个词一起出现的概率
  • p(x)为词x出现的概率
  • p(y)为词y出现的概率

具体例子:4G, 上网卡,4G上网卡;如果4G的词频是2,上网卡的词频是10,4G上网卡的词频是1,那么记单单词的总数有N个,双单词的总数有M个,则有下面的公式
具体例子

左右熵

我们这里使用左右熵来衡量主要是想表示预选词的自由程度(4G上网卡为一个预选词),左右熵越大,表示这个词的左边右边的词换的越多,那么它就很有可能是一个单独的词。
我们这里的左右熵定义为(以左熵为例):
左熵
这里我们还是举一个具体的例子来理解它
假设4G上网卡左右有这么几种搭配
[买4G上网卡, 有4G上网卡,有4G上网卡, 丢4G上网卡]
那么4G上网卡的左熵为
例子
这里A = [买, 有, 丢]

后面就是具体的实现了,这里的难点就在如何获得这些概率值,就博主看到的用法有:利用搜索引擎获取词汇共现率即p(x,y)、利用语料库获取各个词出现概率

最后我们只需要将这三步获得的情感词典进行整合就可以了

大家也可以去我的个人博客讨论联系,欢迎大家指正。
JMX的个人博客 www.jmxgodlz.xyz
参考文献:
python3实现互信息和左右熵的新词发现

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/172429.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql 如何加索引_mysql如何添加索引

    mysql 如何加索引_mysql如何添加索引mysql添加索引的方法:可以通过【createtable】语句来添加,如【CONSTRAINTPRIMARYKEY|INDEX[][]】,表示创建一般索引。在mysql中可以在创建表(CREATETABLE)的同时创建索引;也可以在创建表后创建索引,使用CREATEINDEX语句或ALTERTABLE语句。(视频教程推荐:mysql视频教程)1、使用CREATEINDE…

    2022年5月12日
    50
  • 逆变器运用到的c语言算法,总结逆变电源常用到的六种控制算法

    逆变器运用到的c语言算法,总结逆变电源常用到的六种控制算法总结逆变电源常用到的六种控制算法来源:华强电子网作者:华仔浏览:207时间:2017-05-0423:52标签:摘要:本文将对逆变电源的控制算法进行总结,帮助大家进一步掌握相关知识。只有掌握了逆变电源的控制算法,才能真正意义上的掌握逆变电源的原理和运行方式,从而方便设计。逆变电源的算法主要有以下6种。①数字PID控制PID控制是一种具有几十年应用经验的控制算法,控制算法简单,参数易于整定,设计…

    2022年6月2日
    30
  • iconfont的基本使用

    iconfont的基本使用阿里巴巴的iconfont网站有很多小图标可供我们使用,链接如下iconfont网站链接。这个图标资源库可以一个图片一个图片的下载,也支持批量下载。下面我来介绍下批量下载。进入网页之后,可以选择自己需要的小图标,将鼠标移动到小图标上之后,就会出现如下所示的3个按钮。这3个按钮分别是添加到购物车、收藏、下载的按钮。如果需要批量下载图片,我们可以先添加到购物车。加入购物车之后,点击购物车按钮就会在右侧出现一个弹框。点击添加到项目(添加到项目,可以根据自己的需要设置下载哪些选项)

    2025年7月28日
    1
  • Air系列模块常见问题列表[通俗易懂]

    Air系列模块常见问题列表[通俗易懂]目录名称一、Luatools使用问题1.1烧录下载 1.1.1、2G模块无法烧录下载 1.1.2、2G开发板无法烧录下载 1.1.3、4G模块(开发板)无法烧录下载 1.1.4、生成量产文件时的加密功能有什么用 1.1.5、4G开发模式下的“USB打印Trace、UART1打印Trace、UART2打印Trace”是什么功能 1.1.6、Luat开发方式下可以烧录哪种类型的文件 1.1.7、脚本代码中如何读取通过Luatools烧录进模块的文件 1.1.8、Luat开发方式下可以烧录某

    2022年5月12日
    39
  • datagrip 激活-激活码分享

    (datagrip 激活)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年3月29日
    360
  • ARP欺骗攻击的检测和防御[通俗易懂]

    ARP欺骗攻击的检测和防御[通俗易懂]以太网构建由1500个字节的块组成的数据帧。每个以太网数据帧头包括源MAC地址和目的MAC地址。建造以太网数据帧,必须从IP数据包中开始。但在构建过程中,以太网并不知道目标机器的MAC地址,这就需要创建以太网头。唯一可用的信息就是数据包头中的目标IP地址。对于特定主机的数据包传输,以太网协议必须利用目标IP来查找目标MAC地址。这就是ARP地址解析协议。ARP

    2025年7月22日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号