情感词典构建_晦涩情感词典

情感词典构建_晦涩情感词典看到一篇文章写的很清楚简洁,直接转了。————————————————————————————————————————某主席说,“没有情感词典的“使用该情感词典进行情感分析”都是耍流氓。”某帝说,“要有情感词典。”

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

看到一篇文章写的很清楚简洁,直接转了。

————————————————————————————————————————

某主席说,“没有情感词典的“使用该情感词典进行情感分析”都是耍流氓。”

某帝说,“要有情感词典。”

好吧,那就把情感词典拿出来好了。
情感词典包括①基础情感词典、②拓展情感词典和③领域情感词典。

一、基础情感词典:知网(Hownet)情感词典 + 台湾大学简体中文情感极性词典(NTSUSD)
基础情感词典包括了一些被广泛认同的情感词,比如”好“,”漂亮“,”差“,”烂“这些词。有研究者已经帮我们整理了这么一份情感词典。一个是著名的知网(Hownet)情感词典,还有一个是台湾大学简体中文情感极性词典。
知网的情感词典包含如下内容:
Python 文本挖掘:使用情感词典进行情感分析(情感词典 ) - rzcoding - Explore in Data
值得注意的是,知网(Hownet)里面的情感词有很多是莫名其妙的,比如”
噲“、”
媢“、”
媢嫉“、”
忺“这些都不知道从哪里冒出来的词,是需要人工判断手动删除的。
p.s. 停用词表一般使用哈工大的停用词表,网上有下载的资源。

台湾大学简体中文情感极性词典要简洁得多:
Python 文本挖掘:使用情感词典进行情感分析(情感词典 ) - rzcoding - Explore in Data


把知网(Hownet)里面的正面评价词语、正面情感词语和ntusd的positive词典消重之后组合在一起,成为基础积极情感词典。
把知网的负面评价词语、负面情感词语和ntusd的negative词典消重之后组合在一起,成为基础消极情感词典。
另外需要对知网(Hownet)里面的程度级别词语进行权值的设置。

二、拓展情感词典:哈工大整理同义词词林拓展版
拓展情感词典其实就是把基础情感词典通过同义词词典找到情感词的
同义词,这样就拓展了基础情感词典。
同义词词典使用了哈工大同义词词林拓展版,具体内容如下:
Python 文本挖掘:使用情感词典进行情感分析(情感词典 ) - rzcoding - Explore in Data

 

三、领域词典:需编写程序,使用PMI互信息计算得出
仅仅依靠基础情感词典来识别一个句子里面的情感词是不足够的。在特定的领域,有些并非基础的情感词也有情绪倾向。比如:”这手机很耐摔啊,还防水”。耐摔、防水就是在手机这个领域有积极情绪的词。
要怎么识别这些词呢?一般使用的方法是PMI(互信息)方法。
互信息的概念可以参见吴军博士《数学之美》一书,这里
有网友摘抄的链接。简单的说,如果一个词和积极的词语一起出现的频率高,那么这个词是积极倾向的可能性也会大,反之亦然。所以,只要计算一个词和积极词出现的频率和消极词出现的频率之差,并设定某个阈值,就可以粗略的得知这个词的情感倾向了。
计算共现又可以细分两种方法:一种是利用搜索引擎计算共现值,一种是直接利用语料计算共现值。
具体方法:
1. 先选定核心情感词(可以有多个),该核心情感词的情感必须非常明确,具有代表性。这里暂定积极词为:”好“,消极词为”烂“。
2.1 利用搜索引擎计算共现值。既在搜索引擎中搜索”某个词+好“,记录下网页数量co_pos。然后再搜索”某个词+烂“,记录下网页数量co_neg。再搜索”某个词“,记录下网页数量n。再搜索”好“,网页数量为pos,搜索”烂“,网页数量为neg。由此可利用这些数据来计算积极互信息和消极互信息。最后求两个互信息之差,差为正则积极、为负则消极。
重复计算不同词的互信息之差,最后选分值高的即可组成领域情感词典。
2.2 利用语料库计算共现值。原理一样,在语料库中搜索”某个词+好“,记录下数量。再搜索”某个词+烂“,记录下数量。后面的步骤都和上面一样。

四、最后把三个词典结合起来,形成了完整的情感词典。包括积极情感词典和消极情感词典。

最后必须说明,
利用情感词典来判断一个句子的情感是有着明显不足的。
中文有着丰富的语义表达,很多情感都是隐含的,比如:”我昨天吃了这道菜,今天就拉肚子了“。这句话没有一个情感词,但表达的是消极的情绪。还有各种事正话反说的句子,比如:“你说这里的菜很好吃,我只能呵呵了“。如果用词典匹配,有”好吃“,”呵呵“两个积极词,但这句话表达的绝非积极的情绪。
这里就需要更高级复杂的处理方式,要更深入句子的句法,语法了。
————————————————————————-
地址:http://www.ithao123.cn/content-319129.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/172418.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 数组元素的下标超出所定义的_数组元素的下标超出所定义的

    数组元素的下标超出所定义的_数组元素的下标超出所定义的问题错误信息:数组成员引用下标超出定义范围原因使用数组成员的时候,下标超出了数组最大个数。解决方法仅用于自己编写程序,所以如果是别人做好的程序,运行出现错误,你又没代码的话那就没用了。解决思路就是正确使用数组下标,不要超过数组最大成员数。下面是两种笨方法:方法一在使用数组成员的时候,检查数组的最大成员数。例如:如果真(取数组成员数(数组名)>0)确定数组有成员,之后再引用。方法二菜单的工具-系统配置-编译,勾选“是否启用快速数组访问方式”。(调试时仍然会

    2022年10月19日
    1
  • Pytest(6)重复运行用例pytest-repeat[通俗易懂]

    Pytest(6)重复运行用例pytest-repeat[通俗易懂]前言平常在做功能测试的时候,经常会遇到某个模块不稳定,偶然会出现一些bug,对于这种问题我们会针对此用例反复执行多次,最终复现出问题来。自动化运行用例时候,也会出现偶然的bug,可以针对单个用例,

    2022年7月29日
    8
  • EagleEye论文+代码

    EagleEye论文+代码EagleEye论文+代码论文代码论文代码论文原作者的代码GitHub链接为EagleEye。下载数据集下载ILSVRC2012数据集。需要先注册账号并登陆。也可以直接用ImageNet数据集代替。如果觉得从官网下载的速度太慢,可以使用迅雷链接或百度云链接,网上都有很多。在这里,我推荐使用一个Linux多线程命令行下载工具aria2,可以达到稳定在5MB/s。安装python包问题一exportGIT_PYTHON_REFRESH=quiet这好像是一个和git有关的问题。解决

    2022年8月16日
    9
  • Navicat Premium 15 激活码在线获取【2021免费激活】

    (Navicat Premium 15 激活码在线获取)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~S32PGH0SQB-eyJsaWNlb…

    2022年3月22日
    140
  • 关键部分CCriticalSection使用

    关键部分CCriticalSection使用类CCriticalSection的对象表示一个“临界区”,它是一个用于同步的对象,同一时刻仅仅同意一个线程存取资源或代码区。临界区在控制一次仅仅有一个线程改动数据或其他的控制资源时很实用。比如,在链表中添加一个结点就仅仅同意一次一个线程进行。通过使用CCriticalSection对象来控制链表,就能够达到这个目的。它就像是一把钥匙,哪个线程获得了它就获得了执行线程的权力,而把其他线程统统堵…

    2022年7月20日
    16
  • Linux之convert命令

    Linux之convert命令Linux之convert命令强大的convert命令convert命令可以用来转换图像的格式,支持JPG,BMP,PCX,GIF,PNG,TIFF,XPM和XWD等类型,下面举几个例子:

    2022年7月4日
    16

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号