情感分析语料库——情感词典(中文英文)转[通俗易懂]

情感分析语料库——情感词典(中文英文)转[通俗易懂]情感分析资源(转)中文的http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html情感词典1.知网的情感词典-http://www.keenage.com/html/c_bulletin_2007.htm由知网发布的词典,包括中文情感词典和英文情感词典(以下需要论坛积分)2.台湾大学的情感极性词典-http:/…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

情感分析资源 (转)

中文的 http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html

情感词典
1.知网的情感词典
– http://www.keenage.com/html/c_bulletin_2007.htm
由知网发布的词典,包括中文情感词典和英文情感词典

(以下需要论坛积分)

2.台湾大学的情感极性词典
– http://www.datatang.com/data/11837
包括2810个正极性词语和8276个负极性词语。准确度很高

情感分析语料
3.酒店评论语料
– http://www.datatang.com/data/11936 
谭松波整理的一个较大规模的酒店评论语料。
语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。

4.豆瓣网影评情感测试语料
– http://www.datatang.com/data/13539 
来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料至527页。每页20条短评。共计11323条评论

5.酒店、电脑与书籍的评论语料
– http://www.datatang.com/data/11937
数据量不太大,也有一些重复的数据

6.评论网页数据集
– http://www.datatang.com/data/12044
数据量不小,包括的电影和评论都不少

 

————————————————————————————–

文本情感分析综述∗赵妍妍+, 秦兵, 刘挺

4.2 情感分析的资源建设
4.2.1 情感分析的语料

1.(可下载) 康奈尔大学(Cornell)提供的影评数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.
2. 伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下
载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句
子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观
识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.
3. (可下载)Janyce Wiebe 等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA 语料适合于新闻评论领域任务的研究.
4. 麻省理工学院(MIT)的Barzilay 等人构建的多角度餐馆评论语料:共4,488 篇,每篇语料分别按照五个角
度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供
了研究平台.
5. 国内的中科院计算所的谭松波博士提供的较大规模的中文酒店评论语料:约有10,000 篇,并标注了褒贬
类别,可以为中文的篇章级的情感分类提供一定的平台.

4.2.2 情感分析的词典资源
情感分析发展到现在,有不少前人总结出来的情感资源,大多数表现为评价词词典资源.
1. GI(General Inquirer)评价词词典(英文,http://www.wjh.harvard.edu/~inquirer/).该词典收集了1,914 个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用.
2. NTU 评价词词典(繁体中文).该词典由台湾大学收集,含有2,812 个褒义词与8,276 个贬义词[76].
3.(可下载) 主观词词典(英文,http://www.cs.pitt.edu/mpqa/).该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性.
4. (可下载)HowNet 评价词词典(简体中文、英文,http://www.keenage.com/html/e_index.html).该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/172421.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • python爬虫,selenium+chromedriver,谷歌驱动自动下载及配置

    python爬虫,selenium+chromedriver,谷歌驱动自动下载及配置我们在使用selenium时,有一件让我们狠抓狂的事,那就是驱动的下载与配置…为什么这么说呢?

    2025年8月11日
    6
  • java遍历数组取出最大值_求数组20个数的平均值

    java遍历数组取出最大值_求数组20个数的平均值求平均值与最大值实现前需要懂得如何获取数组长度实现数组遍历例如:int[]array={2,3,6,8,18};for(inti=0;i<array.length;i++){System.out.print(array[i]+”,”);}输出结果:2,3,6,8,18求最大值时则采用擂台制现默认一个数为最大值(max)使用循环遍历数组中的每个数进行两两比较从而得出最大值。实现代码importjav

    2022年9月19日
    2
  • opencv跟踪视频上的目标(理论分析框架)

    出处:http://hi.baidu.com/icekeydnet/blog/item/965b25154a19f3dea6ef3ffe.html如前面说到的,OpenCVVS提供了6组算法的接口,分别是:前景检测、新目标检测、目标跟踪、轨迹生成、跟踪后处理、轨迹分析,除了轨迹生成用于轨迹数据的保存以外,其他5个部分都是标准的视频监控算法体系中不可或缺的部分。      OpenC

    2022年4月16日
    34
  • rc522命令表_linux驱动程序文件

    rc522命令表_linux驱动程序文件硬件平台:1主控:SMDKExynos4412POPS5M8767A2RFID模块:君盾集团提供的RC522模块3通信接口:SPI软件平台:AndroidICS&kernelversion3.0.15一,使能主控端SPI1硬件使能:从SMDK原理图上可以看到SPI0与I2C共用,SPI1已经连接到其它设备,SPI2未用,故这里选用SPI2。2软件使能:SMDKExyno…

    2022年9月15日
    1
  • 解决修改JAVAHOME后java版本不改变问题[通俗易懂]

    网上有很多解决的方法,其中删除C:\Windows\System32文件下java相关联的exe文件即可,使用wherejava命令可以发现,在Javahome配置版本之前有两个或三个java可执行文件,因此删除这个干扰项就可以解决。java版本问题unsupportedmajor.minorversion51.0jdk1.7版本错误,可能项目是1.7,运行环境是1.6unsup…

    2022年4月9日
    57
  • 整理一些开源项目

    整理一些开源项目

    2021年9月14日
    45

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号