个人简历
  论文著作
  文本语料
情感语料
  文本分类系统
情感分析系统
  网络资源
  联系方式

 

           

 

中文情感挖掘语料-ChnSentiCorp

谭松波 

Updated on 2010-06-29

   经过近一年的进一步收集整理,本语料库已扩展到3个领域:酒店、电脑(笔记本)与书籍。欢迎学术同行试用。

   未去重语料:

   1.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。

   2.ChnSentiCorp-NB-ba-4000: 平衡语料,正负类各2000篇。

   3.ChnSentiCorp-BK-ba-4000: 平衡语料,正负类各2000篇。

   去重后语料:

   1.ChnSentiCorp-Htl-del-4000: 平衡语料,正负类各2000篇。

   2.ChnSentiCorp-NB-del-4000: 平衡语料,正负类各2000篇。

   3.ChnSentiCorp-BK-del-4000: 平衡语料,正负类各2000篇。

 

   声明:本语料仅供学术研究之用。若你发现语料存在问题,请及时与我联系:

   Emailtansongbo at software dot ict dot ac dot cn

 

谭松波

Updated on 2008-12-19

 

   为了弥补国内在中文情感挖掘方面的语料的匮乏,本人收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集:

   1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。

   2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。

   3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。

   4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。

   注意:该语料并不是从COAE2008中整理出来的。因此,请不要把COAE2008当成该语料的名称。   

   声明:本语料仅供学术研究之用。若你发现语料存在问题,请及时与我联系:

   Emailtansongbo at software dot ict dot ac dot cn

 

 

 

 

 


 

   中文情感评测语料-COAE2008

谭松波 许洪波

Updated on 2008-11-20

 

   语料规模接近40000篇。其中至少包括4000余篇情感文本,这些情感文本均采用手工标注。参赛者只需下载压缩包并解压后即可使用。语料中大致含有两种编码:即GB2312,Unicode(UTF-8)编码。可以正常用写字板打开的是GB2312,显示为乱码的为Unicode(UTF-8)编码。

  中文情感评测语料-COAE2008

   密码:2008first  

   具体评测任务请参看相关网页。若您在使用中发现问题,请及时与我们联系。

   Emailtansongbo at software dot ict dot ac dot cn

   Emailhbxu at software dot ict dot ac dot cn

 

常见问题:

1.关于提交结果数量:每个任务至少提交1组结果,最多3组,对提交结果给出优先级,以方便评测单位决定哪组结果需优先评测。

2.关于单位标识(run-tag):run-tag是指对每个任务最终提交结果的命名,不同的任务一般采用不同的结果命名,同一个任务可以提交多个运行结果。为了便于区分不同单位提交的不同结果,run-tag可以跟单位名挂钩,比如HITIRT1Run1,HITIRT1Run2,HITIRT2Run1,HITIRAttrRun1等等。
run-tag跟报名表上的系统名称没有必然联系,系统名称是指该单位运行所有评测任务的实验系统的名称或统称。

3.关于置信度:置信度是指做出判断的把握程度,有把握做出正确判断的结果应该往前排。也就是说,置信度的具体取值并不重要,重点是要找出“是或不是(有或无)”的分界,即把最有把握判断正确的结果排在前面,从而保证让最好的若干个结果进入评测。

4.关于编码问题:该语料中大致包含两种编码:即GB2312,Unicode(UTF-8)编码。可以正常用写字板打开的是GB2312,显示为乱码的为Unicode(UTF-8)编码。已经在语料下载网页上增加了对该语料较为详细的说明。

5. 关于情感词的最大匹配问题:如果句子中含有"不喜欢",就输出"不喜欢",而不是"喜欢"。因为这样更加准确。
如果句子中出现"不是很喜欢",就输出"不是很喜欢"。因为"不是"与"很"都是用来修饰"喜欢"。 
同时要注意去重,比如,如果文章中出现"不喜欢、"非常喜欢"、"很喜欢",只需输出其中的任何一个。 
在正面或负面判定时可以在正面输出"非常喜欢",在负面输出"不喜欢"。 

 

  

观点检索(评测任务6)采用的主题列表下载:  

  20个情感主题

  说明:

  本任务要求找出包含关于指定主题的倾向性观点的文章。给定对象可能是人物、地点、组织机构或者概念、产品名、事件等。该任务是信息检索和观点识别的组合任务。输出与对象相关的文章并按观点相关性评分降序排列。

 

几个例子:


示例1遗憾的是,剧本的弱点使得基尔默并没有表现出莫里森应有的,或历史所要求的深度。斯通把莫里森表现为一个恶意的,自我放纵,自我毁灭的酒鬼。这些固然是真的,但同时他也是一个极其机智的,吸引人的,聪慧的,富于艺术气质的人。斯通所绘的莫里森的画相是丑陋而不公平的。“大门”的确有其阴暗的一面,但斯通把它看得太过严肃,超出了吉姆曾经作过的。 

示例2:“本校保护主义”委实正在纵容学术腐败。比如,一些人的学术腐败行为被媒体炒得沸沸扬扬,但校方仍然装聋作哑,或者低调处理,或者板子“高高举起,轻轻落下”,或者干脆睁一只闭一只眼。由于学术行为不端者并没有得到实质性的处罚,结果学术界是清者自清,浊者自浊,甚至有后者向前者蔓延之势。

示例3:首先,设计上有点缺陷:不装电池放不稳;屏线暴露容易损坏。其次,做工的确大不如从前了,键盘没有多久就很油光,远远不如我的X22

示例4:盘面显示目前市场中多头已经占据了较为有利的位置,能很好地左右市场趋势。这样的局面应该是,也唯有市场超级主力才能做到。今日的反弹应该是长假前习惯性调整的终结,而上证指数重回五千四百点则显示目前市场依旧保持着较为强劲的势态。明日为本月最后一个交易日,基金全力做高市值的愿望强烈。再加上一级市场大量资金解冻,明日市场应该会更加热闹。综合看今日的反弹,笔者认为节前的调整已经全部结束,多头将在最后一个交易日展开全面反击,以一个漂亮的红色周K线迎接国庆的可能很大。

示例5:1世界由实力雄厚上海豫园开发,项目位处城市中心地段,离中街200米,距故宫600米,在沈阳谱写海派的城市生活,浓缩城市色回归年货精华的高品质空间。 1世界南北大堂通透明亮,提供酒店式服务。商务中心除提供基本的商务服务以外,设有健身中心、休闲类棋牌室,另有干洗店提供上门收送衣物服务等等。周边交通方便,四通八达:222、230、270、207、213、243、248、258、276路齐集,30分钟内乘坐公交车可以直达沈阳市各个交通要点。只需首付6万即可拥有的小户型,市中心每日30万人流量是1世界保值的动力源泉,低首付,低总价,高值回报,1世界是投资者最好的选择。