|
中文情感挖掘语料-ChnSentiCorp
谭松波
Updated on 2010-06-29
经过近一年的进一步收集整理,本语料库已扩展到3个领域:酒店、电脑(笔记本)与书籍。欢迎学术同行试用。
未去重语料:
1.ChnSentiCorp-Htl-ba-4000:
平衡语料,正负类各2000篇。
2.ChnSentiCorp-NB-ba-4000:
平衡语料,正负类各2000篇。
3.ChnSentiCorp-BK-ba-4000:
平衡语料,正负类各2000篇。
去重后语料:
1.ChnSentiCorp-Htl-del-4000:
平衡语料,正负类各2000篇。
2.ChnSentiCorp-NB-del-4000:
平衡语料,正负类各2000篇。
3.ChnSentiCorp-BK-del-4000:
平衡语料,正负类各2000篇。
声明:本语料仅供学术研究之用。若你发现语料存在问题,请及时与我联系:
Email:tansongbo
at software dot ict dot ac dot cn
谭松波
Updated on 2008-12-19
为了弥补国内在中文情感挖掘方面的语料的匮乏,本人收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集:
1.ChnSentiCorp-Htl-ba-2000:
平衡语料,正负类各1000篇。
2.ChnSentiCorp-Htl-ba-4000:
平衡语料,正负类各2000篇。
3.ChnSentiCorp-Htl-ba-6000:
平衡语料,正负类各3000篇。
4.ChnSentiCorp-Htl-unba-10000:
非平衡语料,正类为7000篇。
注意:该语料并不是从COAE2008中整理出来的。因此,请不要把COAE2008当成该语料的名称。
声明:本语料仅供学术研究之用。若你发现语料存在问题,请及时与我联系:
Email:tansongbo
at software dot ict dot ac dot cn
|