|
中文情感评测语料-COAE2008
谭松波
许洪波
Updated
on 2008-11-20
语料规模接近40000篇。其中至少包括4000余篇情感文本,这些情感文本均采用手工标注。参赛者只需下载压缩包并解压后即可使用。语料中大致含有两种编码:即GB2312,Unicode(UTF-8)编码。可以正常用写字板打开的是GB2312,显示为乱码的为Unicode(UTF-8)编码。
中文情感评测语料-COAE2008
密码:2008first
具体评测任务请参看相关网页。若您在使用中发现问题,请及时与我们联系。
Email:tansongbo
at software dot ict dot ac dot cn
Email:hbxu
at software dot ict dot ac dot cn
常见问题:
1.关于提交结果数量:每个任务至少提交1组结果,最多3组,对提交结果给出优先级,以方便评测单位决定哪组结果需优先评测。
2.关于单位标识(run-tag):run-tag是指对每个任务最终提交结果的命名,不同的任务一般采用不同的结果命名,同一个任务可以提交多个运行结果。为了便于区分不同单位提交的不同结果,run-tag可以跟单位名挂钩,比如HITIRT1Run1,HITIRT1Run2,HITIRT2Run1,HITIRAttrRun1等等。
run-tag跟报名表上的系统名称没有必然联系,系统名称是指该单位运行所有评测任务的实验系统的名称或统称。
3.关于置信度:置信度是指做出判断的把握程度,有把握做出正确判断的结果应该往前排。也就是说,置信度的具体取值并不重要,重点是要找出“是或不是(有或无)”的分界,即把最有把握判断正确的结果排在前面,从而保证让最好的若干个结果进入评测。
4.关于编码问题:该语料中大致包含两种编码:即GB2312,Unicode(UTF-8)编码。可以正常用写字板打开的是GB2312,显示为乱码的为Unicode(UTF-8)编码。已经在语料下载网页上增加了对该语料较为详细的说明。
5.
关于情感词的最大匹配问题:如果句子中含有"不喜欢",就输出"不喜欢",而不是"喜欢"。因为这样更加准确。
如果句子中出现"不是很喜欢",就输出"不是很喜欢"。因为"不是"与"很"都是用来修饰"喜欢"。
同时要注意去重,比如,如果文章中出现"不喜欢、"非常喜欢"、"很喜欢",只需输出其中的任何一个。
在正面或负面判定时可以在正面输出"非常喜欢",在负面输出"不喜欢"。
|