|
2
使用说明
本语料采用词频矩阵的方式给出,其格式采用Han[1-2]定义的格式,Han数据格式包括三个文件,即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料,本人对它进行了扩充,增加了一个文件,x.mat.hlabel。这样就能描述多层语料,并能兼容单层语料。
x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档,具体格式为:词 词频,…,词 词频;x.mat.rlabel是类别文件,每行一个类别名,对应x.mat中每篇文档的类别,对多层而言,它表示文档的叶子节点类别;x.mat.clabel是词名,也就是字典。字典中每个词语的编号等于它所在行的行号;x.mat.hlabel描述每个类别的层次关系。
预处理采用分词工具ICTCLAS[3]对文档进行分词,并去掉数字与标点符号。
本人欢迎各位业界同行使用本分类语料,并希望用如下方式加以引用:
[1] 谭松波,王月粉. 中文文本分类语料库-TanCorpV1.0.
本页面网址.
[2] Songbo Tan et al. A Novel Refinement Approach for Text
Categorization. ACM CIKM 2005.
本语料可以作为三个分类语料集使用:
特别声明:本语料仅作学术研究之用,不可用于任何商业用途!
考虑到众多同行确实需要未经过任何处理的原始文本,我们决定:只要申请者签订一份声明并且将(扫描或数码拍摄后)声明电子版发给我们,我们审核之后即可通过Email发给申请者。为了便于我们进行审核,请申请者如实填写。注意,需要告诉我们一个可以接收10M附件的邮箱。
若您有任何问题或建议,请直接跟我联系。
3 算法评测
为了验证语料的有效性,我们采用五种经典的文本分类算法进行评测,即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow;贝叶斯采用多项式模型;SVMTorch采用线性核函数。所有实验都采用三分交叉验证,即把数据集随机划分成三份,每次取其中两份进行训练,一份进行测试,然后把三次分类结果的平均结果作为最终结果。
实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点,这主要是因为TanCorp-60样本分布的严重不均衡性。
表2: 五种分类算法在TanCorp上的最好微平均比较
|
|
中心法
|
最近邻
|
Winnow
|
贝叶斯
|
SVMTorch
|
|
|
0.9053
|
0.9035
|
0.8645
|
0.9157
|
0.9483
|
|
TanCorp-60
|
0.8057
|
0.7847
|
0.7176
|
0.8069
|
0.7782
|
|
|
中心法
|
最近邻
|
Winnow
|
贝叶斯
|
SVMTorch
|
|
|
0.8632
|
0.8478
|
0.7587
|
0.8688
|
0.9172
|
|
TanCorp-60
|
0.7562
|
0.7001
|
0.6684
|
0.7025
|
0.7493
|
 |