基于大规模真实文本的平衡语料分析与文本分类方法

摘要：

本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量、词类比例等特征的差异.在此基础上,对TF*IDF文本分类器中采用的TF*IDF权重算法以及由此衍生的TF*IWF*IWF权重算法从TF、IWF两个角度进行了改进,提出了一种基于大规模语料库的文本分类方法,并将它与TF*IWF*IWF权重算法进行了对比,从实验结果看这种方法将F1测度值提高了12.28％,充分验证了其有效性.

关键词：语料库语料分析文本分类

作者: 陈克利宗成庆王霞

作者单位: 中科院自动化所模式识别国家重点实验室(北京) 诺基亚(中国)研究中心(北京)

会议类型: 国内会议

会议名称: 全国第七届计算语言学联合学术会议

会议地点: 哈尔滨

会议语种:中文

页码: 540-545

在线出版日期: 2003-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于大规模真实文本的平衡语料分析与文本分类方法