基于大规模真实文本的平衡语料分析与文本分类方法
本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量、词类比例等特征的差异.在此基础上,对TF*IDF文本分类器中采用的TF*IDF权重算法以及由此衍生的TF*IWF*IWF权重算法从TF、IWF两个角度进行了改进,提出了一种基于大规模语料库的文本分类方法,并将它与TF*IWF*IWF权重算法进行了对比,从实验结果看这种方法将F1测度值提高了12.28%,充分验证了其有效性.
语料库 语料分析 文本分类
陈克利 宗成庆 王霞
中科院自动化所模式识别国家重点实验室(北京) 诺基亚(中国)研究中心(北京)
国内会议
哈尔滨
中文
540-545
2003-08-01(万方平台首次上网日期,不代表论文的发表时间)