基于信息提取的面向行业应用文本分类算法
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明:该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法。
文本分类 信息提取 面向主题 信息检索 自然语言理解
郭峰 徐玉生 陈晓云 王颖
兰州大学,信息科学与工程学院,兰州,730000
国内会议
北京
中文
1810-1813
2005-09-26(万方平台首次上网日期,不代表论文的发表时间)