基于粗糙集的文本分类方法研究
本文旨在利用粗糙集优越的约简理论对文本进行分类.主要完成了以下几个方面的任务:对文本进行了预处理,包括分词、词性标注、停用词的过滤以及同义词的处理;改进了Okapi权重计算公式,综合考虑了位置、词频、文本长度、反文档频率等因素,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序.试验结果表明该方法是行之有效的.
文本分类 粗糙集 约简 决策规则 匹配算法
卢娇丽 郑家恒
山西大学计算机与信息技术学院(太原)
国内会议
上海
中文
157-163
2004-11-01(万方平台首次上网日期,不代表论文的发表时间)