会议专题

基于词频向量的关联文本分类

传统的关联规则文本分类一般以规则的置信度作为分类准则,完全忽略了特征词的词频对分类的影响.这就导致了关联文本分类算法的性能较差,针对这个问题,在ARC—BC算法的基础上,提出了基于词频向量的关联规则文本分类算法TFARC(term frequency-based ARC),该算法引入了词频向量,重新定义了规则和文本的可信度作为分类器的分类准则,用迭代的方法求出每条规则的最佳调整因子.实验结果表明,词频的引入确实提高了关联规则文本分类的准确率.

关联文本分类 词频向量 关联规则 TFARC算法

陈东亮 白清源

福州大学数学与计算机科学学院 福州 350002

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

464-469

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)