基于词频向量的关联文本分类
传统的关联规则文本分类一般以规则的置信度作为分类准则,完全忽略了特征词的词频对分类的影响.这就导致了关联文本分类算法的性能较差,针对这个问题,在ARC—BC算法的基础上,提出了基于词频向量的关联规则文本分类算法TFARC(term frequency-based ARC),该算法引入了词频向量,重新定义了规则和文本的可信度作为分类器的分类准则,用迭代的方法求出每条规则的最佳调整因子.实验结果表明,词频的引入确实提高了关联规则文本分类的准确率.
关联文本分类 词频向量 关联规则 TFARC算法
陈东亮 白清源
福州大学数学与计算机科学学院 福州 350002
国内会议
南昌
中文
464-469
2009-10-15(万方平台首次上网日期,不代表论文的发表时间)