会议专题

基于关联规则和特征码的快速去重方法

在文本挖掘预处理过程中,文本去重能够消除大量重复丈本,从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性,本文提出了基于关联规则和特征码的快速去重方法。在对海量短文本进行去重过程中,该方法具有较高的压缩比,效率优于全匹配r去重和基于特征码去重。

关联规则 特征码 快速去重方法 文本挖掘

杨虎 杨树强 韩伟红 金鑫

国防科学技术大学计算机学院,湖南长沙,410073 长沙民政职业技术学院软件学院,湖南长沙,410004

国内会议

2007中国计算机大会

苏州

中文

1006-1012

2007-10-18(万方平台首次上网日期,不代表论文的发表时间)