基于关联规则和特征码的快速去重方法
在文本挖掘预处理过程中,文本去重能够消除大量重复丈本,从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性,本文提出了基于关联规则和特征码的快速去重方法。在对海量短文本进行去重过程中,该方法具有较高的压缩比,效率优于全匹配r去重和基于特征码去重。
关联规则 特征码 快速去重方法 文本挖掘
杨虎 杨树强 韩伟红 金鑫
国防科学技术大学计算机学院,湖南长沙,410073 长沙民政职业技术学院软件学院,湖南长沙,410004
国内会议
苏州
中文
1006-1012
2007-10-18(万方平台首次上网日期,不代表论文的发表时间)