基于关联规则和特征码的快速去重方法

摘要：

在文本挖掘预处理过程中，文本去重能够消除大量重复丈本，从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性，本文提出了基于关联规则和特征码的快速去重方法。在对海量短文本进行去重过程中，该方法具有较高的压缩比，效率优于全匹配r去重和基于特征码去重。

关键词：关联规则特征码快速去重方法文本挖掘

作者: 杨虎杨树强韩伟红金鑫

作者单位: 国防科学技术大学计算机学院，湖南长沙，410073 长沙民政职业技术学院软件学院，湖南长沙，410004

会议类型: 国内会议

会议地点: 苏州

会议语种:中文

页码: 1006-1012

在线出版日期: 2007-10-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题