基于短文本数据库加载的高效去重方法的设计与实现
去重处理是数据挖掘预处理中非常重要的一个环节。当前主流的数据清洗工具中对于重复数据的去除都是基于关系数据库,不适用于在加载过程中进行去重操作。本文针对海量短文本的加载,提出一种在分布式环境下,根据短文本的内容将数据散列到多台服务器上并行去除重复数据的方法CDDDR。同时,为了满足海量加载的性能要求,使用特征值降低文本匹配规模,提高了去重性能。实验表明,CDDDR在四台服务器上能满足4亿条/天的加载性能,同时去重的精确度可以达到97%以上.
散列 特征值 分布式 短文本 去重算法
魏晗 田李 韩伟红
国防科学技术大学计算机学院,湖南长沙,410073
国内会议
苏州
中文
1050-1057
2007-10-18(万方平台首次上网日期,不代表论文的发表时间)