基于短文本数据库加载的高效去重方法的设计与实现

摘要：

去重处理是数据挖掘预处理中非常重要的一个环节。当前主流的数据清洗工具中对于重复数据的去除都是基于关系数据库，不适用于在加载过程中进行去重操作。本文针对海量短文本的加载，提出一种在分布式环境下，根据短文本的内容将数据散列到多台服务器上并行去除重复数据的方法CDDDR。同时，为了满足海量加载的性能要求，使用特征值降低文本匹配规模，提高了去重性能。实验表明，CDDDR在四台服务器上能满足4亿条/天的加载性能，同时去重的精确度可以达到97％以上.

关键词：散列特征值分布式短文本去重算法

作者: 魏晗田李韩伟红

作者单位: 国防科学技术大学计算机学院，湖南长沙，410073

会议类型: 国内会议

会议名称: 2007中国计算机大会

会议地点: 苏州

会议语种:中文

页码: 1050-1057

在线出版日期: 2007-10-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于短文本数据库加载的高效去重方法的设计与实现