会议专题

一种应用于Deep Web环境下的重复记录识别模型

随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性.

重复记录识别模型 数据库 Deep Web环境 字符串匹配

朱命冬 申德荣 寇月 聂铁铮 于戈

东北大学信息科学与工程学院 沈阳 110004

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

14-21

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)