会议专题

基于聚簇的XML文档近似连接方法

XML文档近似连接操作是在两个XML文档集合中发现近似的XML文档,其在基于XML数据的信息集成、XML数据清洗等系统中有着广泛的应用.然而,目前XML文档近似连接操作的一个显著问题在于:当文档之间存在较大差异时,存在大量的重复计算,降低了处理效率.对于这个问题,提出了基于聚类的XML文档近似连接方法,基本思想是为每个XML文档建立一个索引,如果两个数据集中若干文档的索引较相似,可以把它们组成一簇,然后在每一簇中执行近似连接.而不在任何簇中的文档,则无需对其进行任何计算.实验结果表明,提出的方法在保证正确率的前提下具有高效性。

XML文档 近似连接 数据库 聚簇方法

韩哲 王宏志 高宏 李建中 骆吉洲

哈尔滨工业大学计算机学院 哈尔滨 150001

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

81-86

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)