XCluster:基于聚类支持查询的XML多文档压缩方法

XML已成为各种网络应用中数据存储和数据交换的标准。XML数据管理面临的最大困难在于结构与数据混合存储导致大量数据冗余,这极大地增加了XML数据存储、交换和处理的代价。对XML文档进行压缩可以在一定程度上解决这个问题。但现有XML压缩方法大都仅压缩单文档中的冗余信息。本文利用XML文档间的相似性,提出一种支持查询的多XML文档压缩存储方法XCluster。XCluster先利用XML有根有序标签树上改进的pq-gram近似距离对XML文档集进行层次聚类:然后合并每个聚类结果子集中文档的结构得到结构代表并进行字典编码压缩;同时合并不同文档内同一标签下的值内容并根据其数据类型进行相应编码压缩。实验结果表明,在真实和生成的XML多文档数据集上,XClustcr比XGrind和XQilla具有更好的压缩效果和查询效率。
XML文档 查询处理 多文档压缩 支持查询 数据存储 层次聚类
赵明 骆吉洲 李建中 高宏
哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001
国内会议
南昌
中文
14-23
2009-10-15(万方平台首次上网日期,不代表论文的发表时间)