会议专题

基于Schema提取可压缩结构实现生物XML数据压缩

针对XML数据中大量的数据冗余,已有很多XML数据压缩方法的研究,但结合具体应用对XML数据压缩进行的研究还很少.以生物XML数据为研究对象,提出基于Schema提取可压缩子结构的XML压缩算法SCSC.根据生物XML数据层次嵌套简单、子结构重复高频出现的特点,提出可压缩子结构的概念.利用XML Schema提供的丰富结构信息建立XML扩充结构树,提取可压缩子结构,并设计可压缩子结构编码方案,对XML数据进行压缩.最后给出提取可压缩子结构的后根遍历算法。理论分析和实验结果表明其在生物XML数据上具有很好的压缩性能.

数据压缩 可压缩子结构 生物XML数据 Schema

祝园园 骆吉洲 高宏 李建中

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001

国内会议

第二十五届中国数据库学术会议(NDBC2008)

桂林

中文

599-604

2008-10-24(万方平台首次上网日期,不代表论文的发表时间)