面向XML文档的二级索引技术及其在XML关键词检索中的应用研究

摘要：

随着互联网上XML文档的大量增加，如何高效地索引、存储和检索这些XML数据成为一个非常值得深入研究的课题．目前，在XML关键词检索方面，主流的检索系统都是建立在一级索引的基础上．一级索引存在两个明显的缺点：1)索引的冗余度比较高;2)索引的可扩展性和灵活性较差．通过结合传统倒排索引和基于杜威编码的XML节点索引的优点，提出面向XML文档的二级索引模型，并把该模型应用于求解XML关键词检索中的SLCA，实现了基于二级索引的求解SLCA的栈算法．实验表明，二级索引模型能够节省约30％的空间开销，在时间效率方面，基于二级索引的栈算法在效率上比基于一级索引的栈算法要高1个数量级左右，并且随着关键词数目的增加，这种效率优势会越加明显．

关键词： XML文档二级索引关键词检索栈算法

作者: 向永清邓志鸿于航高宁

作者单位: 北京大学信息科学技术学院机器感知与智能教育部重点实验室北京 100871

会议类型: 国内会议

会议名称: NDBC2009第26届中国数据库学术会议

会议地点: 南昌

会议语种:中文

页码: 373-380

在线出版日期: 2009-10-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向XML文档的二级索引技术及其在XML关键词检索中的应用研究