会议专题

海量多版本文档的加权持久性top-k检索

提出并研究了针对海量多版本文档的加权持久性top-k检索问题.加权持久性top-k检索能够返回在一个限定时间区间内与查询关键词组持续相关的k个结果,并且考虑不同时间区间有不同的权重,针对这一问题,把现有时空查询和针对多版本文档查询的方法进行扩展,使其支持加权持久性top-k检索问题,并分析总结了该方法的缺点,进而又提出了一种新的基于时间区间窗口的算法。基于时间区间窗口的算法能够支持多种经典top-k算法并有效地解决加权持久性top-k检索问题。最后使用Wzkipedia多版本数据进行了一系列性能试脸,对比浏试了基于区间窗口的算法和扩展算法。结果表明区间窗口算法在各个测试下的效率和可扩展性明显优于扩展算法.

多版本文档 加权持久性top-k检索 算法优化 性能评价

兰超 张勇 邢春晓

清华大学计算机科学与技术系 北京 100084;清华大学信息技术研究院 北京 100084 清华大学信息技术研究院 北京 100084

国内会议

中国计算机学会第一届CCF大数据学术会议

北京

中文

121-131

2013-12-01(万方平台首次上网日期,不代表论文的发表时间)