一种分布式信息检索系统的设计与实现
在海量数据中迅速获取有效信息需要信息检索技术。设计并实现了采用分布式架构的信息检索系统,具有良好的可扩展性;提出了压缩trie树词典构建方法,减少了内存使用,获得了很高的分词性能;提出了基于软件流水线技术的细粒度流水索引机制,有效提升了索引过程的性能。实测数据表明,该信息检索系统单机分词速率可达8.06MB/s,单机建立索引速率可达23.2GB/h,性能较高;数据平均分布的情况下,分布式系统整体创建索引速度与节点数基本成正比,检索时间对节点个数不敏感,可扩展性良好。
分布式架构 信息检索 汉语分词 索引算法 trie树
穆飞 李维佳 薛巍 舒继武
清华大学计算机系,北京,100084
国内会议
青岛
中文
531-536
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)