会议专题

一种分布式信息检索系统的设计与实现

在海量数据中迅速获取有效信息需要信息检索技术。设计并实现了采用分布式架构的信息检索系统,具有良好的可扩展性;提出了压缩trie树词典构建方法,减少了内存使用,获得了很高的分词性能;提出了基于软件流水线技术的细粒度流水索引机制,有效提升了索引过程的性能。实测数据表明,该信息检索系统单机分词速率可达8.06MB/s,单机建立索引速率可达23.2GB/h,性能较高;数据平均分布的情况下,分布式系统整体创建索引速度与节点数基本成正比,检索时间对节点个数不敏感,可扩展性良好。

分布式架构 信息检索 汉语分词 索引算法 trie树

穆飞 李维佳 薛巍 舒继武

清华大学计算机系,北京,100084

国内会议

2007年全国网络与信息安全技术研讨会

青岛

中文

531-536

2007-07-18(万方平台首次上网日期,不代表论文的发表时间)