会议专题

基于Hadoop和Nutch的分布式搜索引擎研究与仿真

随着互联网络的发展,网络中存储的信息量急剧增加,搜索引擎在网络中占据着越来越重要的位置.本文基于分布式处理平台Hadoop和开源搜索引擎框架Nutch设计并仿真了一个分布式搜索引擎.Nutch中相关的中文分词切分算法较为简单,识别效率不高,为了改进中文分词算法,本文引入了基于词典的中文分词器IK Analyzer,随后对分词效率进行了测试,测试结果表明中文分词效果有明显改善.

搜索引擎 分布式处理 开源设计 中文分词算法 Hadoop分布式处理平台 Nutch开源搜索引擎框架

白永超 付伟 辛阳

北京邮电大学信息安全中心,北京,100876

国内会议

第十九届全国青年通信学术年会

上海

中文

82-87

2014-10-15(万方平台首次上网日期,不代表论文的发表时间)