基于Hadoop和Nutch的分布式搜索引擎研究与仿真
随着互联网络的发展,网络中存储的信息量急剧增加,搜索引擎在网络中占据着越来越重要的位置.本文基于分布式处理平台Hadoop和开源搜索引擎框架Nutch设计并仿真了一个分布式搜索引擎.Nutch中相关的中文分词切分算法较为简单,识别效率不高,为了改进中文分词算法,本文引入了基于词典的中文分词器IK Analyzer,随后对分词效率进行了测试,测试结果表明中文分词效果有明显改善.
搜索引擎 分布式处理 开源设计 中文分词算法 Hadoop分布式处理平台 Nutch开源搜索引擎框架
白永超 付伟 辛阳
北京邮电大学信息安全中心,北京,100876
国内会议
上海
中文
82-87
2014-10-15(万方平台首次上网日期,不代表论文的发表时间)