会议专题

一种并行的信息检索方法--基于最小分块的PageRank实现

大数据时代对信息检索效率提出了愈来愈高的要求.结合矩阵分块实现并行计算是提高PageRank检索效率的常用方法,但分块规则不理想时,分块后的并行计算将较为复杂,影响信息检索效率.提出一种基于最小分块,采用MapReduce框架实现PageRank算法的方法.实质是将结果矩阵中每次计算所需的元素作为最小分块,使用MapReduce并行框架分块存储计算.由于分块简单,计算所需分块在本地存储,减少了I/O传输开销.实验环境采用Hadoop平台,通过筛选和抽样方法,形成数据规模和稀疏度不同的实验矩阵,实验表明实现方法提高了PageRank算法的计算效率,从而奠定了改善信息检索效率的基础.

信息检索 PageRank算法 并行计算 矩阵分块

陶皖 徐京 张伟 余伟

安徽工程大学计算机与信息学院,芜湖241000;安徽工程大学计算机应用技术重点实验室,芜湖241000 安徽工程大学计算机与信息学院,芜湖241000

国内会议

信息系统协会中国分会第六届学术年会

济南

中文

569-573

2015-10-24(万方平台首次上网日期,不代表论文的发表时间)