会议专题

一种大规模图数据处理关键技术的评估模型

随着社交网络、知识图谱等图应用的不断发展,对亿万个顶点级别大规模图的处理能力的需求愈加迫切,这是当前海量数据处理领域的研究和开发热点.但是,目前并没有一个全面的评估模型来衡量和比较当前主流框架的适用场景及利弊.针对以上问题,本文全面分析和总结了大规模图数据处理的四个关键问题,包括图数据分布策略、磁盘数据组织策略、迭代编程模型、消息模型与同步策略等.结合主流的大规模图处理框架,建立了评估模型定量地分析这些关键问题对大规模图数据处理的影响,对未来图计算框架的设计具有指导意义.最后通过全面的实验评测证实了本文提出的评估模型的有效性在测试结果中发现了如下不同寻常的现象:与图数据边分割相比,通常认为更快的顶点分割方法(如PowerGraph)虽然在邻域算法上运行时间确实能够达到边分割的50%左右,但是在非邻域算法上时间开销却是边分割的3倍;与同步策略相比,异步策略可以减少约20%~30%的总计算量,但在稠密图上由于细粒度的锁冲突,其运行时间反而可能达到同步策略的2倍;当数据集达到4千万顶点和13亿条边时,基于磁盘的MapReduce比基于内存的Giraph等框架性能反而更高.

图像数据 数据处理 评估模型 有效性

高赟 周薇 韩冀中 孟丹

中国科学院信息工程研究所信息智能处理技术研究室,北京100093;中国科学院大学,北京100049 中国科学院信息工程研究所信息智能处理技术研究室,北京100093

国内会议

第二届CCF大数据学术会议

北京

中文

1-16

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)