会议专题

基于分布式大数据技术的科学计量模块化分析平台构建研究

  [目的]设计开发模块化计量指标分析平台,满足计量分析人员多维条件定制、实时高效计算的计量分析需求。[应用背景]面对海量科学文献数据,传统关系数据库进行大数据量计量计算时效率较低,计算时间长,分布式大数据技术为实时I生科学计量分析平台提供了技术基础。[方法]设计计量指标管理模型及基于工作流的指标构建流程,将分析任务分解为多个可独立计算单元;基于分布式大数据ES索引、Redis集合计算、预计算指标等技术,将计算统计任务转化为倒排索引查询及集合运算等操作。[结果]为用户提供标准化的指标选择构建流程、可动态扩展的弹性任务配置及准实时的指标计算支持。[结论]以分布式大数据技术为基础,对计算任务抽象分装,实现了高效、通用的模块化分析平台,同时本研究也可为相关分析决策系统提供参考。

分布式技术 模块化分析 科学计量

师洪波 郭红梅 岳婷 钱力 黄定余 常志军

中国科学院文献情报中心 北京100190;中国科学院大学经济与管理学院图书情报与档案管理系 北京100190 中国科学院文献情报中心 北京100190

国内会议

第二届数据分析与知识发现学术研讨会

兰州

中文

231-238

2019-07-10(万方平台首次上网日期,不代表论文的发表时间)