MapReduce并行加速数据流多模式相似性搜索

摘要：

设计时间序列数据在Hadoop分布式文件系统(HDFS)中的有效存储方式,利用分布式缓存工具Distributed Cache将各子序列分发到Hadoop集群的计算节点上,将动态时间弯曲距离矩阵划分成多个子矩阵,采取并行迭代计算每条反对角线上子矩阵的方法,基于MapReduce编程模型,实现高效并行计算时间序列动态弯曲距离,通过改进剪裁冗余计算方法,设计实现一种数据流多模式相似性搜索并行算法.中国雪深长时间序列数据集的实验结果表明,当每条时间序列的长度达到5000以上时,并行计算动态弯曲距离所需时间少于串行计算所需时间,当每条时间序列的长度达到9000以上时,参与计算的集群节点越多,并行计算所需时间越少;当模式长度达到4000、参与计算的集群节点数达5个以上时,从数据流中并行搜索出与模式匹配的相似子序列所需时间约为串行搜索所需时间的20％.

关键词：数据流时间序列并行搜索模式匹配

作者: 付晨钟诚叶波

作者单位: 广西大学计算机与电子信息学院,南宁530004 广西科技信息网络中心,南宁530012

会议类型: 国内会议

会议名称: 2016年全国开放式分布与并行计算学术年会

会议地点: 南宁

会议语种:中文

页码: 37-41

在线出版日期: 2016-08-19（万方平台首次上网日期，不代表论文的发表时间）

会议专题

MapReduce并行加速数据流多模式相似性搜索