会议专题

一种面向大数据处理的高效分布式数据库聚类算法

随着大数据时代的到来,数据将成为各行各业不可或缺的核心资源.越来越多的大型企业开始拥有分散在不同地点的各类数据,通常需要对这些数据采用分布式解决方案进行管理.但是由于缺少统一的管理和通信机制,导致对这些数据的管理容易发生混乱.对这些分散的数据进行聚类和管理,对整个分布式系统管理效率的提升具有很大的意义.因此提出一种基于深度神经网络的分布式数据聚类技术,首先将分布式数据库中的每条记录作为一个输入矢量,提取其特征并输入深度神经网络的输入层,对深度神经网络节点间的连接权重采用BP算法进行训练,通过对权重的调整实现对深度神经网络输出的训练,最后根据输出层输出的当前矢量对应不同数据类的相似程度判断数据聚类结果.基于小规模分布式系统的实验表明,相比于传统的k-means等聚类方法,该方法具有更好的测试集准确率,更适合于进行分布式环境下的大数据聚类.

分布式数据库 聚类算法 深度神经网络 大数据

孙乔 付兰梅 邓卜侨

北京国电通网络技术有限公司,北京100070

国内会议

2016电力行业信息化年会

天津

中文

377-381

2016-09-24(万方平台首次上网日期,不代表论文的发表时间)