会议专题

基于并行K-means聚类构建的分布式M-Tree

  并行索引技术是提高相似度检索性能的关键技术之一。结合Beowalf 并行计算集群系统的特点,提出了 一种新颖的分布式M-tree 索引结构。该索引由一系列位于计算节点的小规模子索引组成,并利用k-means 聚类 算法作为数据分发策略的核心,能够准确地检测出数据集的全局邻近度,进而确定需要将哪些对象分发到不同 节点。为了充分发挥集群系统的性能以及在处理大规模数据集方面的优势,提出了分布式M-tree的并行构建算 法和并行k-NN 查询算法。实验结果表明,通过分布式M-tree 及其数据分发策略能够保证各节点的静态和动态 负载平衡,而且并行构建算法和查询算法能够大幅度提高索引的构建速度以及相似度检索的性能。

并行索引 分布式M-tree k-means 聚类 并行 数据分发

裘初 鲁永泉 高鹏东 王金涛 吕锐

中国传媒大学高性能计算中心 北京 100024

国内会议

2010年全国高性能计算学术年会(HPC china2010)

北京

中文

401-408

2010-10-27(万方平台首次上网日期,不代表论文的发表时间)