基于MPI的并行文本特征关联分析算法

摘要：

随着文本挖掘技术的迅速发展,文本知识发现得到越来越多研究人员的关注,而关联分析作为数据挖掘研究中一个重要的研究课题,也在一些文本信息领域得到广泛的应用.但是现在各个领域的信息量都在以几何级的速度增长,传统的串行关联分析算法已经远远不能满足需求.本文介绍了一种用于在文本数据集上挖掘关联规则的新算法,并使用MPI消息传递接口对算法进行并行化.算法主要通过构造分布式倒排哈希索引,结合棋盘分解的通讯模式来加速频繁项集的生成.最后在计算机集群上进行测试,实验数据显示在使用49个进程的时候加速比可以达到16.

关键词：文本挖掘关联分析并行处理多点接口

作者: 严善楷张平健

作者单位: 华南理工大学软件学院,广东广州 510006

会议类型: 国内会议

会议名称: 2014全国高性能计算学术年会

会议地点: 广州

会议语种:中文

页码: 301-308

在线出版日期: 2014-11-06（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于MPI的并行文本特征关联分析算法