会议专题

基于MPI的并行文本特征关联分析算法

随着文本挖掘技术的迅速发展,文本知识发现得到越来越多研究人员的关注,而关联分析作为数据挖掘研究中一个重要的研究课题,也在一些文本信息领域得到广泛的应用.但是现在各个领域的信息量都在以几何级的速度增长,传统的串行关联分析算法已经远远不能满足需求.本文介绍了一种用于在文本数据集上挖掘关联规则的新算法,并使用MPI消息传递接口对算法进行并行化.算法主要通过构造分布式倒排哈希索引,结合棋盘分解的通讯模式来加速频繁项集的生成.最后在计算机集群上进行测试,实验数据显示在使用49个进程的时候加速比可以达到16.

文本挖掘 关联分析 并行处理 多点接口

严善楷 张平健

华南理工大学 软件学院,广东 广州 510006

国内会议

2014全国高性能计算学术年会

广州

中文

301-308

2014-11-06(万方平台首次上网日期,不代表论文的发表时间)