利用并行GPU对分层分布式狄利克雷分布算法加速
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理.Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题.而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类.为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速.应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比.
分层分布式狄利克雷分布算法 并行图形处理器 优化运行
温腊 芮建武 何婷婷 郭亮
中国科学院软件研究所 基础软件国家工程研究中心,北京 100190;中国科学院大学,北京 100190 中国科学院软件研究所 基础软件国家工程研究中心,北京 100190
国内会议
昆明
中文
3313-3316,3330
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)