“天河二号”上一种新型DNA序列de novo拼接方法的并行优化策略
基于String Graph理论的序列拼接工具SGA是当前国际上的一种新型序列拼接工具,本文首先形式化证明了SGA的序列拼接问题是一个NP完全问题,然后对SGA的拼接效率进行了分析,发现和业界同类拼接软件相比,SGA在内存开销方面具有优势,但却具有更大的时间开销,其中构建索引占据了60~70%的比例.基于此,本文设计了一种并行优化策略,并实现了面向天河二号体系结构的并行策略解决这一问题.分别在普通机群和天河二号上进行性能测试,针对小规模数据,优化后的索引构建时间比之前的最佳性能提高了3.06倍,中等规模数据提高了1.60倍,实验结果表明优化效果明显,并行构建局部索引过程具有良好的线性扩展性.本文中用到的优化方法和策略对相关问题的研究有一定的借鉴意义.也表明了天河二号的超级计算能力,能够很好地助力生命科学领域的相关研究.
核糖核酸序列 图像拼接 并行优化策略 超级计算机 计算能力
张峰 廖湘科 彭绍亮 朱小谦 王丙强 崔英博
国防科学技术大学 计算机学院,长沙410073 深圳华大基因研究院,深圳 518083
国内会议
桂林
中文
350-357
2013-10-29(万方平台首次上网日期,不代表论文的发表时间)