“天河二号”上一种单核苷酸位点变异检测算法的深度并行优化策略
为了减少识别癌症基因中单核苷酸位点变异(SNV)的时间,华大基因研究院联合国防科技大学计算机学院计划把自行研发的SNV识别软件PDXsnv移植到广州超算中心天河先导系统和天河二号上,并进行性能分析和程序优化加速.测试和分析表明,PDXsnv软件的主要运行瓶颈是pileup算法中的I/O操作,针对该问题,对pileup算法进行了实验测试和算法分析,发现原pileup算法采用顺序读取方式读入BAM文件的数据,导致读入特定位置的数据的时间较长,尤其是采用多线程并行方式进行数据读取时性能较差、可扩展性不强.因此设计并实现了新的多线程并行I/O读取算法,新的pileup算法采用了基于索引的多线程并行读取方法,使用该方法,多个线程可以根据索引快速、并行地读入特定位置的数据.在天河二号等集群上的实验表明,新的pileup并行算法在进行多线程I/O读取操作时获得了较高的性能,算法处理时间缩短到3.9秒,实际应用程序在运行时获得了100倍以上的加速比,同时算法还具有较好的可扩展性.
癌症基因 单核苷酸位点 变异检测算法 并行设计 优化策略 超级计算机
彭绍亮 朱小谦 廖湘科 朱敏 王恒 崔英博
国防科技大学 计算机学院 长沙 410073
国内会议
桂林
中文
694-697
2013-10-29(万方平台首次上网日期,不代表论文的发表时间)