基于K-spectrum的下一代测序数据的纠错算法分析
目的:对现有的下一代测序(Next Generation Sequencing,NGS)纠错算法和工具进行分析,提出基于Hadoop平台的纠错算法,以解决大数据处理中计算机内存不足和运行时间长的问题,提升纠错性能. 方法:使用特定的数据对现有的基于K-spectrum的纠错算法进行测试,对各纠错工具的运行时间、内存峰值和纠错结果进行比较来衡量纠错工具的性能.在此基础上提出Hadoop分布式并行纠错算法(Parallel algorithm),并与串行程序、Lighter和Racer进行比较,分析分布式并行实现的可行性. 结果:现有的基于K-spectrum的纠错工具普遍存在较大的内存消耗现象,其中Racer和Sga的纠错效果较好.而Hadoop分布式并行纠错算法对计算机单机内存的消耗较低,当数据量超过一定值时,并行分布式程序的运算时间比串行单机程序明显减少. 结论:本研究提出的Hadoop分布式并行纠错算法不仅降低了内存消耗,而且提高了运算性能,更有利于大规模基因数据的分析处理.
下一代测序 大数据处理 纠错算法 Hadoop分布式并行运算
赖德焕 陈庆锋 黄丽宇 梁家海
广西大学计算机与电子信息学院,广西南宁530004 广西大学计算机与电子信息学院,广西南宁530004;广西大学亚热带农业生物资源保护与利用国家重点实验室,广西南宁530004 广西大学信息网络中心,广西南宁530004 钦州学院电子与信息工程学院,广西钦州535000
国内会议
南宁
中文
7-11
2016-11-26(万方平台首次上网日期,不代表论文的发表时间)