基于K-spectrum的下一代测序数据的纠错算法分析

摘要：

目的：对现有的下一代测序(Next Generation Sequencing,NGS)纠错算法和工具进行分析,提出基于Hadoop平台的纠错算法,以解决大数据处理中计算机内存不足和运行时间长的问题,提升纠错性能. 方法：使用特定的数据对现有的基于K-spectrum的纠错算法进行测试,对各纠错工具的运行时间、内存峰值和纠错结果进行比较来衡量纠错工具的性能.在此基础上提出Hadoop分布式并行纠错算法(Parallel algorithm),并与串行程序、Lighter和Racer进行比较,分析分布式并行实现的可行性. 结果：现有的基于K-spectrum的纠错工具普遍存在较大的内存消耗现象,其中Racer和Sga的纠错效果较好.而Hadoop分布式并行纠错算法对计算机单机内存的消耗较低,当数据量超过一定值时,并行分布式程序的运算时间比串行单机程序明显减少. 结论：本研究提出的Hadoop分布式并行纠错算法不仅降低了内存消耗,而且提高了运算性能,更有利于大规模基因数据的分析处理.

关键词：下一代测序大数据处理纠错算法 Hadoop分布式并行运算

作者: 赖德焕陈庆锋黄丽宇梁家海

作者单位: 广西大学计算机与电子信息学院,广西南宁530004 广西大学计算机与电子信息学院,广西南宁530004;广西大学亚热带农业生物资源保护与利用国家重点实验室,广西南宁530004 广西大学信息网络中心,广西南宁530004 钦州学院电子与信息工程学院,广西钦州535000

会议类型: 国内会议

会议名称: 广西计算机学会成立30周年庆典暨2016年学术年会

会议地点: 南宁

会议语种:中文

页码: 7-11

在线出版日期: 2016-11-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于K-spectrum的下一代测序数据的纠错算法分析