大规模DNA序列拼接的并行预处理

摘要：

　　针对大规模基因数据拼接问题，提出并实现一种对数据并行预处理方法。根据基于数据特征将数据划分问题转化为k-mer 分类问题，保证节点负载的平衡和划分的正确，采用hash 并行过滤方法，去掉了90％以上的重复和错误数据，同时每个节点提取划分的数据，以

关键词： DNA 序列拼接MPI DeBruijn 图并行预处理

作者: 钱立兵孟金涛冯圣中黄哲学徐云

作者单位: 中国科学院深圳先进技术研究院;中国科学技术大学中国科学院深圳先进技术研究院中国科学技术大学

会议类型: 国内会议

会议地点: 北京

会议语种:中文

页码: 380-386

在线出版日期: 2010-10-27（万方平台首次上网日期，不代表论文的发表时间）

会议专题