大规模DNA序列拼接的并行预处理
针对大规模基因数据拼接问题,提出并实现一种对数据并行预处理方法。根据基于 数据特征将数据划分问题转化为k-mer 分类问题,保证节点负载的平衡和划分的正确,采 用hash 并行过滤方法,去掉了90%以上的重复和错误数据,同时每个节点提取划分的数 据,以
DNA 序列拼接MPI DeBruijn 图并行预处理
钱立兵 孟金涛 冯圣中 黄哲学 徐云
中国科学院深圳先进技术研究院;中国科学技术大学 中国科学院深圳先进技术研究院 中国科学技术大学
国内会议
2010年全国高性能计算学术年会(HPC china2010)
北京
中文
380-386
2010-10-27(万方平台首次上网日期,不代表论文的发表时间)