会议专题

天河2号上一种大规模生物医学文献挖掘技术

生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计算效率与数据全面性方面有很大限制.针对该问题,本文提出了一种全新高效的可扩展性大规模文本挖掘方法,并基于一种高效文本挖掘工具PWTEES设计了针对疾病的命名实体识别组件DNorm.完成了生物医学文献库PubMed上全部2000多万篇MEDLINE生物医学文献以及PWTEES在天河-2上的大规模部署和挖掘,在天河上实现了数据库的动态部署,可以应对1000进程的并发存取,并探索了分布式可伸缩NoS QL数据库MongoDB的部署测试。将平时在普通服务器上需要3个月才能完成的计算处理缩短至1个小时,从而实现了对大规模生物医学文献文本的高效挖掘和快速知识获取.同时在天河2号上利用200进程对实际头颈癌相关的共约7万篇文献数据进行了并行挖掘分析,取得了80%以上的并行效率.而且随着生物医学文献文本数量的增加,并行效率始终保持在80%左右.

生物医学文献 大规模文本挖掘 并行效率 数据库 动态部署

彭绍亮 吴诚堃 廖湘科 卢宇彤 方林 汪雪飞 李文涛

国防科学技术大学计算机学院,长沙 410073 深圳华大基因研究院,深圳 518083

国内会议

2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议

广东茂名

中文

1-9

2015-09-25(万方平台首次上网日期,不代表论文的发表时间)