基因本体标注研究进展
人工基因本体(Gene Ontology,GO)标注是指标注者通过阅读生物医学文献并使用GO术语来标定文中的基因功能信息,其结果在生物医学研究中扮演了非常重要的角色.基于对两届BioCreative GO任务参赛队伍性能的比较,可以得出结论:最新的从文献中自动挖掘GO术语技术近十年来己经有所提高,并且计算机的结果正在向人工标注的结果越来越接近。但要真正有助于现实世界中的GO标注,还有很多工作要做,以解决下列技术挑战:首先,GO术语(分类的类标签)的数量非常庞大并且还在增长,其次,GO术语(和相关的同义词)是为同一基因功能标注设计的,而非为文本挖掘设计,因此很少能在论文中一字不差地找到。另一方面,不是所有与某一个GO概念的匹配都被标注。实际上,只有在GO给定的全文论文中表达实验结果发现的GO被选中。因此,自动方法必须能从相同的GO术语中过滤不相关的提及。尽管一篇论文的标题可能会决定它是否与某个GO概念相关,任何标注必须针对一片论文自身,而非其引用。因此排除参考文献部分可能是一个简单的建议,以使这些方法与现实生活中的标注更加相关。最后,为建立统计和机器学习方法的人工标注数据还是很缺乏。对于自动提取基因和证据代码信息,以及他们对于检测相应的GO术语的影响进行进一步的调查研究是将来需要开展的工作之一。
生物医学文献 人工基因本体 标注方法 文本挖掘
冒宇清
南京中医药大学信息技术学院
国内会议
北京
中文
283-285
2015-08-01(万方平台首次上网日期,不代表论文的发表时间)