基于条件随机域的生物医学命名实体识别
命名实体识别是生物医学文献文本挖掘重要的第一步.近年有很多人研究,然而效果并不理想.JNLPBA2004测评中最好的系统只能达到72.6%的F-score.本文使用条件随机域(Conditional Random Fields,CRF)模型,采用GENIA语料进行训练,在JNLPBA2004测试集上得到了71.9%的F-score.本文讨论了不同规模训练语料,不同特征对CRF模型标注结果的影响.边界识别错误是识别中很严重的问题,本文针对左边界错误才采用了一种基于CRF的二次标注方法,使左边界错误率减少了7.2%.
命名实体识别 生物医学 文本挖掘 条件随机域
李彦鹏 杨志豪 林鸿飞
大连理工大学,计算机科学与工程系,大连,116024
国内会议
沈阳
中文
470-473
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)