基于最小语言学资源的资源受限领域命名实体识别
如何在资源匮乏的大规模数据(如互联网纯文本数据)上识别命名实体是一个重要的问题。为解决该问题,我们使用简单的词典资源自动标注数据,然后将命名识别问题转化为基于最大熵马尔可夫模型的序列标注问题。我们使用两种方法搜索结果:1)输出标注序列,并使用重排序方法对k.Best结果进行重排序;2)使用变种的前向.后向算法计算出候选命名实体的概率,并使用阈值过滤。实验表明,使用后种方法可以极大地提高命名实体识别的召回率和F值,并可以更加灵活地根据需求控制准确率与召回率。
涂兆鹏 姜文斌 刘群 林守勋 廖剑 吴克文
智能信息重点实验室 计算技术研究所,中国科学院 B2B国际站算法组阿里巴巴(中国)网络技术有限公司
国内会议
上海
中文
149-156
2012-11-17(万方平台首次上网日期,不代表论文的发表时间)