会议专题

利用未标注语料改进实体名识别性能

本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征.利用这些任何语言的文本上都极易获得的特征,我们构建了一个基准系统.在此基础上,我们在未标注语料上抽取出现的实体名作为辅助的训练语料,再将这些语料加入训练.实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能.

实体名识别 最大熵 未标注语料 自然语言处理 信息抽取

陈宁昱 周雅倩 黄萱菁 吴立德

复旦大学计算机科学与工程系(上海市)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

372-378

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)