基于TBL的日文名实体识别后处理技术

摘要：

本文提出了一种改进的基于TBL的日文名实体识别后处理方法。该方法首先针对日文名实体识别结果中的错误进行分析学习，得到候选规则集；然后按阈值条件对候选规则进行筛选，得到校正规则集；最后，应用校正规则集对日文名实体识别结果进行校正。该方法可以弥补统计模型的不足，自动获取专门领域的语言特征知识，避免了传统规则方法的复杂性，同时基于TBL获取的规则一般不会出现过拟合的现象。实验表明本文提出的改进的基于TBL的后处理技术对日文名实体识别效果有很大的提高。

关键词：后处理名实体识别日文信息候选规则集语言特征

作者: 王晶郑德权赵铁军王忠建

作者单位: 哈尔滨工业大学教育部-微软语言语音重点实验室,哈尔滨 150001

会议类型: 国内会议

会议名称: 2008年中国信息技术与应用学术论坛

会议地点: 成都

会议语种:中文

页码: 333-334,359

在线出版日期: 2008-04-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于TBL的日文名实体识别后处理技术