三位一体字标注的汉语词法分析

摘要：

针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务.并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4％,词性标注的标注精度达到了95.3％,命名实体识别的F值达到了90.3％,这说明三位一体字标注的汉语词法分析性能更优.

关键词：中文信息处理汉语词法分析字标注最大熵模型

作者: 于江德胡顺义余正涛

作者单位: 安阳师范学院计算机与信息工程学院,河南安阳455000 昆明理工大学信息工程与自动化学院,云南昆明650051

会议类型: 国内会议

会议名称: 中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)

会议地点: 广州

会议语种:中文

页码: 1-8

在线出版日期: 2015-11-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

三位一体字标注的汉语词法分析