基于转换的错误学习方法的汉语词性自动标注研究

摘要：

词性标注是自然语言处理的基础.本文采用了基于规则与统计相结合的标注方法.首先用基于词性与词相结合的三元统计模型对汉语分词及标注进行一体化处理,完成对语料库的初始标注;然后用Brill的基于转换的学习方法通过转换规则完成最终的词性标注.对大规模真实语料的标注实验表明基于转换的方法与三元统计模型方法相得益彰;高起始点的初始标注对于提高Brill方法的准确性至关重要;Brill的基于转换的方法在高精度的初始标注的基础上又有明显的提高.

关键词：词性标注三元统计模型错误驱动学习算法汉语词性

作者: 张艳徐波

作者单位: 中国科学院自动化所模式识别国家重点实验室(北京)

会议类型: 国内会议

会议名称: 中国中文信息学会二十周年学术会议

会议地点: 北京

会议语种:中文

页码: 140-147

在线出版日期: 2001-11-11（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于转换的错误学习方法的汉语词性自动标注研究