会议专题

基于转换的错误学习方法的汉语词性自动标注研究

词性标注是自然语言处理的基础.本文采用了基于规则与统计相结合的标注方法.首先用基于词性与词相结合的三元统计模型对汉语分词及标注进行一体化处理,完成对语料库的初始标注;然后用Brill的基于转换的学习方法通过转换规则完成最终的词性标注.对大规模真实语料的标注实验表明基于转换的方法与三元统计模型方法相得益彰;高起始点的初始标注对于提高Brill方法的准确性至关重要;Brill的基于转换的方法在高精度的初始标注的基础上又有明显的提高.

词性标注 三元统计模型 错误驱动 学习算法 汉语词性

张艳 徐波

中国科学院自动化所模式识别国家重点实验室(北京)

国内会议

中国中文信息学会二十周年学术会议

北京

中文

140-147

2001-11-11(万方平台首次上网日期,不代表论文的发表时间)