基于三元统计模型的汉语分词及标注一体化研究

摘要：

汉语的分词及词性标注是汉语语言处理的基础.虽然,该领域在过去十年已经有了很大进展,但高精度的面向大规模真实文本的分词及标注仍然存在许多困难.本文提出一种基于三元统计模型的汉语分词标注的方法,旨在并行考虑词性及词汇的三元概率模型,兼顾词及词性之间的搭配,实现分词和78类二级词性标注的整体最优,实验结果显示该方法获得很高的正确率.

关键词：分词词性标注三元统计模型语言信息处理

作者: 高山张艳徐波宗成庆韩兆兵

作者单位: 中国科学院自动化研究所模式识别国家重点实验室(北京)

会议类型: 国内会议

会议名称: 全国第六届计算语言学联合学术会议

会议地点: 太原

会议语种:中文

页码: 116-122

在线出版日期: 2001-08-04（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于三元统计模型的汉语分词及标注一体化研究