会议专题

基于统计分类器的新词识别研究

新词识别是汉语自动分词的难题之一。在大规模中文自动分词中,新词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分类问题,在给定的上下文中判断一个字符串是否为新词。本文采用基于五类特征:前字成词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现概率的C4.5和SVM算法解决该问题,并使用ACL-SIGHAN第一届中文分词竞赛中北京大学语料库进行测试,取得了较高的准确率和召回率。

新词识别 支持向量机 决策树 统计分类器 中文自动分词 汉语自动分词

刘建毅 王菁华 王枞

北京邮电大学智能科学技术研究中心 北京 100876;北京师范大学中文信息处理研究所 北京 100083 北京邮电大学智能科学技术研究中心 北京 100876

国内会议

第三届HNC与语言学研究学术研讨会

北京

中文

115-120

2005-12-21(万方平台首次上网日期,不代表论文的发表时间)