会议专题

基于子串标注的中文分词:寻找更佳的标注单元

由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来。基于字标注的统计学习方法引起了广泛的关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法.该方法的有效性在Bakeoff-2005评测语料上获得了验证。

中文分词 子串标注 分词评测 统计学习 匹配算法

赵海 揭春雨

香港城市大学中文翻译及语言学系,香港九龙达之路83号

国内会议

第九届全国计算语言学学术会议

大连

中文

45-51

2007-08-06(万方平台首次上网日期,不代表论文的发表时间)