会议专题

分词规范亟需补充的三方面内容

本文认为,要构建高质量的健分词语料库亟需在现有的分词规范中着重补充以下三方面的内容:(1)命名实体(人名、地名、机构名)标注细则;(2)表义字串(数字、时间、日期、电子邮箱等)标注细则;(3)歧义字串的消解细则。因为命名实体和表义字串已被不少分词规范视为一个分词单位,据统计它们到文本中未登录词总词次数的三分之二左右。此外,在以往的分词规范中歧义字串的消歧问题很少得到说明,以为这是不言自明的。其实不然,人们对歧义字串的语感往往是不同的,尤其是组合歧义。因此,在规范中对典型的歧义字串予以说明实属必要。实践表明,如果把上述三方面的标注细则在规范中进一步交待清楚,就可以在很大程度上避免标注的错误和不一致性。

语料库 分词规范 歧义字段消解 表义字串

李玉梅 陈晓 姜自霞 靳光瑾 易江燕 黄昌宁

教育部语言文字应用研究所 北京 100010 微软亚洲研究院 中国 100080

国内会议

第九届全国计算语言学学术会议

大连

中文

39-44

2007-08-06(万方平台首次上网日期,不代表论文的发表时间)