会议专题

中文自动分词的一些问题

自动分词是中文信息处理系统的基础,有着极其广泛的实际应用。为了了解自动分词当前实际应用中的情况,作者使用第三代智能分词系统3GWS对2006年3月《人民日报》的300个新闻文本进行了分词词性标注加人工校对,并对分词结果中的错误做了分析和归纳。实验结果显示:专名错误还是比较多的;切分标注不一致性的问题也比较明显;缩略词、言语词、术语词、字母词等需要及时收入底表。词性标注仍然是一个比较突出的问题,当前应该重视开发面向不同层次不同领域的动态更新的切分标注软件。

自动分词 词性标记 错误分析 信息处理系统 人工校对

郑泽之

厦门大学中文系 厦门 361005

国内会议

第九届全国计算语言学学术会议

大连

中文

33-38

2007-08-06(万方平台首次上网日期,不代表论文的发表时间)