会议专题

汉语分词及词性标注自动校验方法研究

大规模的标注语料库是语料库语言学发展的重要基础.随着许多科学研究的进一步开展,我们对语料的加工质量提出了更高的要求.本文采用基于上下文搭配的规则和统计相结合的自动校验方法,对机器切分标注语料进行处理,并把自动校验过程中获取的信息,应用于语料库的构建,即采用滚动式的方法,建立大规模的、具有更高加工质量的标注语料库.

自动分词 词性标注 自动校验 语料库 质量保证 机器切分

钱揖丽 张虎

山西大学计算机科学系(太原)

国内会议

第一届学生计算语言学研讨会

北京

中文

59-64

2002-08-01(万方平台首次上网日期,不代表论文的发表时间)