会议专题

语料库的标注和它的局限性

Leech在1997年的”Introducing corpus annotation”一文中给语料库标注(corpus annotation)下的定义是:”为电子口笔语语料库文本添加解释性信息和语言学信息的活动.”标注的具体实施就是对文本某些元素或特征添加预定的标签(tag),语料库标注通常可以分为计算机自动标注、机助人工标注和完全人工标注3种.在实际运用中,标注这个术语有3个含义:第一个含义指标注方案,也就是一系列预定的标注代码集和标注规则集;第二个含义指标注过程,包括标注使用的软件、技术和程序;第三个含义指标注产品,也就是加工过的带标记的语料库文本.不同的研究者对标注这个术语的使用不完全相同.文中介绍了英语词类标注中的兼类词消歧策略、随机词类标注、基于转换的标注、英语词类标注中的其他问题,目前,基于语料库的研究范式仍然是语料库语言学研究的主流,应当关注语料库驱动研究范式提出的问题,注意克服语料库标注的局限性,比如在语料库标注中,应当特别注意语料库标注集的科学性和可靠性,尽量避免主观性和片面性,克服标注的局限,使语料库的标注尽可能地反映语言的真实面貌。在语料库标注中,由于标注集的不同往往会导致标注语料库之间无法进行数据交换和共享,影响了标注语料库的使用效果。因此,应当特别注意语料库标注集的标准化和规范化,进一步提高标注结果的共享程度。

英语 语料库标注 词类标注 消歧策略

冯志伟

杭州师范大学外国语学院

国内会议

第二届汉语中介语语料库建设与应用国际学术讨论会

北京

中文

44-66

2012-08-01(万方平台首次上网日期,不代表论文的发表时间)