HNC语料库标注体系浅识
HNC立足于在概念空间研究概念联想脉络,用人工设计的符号体系突现自然语言内在的关联知识。同时它服务于自然语言理解处理,需要借助语料库这一工具完善理论设计。在技术层面,语料库将为分清技术关键点的轻重缓急提供依据。因此,语料库是HNC研究的重要资源。HNC在发展过程也非常注重语料库的建设,以HNC句类理论为基础,设计建立了语料标注体系。在实际标注中多次调整,使得标注体系具有较好的可操作性。 HNC的语料标注体系将标注的内容分成概念空间和语言空间两个层面。语言空间主要标注各种语义块之间的切分点,在语义块内部标注优先组合的单位以及层级关系。语言空间的标注以句号为单元。在汉英双语对照语料的标注过程中,以长句的句号为单元。在概念空间主要标注对应的句类代码,句蜕的类型和各种辅块的类型。在标注体系中,以句类代码为纲,尽管在标注体系中没有显式地给出词语级的语义标记,但通过句类代码,可以在句类知识的约束下消除词语意义的模糊。另外,由于标注是以句号为单位,两个句号之间的逗号分隔的往往是句子,而这些句子之间经常共享主语义块,对于这种情况标注体系也提供了标注符号。 通过实际语料的标注表明,语料标注体系在语义深层进行标注,提供了语句的关键信息,能够胜任HNC语料库的功能。
概念层次网络 语料标注体系 句类 语义块 句蜕 块扩 语句
张全
中国科学院声学所,北京,100080
国内会议
北京
中文
282-288
2003-09-20(万方平台首次上网日期,不代表论文的发表时间)