一个面向信息抽取的中英文平行语料库
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限.鉴于此,本文以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库.该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐.因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台.
平行语料库 命名实体 语义关系 双语映射
惠浩添 李云建 钱龙华 周国栋
苏州大学自然语言处理实验室,江苏 苏州 215006;苏州大学计算机科学与技术学院,江苏 苏州 215006
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-11
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)