会议专题

大规模非限定领域汉英双语语料库建设及句子对齐研究

双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已有的双语语料库尤其是汉英双语语料库的规模不大,加工规范不统一,没有形成能够公开使用的通用双语语料库.本文工作在国家973子课题支持下,遵循中文语言资源联盟(ChineseLDC)资源共享的宗旨,参照都柏林核元数据元素集制定了双语语料文本标注规范,并对非限定领域双语句子自动对齐技术进行了研究,为大规模建立具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库奠定了坚实的基础.

双语语料库 中文语言资源联盟 计算语言学 汉英双语

刘非凡 赵军 徐波

中国科学院自动化研究所模式识别国家重点实验室(北京)

国内会议

全国第七届计算语言学联合学术会议

哈尔滨

中文

339-345

2003-08-01(万方平台首次上网日期,不代表论文的发表时间)