会议专题

双语语料库段落重组对齐方法研究

网络上存在的大量双语资源,给构建大规模双语语料库提供了可能.双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视.针对目前可收集到的双语资源大都没有做到段落对齐,本文结合基于句子长度和基于词典的两种经典对齐算法思想,充分利用双语文本中的句子在整个文本中的位置信息,在(1:1)型句珠里选取锚点,并根据双语文本特征引入一部双语词典进行校验,从而获得分段的锚点,实现通用的段落重组对齐.

双语语料库 段落重组对齐 锚点 机器翻译

李维刚 刘挺 王震 李生

哈尔滨工业大学计算机学院信息检索研究室(哈尔滨)

国内会议

全国第七届计算语言学联合学术会议

哈尔滨

中文

332-338

2003-08-01(万方平台首次上网日期,不代表论文的发表时间)