会议专题

基于模板转换的平行语料自动获取

双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网中的大量平行文本的自动获取来构建大规模的汉英平行语料库。该方法的性能在ClueWeb09数据集上得到了实验验证。

平行语料库 跨语言信息检索 向量空间模型 模板转换 ClueWeb09数据集

运海红 韩咏 何晓宁 齐浩亮

黑龙江工程学院计算机科学与技术系,哈尔滨,150050

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

383-390

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)