基于模板转换的平行语料自动获取
双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网中的大量平行文本的自动获取来构建大规模的汉英平行语料库。该方法的性能在ClueWeb09数据集上得到了实验验证。
平行语料库 跨语言信息检索 向量空间模型 模板转换 ClueWeb09数据集
运海红 韩咏 何晓宁 齐浩亮
黑龙江工程学院计算机科学与技术系,哈尔滨,150050
国内会议
黑龙江镜泊湖
中文
383-390
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)