网络环境下自动获取汉维句子翻译对的研究
双语平行句对是机器翻译的重要资源,但目前的双语平行语料库大多是篇章级的,句子级的平行语料库不仅数景有限,而且多集中在特定领域,很难适应真实应用的需求。本文就研究怎样在网络环境下获取双语平行句对,创建句子级的双语平行语料库。我们先下载双语平行网页资源。然后找出能够提取出正文的网页,再根据html特征去除网页噪音,提取网页中的正文。最后进行句子切分,并根据基于句子长度、基于词汇、特征提取的方法进行双语平行句对的抽取,创建句子级的双语平行语料库。
双语平行语料库 机器翻译 双语平行旬对
姜子进 吐尔根·依布拉音
新疆大学信息科学与工程学院,新疆,乌鲁木齐 830046 新疆多语种信息技术重点实验室,新疆,乌鲁木齐 830046
国内会议
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
乌鲁木齐
中文
145-148
2010-06-27(万方平台首次上网日期,不代表论文的发表时间)