会议专题

EBMT中加权的维吾尔单词哈希表构造算法

基于实例的机器翻译(EBMT)是一种高效的机器翻译方法,需要有一个海量的实例模式库,如何从中快速地选择出一定数量的与待翻译句子比较相似的候选实例,提供给后续处理,是EBMT研究的关键技术之一.本文统计分析了维吾尔语单词字母的分布特征,设计了基于维吾尔语的散列单词倒排文件,在等概率条件下,散列表的平均查找长度为1.59:依据单词在语料中出现的频率作为权值,提出了一种新颖的解决冲突的次优树构造算法,实验证明,本算法的性能比传统的解决冲突的顺序查找算法和二分查找算法分别高出了27.5%,21.8%,证明了该散列单词倒排文件有较高的检索效率.

机器翻译 维吾尔语 单词哈希表 分布特征 倒排文件 散列单词

田生伟 吐尔根·依布拉音 禹龙 买合木提·木合买提 艾山·吾买尔

新疆大学信息科学与工程学院 新疆 乌鲁木齐 830046 新疆大学嘲络中心 新疆 乌鲁木齐 830046

国内会议

第四届全国信息检索与内容安全学术会议

北京

中文

209-216

2008-11-15(万方平台首次上网日期,不代表论文的发表时间)