基于优化维汉双语词典的多语言信息检索系统
为方便维吾尔文与汉文使用者的信息交流和双语教学,作者使用经过优化的双语词典构建了维、汉多语言信息检索系统,该系统分为索引生成、多语言检索和摘要三个组成部分。首先采集网络上包含这两种文字的网页,将网页正文统一转换为UTF-8编码存储,然后按照汉维文词典合并后的UTF-8词表分词,使用中科院计算计算研究所13Search(UTF-8版)建立索引。多语言检索通过翻译查询语句实现,支持多语言混合检索(如” ”网站)和单一语言检索(如维吾尔文网站)两种方式。多语言混合检索结果比较精确但是对使用者的语言要求很高;而根据双语词典,允许用户输入单一语言检索相对容易,但是词典中多义词和同义词现象导致检索结果精确率不高。多语言的摘要通过在正文中以字符为单位滑动寻找查询
老维文 多语言信息检索 双语词典 索引生成 翻译查询
倪耀群 许洪波 谭婧霞 唐慧丰 程学旗 孟丹
中国科学院计算技术研究所,北京,100190
国内会议
黑龙江镜泊湖
中文
149-156
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)