基于后缀数组方法的网络译文挖掘
利用互联网上丰富的信息资源来挖掘出专业术语的翻译选项可以应用在计算机辅助学习、机器翻译和跨语言检索等多个领域。如何挖掘出Web上所有可能的标注对形式并获取候选译文的正确边界,怎样去掉统计形成的噪声是一个困难的问题?本文在分析并综述了所有可能的译文获取方法的基础上,提出了基于后缀数组的统计方法来进行专业术语挖掘。该方法不但能够挖掘出网页中译文存在的不同形式,并且能够获得正确的边界。在此基础上,系统将出现的噪声定义为两大类:子集冗余信息和前后缀型冗余信息,本文分别提出基于排序子集删除法和互信息的方法来解决这两种冗余。在401个英汉词汇集和100个英日词汇集上进行实验,取得良好的效果。实验也表明该方法是一个通用的解决亚洲语言译文获取的有效手段。
专业术语翻译 Web挖掘 后缀数组 译文挖掘
方高林 于浩
富士通研究开发中心有限公司 北京 100016
国内会议
大连
中文
410-415
2007-08-06(万方平台首次上网日期,不代表论文的发表时间)