跨语言文档对齐

摘要：

本文提出了一种新的双语文档对齐算法,该算法用TEIDF方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice方法的改进算法计算双语文档的相似度.实验表明,该算法可以准确地发现一种语言书写的文档在另一种语言中的译稿,可应用于双语重稿检测、跨语言相似文本检索等领域.

关键词：跨语言文档对齐文档相似度文本特征语言书写

作者: 王洪俊施水才俞士汶肖诗斌

作者单位: 北京拓尔思信息技术有限公司(北京);北京大学计算语言学研究所(北京) 北京拓尔思信息技术有限公司(北京) 北京大学计算语言学研究所(北京)

会议类型: 国内会议

会议地点: 上海

会议语种:中文

页码: 123-129

在线出版日期: 2004-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题