基于随机行走N步的汉语复述短语获取方法

摘要：

在利用大规模双语语料获取复述知识中,传统的基于“枢轴”方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对,构建基于图的复述获取模型,提出基于随机行走N步的复述获取算法,改进已有方法以获取更多潜在的复述知识.本文描述了以汉英短语翻译表为基础的图模型、基于N步的随机行走算法和基于期望步数的复述短语可信度计算方法.同时,在图模型基础上提出基于多语言对扩展的方法.在NTCIR汉英、英日双语平行语料上进行了实验与评测,并与已有方法进行了对比.实验结果表明本文所提出的方法能够获取更多的复述知识,而且扩展语言对的图模型能够有效获取更多潜在的复述知识.

关键词：机器翻译复述获取随机行走图模型

作者: 马军张玉洁徐金安陈钰枫

作者单位: 北京交通大学,北京100044

会议类型: 国内会议

会议名称: 第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

会议地点: 烟台

会议语种:中文

页码: 1-10

在线出版日期: 2016-10-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于随机行走N步的汉语复述短语获取方法