会议专题

基于随机行走N步的汉语复述短语获取方法

在利用大规模双语语料获取复述知识中,传统的基于“枢轴”方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对,构建基于图的复述获取模型,提出基于随机行走N步的复述获取算法,改进已有方法以获取更多潜在的复述知识.本文描述了以汉英短语翻译表为基础的图模型、基于N步的随机行走算法和基于期望步数的复述短语可信度计算方法.同时,在图模型基础上提出基于多语言对扩展的方法.在NTCIR汉英、英日双语平行语料上进行了实验与评测,并与已有方法进行了对比.实验结果表明本文所提出的方法能够获取更多的复述知识,而且扩展语言对的图模型能够有效获取更多潜在的复述知识.

机器翻译 复述获取 随机行走 图模型

马军 张玉洁 徐金安 陈钰枫

北京交通大学,北京100044

国内会议

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

烟台

中文

1-10

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)