会议专题

基于点关联测度矩阵分解的中英跨语言词嵌入

研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息.分别设计目标函数学习中英跨语言词嵌入.从目标函数、语料数据、向量维数等角度进行实验,结果表明:在中英跨语言文档分类中以前者作为点关联测度最高得到87.04%的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英-英词义相似度计算中的性能略高于主流的英语词嵌入.

跨语言词嵌入 点关联测度 矩阵分解 汉语 英语

于东 赵艳 韦林煊 荀恩东

北京语言大学大数据与教育技术研究所,北京100083;北京语言大学信息科学学院,北京100083 北京语言大学信息科学学院,北京100083

国内会议

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

烟台

中文

1-11

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)