基于点关联测度矩阵分解的中英跨语言词嵌入

摘要：

研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息.分别设计目标函数学习中英跨语言词嵌入.从目标函数、语料数据、向量维数等角度进行实验,结果表明:在中英跨语言文档分类中以前者作为点关联测度最高得到87.04％的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英-英词义相似度计算中的性能略高于主流的英语词嵌入.

关键词：跨语言词嵌入点关联测度矩阵分解汉语英语

作者: 于东赵艳韦林煊荀恩东

作者单位: 北京语言大学大数据与教育技术研究所,北京100083;北京语言大学信息科学学院,北京100083 北京语言大学信息科学学院,北京100083

会议类型: 国内会议

会议名称: 第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

会议地点: 烟台

会议语种:中文

页码: 1-11

在线出版日期: 2016-10-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于点关联测度矩阵分解的中英跨语言词嵌入