会议专题

基于跨语言语料的汉泰词分布表示

词汇的表示问题是自然语言处理的基础研究内容.目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果.然而在跨语言词汇的分布表示上国内外研究很少,本文针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布.实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果.

跨语言语料 词汇分布表示 弱监督学习

张金鹏 周兰江 线岩团 余正涛 何思兰

昆明理工大学信息工程与自动化学院,云南 昆明650500;昆明理工大学智能信息处理重点实验室,云南 昆明650500 昆明理工大学理学院,云南 昆明650500

国内会议

中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)

广州

中文

1-11

2015-11-13(万方平台首次上网日期,不代表论文的发表时间)