会议专题

字符与词汇向量的联合学习模型(摘要)

本文针对中文提出一种既考虑词汇外部上下文信息,同时考虑词汇内部汉字信息的中文词汇表示学习模型。这个模型一方面可以有效利用词汇内部汉字信息,得到更好的词汇表示;另一方面可以得到字向量,可有效解决新词与罕见词的表示问题。与此同时,考虑到中文中字的多义问题,提出了基于位置的、基于聚类的、基于动态聚类的三种多义项的字向量。在词汇相似度计算和类比推理两个任务上进行了实验,验证了该模型的有效性。

汉语 学习模型 字符 词汇向量

陈新雄

清华大学计算机科学与技术系

国内会议

第五届海外中国语言学者论坛

成都

中文

296-296

2015-06-03(万方平台首次上网日期,不代表论文的发表时间)