海量文本中基于词向量表征的新词发现

摘要：

　　新词发现对于中文自然语言处理有着重要的意义。近年来出现的利用神经网络训练语言模型得到的词向量表现出了良好的语义关系，利用这种特点，本文首次把词向量应用到了中文的新词发现任务中，结合传统新词发现中用的n-gram词串方法，提出了一种新的无监督的新词发现方法：首先利用海量文本进行词向量训练，然后基于词向量对n-gram词串进行剪枝。实验结果表明，相较于基于互信息、邻接熵等无监督方法，本文提出的方法在准确率上取得了较大进步，同时计算简单高效。

关键词：词向量新词发现语义关系 n-gram

会议类型: 国际会议

会议名称: 第五届自然语言处理与中文计算会议(NLPCC-ICCPOL2016)

会议地点: 昆明

会议语种:中文

页码: 1-12

在线出版日期: 2016-12-02（万方平台首次上网日期，不代表论文的发表时间）

会议专题

海量文本中基于词向量表征的新词发现