会议专题

基于word2vec与语义相似度的领域词语聚类

  领域词语聚类在文本分类、本体研究、机器学习等多个研究领域中拥有重要的理论及实践意义。本文提出了一种基于word2vec和语义相似度计算的领域词语聚类方法。首先,利用word2vec工具对词语进行初步聚类,得到候选词集。然后再构造领域类别语义核心词集,通过语义相似度计算的方式对候选词集进行语义筛选。最终得到新的属于目标领域的词集,从而实现对现有领域词集的聚类。实验证明,本方法具有较高的召回率和准确率。

word2vec 语义相似度 词语聚类 领域本体

罗杰 王庆林 李原

北京理工大学自动化学院,北京100081

国际会议

The 33th Chinese Control Conference第33届中国控制会议

南京

中文

517-521

2014-07-28(万方平台首次上网日期,不代表论文的发表时间)