基于word2vec与语义相似度的领域词语聚类
领域词语聚类在文本分类、本体研究、机器学习等多个研究领域中拥有重要的理论及实践意义。本文提出了一种基于word2vec和语义相似度计算的领域词语聚类方法。首先,利用word2vec工具对词语进行初步聚类,得到候选词集。然后再构造领域类别语义核心词集,通过语义相似度计算的方式对候选词集进行语义筛选。最终得到新的属于目标领域的词集,从而实现对现有领域词集的聚类。实验证明,本方法具有较高的召回率和准确率。
word2vec 语义相似度 词语聚类 领域本体
罗杰 王庆林 李原
北京理工大学自动化学院,北京100081
国际会议
The 33th Chinese Control Conference第33届中国控制会议
南京
中文
517-521
2014-07-28(万方平台首次上网日期,不代表论文的发表时间)