基于维基百科社区挖掘的词语语义相似度计算
词语语义相似度计算在自然语言处理如词义消歧,语义信息检索、文本自动分类中有着广泛的应用.不同于传统的方法,提出一种基于维基百科社区挖掘的词语语义相似度计算方法.本方法不考虑单词页面文本内容,而是利用维基百科庞大的带有类别标签的单词页面网信息,将基于主题的社区发现算法HITS应用到该页面网,获取单词页面的社区.在获取社区的基础上,从三个方面来考虑两个单词间的语义相似度:(1)单词页面语义关系,(2)单词页面社区语义关系,(3)单词页面社区所属类别的语义关系.最后,在标准数据集WordSimilarity-353上的实验结果显示,该算法具有可行性且略优于目前的一些经典算法,在最好的情况下,其Spearman相关系数达到0.58.
词语语义 相似度计算 社区发现算法 标签筛选
彭丽针 吴扬扬
国立华侨大学计算机科学与技术学院 福建厦门361021
国内会议
金华
中文
1-5
2015-10-30(万方平台首次上网日期,不代表论文的发表时间)