会议专题

向量模型和多源词汇分类体系相结合的词语相似性计算

现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点.向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题.本文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点.本文采用了NLPCC-ICCPOL2016词语相似度评测比赛中的PKU500数据集进行评测.在该数据集上,本文的方法取得了0.618的斯皮尔曼等级相关系数,比NLPCC-ICCPOL2016词语相似度评测比赛第一名的方法的结果提高了19.3%.

词语相似性 向量模型 词汇分类体系 组合方法 多源融合

梁泳诗 黄沛杰 岑洪杰 唐杰聪 王俊东

华南农业大学数学与信息学院,广东 广州 510642

国内会议

第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会

南京

中文

1-11

2017-10-13(万方平台首次上网日期,不代表论文的发表时间)