基于众包的词汇联想网络的获取和分析
词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析提供资源支撑。本文采用众包的方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典,具有以下几个特点:(1)获取代价低;(2)面向互联网,易扩展;(3)符合人的直觉,词语关系从人的认知角度来建立。本文详细介绍词汇联想网络的获取方法,并对目前己获取的数据进行分析,此外,和知网、同义词词林以及另一种从互联网大语料中构建的ngram文本进行比较,说明词汇联想网络的以上特点。
丁宇 车万翔 刘挺 张梅山
哈工大社会计算与信息检索研究中心 哈尔滨 150001
国内会议
上海
中文
35-43
2012-11-17(万方平台首次上网日期,不代表论文的发表时间)