基于知网义原词向量表示的无监督词义消歧方法
词义消歧一直是自然语言处理领域中的重要问题,本文将《知网》(HowNet)中表示词语语义的义原信息融入到语言模型的训练中.通过义原向量对词语进行向量化表示,本文实现了词语语义特征的自动学习,提高了特征学习效率.针对多义词的语义消歧,本文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧.作为一种无监督的方法,本方法大大降低了词义消歧的计算和时间成本.在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率.
自然语言处理 词义消歧 义原向量 无监督方法
唐共波 于东 荀恩东
北京语言大学大数据与语言教育研究所 北京 100083;北京语言大学信息科学学院 北京 100083
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-9
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)