基于词义类簇的文本表示模型
同义词和多义词现象是文档表示任务面临的重要挑战。因此本文提出了词义类簇模型fSense ClusterMocIel,SCM),在词义类簇空问上表示文档。SCM首先构造词义类簇空问,然后将文档表示在词义类簇空问,获得每篇文档在每个词义类簇的概率。在词义类簇空问构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空问构造后,本文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空问上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。
唐国瑜 夏云庆 张民 郑方
清华大学计算机科学与技术系 北京 100084
国内会议
上海
中文
128-134
2012-11-17(万方平台首次上网日期,不代表论文的发表时间)