会议专题

基于语言模型验证的词义消歧语料获取

作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这单项奖义的同义词并不合适,从而带来噪声。 本研究使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。在enseval-3中文lexical sample词义消歧数据集上进行了实验,结果表明,经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。

汉字处理 词义消歧 互联网语料 数理语言学

郭宇航 车万翔 刘挺

哈尔滨工业大学信息检索研究室,哈尔滨.150001

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

97-103

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)