会议专题

基于Bootstrapping的汉语词义消歧研究

提出一种基于Bootstrapping的汉语词义消歧模型。该模型采用贝叶斯分类器作为基本分类器,从小规模的词义标注语料出发,分类器通过对初始标注语料的学习来对未标语料判别义项,可信度高的句子加入标注语料集,这样不断提高分类器的性能,在选取可信度高的句子时采用分组策略。实验表明,在相同的标注语料条件下,采用原始策略和分组策略的Bootstrapping算法较基本贝叶斯算法都取得了更好的分类效果,分组策略Bootstrapping算法的消歧准确率比贝叶斯算法平均提高了3.5%。

汉语词义消歧 贝叶斯分类器 Bootstrappig算法 分组策略 标注语料

李丽双 商敏 黄德根 周惠巍

大连理工大学,计算机科学与工程系,大连,116024

国内会议

第七届中文信息处理国际会议

武汉

中文

191-197

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)