会议专题

词性标注对信息检索系统性能的影响

在信息检索中引入NLP技术是信息检索发展的主要趋势,本文将NLP中较为成熟的词性标注技术加入信息检索,采用大规模TREC数据集,试图发现词性标注对信息检索系统性能的影响.笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验,并对检索结果进行评测.实验表明,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进,但是词性标注的影响能力弱于索引项权重选择的影响能力.词性标注对检索性能的影响涉及到Topic和Document中的具体用词,普遍规律有待进一步研究.

信息检索 向量空间模型 词性标注 SMART

苏祺 昝红英 胡景贺 项锟

北京大学计算语言学研究所(北京)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

112-122

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)