会议专题

机器学习的查询扩展在博客检索中的应用

本文介绍一种新的查询扩展方法。该方法将查询扩展工作纳入机器学习的框架下,首先伪反馈将生成原始查询项的候选扩展词集合,然后一个支持向量机将对这些候选词进行排序,形成一个优化的查询项,以此来提高最终检索结果的性能。由于此类方法所需的训练数据较难获得,文中还介绍了一种新的自动生成训练数据方法。本方法的优点在于通过对训练语料的学习,能够对候选扩展词作出更合理的选择。通在TREC的BLOG TRACK的观点检索任务的检验,此方法取得了良好的结果。

文字处理 信息检索 机器学习 数理语言学

王秉卿 张奇 吴立德 黄萱菁

复旦大学 计算机科学与工程系,上海市 200433

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

494-500

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)