利用URL类别改进查询主题分类
查询分类是理解互联网用户查询意图的重要手段。由于查询很短,先对查询进行扩展丰富其特征,再进行分类被证明是解决特征稀疏的重要途径,其中利用搜索引擎返回结果是最有效的方法之一。已有工作主要利用返回结果的文本,没有充分利用URL 信息。本文利用互联网上人工组织的分类网页目录,设计URL分类器,通过统计结果集合中URL的类别分布预测查询类别。人工标注从搜索引擎日志中采样的约2500个查询作为测试数据。实验表明,基于URL类别的查询分类器可以获得与基于文本扩展的分类器相当的准确率,却较大地提高了查询分类的效率。将两类分类器组合得到的分类器可以获得比单个分类器更好的分类性能。特别的是,基于URL类别的分类器与原始查询相结合时,F1值可以接近基于文本扩展的分类器,而效率与基于URL类别的分类器相当,在分类性能与处理效率上进行折衷。
查询分类 URL分类 分类器组合 搜索引擎
宋巍 张宇 谢毓彬 高汉东 刘挺 李生
哈尔滨工业大学信息检索研究室,哈尔滨,150001
国内会议
黑龙江镜泊湖
中文
157-166
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)