网页搜索引擎查询日志的session划分研究
搜索引擎查询日志中的Session(以下简称Session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列.Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作.本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%.
网络信息检索 查询日志 session划分 网页搜索引擎 决策树方法
张磊 李亚楠 王斌 李鹏 蒋在帆
中国科学院计算技术研究所 前瞻研究中心 100190
国内会议
北京
中文
335-345
2008-11-15(万方平台首次上网日期,不代表论文的发表时间)