中文搜索引擎日志中查询分析的研究
搜索引擎日志是记录网络搜索引擎用户行为的重要载体,通过对搜索引擎日志的分析可以得到搜索用户的行为特点和规律。为了发现用户组织查询的规律,本文对Sogou中文搜索引擎一个月的查询口志进行了分析,基于用户的查询输入串,分别对查询组成和查询结构进行了统计。在字符组成方面,本文通过统计构成查询的最小单位“字”的类型分布和频率分布来考察用户在使用查询字符时的倾向性。统计结果显示,除了汉字,用户也习惯于使用全角和半角字符,日文有时出现。在查询结构方面,我们考察了查询的语言类型和查询结构的复杂程度。从查询语言角度看,简体中文构成的查询数量最多;从查询复杂度角度看,简单查询占总数81.60%,复杂查询占到18.4%。本文采用了新的研究方法,从查询组成上分析中文搜索引擎日志,此外还弥补了现有查询结构方面研究的不足。最后发现中文Sogou搜索引擎用户不同于英文搜索引擎的用户的独特的组织查询的方式。实验结论对于提高搜索引擎的查询性能,以及未来对中文搜索引擎日志的深入分析有很好的启发性和指导性。
信息检索 Sogou搜索引擎 日志分析 高级搜索操作符
王晓春 杨沐昀 李生 赵铁军 张志涛
哈尔滨工业大学机器智能与翻译实验室,哈尔滨市,150000
国内会议
上海
中文
161-170
2009-11-14(万方平台首次上网日期,不代表论文的发表时间)