会议专题

大规模中文搜索引擎的用户日志分析

北大”天网”是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行1~2次内容不同的查询,多于2/3的用户点击了结果页面中的某些网址(URL);多数用户输入的查询串中只含有一个词项并且包含中文字符,其中以2~4个汉字居多;用户查看结果页面的时间大约是2~3min;只有少数用户查看历史网页(或称网页快照).用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律.

搜索引擎 用户日志 用户量

王继民 陈翀 彭波

北京大学信息科学技术学院(北京)

国内会议

第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004)

广州

中文

1-5

2004-11-12(万方平台首次上网日期,不代表论文的发表时间)