会议专题

基于URL类型优先级的入口页面查询算法

入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的.依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL-type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型.通过URL类型优先级(URL-type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系.据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub-page).对比实验数据表明,PERS算法对检索的性能有较大提高.

入口页面检索 URL类型优先级 信息检索

胡俊刚 董守斌 陈晓志 张元丰

华南理工大学,广东省计算机网络重点实验室,广东,广州,510641

国内会议

第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)

济南

中文

76-80

2006-07-21(万方平台首次上网日期,不代表论文的发表时间)