基于网页主题重要性的专题搜索策略研究
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度。为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中。同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向。实验结果表明,基于网页主题重要性的排序测度TopicalRank 比 PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义。
搜索引擎 网页链接结构 主题重要性 专题搜索策略 上下文信息 主题相关度
魏本洁 董守斌
华南理工大学计算机科学与工程学院广东省计算机网络重点实验室,广州,广东,510640
国内会议
南昌
中文
162-165
2008-04-11(万方平台首次上网日期,不代表论文的发表时间)