基于站点资源的主题提取算法
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点。
网络信息挖掘 主题提取 超链接 站点资源 中文Web检索 网页权值
郭立山 董守斌 袁华
华南理工大学,广东省计算机网络重点实验室,广州,510640
国内会议
北京
中文
1738-1742
2005-09-26(万方平台首次上网日期,不代表论文的发表时间)