一种改进的基于树路径匹配的网页结构相似度算法
网页结构相似性的度量是Web信息处理中的一项重要任务,高效的网页结构相似度算法不但可以提高网页信息提取的准确性还可以提高搜索引擎的效率。因此,提出了一种改进的基于树路径匹配的网页结构相似度算法,算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度。实验表明,用改进后的算法计算网页结构相似度比原来的树路径匹配更加地符合实际,合理有效。
网页结构相似度 序列相似度 位置相似度
廖浩伟 杨燕 贾真 尹红风
西南交通大学云计算与智能技术省级高校重点实验室,信息科学与技术学院,成都610031
国内会议
长春
中文
1-10
2012-08-04(万方平台首次上网日期,不代表论文的发表时间)