会议专题

网页内部结构挖掘技术研究

随着信息服务向深入化、专业化方向发展,网页内部蕴含的结构信息体现出越来越重要的价值.本文根据页面内部蕴涵的潜在知识,深入剖析了网页内部结构挖掘可利用的技术手段,并综合分析了它们的优缺点;同时,针对复杂的页面结构,提出了较为有效的挖掘算法TVPS;最后,对网页内部结构挖掘的应用前景和发展方向做了展望.

Web挖掘 视觉特征 布局特性 HTML标记 网页结构

于满泉 谭松波 许洪波

中国科学院计算技术研究所软件研究室(北京);中国科学院研究生院(北京) 中国科学院计算技术研究所软件研究室(北京)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

130-136

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)