基于DOM的网页主题信息自动提取

摘要：

本文基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型，将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息，方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法，具有可观的应用价值,可应用于PAD和手机上的Web浏览以及信息检索系统。

关键词： DOM 信息提取 STU-DOM树相关度 Web页面主题信息

作者: 王琦唐世渭杨冬青王腾蛟

作者单位: 北京大学视觉与听觉信息处理国家重点实验室,北京,100871 北京大学视觉与听觉信息处理国家重点实验室,北京,100871;北京大学计算机科学与技术系,北京,100871 北京大学计算机科学与技术系,北京,100871

会议类型: 国内会议

会议名称: 第二十一届中国数据库学术会议

会议地点: 厦门

会议语种:中文

页码: 180-186

在线出版日期: 2004-10-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于DOM的网页主题信息自动提取