会议专题

基于DOM的网页主题信息自动提取

本文基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型,将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息,方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法,具有可观的应用价值,可应用于PAD和手机上的Web浏览以及信息检索系统。

DOM 信息提取 STU-DOM树 相关度 Web页面 主题信息

王琦 唐世渭 杨冬青 王腾蛟

北京大学视觉与听觉信息处理国家重点实验室,北京,100871 北京大学视觉与听觉信息处理国家重点实验室,北京,100871;北京大学计算机科学与技术系,北京,100871 北京大学计算机科学与技术系,北京,100871

国内会议

第二十一届中国数据库学术会议

厦门

中文

180-186

2004-10-14(万方平台首次上网日期,不代表论文的发表时间)