基于DOM的网页主题信息自动提取
本文基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型,将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息,方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法,具有可观的应用价值,可应用于PAD和手机上的Web浏览以及信息检索系统。
DOM 信息提取 STU-DOM树 相关度 Web页面 主题信息
王琦 唐世渭 杨冬青 王腾蛟
北京大学视觉与听觉信息处理国家重点实验室,北京,100871 北京大学视觉与听觉信息处理国家重点实验室,北京,100871;北京大学计算机科学与技术系,北京,100871 北京大学计算机科学与技术系,北京,100871
国内会议
厦门
中文
180-186
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)