模板化网页主题信息的提取方法

摘要：

为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5﹪.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50﹪,检索的速度和精确度也得到提高.

关键词：万维网模板化网页信息提取搜索引擎机器自动学习

作者: 欧健文董守斌蔡斌

作者单位: 华南理工大学,广东省计算机网络重点实验室,广州,510640

会议类型: 国内会议

会议名称: 第三届全国搜索引擎和网上信息挖掘学术研讨会

会议地点: 北京

会议语种:中文

页码: 1743-1747

在线出版日期: 2005-09-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

模板化网页主题信息的提取方法