会议专题

基于领域知识的网页筛选系统

本文介绍的Commix中的网页筛选系统主要分为两部分。第一部分是基于专家给出的规则通过规则匹配对大量网页进行估测并筛选出特定领域的网页。第二部分是对于已经在第一步筛选出的网页进行URL聚类,从而得到用于信息提取的网页。

领域知识 网页筛选系统 筛选器 信息提取

韩近强 赵静 杨冬青 唐世渭 姚小波

北京大学计算机科学与技术系,北京,100871 北京大学视觉听觉与信息处理国家重点实验室,北京,100871 广州新太科技股份有限公司,广州,510665

国内会议

第十九届全国数据库学术会议

郑州

中文

139-141

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)