会议专题

基于本体语义的定题爬虫

定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.

定题爬虫 主题过滤 本体语义 链接分析

郑健珍 林坤辉 周昌乐 康恺

厦门大学,软件学院,福建,厦门,361005 厦门大学,信息科学与技术学院,福建,厦门,361005

国内会议

第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)

济南

中文

90-94

2006-07-21(万方平台首次上网日期,不代表论文的发表时间)