一种面向主题的搜索引擎系统模型
随着互联网信息量的快速增长,大量的垃圾信息、重复及冗余信息使用户很难找到真正需要的信息,另外,通用搜索也不能很好地满足日益增长的针对专业领域的信息检索需求.本文提出了一种面向主题的搜索引擎系统模型,该模型以网络爬虫为核心,通过过滤主题网页,增强了搜索的主题针对性.在NWebCrawler基础上增加了属性提取和主题优先度,对相关网页进行搜集,并通过抽取网页源代码的格式信息和语义非格式信息,将网页文本内容通过分词后建立二维索引表,为用户检索提供前提.该系统模型利用主题爬虫和筛选无关信息,增强了网页搜集的精准性,并且建立的二维索引表减少了检索时间,更加贴近用户需求,具有良好的扩展性并对垂直搜索引擎的研究有一定的参考借鉴作用.
搜索引擎系统 网络爬虫 信息检索 用户需求
王聪睿 张翠肖
石家庄铁道大学信息科学与技术学院,河北省石家庄市050043
国内会议
石家庄
中文
119-124
2013-06-28(万方平台首次上网日期,不代表论文的发表时间)