互联网信息定向采集研究

摘要：

本文提出了一种互联网信息定向采集方法。通过对互联网的定向搜索，对网页的内容进行分析处理(分词、建立VSM向量，计算网页内容相关度)，实现在互联网上有选择地采集用户需求的内容，并进行存储。它与广度优先搜索和深度优先搜索相比，有更高的效率和更小的代价。系统资源和网络资源消耗很小，更新快，比较接近当前的Web，用户个性化满足好。此系统可进行专题研究，可形成立体的专题库(时间和空间)，进行历史资料的积累和查阅。

关键词：定向采集向量空间模型搜索引擎网络挖掘互联网信息

作者: 刘金刚都云程

作者单位: 北京信息工程学院 100101

会议类型: 国内会议

会议名称: 第三届HNC与语言学研究学术研讨会

会议地点: 北京

会议语种:中文

页码: 457-463

在线出版日期: 2005-12-21（万方平台首次上网日期，不代表论文的发表时间）

会议专题

互联网信息定向采集研究