互联网信息定向采集研究
本文提出了一种互联网信息定向采集方法。通过对互联网的定向搜索,对网页的内容进行分析处理(分词、建立VSM向量,计算网页内容相关度),实现在互联网上有选择地采集用户需求的内容,并进行存储。它与广度优先搜索和深度优先搜索相比,有更高的效率和更小的代价。系统资源和网络资源消耗很小,更新快,比较接近当前的Web,用户个性化满足好。此系统可进行专题研究,可形成立体的专题库(时间和空间),进行历史资料的积累和查阅。
定向采集 向量空间模型 搜索引擎 网络挖掘 互联网信息
刘金刚 都云程
北京信息工程学院 100101
国内会议
北京
中文
457-463
2005-12-21(万方平台首次上网日期,不代表论文的发表时间)