会议专题

互联网信息定向采集研究

本文提出了一种互联网信息定向采集方法。通过对互联网的定向搜索,对网页的内容进行分析处理(分词、建立VSM向量,计算网页内容相关度),实现在互联网上有选择地采集用户需求的内容,并进行存储。它与广度优先搜索和深度优先搜索相比,有更高的效率和更小的代价。系统资源和网络资源消耗很小,更新快,比较接近当前的Web,用户个性化满足好。此系统可进行专题研究,可形成立体的专题库(时间和空间),进行历史资料的积累和查阅。

定向采集 向量空间模型 搜索引擎 网络挖掘 互联网信息

刘金刚 都云程

北京信息工程学院 100101

国内会议

第三届HNC与语言学研究学术研讨会

北京

中文

457-463

2005-12-21(万方平台首次上网日期,不代表论文的发表时间)