数字图书馆Web 学术资源信息的分块采集研究

摘要：

　　本文对数字图书馆Web学术资源信息的分块采集进行了研究。Web学术资源信息采集是开展知识服务的重要前提，有效结合网页空间特征、内容特征和标签信息对网页进行分块，研究对分块结果进行识别和合并，最终输出网页的主题文本和相关链接块集合。实验分析该方法能最大限度地去除页面中噪音，更加准确地分析页面的主题相关性和提高Web主题信息采集的质量，从而实现数字图书馆Web学术资源信息的优化采集。

关键词：数字图书馆学术资源信息采集程序设计

作者: 王兰成朱建华

作者单位: 南京政治学院上海分院军事信息管理系,上海 200433

会议类型: 国内会议

会议名称: 第25届全国计算机信息管理学术研讨会

会议地点: 宁波

会议语种:中文

页码: 122-128

在线出版日期: 2011-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

数字图书馆Web 学术资源信息的分块采集研究