会议专题

数字图书馆Web 学术资源信息的分块采集研究

  本文对数字图书馆Web学术资源信息的分块采集进行了研究。Web学术资源信息采集是开展知识服务的重要前提,有效结合网页空间特征、内容特征和标签信息对网页进行分块,研究对分块结果进行识别和合并,最终输出网页的主题文本和相关链接块集合。实验分析该方法能最大限度地去除页面中噪音,更加准确地分析页面的主题相关性和提高Web主题信息采集的质量,从而实现数字图书馆Web学术资源信息的优化采集。

数字图书馆 学术资源 信息采集 程序设计

王兰成 朱建华

南京政治学院上海分院军事信息管理系,上海 200433

国内会议

第25届全国计算机信息管理学术研讨会

宁波

中文

122-128

2011-10-01(万方平台首次上网日期,不代表论文的发表时间)