数字图书馆Web 学术资源信息的分块采集研究
本文对数字图书馆Web学术资源信息的分块采集进行了研究。Web学术资源信息采集是开展知识服务的重要前提,有效结合网页空间特征、内容特征和标签信息对网页进行分块,研究对分块结果进行识别和合并,最终输出网页的主题文本和相关链接块集合。实验分析该方法能最大限度地去除页面中噪音,更加准确地分析页面的主题相关性和提高Web主题信息采集的质量,从而实现数字图书馆Web学术资源信息的优化采集。
数字图书馆 学术资源 信息采集 程序设计
王兰成 朱建华
南京政治学院上海分院军事信息管理系,上海 200433
国内会议
宁波
中文
122-128
2011-10-01(万方平台首次上网日期,不代表论文的发表时间)