一个增量搜集中国Web的系统模型及其实现
针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案.对增量搜集的两类目标--变化网页和新网页,探讨了相应的搜集策略.介绍了该模型的实现和性能状况.该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。
增量搜集 网页搜集 系统模型 中国Web
孟涛 闫宏飞 王继民
北京大学,计算机科学技术系,北京,100871
国内会议
北京
中文
1882-1886
2005-09-26(万方平台首次上网日期,不代表论文的发表时间)