基于增量学习思想的博客网页识别算法研究
基于增量学习思想,提出了一种博客网页识别算法。针对博客网页所具有的特征,算法提取博客网页的HTML标签、URL字符、网页文本等构成特征值,采用C4.5算法构造决策树模型识别网页,同时记录正确和错误识别的网页。当算法的识别精度低于预设阀值时,在原有网页特征中加入误判网页特征,从而更新决策树模型以提高模型识别精度。实验结果表明,算法对博客网页具有很高的识别精度,在采集的博客网页上的识别精度达到了99%。
搜索引擎 博客 增量学习 网页识别
刘喜亮 林亚平 张锦 王实
湖南大学软件学院,湖南长沙 410082
国内会议
青岛
中文
80-84
2008-11-08(万方平台首次上网日期,不代表论文的发表时间)