会议专题

基于增量学习思想的博客网页识别算法研究

基于增量学习思想,提出了一种博客网页识别算法。针对博客网页所具有的特征,算法提取博客网页的HTML标签、URL字符、网页文本等构成特征值,采用C4.5算法构造决策树模型识别网页,同时记录正确和错误识别的网页。当算法的识别精度低于预设阀值时,在原有网页特征中加入误判网页特征,从而更新决策树模型以提高模型识别精度。实验结果表明,算法对博客网页具有很高的识别精度,在采集的博客网页上的识别精度达到了99%。

搜索引擎 博客 增量学习 网页识别

刘喜亮 林亚平 张锦 王实

湖南大学软件学院,湖南长沙 410082

国内会议

2008仿真科学与技术青年学术论坛

青岛

中文

80-84

2008-11-08(万方平台首次上网日期,不代表论文的发表时间)