基于主动学习的Web信息抽取
本文针对现有Web信息抽取方法的不足,提出一种基于支持向量机的主动学习的Web信息抽取方法。首先将HTML文档解析成DOM树,再以DOM树中的信息片断作为基本单元将其所具有的四类特征向量化,最后通过基于支持向量机的主动学习分类方法对特征进行分类训练,以此实现网页中信息片断的分类,从而以分类的方式完成WEB网页的信息抽取。
Web网页 信息抽取 支持向量机 主动学习 分类算法
谭鹏许 张来顺 肖建鹏
解放军信息工程大学电子技术学院,河南 郑州 450004
国内会议
洛阳
中文
1-4
2008-08-22(万方平台首次上网日期,不代表论文的发表时间)