会议专题

基于主动学习的Web信息抽取

  本文针对现有Web信息抽取方法的不足,提出一种基于支持向量机的主动学习的Web信息抽取方法。首先将HTML文档解析成DOM树,再以DOM树中的信息片断作为基本单元将其所具有的四类特征向量化,最后通过基于支持向量机的主动学习分类方法对特征进行分类训练,以此实现网页中信息片断的分类,从而以分类的方式完成WEB网页的信息抽取。

Web网页 信息抽取 支持向量机 主动学习 分类算法

谭鹏许 张来顺 肖建鹏

解放军信息工程大学电子技术学院,河南 郑州 450004

国内会议

河南省计算机学会2008年学术年会

洛阳

中文

1-4

2008-08-22(万方平台首次上网日期,不代表论文的发表时间)