基于主动学习的Web信息抽取

摘要：

　　本文针对现有Web信息抽取方法的不足，提出一种基于支持向量机的主动学习的Web信息抽取方法。首先将HTML文档解析成DOM树，再以DOM树中的信息片断作为基本单元将其所具有的四类特征向量化，最后通过基于支持向量机的主动学习分类方法对特征进行分类训练，以此实现网页中信息片断的分类，从而以分类的方式完成WEB网页的信息抽取。

关键词： Web网页信息抽取支持向量机主动学习分类算法

作者: 谭鹏许张来顺肖建鹏

作者单位: 解放军信息工程大学电子技术学院，河南郑州 450004

会议类型: 国内会议

会议名称: 河南省计算机学会2008年学术年会

会议地点: 洛阳

会议语种:中文

页码: 1-4

在线出版日期: 2008-08-22（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于主动学习的Web信息抽取