基于XPath的Web信息抽取

摘要：

本文将信息抽取的过程看作是应用XPa山查询XML文档的过程；通过标记学习的方式，将语义项与DOM树的节点特征联系起来，并采用类似XPath的形式描述这种对应关系（相当于用学习来代替书写查询语句）。该方法具有描述特征丰富，样本学习次数较少，查准率和查全率较高的特点。

关键词： XPath 信息抽取 Web XML文档

作者: 徐林昊杨文柱陈少飞郝亚南李天柱

作者单位: 河北大学数学与计算机学院,保定,071002

会议类型: 国内会议

会议地点: 郑州

会议语种:中文

页码: 21-23,20

在线出版日期: 2002-08-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题