一种基于二叉树的HTML到XML的转换方法研究

摘要：

随着web技术的发展,如何从web中抽取有用的信息已经成为一个研究的重点,但当前的Web信息大多数都是没有严格的结构性的HTML格式的,很难用一种有效的方法来完成抽取任务.为了进一步解决这一问题,本文在前人研究的基础上提出了一种基于二叉树的HTML到XML的转换方法,把对HTML文件的信息抽取问题转化为对格式良好的XML文件的信息抽取问题.经过实验证明这种方法是有效可行的.

关键词：网络信息抽取二叉树可扩展标记语言格式转换

作者: 廉成洋毛宇光

作者单位: 南京航空航天大学信息科学与技术学院,江苏南京 210016 南京航空航天大学信息科学与技术学院,江苏南京 210016;计算机软件新技术国家重点实验室(南京大学),江苏南京 210093

会议类型: 国内会议

会议名称: 2009年中国高校通信类院系学术研讨会

会议地点: 南宁

会议语种:中文

页码: 103-107

在线出版日期: 2009-09-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于二叉树的HTML到XML的转换方法研究