会议专题

一种基于二叉树的HTML到XML的转换方法研究

随着web技术的发展,如何从web中抽取有用的信息已经成为一个研究的重点,但当前的Web信息大多数都是没有严格的结构性的HTML格式的,很难用一种有效的方法来完成抽取任务.为了进一步解决这一问题,本文在前人研究的基础上提出了一种基于二叉树的HTML到XML的转换方法,把对HTML文件的信息抽取问题转化为对格式良好的XML文件的信息抽取问题.经过实验证明这种方法是有效可行的.

网络信息抽取 二叉树 可扩展标记语言 格式转换

廉成洋 毛宇光

南京航空航天大学 信息科学与技术学院,江苏 南京 210016 南京航空航天大学 信息科学与技术学院,江苏 南京 210016;计算机软件新技术国家重点实验室(南京大学),江苏 南京 210093

国内会议

2009年中国高校通信类院系学术研讨会

南宁

中文

103-107

2009-09-18(万方平台首次上网日期,不代表论文的发表时间)