一种基于二叉树的HTML到XML的转换方法研究
随着web技术的发展,如何从web中抽取有用的信息已经成为一个研究的重点,但当前的Web信息大多数都是没有严格的结构性的HTML格式的,很难用一种有效的方法来完成抽取任务.为了进一步解决这一问题,本文在前人研究的基础上提出了一种基于二叉树的HTML到XML的转换方法,把对HTML文件的信息抽取问题转化为对格式良好的XML文件的信息抽取问题.经过实验证明这种方法是有效可行的.
网络信息抽取 二叉树 可扩展标记语言 格式转换
廉成洋 毛宇光
南京航空航天大学 信息科学与技术学院,江苏 南京 210016 南京航空航天大学 信息科学与技术学院,江苏 南京 210016;计算机软件新技术国家重点实验室(南京大学),江苏 南京 210093
国内会议
南宁
中文
103-107
2009-09-18(万方平台首次上网日期,不代表论文的发表时间)