会议专题

基于XPath的广告数据提取研究

针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法。该文主要阐述了广告抽取系统核心模块的实现机制和系统架构。实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广告记录信息,具有一定的实用价值。

广告抽取系统 信息抽取 XPath规则 广告数据块

何章鸿 董守斌

华南理工大学广东省计算机网络重点实验室,广东,广州,510640

国内会议

第六届全国搜索引擎和网上信息挖掘学术研讨会

南昌

中文

153-156

2008-04-11(万方平台首次上网日期,不代表论文的发表时间)