会议专题

互联网财经图文信息抓取技术研究

  本文介绍了互联网财经信息采集工具软件中用到的图文信息抓取的一种实现方法。该方法利用URL语法在命令行方式下工作的网络信息采集工具——curl来实现对页面内容的获取。为达到灵活和精确提取数据的目的,正则表达式被用作处理结构化数据的关键技术。以新浪网的财经板块为实际案例,阐述了数据抓取过程及结果,并提供了简化的PHP示例程序,结果表明,该方法能有效方便地应用于互联网财经图文信息的采集。

互联网 图文抓取技术 信息采集 功能分析

荆华 方小林 曹三省

中国传媒大学

国内会议

2012中国数字广播电视与网络发展年会、第20届全国有线电视综合信息网学术研讨会(CCNS2012)、第11届全国互联网与音视频广播发展研讨会(NWC2012)

武汉

中文

157-164

2012-04-14(万方平台首次上网日期,不代表论文的发表时间)