水文数据统计分析方法研究与应用
随着水文事业的发展和信息化技术的进步,产生并积累了海量的水文结构化数据、非结构化数据,包括计算机和电子设备生成的监测数据、测站信息、照片、视频、科技成果论文以及纸质载体水文资料数字化副本等,已经具有数据体量大、数据种类多等大数据的明显特征,且利用价值高.山东省水文局对临沂、日照、威海3个地市60多年的纸质降水自记纸记录、关系曲线图、水文监测数据记载簿等进行数字化,形成2.3亿个分钟降水量、50万个图像文件,40万页pdf格式文件.本文研究了利用文档型非关系数据库、索引、检索、中文自动分词和水文中文分词词典对水文结构化数据中的数值、日期、时间、文字信息和非结构化数据(电子文件)中抽取的文字信息进行统计分析的方法.该项研究成果可作为智慧水文大数据应用平台数据挖掘的基础,为水文数据的有效利用提供了新的解决途径.
水文数据 文字信息 非关系数据库 统计分析 中文自动分词 水文中文分词词典
余国倩 陶光毅 封得华
山东省水文局,济南250002 山东国基光晔信息科技有限公司,济南250021
国内会议
郑州
中文
181-188
2019-05-01(万方平台首次上网日期,不代表论文的发表时间)