第一次全国水里普查数据分析系统建设方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表8-6 主题描述表
主题 太湖水位 趋势分析 水位预测 结构变量 测站、时间、水位 测站、控制站、 时间、水位 测站、控制站、 时间、水位、流量 基本变量 数据需求 太湖的平均水位是太湖周围五个重要的基站的平均值,分别为大 太湖 浦口,小梅口,沙墩港(望亭太),夹浦,西山。数据仓库中建 平均水位 立了1963年到2000年的五站逐日水位数据。 测站水位 所有水位测站的水位数据。时间跨度为1989年到2000年。
决策树 遗传算法 关联规则 神经网络 聚类分析 线性回归、非线性回归 典型相关分析 主分量分析 公因子分析 自回归过程的时间序列模型分析方法 求和自回归滑动平均过程时间序列数据分析方法 时间序列横截面回归过程时间序列数据分析方法
三、技术方案(开发环境)
二、项目过程
(1)分析研究阶段的工作
主要任务是:研究水文及相关信息的基本特点,分析防洪
调度和水资源管理的需求,提出数据挖掘的具体任务,以 及需要的数据和环境条件;分析研究 SAS 的技术特点与应
用技术,提出SAS的具体应用方案与所需条件;
(2)系统设计与数据准备阶段的工作 主要任务是:引进SAS软件,并进行安装;根据数据挖掘
一、项目背景(具体目标)
基于不平衡数据分析和特征选择的水文时间序列
洪水预测,解决中长期洪水预测问题。并通过考 虑多站多因子,有效提高预测精度和可靠性; 水文相似过程分析研究不同时空水文过程的相似 规律,提高短期洪水预报的精度以及为无资料地 区的水文问题提供新的解决途径; 水文序列物理规律挖掘通过对不同时空水文序列 过程进行挖掘,揭示水文学目前尚未发现的一些 规律。 期望通过本项目的研究,为水文科学研究提供新 的技术思路,而且对于数据挖掘、人工智能等相 关领域的应用基础理论研究具有一定的意义。
入湖流量 分析
测站、控制站、 时间、水位、 降雨量、流量
水位影响 因子分析
测站、相关站、 时间、水位
水位
防洪调度及水资源管理平望站的水位与相关站雨量、水位和潮汐 的关系(其中雨量站包括陈墓、商榻、甪直、瓜泾口、王江泾、 震泽、南浔、嘉善以及平望,水位站包括平望、嘉兴(杭)和陈 墓,潮汐站选择了米市渡),以及平望站水位的预测。 时间跨度为1989年到2000年。平望站、嘉兴(杭)和陈墓站的逐 日水位,陈墓、商榻、甪直、瓜泾口、王江泾、震泽、南浔、嘉 善、平望站的日雨量以及米市渡的日潮汐数据。
二、项目过程(进度安排)
本项目自 2005 年 1 月开始至 2007 年 12 月,历经三
年,从调研到需求确定,挖掘软件的论证到 SAS 软件的引进,由需求到技术方案的确定,最后实 施原型系统的开发。 具体进度安排
分析研究阶段 2005.1-2005.12 系统设计与数据准备阶段 2006.1-2006.8 系统开发阶段 2006.9-2006.12 测试与试运行阶段 2007.1-2007.3 实验推广阶段 2007.1-2007.12
的需求与数据条件,结合SAS的功能,设计数据仓库及其
应用系统,并按设计要求准备所需实验数据,完成技术 和业务培训;
二、项目过程
(3)系统开发阶段的工作
主要任务是:根据系统设计,在数据库的基础上构造数据 仓库,利用SAS进行研究开发,建立本项目的示范系统; (4)测试与试运行阶段的工作 主要任务是:对开发的示范系统进行测试与试运行,验证 并调整系统功能,对系统进行完善; (5)实验推广阶段的工作
四、实施内容(数据挖掘)
1、河道流量和水位预测研究与应用 本项目在小波神经网络模型的基础上提出了两种扩展模 型,以及针对其中一种扩展模型进行了改进。
1 横向扩展:考虑到河道水文站观测的时间序列具有比较强的相 关性(比如上下游站点观测到的流量,下游站点的流量预测可以 利用到上游站点的流量或水位观测值),传统小波神经网络的输 入不仅包括当日流量对应的小波系数,而且包括相关站点的流量 值或水位值。 2 纵向扩展:对于复杂的流量时间序列,网络输入仅包括Hale Waihona Puke Baidu日流 量对应的小波系数不能达到合格预报的要求,当输入中加入昨日 流量对应的小波系数,预测结果令人满意。网络学习到了各个水 平上连续两日小波系数的变化对未来流量的影响规律。 3 纵向扩展的进一步研究:用K-MEANS聚类算法对连续两日流量 聚成高、中、低水平,然后对不同的流量水平分别建立小波神经 网络模型,最后应用于预测。
四、实施内容(数据挖掘)
数据挖掘
分析研究了数据应用的基本模式,提出了数据挖 掘的主题,采用SAS软件的EM和EG模块,建立了 基于数据仓库的数据挖掘系统。 利用SAS数据挖掘套件的功能,在水位流量预报、 水文序列相似性查找、洪峰传播时间估计、关联 规则挖掘以及异常检测方面取得了丰富的成果, 探索了数据挖掘软件SAS在水利系统的可用性和 适用性。
概念设计 逻辑模型 建立太湖流域和中央节点的防洪调度和水资源管理数据仓库系统。
入湖 测站、控制站 流量 时间、水位、 分析 降雨量、流量
降 雨 量 流 量
杭长桥,长兴,杨家埠站点的流入太湖的流量数据。时 间跨度为1989年到2000年。 选择浙西24个站点:天锦堂、杭垓、银杭、递铺、西亩、 钱坑桥、老石坎水库、市岭、龙上坞、百丈、横湖、莫 干山、小梅口、夹铺、诸道岗、长兴、埭溪、横塘村、 梅溪、桥东村、青山水库、余杭、航长桥、对河口站点 的日降雨量数据。时间跨度为1989年到2000年。
水文物理规律挖掘
水文时间序列关联规则挖掘研究与应用 时间序列异常检测方法的研究与应用 水文序列物理规律挖掘通 太湖水位周期分析 过对不同时空水文序列过
程进行挖掘,揭示水文学 家未能发现的一些规律
四、实施内容(数据挖掘)
1、河道流量和水位预测研究与应用 河道流量和水位预测是一类经典的水文问题,有效的预测 对水资源的调配管理和防洪减灾的决策有着重要的意义。 然而由于河道流量和水位时间序列是受到很多因素的影响, 涉及到水文气象和流域下垫面等,其中既有确定的成分, 又有随机的成分,因而其变化非常复杂,表现出非线性和 非平稳特性。
主要任务是:研究系统的推广模式,并在太湖流域管理局
和水利部水文局进行实验性推广。
三、技术方案
Windows client Java Browser 系统
输出
多维分析 图示展现 报表制作 报告生成
相似性分析 序列模式分析 模式分类 特征选择 模型选优、 模型训练、 模型验证、
分类Classification) 估计(Estimation) 预测(Prediction) 聚类(Clustering) 描述和可视化 (Description and Visualization) 相关性分组或关联规则 (Affinity grouping or association rules) 最优算法、模型库、规则集
四、实施内容(数据挖掘)
洪水预测预报
提高预测预报精度和可靠性
河道流量和水位预测研究与应用 水位预测及相关因子分析研究与应用 水文相似过程分析研究不同时空 降雨量与入湖流量关系挖掘
水文过程相似性分析
时间序列相似性分析研究与应用
水文过程的相似规律,可以解决 短期洪水预报的精度问题以及无 资料地区的水文问题;
SAS提供的工具包括30多个专用模块。
三、技术方案
SAS方法论(SEMMA)
Sample(抽样)
面向主题抽取有代表性的数据;
Explore(探索) 数据特征探索、分析和预处理; Modify(修改) Model(建模)
问题明确化,数据调整和技术选择; 模型的研究,知识的发现;
Assess(评估)
流量预测
测站流量 所有流量测站的流量数据。时间跨度为1989年到2000年。 选择浙西24个站点:天锦堂、杭垓、银杭、递铺、西亩、钱坑桥、 老石坎水库、市岭、龙上坞、百丈、横湖、莫干山、小梅口、夹 铺、诸道岗、长兴、埭溪、横塘村、梅溪、桥东村、青山水库、 降雨量 余杭、航长桥、对河口站点的日降雨量数据。时间跨度为1989年 流量 到2000年。 杭长桥,长兴,杨家埠站点的流入太湖的流量数据。时间跨度为 1989年到2000年。
功能是统计分析。 本项目引进的是SAS9.0版,已被全世界 120多个国家和地区的近三万多家机构所采用。
SAS系统是一个可由几个到30个模块及面向行业的子系统组成
的可伸缩系统,SAS 系统主要完成以数据为中心的以下任务:
������
数据访问 数据管理 ⇒ 数据仓库技术
数据分析 ⇒ 传统分析+数据挖掘
水文学的发展贯穿着物理学方法和统计学方法
两种基本手段,前者以物理机制为基础建立水 文模型,后者则融合了众多的现代统计方法, 如神经网络和小波变换。 长期的观测和实践积累了大量的水文数据,国 家设立3万多处观测站,至今整个数据累计量已 超过10GB。 数据中蕴涵着自然界长期的演变规律和人类活 动影响的信息。
引进国际先进水利科学技术项目
防洪调度及水资源管理 数据挖掘系统
汇 报 内 容
一 二 三 四 五
项 目 背 景 项 目 过 程 技 术 方 案
实 施 内 容
总 结
一、项目背景
防 汛 抗 旱 与 水 资 源 管 理 面 临 严 峻 挑 战
洪涝灾害频繁
干旱、缺水形势严重
全球气候变化
大规模人类活动影响
一、项目背景
模型和知识的综合解释和评估。
三、技术方案
防洪调度及水资源管理数据仓库是专门为辅助防洪调度和
水资源管理决策支持而设计的集成的、相对稳定的、时变 的数据集合
数据库 数 据 抽 取 数 据 清 洗 数 据 转 换
数据仓库
数据集市
数据集市 数据集市
数据库
文件系统
挖掘主题
三、技术方案
数据挖掘的主要分析方法
SAS Base SAS EM (Enterprise Miner数据挖掘模块) SAS EG (Enterprise Guide基于项目管理的客户
端数据分析前端工具 ) VC++
四、实施内容(数据仓库)
研究分析了太湖流域、中央防洪调度和水资源管理的需求,
根据确定的挖掘主题设计了数据仓库的结构、应用接口和 实现方法。建立了太湖流域和中央节点的防洪调度和水资 源管理数据仓库系统。
一、项目背景
数据库越来越大
数据挖掘
海量的数据
有价值的知识
一、项目背景
数据挖掘 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、 随机的数据中,提取隐含在其中的、人们事先不知道、 但又是潜在有用的信息和知识的过程。
数据仓库 数据仓库是支持管理决策过程的、面向主题的、集成的、 相对稳定的、时变的数据集合。 SAS SAS系统具有强大的功能模块和灵活的扩展接口,在 BASE SAS的基础上,还有30多个专用模块。
核心方法方案库 (1)方差分析预测模型; (2)回归模型分析; (3)多变量关系模型; (4)变化和偏差分析; (5)数据探索钻取切片; (6)描述性分析; (7)N。。。。。。
统计分析数据集市
监测分析数据集市
文档分析数据集市
MPP EDW
数据库 文件系 统 其它数据源
三、技术方案
SAS系统全称为Statistics Analysis System。SAS系统主要
数据呈现
⇒
各种形式的图形和报表
应用开发 ⇒ B/S、C/S、WAP
三、技术方案
SAS系统具有灵活的功能扩展接口和强大的功能
模块,在SAS BASE的基础上,可以增加如下不同 的模块而增加不同的功能:
SAS/EM(企业数据挖掘模块) SAS/STAT(统计分析模块) SAS/GRAPH(绘图模块) SAS/QC(质量控制模块) SAS/ETS(经济计量学和时间序列分析模块) SAS/FSP(快速数据处理的交互式菜单系统模块)
一、项目背景(项目目标)
探索数据挖掘技术在防洪调度及水资源管理方
面的应用方法与技术,为水利信息系统从数据 服务向信息和知识服务转变提供技术路线和方 法示范。 研究先进的通用数据挖掘软件与领域需求结合 的具体方法,探索研制适合于领域需求的数据 挖掘系统,提高科学决策水平。 以太湖流域为原型,开发太湖流域防洪调度及 水资源管理数据挖掘系统,研究在全国推广应 用的模式和方法。