基于决策树算法的洪水预报模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期：２１ — ３１０００—２作者简介：丁胜祥（９２）１８一，男，安徽潜山人，工程师，博土从事水文水资源研究工作．
圈
ＷＮ
Ｊｌ忏ｔ士
枝两个步骤。算法的核心问题就是属性选择和剪枝
对应的子集，属性将划分为个子集，即属性４共有个取值（为离散属性）或Ａ有个阈值Ａ
（为连续属性）Ａ。
信息增益比为信息增益与分裂信息的比值，即
（．ｕｅｕｏＨｄｏｇ，ｈｎｊｎｔｅｏｒｅｏｍｉｉ，ｈｎ４０１，ｕｅ，ｈｎ；．ｔｅｅａｏａｏｆ１ＢｒａｆｙｒｌｙＣａｇａｇＷａｅＲｓｕｃｓＣｍｓｏＷｕａ３００ＨｂｉＣｉ２ＳａｙＬｂｒｔｒｏｏｉｒｓｎａｔＫｙ
决策树
（图１的基本算法是贪心算法，采见）
领域中。Ｓｌｍａｉｅ］河流前几个时段的有效降雨ｏｏｔ［ｎ４将和所预测河段前几个时段的流量作为决策树模型的输入，预测后一时段的流量类型，得到了容易理解
，守
：签丁仄乘侧－－ＺＸＩＹ￣）：Ｉ
，＼丁ＩＪＫ俣
用自顶向下的递归方式构造决策树。它以样本为基
Ｇａｎ（Ａ）示知道属性Ａ之后导致的熵的期望压ｉＴ，表缩。显然，这种压缩越大越好。压缩越大，则在已知属性的值之后，对样本的分类判别帮助越大。
Ａｂｔａｔｓｒｃ：Ｂｙｕｉｇｔｅｈｓｒｃｌｄｔｂｓｈｃｏｔｉｓｌｒｅａｕｔｏｙｒｌｇｃｌｄｔｎｅｄａｋｉｆｒｔｎｓｎｈｉｔｉａａａａｅｗｉｈｃｎａｎａｇｍｏｎｆｈｄｏｏｉａａａａｄｆｅｂｃｎｍａｉ，ａｏｏｏｌｄｆｒｃｓｉｄｌｉｅｉｎｄａｄｅｔｂｉｅａｅｎｄｃｓｏｒｅＣ．ｌｏｉｍｎｘｓｎｅｅｒｈｓＴｅｗｔｒｆｏｏｅａｔｇｍｏｅｓｄｓｇｅｎｓａｌｈｄｂｓｄｏｅｉｉｎｔｅ４５ａｇｒｈａｄｅｉｉｇｒｓａｃｅ．ｈａｅｏｎｓｔｔｌｖｌｏａｈｋｓｆｒｃｓｅｔｈｄｌａａｅｓｕｙＴｅｒｓｌｓｏｈｄｌｈｓａｃｅｒｓｕｔｒｎｉｌｅｅｆｉｕＬｅｉｏｅａｔｄｗｉｔｅｍｏｅｓａｃｓｔｄ．ｈｅｕｔｈｗｓｔｅｍｏｅａｌａｔｃｕｅａｄｓＴａｈｒｍｐｅｐｅｉｔｎｒｌ，ａｄａｓａｉｈａｃｒｃｎｂｔａｉｒｔｎａｄｖｉａｉｎｐｒｄ．Ａｓａｒｓｈｏａａｍｉｉｇｈｒｄｃｉｕｅｎｌｏｈｓａｈｇｃｕａｙｉｏｈｃｌａｉｎａｄｔｅｏｓｏｂｏｌｏｉｅｕｆｄｔｎｎ，ｔｅｄｃｓｏｒｅｕｅｏｒｃｓｉｇｉｍｉｅｒｍｈｕｅｈｄｏｏｉａａａａｄｃｎｒｖａｈｅｕａｔｆｔｅｌｒｅｎｍｂｒｅｉｉｎｔｅｓｄｆｒｆｅａｔｓｎｄｆｏｎｏｔｅｈｇｙｒｌｇｃｌｄｔｎａｅｅｌｔｅｒｇｌｒｙｏｈａｇｕｅｉｏｉｔｒａｙｒｌｇｃｌｄｔ．ｆｓｏｃｌｄｏｏｉａａａｈｉｈＫｅｏｄ：ａａｍｉｉｇｄｃｓｏｅ；ｏｄｆｒｃｓｗｔｒｅｅ；ａｈａｅｙＷｒｓｄｔｎｎ；ｅｉｉｎｔｅｆｏｏｅａｔａｅｖｌＴｉｕＬｋｒｌ；ｌ
关于属性Ａ的各取值的熵
Ｓｔ（（，，料）ｐｎ料料 … × ｌｏｉＩｆ，
砉：一料
图１决策树示意
（４）
其中，
为训练集ｒ的样本中Ａ属性取第ｉ值时，个
决策树的生成是一个从根节点开始、由上向下的递归过程．一般采用分而治之的方法，通过不断地将训练样本分割成子集来构造决策树。树的构造通常包括利用训练集生成决策树与对决策树进行剪
行了实例研究。结果表明，基于决策树的洪水预报模型结构清晰，最终生成的预报规则简单明了，模型在率定期与检验期内均具有很高的精度。作为数据挖掘的结果，用于预报的决策树是从大量数据中挖掘出来的，它能集中反映
摘要：结合现有决策树技术的研究结果，在已有决策树方法的基础上，从积累的大量数据资料和信息反馈形成的水文相关数据库出发，基于决策树Ｃ．法设计合理的计算流程来建立了洪水预报模型，并以预报太湖水位为例进４５算
ＧＲ（Ａ）小，从而降低了在选择分裂属性时选择，越
取值较多而将样本分割较为均匀的属性的可能。之所以要避免选择这些属性．是因为选择这些属性常常会增加树的复杂性。对决策树的剪枝．Ｃ．采用后剪枝的方法来对４５
水进行类别判断。
些在模型中难以考虑但又很有意义的水文现象形
１决策树模型
最早的决策树（ｃｓｏｒｅ方法起源于１６ＤｅｉｉｎＴｅ）９６年提出的概念学习系统ＣＳ（ｏｃｐｅｒｉｇＬＣｎｅｔＬａｎｎ
成因素。有效利用这些数据，并从中提取对洪水预报有用的信息，是一项非常有意义的工作。数据挖
掘（ｔｎｎ，）是一个从大量数据中抽取挖ＤａａＭｉｉｇＤＭ，
Ｓｓｍ）ｙｔｅ．之后的许多决策树算法都是对ＣＬＳ算法的
水力发电
第３卷第７７期
２１０１年７月
基于决策树算法的洪水预报模型
丁胜祥，董增川２，张莉
（．江水利委员会水文局，湖北武汉４０１；１长３００
２河海大学水文水资源与水利工程科学国家重点实验室，江苏南京２０９）．１０８
随着观测手段的发展与时间的推移，水文系统已积累了大量的水文历史数据．这些数据是各种客观因素作用的结果，包含了大量信息，其中就包括
一
库中的可用信息分析规律得出知识，以对未来的洪
改进或由ＣＬＳ衍生而来 Ⅲ。
掘出未知的、有价值的模式或规律等知识的复杂过程２而决策树分类模型即是数据挖掘技术中用来１。
解决分类问题的一种方法ｌ，近年来也被应用于水文３ｌ
策略：属性选择要求在每个结点选取要分类效果最
Ｇ（＝Ｒ揣）
（５）
（样即
好的属性，传统的属性选择标准有信息增益
（ｎｏｍａｉｎｇｉ、信息增益率ｉｆｒｔａｎ）ｏ
引（ｎｄｘ、最小描述长度Ｇｉｉｎｅ）ｉ
大量历史数据的规律性。
关键词：数据挖掘；决策树；洪水预报；水位；太湖
ＦｏｄＦｏｅａｔｇＭｏｅｓｄｏｃｓｏｅｇｒｔｍｌｏｒｃｓｉｄｌｎＢａｅｎＤｅｉｉｎＴｒｅＡｌｏｉｈＤｉｇＳｅｇｉｎ ‘ＤｏｇＺｎｃｕｎ，ｈｎｉｎｈｎｘａｇ，ｎｅｇｈａＺａｇＬ ‘
中图分类号：９４Ｖ２Ｃ３；Ｔ１２５
文献标识码：Ａ
文章编号：５９９４（０１０ — ０８００５－３２２１）７００－４
０引
言
的预报规则。
本文尝试采用决策树方法．根据历史水文数据
Ｈｄｏｇ— ｔｒｅｏｒｅｎｙｒｕｉＥｇｎｅｎ，ｏａＵｉｅｓｙＮｎｉｇ１０８Ｊｎｓ，ｈｎ）ｙｒｌｙＷａｅｓｕｃｓａｄＨｄａｌｎｉｅｒｇＨｈｉｎｖｒｔ，ａｊ０９，ｉｇｕＣｉａｏＲｃｉｉｎ２ａ
础进行归纳学习．其表现形式就是一个类似流程图
的树形结构。
信息增益比是Ｑｕｎａｉｌｎ在信息增益的基础上提
出的新的度量，其中引入了一个称为分裂信息（ｐｉＩｆｒｔｎ的概念，分裂信息定义为训练集Ｓｌｎｏｍａｉ）ｔｏ
当某个属性的取值较多，且均匀性较好
（ａｎｒｔ）ｇｉａｉ、基尼索ｏ
（ｎｍｕｄｓｒｔｎｍｉｉｍｅｃｉｉｐｏ
本中该属性划分生成的个子集的样本数量差别
不大）时，该属性对应的Ｓｌｌｏ（Ａ）大，则ｐｉｎｔｆ，越