基于决策树算法的洪水预报模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H do g— tr eore n yrui E gne n , o a U iesy N nig 10 8 J n s, hn) yrl y Wae sucsadH dal nier g H h i nvrt, aj 0 9 , i gu C ia o R c i i n2 a
当某 个属 性 的取 值较 多 ,且 均 匀性 较 好
( awk.baidu.comr t ) g i ai 、基 尼 索 o
( nmu d s r t n mii m e ci i po
本 中 该 属 性 划 分 生 成 的 个 子 集 的 样 本 数 量 差 别
不 大 ) 时 ,该 属 性 对 应 的 S l l o ( A) 大 , 则 pin t f , 越
础 进 行 归 纳 学 习 . 其 表 现 形 式 就 是 一 个 类 似 流 程 图
的树 形结 构 。
信 息 增 益 比是 Quna iln在 信 息 增 益 的 基 础 上 提
出 的 新 的 度 量 , 其 中 引 入 了 一 个 称 为 分 裂 信 息 ( p i I fr t n 的 概 念 ,分 裂 信 息 定 义 为 训 练 集 S l nomai ) t o
枝 两 个 步 骤 。 算 法 的 核 心 问 题 就 是 属 性 选 择 和 剪 枝
对 应 的 子 集 ,属 性 将 划 分 为 个 子 集 , 即 属 性 4 共 有 个 取 值 ( 为 离 散 属 性 ) 或 A 有 个 阈 值 A
( 为 连 续 属 性 ) A 。
信 息 增 益 比 为 信 息 增 益 与 分 裂 信 息 的 比值 , 即
, 守
:签 丁 仄 乘 侧 - -ZXI Y ̄) : I
, \ 丁I J K俣
用 自顶 向 下 的 递 归 方 式 构 造 决 策 树 。 它 以 样 本 为 基
Gan( A) 示 知 道 属 性 A 之 后 导 致 的 熵 的 期 望 压 i T, 表 缩 。 显 然 ,这 种 压 缩 越 大 越 好 。 压 缩 越 大 ,则 在 已 知 属 性 的值 之 后 ,对 样 本 的分 类 判 别 帮 助 越 大 。
G R ( A) 小 ,从 而 降 低 了 在 选 择 分 裂 属 性 时 选 择 , 越
取 值 较 多 而 将 样 本 分 割 较 为 均 匀 的 属 性 的 可 能 。 之 所 以 要 避 免 选 择 这 些 属 性 .是 因 为 选 择 这 些 属 性 常 常会 增加 树 的复 杂性 。 对 决 策 树 的 剪 枝 .C . 采 用 后 剪 枝 的 方 法 来 对 45
收 稿 日期 :2 1 — 3 1 00 0—2 作 者 简 介 :丁 胜 祥 (9 2 ) 18 一 ,男 ,安 徽 潜 山 人 ,工 程 师 , 博 土 从 事 水 文 水 资 源 研 究 工作 .
圈
W l oe V13 O 7 a r w r o 7 . eP . N
J l 忏 t 士
水进 行类别 判 断 。
些 在 模 型 中 难 以 考 虑 但 又 很 有 意 义 的 水 文 现 象 形
1 决策树模型
最早 的决 策树 ( cso re 方 法 起 源 于 1 6 De iinT e ) 96 年 提 出 的 概 念 学 习 系 统 C S ( o c p e r ig L C n e tL a nn
行 了实 例 研 究 。结 果 表 明 ,基 于决 策 树 的 洪 水 预 报 模 型 结 构 清 晰 ,最 终 生 成 的 预 报 规 则 简 单 明了 ,模 型 在 率 定 期 与 检 验 期 内均 具 有 很 高 的精 度 。作 为数 据挖 掘 的 结果 ,用 于 预 报 的 决 策 树 是 从 大 量 数 据 中 挖 掘 出来 的 ,它 能 集 中反 映
改 进 或 由 CL S衍 生 而 来 Ⅲ。
掘 出 未 知 的 、 有 价 值 的 模 式 或 规 律 等 知 识 的 复 杂 过 程 2 而 决 策 树 分 类 模 型 即 是 数 据 挖 掘 技 术 中 用 来 1 。
解 决 分 类 问 题 的 一 种 方 法 l, 近 年 来 也 被 应 用 于 水 文 3 l
(. ue u o H d o g , h n j n t eo re o mi i , h n4 0 1 , u e, hn ; . t e e a oao f 1 B ra f y rl y C a g a gWae R suc sC m s o Wu a 3 0 0 H b i C i 2 Sa yL b rtr o o i r sn a tK y
水 力 发 电
第 3 卷第 7 7 期
21 0 1年 7月
基 于 决 策 树 算 法 的 洪 水 预 报 模 型
丁 胜祥 ,董 增 川 2 ,张 莉
( . 江 水 利 委 员会 水 文局 ,湖 北 武 汉 4 0 1 ; 1长 3 0 0
2 河海 大 学水 文水 资源 与水 利 工程 科 学 国家 重 点 实验 室 ,江 苏 南京 2 0 9 ) . 10 8
策 略 :属 性 选 择 要 求 在 每 个 结 点 选 取 要 分 类 效 果 最
G( = R 揣 )
( 5 )
( 样 即
好 的 属 性 , 传 统 的 属 性 选 择 标 准 有 信 息 增 益
(n omaing i 、信 息 增 益 率 ifr t an) o
引 ( n d x 、 最 小 描 述 长 度 Giin e ) i
随 着 观 测 手 段 的 发 展 与 时 间 的 推 移 ,水 文 系 统 已 积 累 了 大 量 的 水 文 历 史 数 据 .这 些 数 据 是 各 种 客 观 因 素 作 用 的 结 果 ,包 含 了 大 量 信 息 ,其 中 就 包 括
一
库 中 的 可 用 信 息 分 析 规 律 得 出 知 识 , 以对 未 来 的 洪
摘 要 :结 合 现 有 决 策 树 技 术 的研 究 结果 ,在 已 有 决 策 树 方 法 的 基 础 上 ,从 积 累 的 大 量 数 据 资 料 和 信 息 反 馈 形 成 的 水 文 相 关 数 据 库 出 发 ,基 于 决策 树 C . 法 设 计 合 理 的 计 算 流 程来 建 立 了洪 水 预 报模 型 ,并 以预 报 太 湖 水 位 为 例 进 4 5算
成 因 素 。 有 效 利 用 这 些 数 据 ,并 从 中 提 取 对 洪 水 预 报 有 用 的 信 息 , 是 一 项 非 常 有 意 义 的 工 作 。 数 据 挖
掘 ( t nn , ) 是 一 个 从 大 量 数 据 中 抽 取 挖 DaaMi ig DM ,
S s m) yt e .之 后 的 许 多 决 策 树 算 法 都 是 对 CL S算 法 的
中 图分 类 号 :9 4 V 2 C 3 ;T 125
文 献标 识 码 : A
文 章编 号 :5 9 9 4 (0 10 — 0 8 0 0 5 - 3 2 2 1 )7 00 - 4
0 引
言
的 预报规则 。
本 文 尝 试 采 用 决 策 树 方 法 .根 据 历 史 水 文 数 据
大量 历 史 数 据 的规 律 性 。
关键 词 :数 据 挖 掘 ;决 策树 ;洪 水 预 报 ;水 位 ;太 湖
F o d Fo e a t g M o e s d o c so e g rt m lo r c si d l n Ba e n De ii n Tr e Al o ih Di g S e g i n ‘Do gZ n c u n, h n i n h n xa g, n e g h a Z a g L ‘
决 策树
( 图 1 的 基 本 算 法 是 贪 心 算 法 , 采 见 )
领 域 中 。 S lmaie ] 河 流 前 几 个 时 段 的 有 效 降 雨 oo t [ n4 将 和 所 预 测 河 段 前 几 个 时 段 的 流 量 作 为 决 策 树 模 型 的 输 入 , 预 测 后 一 时 段 的 流 量 类 型 ,得 到 了 容 易 理 解
Ab t a t s r c :By u i g te h s rc l d t b s h c o ti s l r e a u t o y r l gc l d t n e d a k i fr t n sn h iti a aa a e w ih c n a n a g mo n fh d oo i a aa a d f e b c n mai ,a o o o l d f r c si d li e in d a d e t b i e a e n d cso r e C . lo i m n xs n e e r h s T e w tr f o o e a t g mo e s d sg e n sa l h d b s d o e iin te 4 5 ag r h a d e i i g r s a c e . h a e o n s t t lv lo ah k sfr c se t h d la a e su y T e r s l s o h d lh sa c e rs u t r n i l e e f i u L e i oe a td wi t e mo e sa c s t d . h e u t h wst e mo e a l a t cu e a d s T a h r mpe p e it n r l ,a d as a ih a c r c n b t a i r t n a d v i a in p r d .As a r s h o a a mi i g h r d c i u e n lo h s a h g c u a y i o h c l ai n a d t e o s o b o l o i e u f d t n n ,te d c so r e u e o r c si g i mi e r m h u e h d o o ia a a a d c n r v a h e u a t ft e l re n mb r e ii n te s d frf e a t s n d f o n o t e h g y r lg c ld t n a e e lt e r g l r y o h a g u e i o itr a y r l gc ld t . f so c l d o o ia aa h i h Ke o d : a ami i g d c so e ; o d f r c s w t r e e ; ah a e y W r s d t n n ; e ii n t e f o o e a t a e v l T i u L k r l ; l
关 于 属 性 A 的各 取 值 的熵
St( ( , ,料 ) pn 料 料 … × lo i I f ,
砉 : 一 料
图 1 决 策 树 示 意
( 4 )
其 中,
为 训 练 集 r 的 样 本 中 A 属 性 取 第 i 值 时 , 个
决 策 树 的 生 成 是 一 个 从 根 节 点 开 始 、 由 上 向 下 的 递 归 过 程 .一 般 采 用 分 而 治 之 的 方 法 ,通 过 不 断 地 将 训 练 样 本 分 割 成 子 集 来 构 造 决 策 树 。 树 的 构 造 通 常 包 括 利 用 训 练 集 生 成 决 策 树 与 对 决 策 树 进 行 剪