Logistic回归及其在概率降水预报中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LogistiC 回归及其在概率降水预报中的应用
纪玲玲 王昌雨 张志华
( 解放军理工大学 气象学院 江苏 南京 2111O1)
摘
要 : 介绍了一种气象上较少应用的 Logistic 回归的原理和计算方法 并利用 1999 年 3 月 1 日至 2OO1 年 5 月 3O 日期间 国家气象局 T1O6 模式输出的 8O 个物理量场及其导出场资料和福州地区降水的 O, 1 化资料 采 用 Logistic 回归方法 制作春季福州 24 h 降水概率预报 并与事件概率回归方法作了比较 O 结果表明 该方法 对二分类变量有较好的预报效果 O 关键词 : 概率预报 ; Logistic 回归 ; 事件概率回归 中图分类号 : P456. 8 文献标识码 : A
第5期
纪玲玲 , 等 , Logistic 回归及其在概率降水预报中的应用
" 3
水的概率预报 ,
在有 n 个自变量时 , 相应的 Logistic 回归模型有 下列形式 , 1n
1
1. 1
数学模型
Logistic 函数 设 因 变 量 y z 和 自 变 量 xz 之 间 存 在 一 种 线 性 关
N
z, =
N
,
xz = 求 S- , 计算 ,
NZ k=
xz k ;
x =பைடு நூலகம்
NZ k=
x k,
将式 ( 5) 取自然对数就 得 到 一 个 具 有 线 型 函 数 yz = o + Bxz , - yz
b = S- ( x - x 0 ) , ( x + x 0 ) / b, 2 ! 由 Logistic 回 归 模 型 迭 代 算 法 , 取 迭 代 临 界 a = - 1og( n 0 / n ) -
第4卷 第5期 2OO3 年 O 月
解 放 军 理 工 大 学 学 报 ( 自 然 科 学 版) J ournal of PLA University of science an d Technology
V ol. 4 No. 5 Oct . 2OO3
文章编号 : 1OO9-3443( 2OO3) O5-OO92-O3
3
些转换 后的 因子 组 成 回 归 方 程 用 于 制 作 降 水 等 预 报量的有无或分级的概率预报 O 以福州地区 1999 ~ 2OO1 年 4 月份降水量为预报 对象 取 T1O6 数 值 预 报 客 观 分 析 场 资 料 为 预 报 因 子 通 过相 关系 数 法 和 逐 步 回 归 法 选 出 与 预 报 对 象 相关 性 好 的 因 子 用 Logistic 回 归 方 法 进 行 有 无 降
- Ez
2
^
Logistic 模型的计算方法
设预报模型为 , y = y ( I x , x2 ,
^
, xk ) =
-[ +
,
( 2) 这一函数称为 Logistic 函数 , 它具有 S 型 的 分 布 , 如 图 所示 ,
+ Zk xk ) ]- , exp ( Z 0 + Z x + Z 2 x 2 + 其中 , ^ y 是条件概率估计值 , x 表示因子的概率值 , Zz 表示概率回归系数 , 则具体计算如下 , 形成基本资料矩阵 , x E
其 中 , y z = P( y z = I xz , xz 2 , , xz n ) 为 给 定 系 列 自 变 量 xz , xz 2 , , xz n 的值时的事件发生概率 ,
(
yz = o+ - yz
n
D
ZBx
n z=
zn
,
( 7)
系, 即, y z = o + Bxz + Ez , ( ) 如果 Ez 为 Logistic 分布 , 就得到 Logistic 回归模 型 , 由式 ( ) 可得到 , P( y z = I xz ) = P[Ez g ( o + Bxz ) ] = + e
Zx
x, =
z=
Zx
, x ,0 =
z=
z, , 0
, n n0 xz, , 和 xz, , 0 分别表示第 个因子的 类和 0 类的 第 z 个样本 , 计算 ( x -x 0 ) , ( x + x 0 ) , 计算 S= 其中 ,
N
N-
( Sz, ) ,
Sz, =
N-
Z (x
k=
k, z
- xz ) ( xk , - x ) , , m,
收稿日期 : 2OO2-O9-19. 作者简介 : 纪玲玲 ( 1967- ) 女 硕士 讲师 .
又由 An d erson J . A. 2 改进的 O 在 用 事 件 概 率 回 归 ( 即 REE P) 方 法 作 M Os 或 PP 预报中 由于预报量 O 1 化 做回归估计时 预报 量 的拟合 值有时超 过概率 值的 变 化 范 围 ( O ~ 1) 且 以二分类变量作为因变量的模型在自变量与事件发 生概 率之间 存在 非 线 性 关 系 而 事 件 概 率 回 归 模 型 不能拟合这种非线性关系 O 因而 常用一种分对数 模 型 来 使 因 子 变 量 规格化 然后 再由这 ( Logistic)
图 Fig. Logistic 函数的曲线图 Curve of Logistic f unction
x = (x
,
, x 2, ,
, xm, ) / ,
x 0 = ( x , 0 , x 2, 0 , , xm, 0 ) / , 其中 , x 的第 2 个下标表示类别 ,
n n0 z, ,
无论 Ez 取任何值 , Logistic 函数的取值范围均在 0~ 之间 , Logistic 函 数 的 这 一 性 质 保 证 了 由 Logistic 模型估计的概率决不会大于 或小于 0, 1. 2 Logistic 回归模型 定义 函数 , 即 , Ez = o + Bxz , 数 , 则 Logistic 回归模型为 , E( yI x) = [ + e - ( 0 + x/ B) ]- = f ( x, B) , ( 4) 对一元回归 , 设 y z 为第 z 个事件发生的概率 , 那 么 , 事件发生概率与事件不发生概率之比为 , yz = e o+ Bxz , - yz 性质的 Logistic 模型 , 1n ( 5) ( 3) 其中 , xz 为自变量 , o 和 B 分 别 为 回 归 截 距 和 回 归 系 Ez 为一系列事件发生概率的因子的线性
因子的选取
选 取 1999 年 3 月 1 日 至 2001 年 5 月 30 日 年 T106 模式数值预报产品客观分析场 ( 00: 00) 资料作 为预报因子原始资料 因子的选择是影响预报精度的一个重要因素 先粗 选 因 子 对 福 州 站 选 择 24 h 内 天 气 系 统 能 够 直接影响到的区域范围 初步取为左 10~ 右 10~ 上 8~ 下 8 个格点 含本站点共 17> 21 个格 点 对 于该 区 域 粗选因子有 3 种方案 : D 该区域内的每一个格点 的 模 式输出物理 量 都 作 为 一 个 因 子 进 入 粗 选 ; @ 取 该区域内所有格点的模式输出物理量平均值作为一 个因子进入粗选 ; 子进入粗选 完成因子粗选后进行因子初选 先运用天气学 的方法 以经验预报为基础对因子进行初选 从中选 出 24 个与降水产生密切相关的物理量 ( 见表 1)
Logi st i c R egr essi on an d l t s Appl i cat i on f or P r obabi l i t y For ecast of P r eci pi t at i on
J1 Ling-ling WANG chcng-yu ZHANG Zhi-huc
Nanjing 2111O1 China)
(
D
( 6)
94
解 放 军 理 工 大 学 学 报 ( 自 然 科 学 版) 3. 2 结果分析
第4卷
值 0. 001 求出回归系数迭代值
3
3. 1
实
例
由所选取的 5 个因子 通过 Logistic 叠代算法建 立的降水概率预报方程为 : y= 1-[1+ exp ( -7. 2533+ 2. 8455I1 + 3. 1714I2 + 3. 6253I3 + 4. 2074I4 + 4. 4145I5 ) ]- 1 方 程 的 历 史 拟 合 率 较 高 为 86. 4% C ISOUARED 为一检验系数 当它大于 30 时表明效果 较好 经过检验回归方程是显著的 对 2002 年 3 月 1 日至 5 月 31 日共 92 d 的独立样本进行试报 规定降 水概率大于或等于 50% 为有雨 结果有 68 d 报对 正 确率达到 74% 对上述资料 用相同的方法筛选因子 建立 REEp 降 水 概 率 预 报 方 程 得 到 其 历 史 拟 和 率 为 85. 8% 入选的因子数为 7 个 试报正确率为 72. 5% 从结果可以看出 用本文中的方法 效果稍好 些 当 然对 于 不 同 的 实 例 可 能 有 的 好 些 有 的 差 些 ; 但本 方法的 主要 优 点 并 不 在 于 此 而 在 于 它 对 非 正 态母 体可以 应用 对 因 子 中 既 有 连 续 又 有 离 散 的 混 合 变量 也能适 用 这 是 目 前 许 多 实 际 问 题 最 为 关 心 和重视的
,
x E
,2
x E
,m
y y2 E = ( xI y) , ( 8)
x 2,
x 2, 2
x 2, m
xN, 2 xN, m y N xN, 其中 , N 为样本数 , m 为因子数 , 增 广 列 存 放 y 的 实 况取 0 或 , 由 y z ( z= , , n ) 值计数求 n 0 和 n 并挑出同 类样本 , 求各因子的平均值 ,
( Institute of Meteorology PLA Univ. of sci. S Tech.
Abst r act : This p a p er intro d uced the p rinci p le an d m etho d of logistic regression
w hich is sel d o m used in
w eather f orecasting. The p red ictive eg uations of the p reci p itation in Fu z hou station in sp ring f or 24 hours are m a d e b y the Logistic regression a pp roach. It emp loys 8O p hysical f iel d d ata b y T1O6 nu m erical m o d el of stated Metorological A dm inistration an d rainf all O-1 d ata f ro m Fu z hou station d uring 24 hours f ro m 1 March 1999 to 4O May 2OO1 an d co mp ares it w ith REE P m etho d . The f itting results of the eg uations are i d eal f or the d ichoto m ous varia b les. K ey W or ds: p ro b a b ility p red iction; Logistic regression; REE P 近年来 新 的 预 报 方 法 特 别 是 作 为 微 分 方 程 初 值 问题的动力学 方 法 , 以 概 率 论 为 基 础 的 统 计 学 方 法都取得了重大进展 O 统计气象学家们从以前较简 单 的运用 平 均 数 , 方 差 , 相 关 系 数 等 表 示 的 叙 述 法 发展 为 引用分布模式和 回归 , 判 别 , Logistic 模 型 所 表示的解析法 并进而制作客观定量的预报 O Logistic 回 归 模 型 和 方 法 不 仅 对 非 正 态 母 体 适 用 对 既 离散又有连续变量的因子也能适用 故应用范围广 O 建立公式时工作量并不过于复杂 从理论 , 数学模型 及 实用上都具有很强的生命力 O 该方法首先是 Co x 1 D . R . 提出 后经 Day N . E . 和 K orriage D . F. 发展