基于核估计的多变量非参数随机模型初步研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于核估计的多变量非参数随机模型初步研究

王文圣1，丁晶1

(1.四川大学水利水电学院，四川成都 610065)

摘要：本文基于核估计理论构造了多变量非参数模型。该模型是数据驱动的、不需识别和假定序列相依形式和概率分布形式的一类随机模型，克服了多变量参数模型的不足。实例统计试验表明，建议的多变量非参数模型是有成效的，为随机水文学发展提供了一些新思路。

关键词：核估计；多变量非参数模型；随机模拟；实用性检验

中图分类号：P333.9文献标识码：A

流域水资源的开发利用，不仅需要单站水文信息，而且需要流域内各站的水文信息。进行多站水文序列模拟的一个重要手段就是建立多站(变量)随机模型。目前，多变量随机模型[1]比较成熟的有自回归模型和解集模型。这两类模型的共同点是用有限个参数的线性函数关系描述水文现象。因此简便实用，能表征水文序列的统计特性和一般变化规律，但缺点也明显：①水文序列是一时间不可逆过程，而参数模型描述的是可逆过程，因此大多数参数模型难以反映其涨落不对称性；②水文现象受流域下垫面、人类活动、气候等多因素影响而变化错综，是一个高度复杂的非线性系统，而多数参数模型仅能表征变量及变量之间的线性相依结构，忽略了占据重要位置的非线性性；③水文变量概率密度函数复杂且未知，某一指定概率分布与真实分布存在着差异。如图1、2所示，正态分布、P-Ⅲ型分布都与直方图相差甚远，但χ2检验并不拒绝P-Ⅲ型分布和正态分布；而核估计和k最近邻估计与直方图比较接近。即概率分布具有不确定性；④模型参数由于抽样误差和估计方法不同具有不确定性。

为克服参数模型之不足，文献[2]提出了单变量非参数模型，径流模拟表明是满意的。在此基础上，本文基于核估计理论构造了多变量非参数模型。该模型避开了序列相依形式和模型结构的假设，不涉及模型参数估计，能反映各种复杂关系，较参数模型优越。以中国金沙江流域屏山站和宜宾—屏山区间两站日流量过程随机模拟为例，对建议模型进行了应用研究。

1 核估计理论[3]

1.1 多维核估计定义设X为d维随机变量，X1，X2，……X n为X的一样本。X的概率密度函数f(X)的核估计定义如下：

(1)

式中：X=(x1,x2,…,x d)T,X i=(x i1,x i2,…，x id)T(i=1,2,…,n)；K(·)为核函数，是一给定概率密度函数；h为带宽系数；n为样本容量；S是X的d×d维对称样本协方差矩阵。

1.2 核估计精度评价核估计既同样本有关，又与K(·)和h的选取有关。在给定样本后，核估计的精度取决于K(·)及h的选取是否适当。常采用积分均方误差准

则进行度量。MISE由偏差和方差组成。当K(·)固定

时，若h选得过大，偏差较大，但降低了方差，故(X)对f(X)有较大的平滑，使得f(X)的某些特征被掩盖起来；若h选得过小，偏差减小了，但增大了方差，则(X)有较大的波动。显然同时减少偏差和方差是不可能的。

图1 屏山站1月31日流量概率密度估计

图2 宜-屏区间7月径流量概率密度估计(图例见图1)

1.3 K(·)和h的确定依潘涅契科夫[4]和Scott[5]通过统计试验发现，当给定带宽系数，不同核函数对MISE的影响是很小的。实际工作中，选择满足一定条件的核函数即可[2]。本文采用标准高斯函数。

h随n增大而减小。h的确定还要考虑数据的密集程度，在数据密集区，h选小一点；在数据稀疏区，h选大一点。h的具体计算方法很多。这里使用LSCV法。LSCV 是基于积分平方误差(Integrated Square Error(ISE))最小准则的一种计算方法。对多维随机变量X，ISE为：

(2)

式(2)中最后一项与h无关。LSCV就是取式(2)中前两项进行最小化，即

(3)

式中：当LSCV(h)最小时，h即为所求。

2 基于核估计的多变量非参数随机模型

2.1 模型建立所谓多变量，可以是同一测站的几个水文变量，也可以是不同测站上的一种或几种变量。设｛X t｝n(t可以是年，也可以是季、月、日)为多变量相依时间序列，X t依赖于前P个值X t-1,X t-2,…，X t-p,取V t=(X t-1,X t-2,…，X t-p)T，X t的条件概率密度函数为：

(4)

(4)式中：,m为变量个数，为j变量

t时刻水文变量值；f(X t,V t)为m(P+1)维联合密度函数，f V(V t)为mP维边缘密度函数。

由多维核估计知

(5)

(6)

其中(7)

式中：S为(X t,V t)的样本协方差矩阵；S X为X t的m×m阶对称样本方差阵；S XV为X t

与V t的m×mP阶样本协方差阵；S V为V t的mP×mP阶对称样本方差阵。V i=(X i-1,X i-2,…，X i-p)T，X i=(x(1)i,x(2)i,…，x(m)i)T，V i和X i(i=P+1,P+2,…n)来自实测样本。

当det(S V)≠0时(一般满足)，S可分解为：

设S X-S XV S-1V S T XV=A，则S可作如下变化：

(8)

(9) 将式(8)、(9)代入式(5)整理得：

(10

) 再将式(6)、(10)代入式(4)可得：

(11) 其中，

(12)

由式(11)知，条件密度函数(X t／V t)是n-P个m维高斯函数(均值向量B i，方差矩阵C)的加权(权重为W i)平均和。用式(11)可随机模拟X t，其模拟式

为： X t=B i+DE t (13) 式中：D为m×m阶标准差矩阵，C=DD T；E t是均值0，方差1的m维独立高斯随机变量。在条件V t下，模拟序列X t是来自条件概率密度函数式(11)的一个样本。到此，多变量P阶非参数模型建立完毕。

2.2 模型阶数P的确定在K(·)给定后，建立非参数模型的关键是寻求最优h和确定P。P可由AIC准则确定。

2.3 模型算法算法：①从实测资料中构造X i和V i(i=P+1,P+2,…,n)；②计算协方差矩阵S；③给V t赋初值；④给定V t，由式(12)计算抽样概率W i；⑤以概率W i抽样X i；⑥按式(13)模拟X t；⑦给V t重新赋值，转向第④步，继续模拟；满足模拟数时停止。

3 多变量非参数随机模型在日流量随机模拟中的应用

3.1 流域及资料情况溪洛渡水电站的修建不仅要涉及自身的防洪安全，而且还要兼顾下游城市宜宾的安危，因此研究溪洛渡洪水(屏山站)和宜宾—屏山区间(简称宜-屏区间)洪水将至关重要。屏山站有48年(1940～1987)日流量过程，宜-屏区间日流量由岷江高场站实测日流量(1940～1987)按面积比获得。以上述两站日流量过程为例尝试将多变量非参数随机模型用于径流随机模拟研究，以检验该类模型的可行性和有效性。

3.2 模型建立(i=1,2，…，48；j=1,2,…，365)表示屏山站、宜-屏区间

日流量。计算各截口(天)斜方差矩阵S，建立各截口两变量非参数模型。经计算，P=1，汛期(5月1日～10月31日)h=0.532，非汛期(11月1日～次年4月30日)h=0