EOF应用:从数据预处理到详细分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中我们主要关注空间的大值区,和大值区的数值大小。空间大值区告 诉我们该区域某种特定频率的信号很强,为我们选择研究区域。比较 各个频率大值区的数值, 可以得到各个频率的信号对原始信号的贡献 大小,这类似于 EOF 分析中的方差贡献百分率,虽然得到的结果比 较粗糙,但是对于信号的选取目的性更强。 千辛万苦,我们通过滤波得到了想要分析的频率范围的数据,又通过 方差的空间分布选定了典型的研究区域。可以放心大胆的进行 EOF 分解了。 基于本文的目的在于实用, 在此处就不详细说明 EOF 的数学过程了。 ***但是有一点需要在这里说明*** 很多 EOF 的程序中都包括了数据的简单处理, 包括了距平和标准化。 这两种方法得到的结论与原始数据得到的结论肯定是不同的。 在此做 简要说明。一般原始数据的 EOF 得到的结论中第一模态方差贡献很 大,代表了要素的平均状态,取距平后则将平均状态去除;标准化的 方法多用于多变量 EOF, 统一不同变量的量级, 但是标准化也会存在 一定问题,会使局部区域的显著性丧失。 3. EOF 的检验 EOF 的检验方法大致有三种,其检验的角度各不相同。North 检验、 Monte Carlo 检验、合成分析检验。 3.1 North 检验 North 检验是最简单也是必须要做的检验, 其检验的目的是考察各个 模态之间是否相互独立,也就是能否称为一个有着独立特征的模态。
响因子, 进行简单相关、 复相关和偏相关分析, 确定可能的影响因子。 确定了影响因子之后可以尝试用多元回归分析, 探讨这些因子与研究 要素之间的可预报性。 除了以上提到的分析,还可以根据自己的目的增加分析的内容。 5. 不同类型的 EOF 5.1EOF 本身的变化 对于 EOF 的介绍很多的参考书籍都将其用于时空分离,也就是用在 了空间和时间构成的三维场。但是实际上,我们回归最前面的 EOF 的出处, 可以看出最原本的主成分分析并没有限定要素是时空的函数。 这种方法只是通过引入新变量来达到数组降维的效果。 所以我们可以 在应用中进行多种尝试,只要能在物理上找到合理的解释就没问题。 因为,这终究只是一种数学工具。 举个例子,我们将一个 30 年长度月分辨率的时间序列,写成一个 30*12 的数组,第一维 30 年,第二维是 12 个月,这样以 30 年为我 们通常认为的时间,12 个月为‘空间’ ,进行 EOF 分析,得到的结果 可以揭示不同模态下 12 个月分别在这 30 年中的变化。 除此之外还有很多种用法,在此不再赘述,仅作抛砖引玉。 5.2 多变量 EOF(MV-EOF) EOF 分析时, 不仅会研究某一要素的时空特征, 有时也会研究某现象 的时空特征,而这些现象往往不能用单一的要素来表征,这时候就需 要用到了多变量的 EOF。 例如,研究海洋大陆的季风系统时空变化特征,很可能要考虑到
EOF 分析
By lqouc
1. 什么是 EOF,它的作用是什么。 1.1 什么是 EOF 关于 EOF 要先从主成分分析说起,主成分分析是多元统计分析中重 要的一部分,是一种从多个变量化为少数变量的统计方法,利用多个 变量之间相互关系构造一些新的变量, 这些新的变量不仅能综合反映 原来多个变量的信息,而且彼此之间是相互独立的,同时是按方差贡 献大小排列的,这种统计处理方法称为主成分分析。主成分分析在气 象应用中称为经验正交函数(EOF)分解。 1.2EOF 的用途 对于一个气象要素, 我们通常有 m 个空间点或者台站, 有 n 次观测, 这样组成的矩阵中的任意元素就表示了某一空间某一时刻的函数, 我 们希望能将这样的时空函数分解成空间函数与时间函数两部分的线 性组合。根据主成分的性质,主成分是按其方差贡献大小排列的,而 且是相互独立的, 那么可以用前几个时间函数与对应的空间函数的线 性组合,对原始场做出估计和解释,这就是经验正交函数分解的主要 目的。 2. EOF 的数据预处理 EOF 只是个统计学的方法, 本身不带有任何物理意义, 更不会揣摩作 者的意图,所以在数据导入之前需要对数据进行分析和预处理。以免 得到错误的或者不理想的结果。 在此处所说的预处理不是指一般 EOF
对于 EOF 进行敏感性试验可以分析影响要素变化的敏感因子。常规 的 EOF 可以进行空间的敏感性分析,即改变空间范围,分析结果的 变化。对于多变量的 EOF 可以去除个别变量从而能考察该变量的影 响对哪一个模态影响最大。季节 EOF 可以改变开始季节来判断年循 环的影响。 4.2 突变分析 突变分析用来分析时间序列是否存在突变或转型。 常用的方法有滑动 t 检验和 MK 检验。但是以上两种方法并不能对所有种类的突变做出 很恰当的检验,其能够检验的主要是均值突变,而趋势突变、振幅突 变和周期突变是无法检验的。 以上类型的检验可以自己设计方法进行 检验,例如周期突变可以使用小波分析,振幅突变可以尝试滑动方差 分析,趋势突变可以尝试滑动线性回归分析或者累积方差分析。 4.3 周期分析 周期分析,我们得到的某一模态的时间系数可能反映了年际变化,但 是这个年际变化可能是多种周期不同的年际变化的组合。对此,我们 需要对时间系数进行分析, 采用的方法主要有功率谱分析, 小波分析。 利用以上两种方法可以得到时间系数的主要周期, 小波分析还可以进 一步得到这种周期的极值年份。 4.4 相关因子分析 通过以上两项的分析,我们掌握了时间系数的一些基本特征,可以根 据这些周期特征寻找有相同特征的气象因子(尤其是环流因子)作为 相关分析的对象, 也可以根据影响要素变化的物理过程找出可能的影
程序中自带的距平或者标准化的处理,虽然这确实有一定的区别。总 之,在做 EOF 之前,对数据需要有基本的了解,也要对自己的研究 目的十分明确。 2.1 数据预处理的必要性 例如:想利用 EOF 研究极地海平面气压场的年际变化,数据是六十 年的月平均的海平面气压格点资料。 首先对手中的资料有基本的判断, 月分辨率的资料包含的时间信号的尺度可能有季节内变化、 季节变化、 年变化、年际变化、年代际变化以及线性趋势。而我们需要的只是其 中的年际变化的信号,所以为了排除干扰必须对数据进行滤波。这一 步是非常有必要的,因为一般来讲,气温、气压、SST 这种受太阳辐 射影响巨大的要素都具有很强的季节变化, 这样的信号远远强于年际 变化。 2.2 滤波的方法 对于滤波的方法,我们熟悉的有很多,最简单的是做年平均,还有滑 动平均、带通滤波、谐波滤波、线性去趋势。关于这些方法在此一一 介绍。1.年平均只能去掉年以下的信号,更低频的信号无法去除,优 点是对年以内的信号去除的十分干净, 缺点是会缩短可用的时间序列, 只适用较长时间的研究。2.滑动平均有很多种,去除年以下的信号可 以选用 13 点滑动平均,对于年分辨率的数据采用五点滑动平均可以 去除年际变化,其优点是较好的保存了时间序列的长度,缺点是对过 于强的年以内信号不能彻底去除,影响结果的分析。但是此处需要注 意的是,滑动平均不得已的情况下尽量不要多次使用,这样会大大减
小时间序列的自由度。3.带通滤波也是常用的方法(本人没用过) , 其优点是可以选定一定的频率范围,缺点是边界处处理不是很清晰。 4.谐波滤波,以傅里叶函数为基函数对时间序列进行逼近,其优点是 可以较准确的得到选取的频段信号,缺点是选的基函数有局限性,而 且结果和时间序列的长度有关。5.线性去趋势可以去除时间序列的线 性趋势信号,但是需要这一线性趋势通过显著性检验。 2.3 如何合理选定分析对象 上面谈到的是滤波的方法, 但是如果我们的数据是一些大家不熟悉的 数据,我们并不知道它都主要包含何种尺度的信号,也不知道各个主 要尺度信号的强弱,那就需要先对时间序列进行分析。对于时间序列 的分析,我们可以采用 1.谐波滤波,看各个频率的数值大小。2.功率 谱分析,得到显著周期。3.小波分析,同样可以得到时间序列的多尺 度变化特征。 在此,我推荐的方法是结合空间利用方差分析,因为以上的分析我们 都是忽略了空间的影响, 一种要素的时间变化特征是会随着空间变化 的。例如,对中国地区做某一要素的 EOF 分析,得到的结果不能通 过检验(检验的方法,后面再说) ,这个时候我们就需要考虑是否一 些地区的目标信号不强,而另外一些地区目标信号很强,这样的话就 只需要分析目标信号很强的地区,即只对特定区域进行 EOF 分析。 结合空间的方差分析, 首先需要对要素每一个空间点的时间序列进行 滤波,得到各个不同频率的信号(从季节内到线性趋势) 。对每个平 率的信号求方差,得到了各个频率的方差的空间分布。在分析的过程
850hPa 风场、SST、和降水,此时只需要在 EOF 导入数据的时候将 数组空间的维数扩大三倍就可以了,将数据按要素分别存入,运算完 之后按照存入的顺序提取三个场,这三个场共用一个时间系数。当然 这样做的时候一般也就只分析时间系数的特征了。 很多人提到的风场 的矢量 EOF 和王斌先生提出的季节 EOF 都是多变量 EOF 的特殊应用。 5.3 其他类型的 EOF 许多研究人员根据不同的目的对 EOF 做出了很多改进。 EEOF 称为扩 展正交经验函数分解,可以研究两组或者多组变量之间的线性关系, 或同一组变量间的滞后关系,这也是多变量 EOF 的一种应用。REOF 称为旋转正交经验函数分解, 可旋转后的特征向量空间型的中心强度 比非旋转特征向量空间型的中心要强,可以有更明确地物理解释,揭 示小尺度现象。CEOF 称为复经验正交函数分解,能够从要素场的时 间变化中,识别空间尺度的波动特征。SVD 称为奇异值分解,可以分 析两个场之间的相关模态, EOF 从本质上讲也是它的一个特例。 Coveriance EOF:每个点减去该点序列的平均,去掉地理位置不同造 成的差异,该方法适用于研究非地理因素。Gradient EOF: 某时刻的 点减去该时刻全区域的平均, 空间差异得以完全保留, 利于研究封面、 涡旋等梯度大的现象。
感谢徐华对本文的帮助与建议
LIU Qian 2013/4/16
North 检验,是计算特征值误差范围来进行显著性检验。特征值λ的
2 误差范围 e j j ( ) 2 ,n 为样本量,当相邻特征值 n
1
j 1 满足
j 1 - Βιβλιοθήκη Baidu e j
时, 认为这两个特征值对应的经验正交函数是有价值
的信号。 3.2 合成分析检验 合成分析,其目的是检查主模态对原始场的拟合度,选取前几个模态 的时间系数大于一倍标准差的时刻做合成分析。 3.3 Monte Carlo 检验 Monte Carlo 检验是利用大量重复的随机试验来排除虚假的结果。其 原理是选取一组与实验数据特征相似(正态分布或者均匀分布、变化 范围一致)的随机数,对其进行 EOF 分解,得到前 p 个模态的方差 贡献。将这样的实验变化随机数组进行 1000 次,对于得到的每一个 模态的方差贡献进行从大到小的排序, 取排在第 5 的数值作为 0.005 显著性的临界值。 假如我们得到的该模态的方差贡献大于这一临界值, 那么就说明该模态通过了 0.005 的显著性检验。 三种检验的侧重点不同,检验的结果也可能不同,在实际应用中,应 尽量全部使用,然后对检测结果取交集,已达到最严格的检验效果。 4. 时间系数的分析 时间系数可以进行的分析包括敏感性分析,突变分析,周期分析,相 关因子分析和回归分析。还是以年际和年代际为例,假设预处理时已 经去除了线性趋势和年以内的变化。 4.1敏感性分析