基于多元线性回归和主成分分析的地震预测模型 陈志琪

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
地震以其巨大的破坏力给人类社会造成了严重的灾难, 地震的预测成为当今 科学研究的重要课题。地震发生的前夕,一些前兆指标往往会发生着变化,这些 变化的指标则是构建地震预测模型的重要依据, 但与此同时, 未发生地震的年月, 有些指标也会有异常的变化, 因此筛选数据并进行综合处理成为了建模中十分重 要的一部分。 本文通过对 05-09 年地震发生前夕各项数据指标的记录,理化各项指标,筛 选出预测地震的可靠指标,综合处理后针对各个任务构建数学模型。 针对问题一,在预处理数据的阶段,为了更直观的显示各项指标与地震的关 系,对所给的数据进行日平均处理。此外,对地震发生前一个月的数据保留,剔 除其他月份中极度异常的日平均数据。对地震发生前后三个月的数据进行截取, 并进行差分处理,比较分析后得到各指标对地震发生的敏感度。 针对问题二,建立最小二乘法拟合模型、非线性组合模型和非线性统计回归 模型。截取地震发生前三个月的数据,通过最小二乘法拟合得到各指标关于时间 的变化曲线;建立 0-1 变量,应用非线性组合求得各指标的权重;最后根据前面 两个模型的结论,应用统计回归模型,得到时间关于各个指标的函数,从而对地 震进行预测。 针对问题三,采用主成分分析模型。对所给数据的各项指标进行降维处理, 用得到的主成分来代替原有的数据。同时,分析地震前后重要指标的变化。 针对问题四,对所问题一、问题二、问题三构建的模型进行合理性评价。 关键词:主成分分析 多元线性回归 灰色加权关联度 最小二乘法拟合
05 年 11 月 2 日地震发生
05 年电压日平均值一阶差分变化曲线
7
06 年 7 月 26 日地震发生
05 年电压日平均值一阶差分变化曲线 同样,本文只列举电压一项两年的一阶差分变化曲线,对其他指标一阶差分变化 曲线不做详细列举。通过对 2005 至 2009 年的数据,结合一阶差分变化曲线图, 定性分析各指标对地震发生的敏感度, 所得到各指标对地震发生定性结论评价表 如下。 4.1.2 敏感度分析定性评价表 地震时间 电压 E NC 地 水 气 气 水 冬 雨 倾 斜 倾 斜 W 温 位 温 压 温 氡 量 仪 NC 仪 EW 2005/11/2 是 是 是 是 是 否 否 是 否 是 * * 2006/7/26 是 否 否 是 是 否 否 是 是 是 是 * 2007/3/22 否 否 否 否 是 否 否 是 否 是 * * 2007/4/5 否 否 否 * 是 否 否 是 否 否 是 是 2008/5/15 否 否 否 否 是 否 是 是 否 是 是 是 2008/7/5 是 否 否 否 是 否 是 是 是 是 是 是 2009/11/5 是 是 是 是 是 是 是 是 否 是 是 是 通过所得表格定性分析各个因素在地震发生前后的敏感程度, 得到对地震发生敏 感程度最大的几项指标:气氮、EW、NS、电压、水位、地温、水温、雨量。 此外,构建综合评价模型,对各项灵敏度进行定量分析。 4.1.3 综合评价模型的建立 根据问题二中非线性组合模型求出的权重, 应用灰色关联度模型对灵敏度进 行分析。 灰色关联度分析的原理 确定比较对象(评价对象)和参考数列(评价标准) 。设评价指标有 n 个,参考 数列为 x0(k),k=1…n,比较数列为 xi(k),k=1…n,i=1..m。 确定各指标对应的权重。 对应问题二、问题三中求出来的权重可得 W=[w1,…wn],其中 wk 为第 k 个评价指 标对应的权重。 计算灰色关联系数:
4
一 问题重述
预测地震是世界性难题,科学界普遍认为,有可能反映地震前兆特征的指标 可能不少于 10 个。 针对已有专业仪器在多个定点实时按秒记录这些指标的数据, 期望通过对记录数据的分析研究找到地震的前兆特征。 现已采集到某地 2005 年 1 月 1 日至 2009 年 12 月 31 日按小时观测的 10 多 个指标的数据,和该地区该时期内已发生地震的时刻、经纬度、震级及震源深度 的数据。这些数据中隐藏着地震发生的前兆特征。科学地截取这些数据的有用片 段,对数据进行合理地预处理,用数学方法揭示地震前兆的数据特征。 题给数据中的这 12 多个指标,究竟哪些与地震的发生有关,有何种关系, 是单一关系还是复合关系;哪些指标的哪种数学模型更能反映地震的前兆特征, 需要深入的研究。 地震数据的观测是持续进行的,随着时间的推移数据的规模会不断扩大。从 中挖掘地震的前兆特征,必须有合理的数学模型,也必须有科学高效的算法分析 平台。具体任务如下: 任务 1: 分析数据特征, 建立数学模型描述各指标对地震发生的敏感度; 任务 2:建立数学模型描述地震发生前的数据特征的统计规律; 任务 3:建立数学模型描述地震发生后的数据特征的统计规律,并分析与模 型二有何差异? 任务 4:对上述研究作一个综述(包括模型的合理性,解释能力,研究的结 果,应用的价值等方面) 。
2
2014 高教社杯全国大学生数学建模竞赛(选拔赛)
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
3
基于多元线性回归和主成分分析的地震预测模型
8
i (k)
minmin x
s t
0
(t) x s (t) maxmax x 0 (t) x s (t)
s t s t
x 0 (k) x i (k) maxmax x 0 (t) x s (t)
为比较数列
x i 对参考数列 x 0 在第 k 个指标上的关系系数, 其中 [0,1] 为分辨系
2014 高教社杯全国大学生数学建模竞赛(选拔赛)



我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮 件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问 题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他 公开的资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正 文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反 竞赛规则的行为,我们将受到严肃处理。
三 模型假设
(1)从 2005-2009 年所给的数据都是准确无误的。 (2)题目中所给的数据均不是强震,因此不考虑有余震的情况, (3)所得数据中极端异常值予以剔除,对建模结果没有影响。 (4)截取地震前后的三个月的数据进行分析,时间不是导致地震发生的因素, 因而,为方便寻找规律,将时间 t 限定在[0,90]之间。且依据数据,规定 t=90 时发生地震。
9
05 年地震发生前 3 个月的电压分布散点图
05 年地震发生前 3 个月 EW 分布散点图 4.2.3 模型的建立 针对地震预测研究中,变量的指标较多、预测变量是非线性关系的特点, 来解决地震预测的上述问题的关键便是构造非线性组合预测模型。 根据本题中的 地震前兆指标数量特征,构造的非线性组合模型在一定程度上解决了上述问题, 非线性组合模型是将多个用于预测的一元线性模型进行线性组合, 组成非线性组 合模型,其优点是可以增加预测稳定性。 模型一:非线性组合模型 对于每一项指标 xi(i=1,2…12),对应预测变量 y(地震发生) ,在此之前, 设计一些非线性模型,对所得到的散点图进行拟合,根据统计检验和拟合优度选 择最优指标和最佳曲线。得到相应的函数 f(K)=x*1(t)… K=1…6,K 代表 的是最优指标和最佳拟合曲线个数。
我们参赛选择的题号是(从 A/B/C/D 中选择一项填写) : 我们的参赛报名号为(如果赛区设置报名号的话) : 所属学校(请填写完整的全名) : 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 山东大学(威海) 陈志琪 黄东阳 王翰林
A
日期:2014 年 7 月 10 日
四 建立模型
4.1 任务一分析与解答 4.1.1 数据的预处理 剔除掉极端异常的数据,再进行日平均处理,画出全年各个数据的日平均值 变化曲线(如下图 1) 。
05 年 11 月 2 日地震发生
05 年电压值的日平均值变化曲线
Leabharlann Baidu
6
06 年 7 月 26 日地震发生
06 年电压日均值变化曲线 由于篇幅限制,其他指标的日平均变化曲线不做一一列举,以 X 代表地震发生的 时间, 选取地震发生前后两个月的各项指标的数据, 将时间限定在[X-60, X+60]。 以此为研究对象对各项指标日平均值进行一阶差分, 差分序列将会突出数据指标 的变化,对指标变化有放大作用。 Y(k)=X(k+1)-X(k) (k=1,2,3…) 所得差分序列曲线变化图(如下图 2)
5
项指标在一次地震发时的权重。最后得到地震发生前数据特征的统计规律。 针对问题三,采用主成分分析模型。对所给数据的各项指标进行降维处理, 用得到的主成分来代替原有的数据, 这些主成分要尽可能地反映原有指标的信息, 来达到集中反映地震发生后数据特征的主要统计规律。 针对问题四,对所问题一、问题二、问题三构建的模型进行合理性评价。
数。其中,称
maxmax x (t) x (t) minmin x (t) x (t) 、
0 s 0 s s t s t
分别为两级最小差和两级最大差。且 越大,分辨率越大。 计算灰色加权关联度。灰色加权关联度的计算公式为
n
ri w ii (k)
k 1
其中:ri 为第 i 个评价对象对理想的灰色加权关联度。 基于灰色关联度模型的分析,根据加权关联度的大小,对各评价对象进行排序, 关联度越大,表明该指标与地震的关系越大,即对地震越敏感。 模型结果分析 在 7 次地震中,得到关联度结果如下:
赛区评阅编号(由赛区组委会评阅前进行编号):
队员信息表
1
是否有 学号 201200820111 201200830049 201200800607 姓名 陈志琪 黄东阳 王翰林 所属院 数学与统计学 院 空间科学与物 理学院 机电与信息工 程学院 通信工程 2012 18369189895 未选定 是 应用物理 2012 18369187751 未选定 是 统计学 2012 18369189125 未选定 是 专业 年级 电话 指导教师 笔记本
对 12 个指标的关联度进行大小排列:
x12 x11 x5 x2 x7 x8 x4 x1 x10 x6 x9 x3
由此关系式可以看出,
x3、x9、x6、x10、x1、x4
与地震的关联度比较大,因此响应
的电磁波幅度 NS、气氡、气温、雨量、电压和地温与地震关联度大,比较敏感。 通过定量和定性分析后,得到地震发生各指标中敏感度较大的几项为:电磁波幅 度 NS、气氡、气温、雨量、电压和地温。 4.2 任务二的分析与解答 4.2.1 数据的选取与处理 选择地震发生前三个月的数据,画出各个指标的散点图,使用 MATLAB 拟合 各项指标的变化曲线。 考虑各指标和时间之间的关系,即以时间为横轴,以各指标为纵轴,画出各指标 与时间的散点图如下:
二 问题分析
根据问题,我们研究地震数据的处理与分析问题,筛选出某些或者全部指标 尽其可能地集中反映地震发生前的数据特征的统计规律,构建出数学模型,较为 合理的反映地震发生前的前兆特征,将计算程序集结成数据分析平台,在以上基 础上利用数学模型的视角写出一篇规范化的报告。 对于问题一,建立数学模型以度量各指标对地震发生的敏感度,其解决的关 键便是在于确定那些指标与地震的发生有着密切的联系。对于此问题,我们从两 个层面上出发:首先剔除掉极端异常的数据,在进行日平均处理。在对各指标在 地震发生前后两个月进行一阶差分比较, 得到各指标对地震发生的定性敏感程度; 在定性分析的基础上,剔除对地震发生敏感性较差的指标后,得到其他指标的权 重,以此定量分析分析到各指标的敏感度。 针对问题二, 建立非线性统计回归模型, 截取地震发生前三个月的数据曲线, 通过拟合得到各指标曲线变化的近似函数,参数的估计应用最小二乘法,得到各
相关文档
最新文档