使用GAM建模季节性数据

合集下载

数据预处理季节模型-概述说明以及解释

数据预处理季节模型-概述说明以及解释

数据预处理季节模型-概述说明以及解释1.引言1.1 概述概述:数据预处理是数据分析过程中的一个关键步骤,它包括了数据清洗、数据转换、数据集成和数据规约等步骤。

数据预处理的目的是为了提高数据的质量和可用性,从而更好地支持后续的数据分析和建模工作。

在现实生活中,我们经常会遇到各种各样的数据质量问题,比如缺失值、异常值、错误数据等。

这些问题会对后续的数据分析和建模带来很大的影响,甚至可能导致结果的失真或者误导。

因此,在进行数据分析之前,我们需要对原始数据进行预处理,以解决这些数据质量问题。

另外,季节模型是一种常用的时间序列分析方法,它能够帮助我们了解数据中的季节性变化。

在很多实际应用中,数据的变化往往会呈现出一定的周期性,比如销售额、股票价格等,这些都会受到季节因素的影响。

通过季节模型,我们可以更好地理解和预测这种周期性变化,并且可以用于制定相应的策略和决策。

本文将重点介绍数据预处理和季节模型的原理和方法,并通过实例分析和应用说明,展示其在实际场景中的应用效果。

同时,我们还将讨论一些常见的问题和挑战,并提出可能的解决方案。

最后,我们会对数据预处理和季节模型的发展趋势进行展望,提出一些未来的研究方向和应用前景。

通过本文的阅读,读者将能够更好地理解和应用数据预处理和季节模型相关的知识,为自己的工作和研究提供有力的支持和指导。

1.2 文章结构文章结构部分的内容应该包含关于本篇长文的整体结构和组织安排的介绍。

具体来说,可以包括以下内容:文章结构部分的内容:本篇长文旨在介绍数据预处理和季节模型,并讨论它们在数据分析和预测中的应用。

为了清晰地传达观点和逻辑,本文将按照以下结构展开:第一部分:引言- 在这部分中,我们首先对整篇文章的内容进行概述,介绍数据预处理和季节模型的背景和意义。

- 接着,我们将详细阐述本文的结构和各个部分的内容,为读者提供一个全面的概览。

第二部分:正文- 在这部分中,我们将详细介绍数据预处理的概念、方法和技术。

季节模型原理

季节模型原理

季节模型原理季节模型的原理解析什么是季节模型?季节模型是用于分析和预测时间序列数据(如销售数据、股票价格等)中的季节性变动的一种统计模型。

它可以帮助我们了解某个现象在不同季节中的表现,并预测未来的趋势。

季节模型的基本原理季节模型基于以下两个基本原理来进行分析:1. 季节性变动时间序列数据中往往存在一定的季节性变动,即某些现象在特定季节或时间段中表现出一定的规律性。

例如,零售业中的销售额在每年的春节和圣诞节期间通常会大幅增长,而在其他时间段则相对较平稳。

季节性变动可能是由于天气、节假日、学校开学等因素的影响。

2. 周期性变动除了季节性变动外,时间序列数据还可能存在一定的周期性变动,即某些现象在一定的时间长度内呈现出重复的模式。

例如,股票市场往往存在一定的周期性波动,一般呈现出7天、30天、365天这样的周期。

周期性变动可能是由于经济周期或其他影响因素的影响。

季节模型可以应用于多个领域,帮助分析和预测各种季节性变动的现象。

以下是一些常见的应用领域:•零售业:通过分析历史销售数据的季节性模式,可以预测未来几个季度的销售趋势,从而进行合理的库存管理和促销活动安排。

•旅游业:通过分析过去几年不同季节的旅游需求变化,可以预测未来季度的旅游需求,并根据需求波动进行优化资源配置和价格调整。

•股票市场:通过分析历史交易数据中的周期性变动,可以预测未来股票价格的趋势,从而指导投资决策。

季节模型的建模方法季节模型的建模方法主要包括以下几个步骤:1. 数据收集与准备首先,需要收集相关的时间序列数据,并进行数据清洗和准备工作。

这包括处理缺失值、异常值和噪声等,确保数据的质量。

2. 季节性分析接下来,需要进行季节性分析,找出数据中的季节性模式。

常用的方法包括绘制季节性曲线、计算季节指数和进行分解。

在了解了数据的季节性模式后,可以选择合适的季节模型进行建立。

常用的季节模型包括季节指数法、季节ARIMA模型和季节回归模型等。

4. 模型评估与预测建立季节模型后,需要对模型进行评估,并进行预测。

季节性时间序列模型

季节性时间序列模型

季节性时间序列模型季节性时间序列模型通常包括四个主要组成部分:趋势、周期、季节和残差。

趋势表示数据的长期增长或下降趋势,可以是线性或非线性的。

周期表示数据中的循环模式,例如月度或年度循环。

季节表示数据在特定季节中的重复模式,例如每年夏季销售增长。

残差表示无法通过趋势、周期和季节解释的部分,即剩余误差。

为了建立季节性时间序列模型,首先需要对数据进行季节性分解,以提取趋势、周期和季节成分。

常用的方法包括移动平均法和指数平滑法。

移动平均法通过计算一系列连续时间段内的平均值来平滑数据,并提取趋势和周期成分。

指数平滑法则通过加权计算最近一段时间内的数据,赋予更高的权重,以反映近期数据的影响力,进而提取趋势成分。

一旦趋势、周期和季节成分被提取,可以使用这些成分来预测未来的值。

最常用的方法是加法模型和乘法模型。

加法模型中,趋势、周期和季节成分相加得到预测值。

乘法模型中,趋势、周期和季节成分相乘得到预测值。

具体选择哪种模型取决于数据的性质。

季节性时间序列模型还可以通过调整模型参数和增加复杂度来提高预测性能。

常用的技术包括自回归(AR)模型、移动平均(MA)模型和自回归移动平均(ARMA)模型。

这些模型通过考虑多个时间点的数据来提高预测的准确性。

季节性时间序列模型在实际应用中具有广泛的价值。

例如,在销售领域,可以使用季节性时间序列模型预测未来几个月的销售量,以制定合理的库存管理策略。

在经济学中,可以使用该模型预测未来几个季度的经济增长率,以指导政府的宏观调控政策。

然而,季节性时间序列模型也面临一些挑战和限制。

首先,它依赖于数据中的季节性模式,如果季节性模式发生变化,则模型的准确性可能会下降。

其次,模型的复杂度和参数调整可能会带来计算上的困难。

此外,模型所能提供的准确度也取决于数据的质量和可用性。

总的来说,季节性时间序列模型是一种强大的工具,可以用于分析和预测数据中的季节性变化。

通过合理的调整和选择模型参数,可以提高预测的准确性。

机器学习技术如何处理时间序列数据中的季节性和周期性

机器学习技术如何处理时间序列数据中的季节性和周期性

机器学习技术如何处理时间序列数据中的季节性和周期性时间序列数据中的季节性和周期性是机器学习技术中的常见挑战之一。

随着大数据和人工智能的快速发展,处理这些特殊模式的能力变得越来越重要。

在本文中,我们将探讨机器学习技术如何处理时间序列数据中的季节性和周期性,并介绍一些常用的方法和技术。

时间序列数据是按照时间顺序排列的数据集合,它们通常具有一定的内在模式,包括季节性和周期性。

季节性是指数据在特定的时间段内呈现出重复的模式,例如每年相同的季节都会出现相似的模式。

周期性是指数据在一定的时间间隔内发生重复的模式,例如每个月或每个周都会出现相似的模式。

处理时间序列数据中的季节性和周期性的首要任务是识别和理解这些模式。

一种常用的方法是使用时间序列分析技术,例如自回归移动平均模型(ARMA)、自回归积分滑动平均模型(ARIMA)和季节性分解方法(Seasonal Decompositionof Time Series)。

这些方法可以通过拟合数据的特定模型来捕捉季节性和周期性的特征,并将其从原始数据中分离出来。

除了传统的时间序列分析方法,机器学习技术也提供了一些有效的处理时间序列数据中季节性和周期性的方法。

其中一个流行的方法是使用循环神经网络(Recurrent Neural Networks,RNNs)。

RNNs 是一类特殊的神经网络,能够处理具有时间依赖性的数据。

通过将过去的输入和当前的输入结合起来,RNNs 可以学习到时间序列数据中的长期依赖关系,并预测未来的值。

针对季节性和周期性,一种常见的 RNNs 模型是长短期记忆网络(Long Short-Term Memory,LSTM)。

LSTM 模型能够对时间序列数据中的长期依赖关系进行建模,并且还能处理输入和输出之间的时间延迟。

另外,随机森林(Random Forest)也是一种常用的机器学习方法,可用于处理时间序列数据中的季节性和周期性。

随机森林是一种基于决策树的集成学习算法,它能够处理高维度的数据,并且对异常值具有较好的鲁棒性。

gamma 工具的使用方法

gamma 工具的使用方法

gamma 工具的使用方法Gamma工具是一种常用于数据分析和统计建模的软件工具,具有强大的功能和灵活的应用方式。

本文将详细介绍Gamma工具的使用方法,以帮助读者更好地了解和应用该工具。

一、Gamma工具概述Gamma工具是一款基于Python开发的开源工具,主要用于数据分析和统计建模。

它提供了丰富的函数库和工具,可以帮助用户进行数据的预处理、可视化、模型拟合和预测等工作。

Gamma工具具有简单易用、灵活高效的特点,广泛应用于各个领域的数据分析工作中。

二、安装Gamma工具要使用Gamma工具,首先需要安装Python环境和相应的库。

可以通过在命令行中输入相应的命令来安装,也可以通过Anaconda等集成开发环境来安装。

安装完成后,可以通过导入相应的库来使用Gamma工具。

三、数据准备在使用Gamma工具进行数据分析之前,首先需要准备好待分析的数据。

数据可以来自于各种渠道,如数据库、Excel表格、CSV文件等。

在导入数据之前,需要对数据进行清洗和预处理,确保数据的完整性和准确性。

四、数据导入与预处理在Gamma工具中,可以使用相应的函数将数据导入到工作环境中。

导入数据的方式有多种,可以根据具体情况选择最适合的方式。

导入数据后,可以对数据进行一系列的预处理操作,如缺失值处理、异常值处理、数据变换等。

通过预处理,可以提高数据的质量和可用性。

五、数据可视化数据可视化是数据分析的重要环节,能够直观地展示数据的分布和关系。

在Gamma工具中,可以使用各种函数和方法对数据进行可视化处理。

常用的数据可视化方法包括绘制直方图、散点图、折线图、箱线图等。

通过数据可视化,可以更好地理解数据的特征和规律。

六、模型拟合与评估在Gamma工具中,可以使用多种统计模型对数据进行拟合和预测。

常用的模型包括线性回归模型、逻辑回归模型、决策树模型等。

在选择模型之前,需要对数据进行特征选择和变量转换,以提高模型的准确性和稳定性。

基于GM(1,1)的可变季节指数预测模型

基于GM(1,1)的可变季节指数预测模型

基于GM(1,1)的可变季节指数预测模型何俊;刘会茹;张彦群【摘要】在GM(1,1)模型基础上建立可变季节指数预测模型,应用到郑州市空气质量预测中。

应用实例表明,该模型在对含有季节变动因素的时间序列进行预测中,具有较好的效果。

%A alterable seasonal index prediction model is established based on GM(1,1),and it is applied to forecast air quality in Zhengzhou province.The results show that it is effective in the variable time series prediction with a seasonal change.【期刊名称】《长春工业大学学报(自然科学版)》【年(卷),期】2012(033)001【总页数】5页(P16-20)【关键词】GM(1,1)模型;可变季节指数;预测【作者】何俊;刘会茹;张彦群【作者单位】郑州升达经贸管理学院,河南郑州451191;石家庄经济学院,河北石家庄050073;郑州市环境监测中心站,河南郑州450002【正文语种】中文【中图分类】O290 引言GM(1,1)预测模型将一切随机变量看作是在一定范围内变化的、仅与时间有关的灰色过程[1]。

它的基本方法就是用指数曲线拟合原始点列,由此对原始点列进行预测。

与其它预测方法相比,具有原始数据少、计算简单、预测精度高等特点[2]。

但GM(1,1)模型在拟合含有季节变动因素的时间序列时效果较差。

在现实生活中,季节变动是一种极为普遍的现象,季节指数预测法能反映出这种季节变动的情况[3-4]。

文献[5-7]采用GM(1,1)模型拟合原始数据,确定趋势值,然后用各期平均季节指数修正趋势值。

这种方法虽然能反映季节变动的因素,但是忽视了季节因素随时间推移而变化的趋势。

季节性时间序列模型

季节性时间序列模型

模型一
(1 B)(1
(8.10)
B12
)
X
t
(11B)(112B12 )t
模型(8.10)先对时间序列 Xt 做双重差分,移动
平均算子由 (112B12) 和 成,该模型是交叉乘积模
(1 1B)
两个因子构
型 ARIMA(0,1,1)(0,1,1) 。实际上该模型是由两
个模型组合而成。由于序列存在季节趋势,故先
上一页 下一页 返回本节首页
例2 对1993年——2000年中国社会消费品零售
总额序列进行确定性时序分析
月份 1 2 3 4 5 6 7 8 9 10 11 12
1993 977.5 892.5 942.3 941.3 962.2 1005.7 963.8 959.8 1023.3 1051.1 1102 1415.5
1996 1909.1 1911.2 1860.1 1854.8 1898.3
1966 1888.7 1916.4 2083.5 2148.3 2290.1 2848.6
1997 2288.5 2213.5 2130.9 2100.5 2108.2 2164.7 2102.5 2104.4 2239.6
【例】以北京市1995年——2000年月平均 气温序列为例,介绍季节性时间序列模 型的基本思想和具体操作步骤。
时序图
一、季节指数
季节指数的概念
所谓季节指数就是用简单平均法计算的周期 内各时期季节性影响的相对数
季节模型
xij x S j Iij
上一页 下一页 返回本节首页
季节指数的计算
2348 2454.9 2881.7
1998 2549.5 2306.4 2279.7 2252.7 2265.2

kaggle时间序列处理特征

kaggle时间序列处理特征

kaggle时间序列处理特征
时间序列处理特征在Kaggle竞赛中是非常重要的,它可以提供有关数据的时间信息,帮助我们更好地理解数据并进行预测。

本文将介绍几种常见的时间序列处理特征。

1. 时间戳特征:时间戳是指数据记录发生的具体时间。

我们可以使用时间戳特征来分析数据的周期性或趋势性。

例如,可以提取出年份、月份、季节等特征,以此来判断销售量是否受到季节或节假日的影响。

2. 滞后特征:滞后特征是指将当前时间步的特征值延迟若干个时间步。

这对于预测未来的目标变量非常有用。

例如,可以创建一个新的特征,表示前一天的销售量,这可以帮助我们预测未来几天的销售趋势。

3. 移动统计特征:移动统计特征是指计算一定时间窗口内的数据统计指标,例如均值、方差等。

这些特征可以帮助我们捕捉数据的趋势和周期性。

例如,可以计算过去一周的平均销售量,以此来判断销售趋势是否逐渐增长或减少。

4. 时间差特征:时间差特征是指计算相邻时间步之间的时间差。

例如,可以计算两次销售之间的时间间隔,以此来判断销售频率是否有所变化。

5. 季节性特征:季节性特征是指基于时间的周期性变化,例如一年中的四季、一周中的星期几等。

这些特征可以捕捉到数据在不同季节或时间段的行为差异。

例如,可以创建一个特征表示每周的星期几,这可以帮助我们分析数据在不同工作日的表现。

总之,时间序列处理特征在Kaggle竞赛中起着重要的作用。

通过提取和利用这些特征,我们可以更好地了解数据的时间性质,并用于预测未来的趋势和行为。

基于GAM方法的组合预测模型及其应用

基于GAM方法的组合预测模型及其应用

第35卷第2期2021年3月兰州文理学院学报(自然科学版)Journal of Lanzhou University of Arts and Science(Natural Sciences)Vol.35No.2Mar.2021文章编号:2095-6991(2021)02-0026-07基于GAM方法的组合预测模型及其应用卢整智0,高小燕2,施晓燕23(.兰州城市学院数学学院,甘肃兰州730070;.甘肃农业大学理学院,甘肃兰州730070;3.西南财经大学统计学院,四川成都611130)摘要:基于广义可加模型将自回归移动平均、自回归条件异方差与非参数自回归三个单一预测模型的预测结果进行组合,并分别用三个单一模型和组合模型对兰州市PM2.5浓度进行预测,且选择误差平方和、平均绝对百分比误差作为预测效果评价指标,将预测结果进行比较,得出结论:基于广义可加方法的组合预测模型的预测结果具有更高的精度.关键词:广义可加模型(GAM);组合预测;PM2.5预测中图分类号:C812文献标志码:A0引言近年来,我国许多城市空气质量恶化,不断遭到灰霾天气的侵袭,尤其是2013年春冬两季我国出现大范围、持续性霾污染,致使PM2.5成为热议.PM2.5指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物,它能较长时间悬浮于空气中,其在空气中含量浓度越高,就代表空气污染越严重,与较粗的大气颗粒物相比,PM2.5粒径小,面积大,活性强,易附带有毒、有害物质,且在大气中的停留时间长、输送距离远,对人体健康和大气环境质量产生了非常严重的影响.因此,对PM2.5浓度做出科学的预测已成为城市环境质量监控的重要指标.纵观国内外对PM2.5浓度的预测研究,大多采用的是单项预测模型,比如张玉丽等1和刘文军等[2]运用了多元回归模型;许晟昊[3]和谢心庆等[4]采用了时间序列模型;韩婧等[5]采用了灰色预测模型;刘宇轩等[6]和李燚航等[7]采用了机器学习等预测方法,这些方法各有偏重,各有优势,但预测精度普遍不高.陈华友等[]和程春英等[9]的研究表明,预测精度低是因为PM2.5不是一种单一成分的空气污染物,而是由许多不同的化学成分一起组成的复杂可变的大气污染物,单一模型很难全面、准确地反映PM 2.5浓度的变化规律,所以预测精度较差.针对这一问题,本文尝试采用灵活稳健的非参方法GAM模型从非线性的角度将单个预测模型组合之后预测兰州市空气中PM2.5的浓度,以期提高模型预测精度.首先分别使用自回归移动平均模型(ARMA)、条件异方差模型(ARCH)、非参数自回归模型(NAR)对兰州市PM2.5浓度进行预测,再利用基于等权组合法、误差平方和倒数法、最优权数法的组合预测模型预测兰州市PM2.5浓度,最后利用基于GAM模型的组合预测模型对兰州市PM2.5浓度做出预测,并比较了所有预测模型的有效性.1研究思路与研究方法建立组合预测模型包括以下步骤:①单项预测模型的选择.能否正确选择单项预测模型直接影响预测结果的准确性,因此,在实际应用中应将研究对象的特点与单项预测模型的原理及条件结合起来,选择合适的单项预测模型.②单项预测模型的组合方式.按照何种方式将不同的单项预测结果有效组合起来是提高组合预测模型的关键.③组合预测模型评价.构建好组合预测模型之后,还需选取评价模型优劣的指标反映组合预测模型的有效性.1.1单项预测模型的选择1.1.1线性时间序列模型最普通的线性时间序列模型为自回归移动平收稿日期:2020-11-20基金项目:国家自然科学基金(1761044);甘肃农业大学盛彤笙科技创新基金“甘肃省农业供给侧结构变动的影响因素研究”(GSAU-STS1713);互联网背景下高校课堂教学质量监控体系创新研究”(GSAU—STST714)作者简介:卢整智(982-),男,甘肃陇西人,在读硕士,研究方向:随机微分方程.E-mail:lutoul203@.第2期卢整智等:基于GAM方法的组合预测模型及其应用27均模型(ARMA(p,q)),该模型常被用来描述响应变量与其延迟变量间的线性关系,结构为p(B)X t=0(B)t,<E(t)=0,Var(t)=T,E(e z e s)=0,s M t, E(X t e s)=0,V s<t.(1)其中:p(B)=1—pB—…—p p B p为平稳可逆ARMA(p,q)模型的自回归系数多项式;0(B)= 1—久B---------P q B q为平稳可逆ARMA(p,q)模型的移动平均系数多项式.假定某个观察值序列若通过预处理可以判定为平稳非白噪声序列,就可以利用ARMA模型拟合它.然而,在实际数据分析中,序列可能会呈现出时间趋势或循环特征,并非平稳序列,这就需要先对数据作差分消除趋势性或季节性使之变平稳后再用ARMA模型进行拟合.从Ytiled972)关于太阳黑子数ARMA建模的开拓性工作至今,线性时间序列模型研究取得了极大的进展,许立平等[0]认为由于线性时间序列模型简单、灵活,所以在应用时间序列分析中发挥着积极的作用.1.1.2非线性时间序列模型19世纪50年代,P A P Moran在对加拿大山猫数据建模的文章中提到了数据的“怪异”特征,即后来被解释为在种群波动的不同阶段有“控制效应”,这种特征超出了线性时间序列模型研究的范围,如若再用线性时间序列分析的方法拟合这种序列,会丢失大量的信息,拟合效果不佳,因此,张延利等[11]开始了对非线性时间序列模型的研究.非线性时间序列模型早期的发展主要是参数非线性模型,有自回归条件异方差模型(ARCH)、门限自回归模型(TAR)、平滑转移模型(STR)、指数自回归模型(EXPAR)及双线性模型(BL)等.近年来,随着计算机的发展,非线性、非参数模型作为一种新方法,以更高的估计精度在时间序列分析中越来越广泛地被应用,主要有非参数自回归模型(NAR)、非参数VAR模型族、非参数面板模型等,非线性、非参数时间序列模型的优点在于让数据说话,克服了特定参数模型的主观性.根据兰州市PM2.5浓度的数据特征,本文选取条件异方差模型(ARCH)和非参数自回归模型(NAR)对序列进行预测,以下是对这两个模型的介绍.(1)ARCH模型假设时间序列Y t服从如下回归模型:Y t=X'十耳,(2)其中:X t'是解释变量向量,它可以包含解释变量的滞后项;是回归参数向量;{,}是扰动序列,如果扰动序列{t}满足:62—1〜N(0,2]h=h(6—1,…,t—q),其中2t—1=Y t—1,X t—1,Y t—2,X t—2,…}为t时期以前的信息集;h t=h(6—1,…,6—q)是一个q元的非负函数,则称6t}服从q阶自回归条件异方差(ARCH(q))模型.(2)NAR模型假设Y t}为一时间序列X t G R p是由Y t G R的滞后项组成,即X t=(Y—1Y—2,…,Y t—则NAR模型可以描述为Y t=m(X t)十6,(3)扰动序列独立同分布且满足:E(t)=0,Var(t)=T,E(6t6s)=0,s M t,E(X s6t)=0,V s<t.在NAR模型中,采用Chen和Tang提出的Cross-Validation方法来确定滞后阶数p,其原理是:令X t(p)=(Y—1Y—2,…,Y t—”)',定义cv(.p)=•"—p"人f(Y t—m—1(Xt(p)))2w(Xt(p)),t=p+1A式中:m—,(•)是去掉第t个数据点后对自回归函数m(]进行核估计的结果.其估计为Am—t(X t(p))="pf U k(-i—-Y—i)Y si=p+1,M pi=1h"一pf n k(Y-—Y—i)s=p+1,M t,=1h其中:k(]是核函数w(-)为适当选取的非负权函数;事先给定NAR模型阶数p的上界L,在{1,A 2,…,L}上极小化cv(.p),使p的估计p满足:Acv(p)=mm l CkC L cv(p),即可求得NAR模型的最佳滞后阶数.1.2单项预测模型的组合方式目前,国内外很多领域的预测大多采用单项模型,但是单项模型都有各自的特点和应用的局限性,且使用数据的信息有限,因此,近年来,一些学者创新性地建立了组合预测模型.比如莫东28兰州文理学院学报(自然科学版)第35卷序[12]和王学梅等[13]分别运用组合预测模型对中国GDP和PM2.5进行了预测,结果表明组合预测模型的预测精度高于单一预测模型.理论和实践研究都表明,在诸种单个预测模型各异且数据来源不同的情况下,组合预测模型比任何一个独立预测模型的预测结果都好,且组合预测模型能够减少预测的系统误差,显著改进预测效果.组合预测模型的普遍形式是采用不同的单项预测模型对同一问题进行预测,再将单项预测模型进行加权平均得到组合模型,如果加权系数赋值合理,组合预测模型的预测精度会相应提高.目前,学者们常用的赋权方法有等权平均法、误差平方和倒数法和最优权数法,下面分别介绍这三种方法.1.2.1等权平均法A设X为组合预测序列,X j为单项模型预测序列,3」,J=1,,•••,为权系数.等权平均法的思想是给不同的单项预测模型相同的权重,假设有J个单项预测模型,则给每个模型3,=J的权重组合得到新的预测模型,即为右AX=£3X,.(4)j=11.2.2误差平方和倒数法A设X为组合预测序列,X j为单项模型预测序列3,=1,2,-,J为权系数.误差平方和倒数法的基本思想是:首先计算每个单一预测模型的误差平方和",=1,2,…,J,然后对误差平方和较小的模型给予较大的权重,给误差平方和较大的模型给予较小的权重,其计算公式为:3= e—i/£e—i.于是,该组合预测模型为j=1J AX=£3X,.(5)j=i1.2.3最优权数法最优权数法的基本原理是:首先依据某种最优准则构造目标函数Q,再在约束条件下极小化Q,求得组合模型的权系数.其中目标函数依据误差而定,如绝对误差、误差平方和等.目标函数的极小化准则有最小二乘准则、极小极大化准则等.最优权数组合预测模型的定义为:设{X t}(=1,2,…,n)为观察值序列,有J 个单一预测模型,对它进行拟合3(=1,2,…,J)为权系数,其中3满足£3=1采用最优权j=1数法确定权重,组合权系数3是规划问题min Q=>",,=1<js.t>3=1,3j$0(j=1,2,…,n)j=1的解,其中:A A J Ae t=X t—X t X t=£3j X t()(=1,2,・・・,n).于是,该组合预测模型为J AX=£3j X j.(6)j=11.3基于GAM方法的组合预测模型论文1.2节介绍的三种组合预测模型中,基于等权平均法和误差平方和倒数法的组合预测模型虽然在给单项预测模型赋权时原理简单、便于计算,但是事先已经设定了组合模型的形式,预测效果不是很理想.最优权数法组合预测模型的建立严格依赖于最优准则,另外对于最优权重问题到现在也没有定论,鉴于此,本文尝试采用基于广义可加模型(GAM)将单个预测模型进行组合以期克服以上组合预测模型的缺点.GAM模型一般用来探测非线性回归,形式为pY=a+£f i(X i).(7)i=1其中:a为截距项;/,(•)是平滑函数,是针对于每个解释变量的任意单变量函数,是非指定类别的非参数函数,其估计方法可以是局部多项式回归函数、光滑样条函数,平滑参数的选择可以是交叉验证法和广义交叉验证法,Y的分布可以是正态分布、卡方分布和二项分布等.广义可加模型是由多元线性回归模型变换而来,无需再去设定变量之间是线性关系,模型应用更为广泛,可以探寻到变量间的真实的关系.其关键就在于对于线性回归模型的因变量做了函数处理,这就需要用非参数回归方法估计函数的形式.非参数回归方法是近年统计学发展的重要方向,在实际应用中因其具有不需要先验知识、不需 要预先设定回归函数的具体形式、适应能力强、稳健性高及回归模型完全由数据驱动等优点被广泛关注.非参数回归模型的基本形式:Y=m(X],X2,…,X p)+e.(8)对式中的m(X)只作连续性或光滑性的要求t第2期卢整智等:基于GAM方法的组合预测模型及其应用29〜NID(0,/).目前已有多种估计m(X)的方法,最基本的有核估计、局部多项式回归和光滑样条回归等.但是当模型中的自变量个数较多时,以上方法的估计方差会加大,此外,基于核与光滑样条估计的非参数回归中自变量与因变量之间关系解释起来非常困难.于是1985年Stone提出加性模型AM(Additive Models),模型中每一个加性项使用单个光滑函数来估计,每一加性项中可以解释因变量如何随自变量变化而变化,很好地解决了上述问题.1.4模型评价不同模型对同一现象的预测效果不尽相同,如何从这些模型中选出一个预测精度较高的模型是预测建模过程中的一个重要问题.目前各类预测方法所使用的误差评价指标大多直接采用统计学指标评价模型预测结果,主要有误差均值(ME)、绝对值平均误差(MAE)、均方根误差(RMSE)、平均相对误差(MRE)、误差平方和(SSE)和平均绝对百分比误差(MAPE)等,在PM2.5预测中,常用的指标有SSE和MAPE,以下是这些指标的定义.A一般地y,表示实际数据y,表示预测数据,则SSE指标定义为:”aSSE=f y,-y.)2•(9)1=1MAPE指标定义为”AMAPE=—工|(y一y Q/y i.(0)其中,ME指标没有考虑到预测时出现正负误差相抵导致ME是一个较小的值,可能对结果造成误判;SSE和MAPE不存在正负抵消,都是基于先逐点求和再平均的思想,易于计算,可以对预测模型的优劣做评价.2基于GAM方法的组合预测模型的应用2.1数据来源及说明以中国空气质量在线监测平台(https:///)的数据为来源,选取兰州市PM2.5浓度自2019年5月1日至2020年12月21日每天收集的数据600条,缺失数据8个,采用K近邻方法进行插补.本文所有的统计分析均使用R 3.3.1软件.2.2PM2.5浓度预测2.2.1ARMA模型预测结果在建立ARMA模型之前,需要检验序列的平稳性和纯随机性.采用ADF检验兰州市PM2.5序列的平稳性,得到的P值为0.0278,故拒绝存在单位根的原假设.用LM-Q统计量检验序列的纯随机性,得到的P值为0.0435,故拒绝序列为纯随机序列的原假设.由以上检验结果可知:兰州市PM2.5序列为平稳非纯随机序列,故可用ARMA模型进行拟合.下面做出序列的自相关系数(ACF)图(如图1所示)和偏自相关系数(PACF)由图1的自相关系数图可以看出,序列的ACF6阶截尾;由图2的偏自相关系数图可以看出,序列的PACF2阶截尾,因此很难用传统的BJ方法确定模型的阶数,只能通过反复对模型进行估计比较不同模型的参数及总体显著性确定模型的阶数•首先用MA(6)、AR(2)和ARMA (1,6)拟合原序列,剔除不显著变量后依据AIC 准则选出最优模型为疏系数模型ARMA(1,30兰州文理学院学报(自然科学版)第35卷(1,6)),拟合结果如表1所列•表1兰州市PM2.5浓度的ARMA(1,(1,6))模型预测结果因变量:兰州市PM2.5浓度自变量系数标准差T值P常数项35.4840 1.247828.43500.0000 AR(1)0.78240.031025.19610.0000 MA(1)0.20070.0481 4.16670.0000 MA(6)—0.12440.0410—3.03220.0025调整后的R20.7060对数极大似然值—1844.38 F值459.7258p0.0000由表1回归结果可知常数项、AR(1)、MA(1)、MA(6)的系数均通过了显著性检验,F 值和对数极大似然值都达到了较理想的值,因此,选用ARMA(1,(1,6))进行预测是合理的,用该模型对兰州市PM2.5浓度进行预测得序列A(PM1.2.2.2ARCH模型预测结果先做出兰州市PM2.5的时序图(如图3所示),直观上判断序列是否存在波动性和及集聚性.从图3可以看出,兰州市PM2.5呈现出一段时间内波动性较高,另一段时间内又出现较小波动的现象,表明兰州市PM2.5浓度具有集群效应,亥序列存在异方差性.因此,需要先用ARMA 模型提取序列的线性相关性,再对残差序列用ARCH-LM方法进行异方差检验,看是否适合建立ARCH模型拟合存在异方差性的残差序列•由2.2.1的分析可知,可先对兰州市PM2.5浓度用ARMA(1,(1,6))进行预测提取线性成分,再对残差序列进行ARCH效应检验,结果如表2所列.表2残差序列的异方差ARCH-LM检验F值10.7020P0.0000R4948379P0.0000由表2结果可知F统计量显著,表明残差序列存在ARCH效应,因此,可以对残差序列采用ARCH(1)模型进行拟合,消除异方差,模型估计结果如下:PM t=35.48十0.78PM t—1十6—v0.26—1十0.126—6十“,“2=0.2“t—\.参数均通过显著性检验,故可用该模型预测兰州市PM2.5数据,用该模型预测得到兰州市APM2.5浓度的预测序列(PM2.2.2.3NAR模型预测结果对兰州市PM2.5建立非参数自回归模型:PM t=m(PM t—1PM t—2,・・PM t—p)十6,(11)其中:6}独立同分布,且满足:E(t]=0,Va6t)=T,E(66)=0,s M t,E(Xs6)=0,V s V t.利用Cross-Validation方法确定滞后阶数为P=1,因此确定的最佳模型为NAR(1),用此模型对兰州市PM2.5进行局部线性估计,得到兰州市PM2.5浓度的NAR(1)模型预测序列A(PM3.2.2.4基于GAM模型的组合预测由以上三种方法预测,结果有所差异,为了有效整合这三种方法的优点和更多地提取序列的有效信息,再考虑到单项模型预测序列与原序列之间的关系比较复杂,本文提出以原序列PM1作第2期卢整智等:基于GAM方法的组合预测模型及其应用31为被解释变量,以三个单项预测序列PM」、AAPM t2、PM t3作为解释变量,建立GAM模型:AAPM t=f i(PM ti)+f2(PM t)+Af3(PM t)+t(12)其中f i(・)(=1,,)为自然立方样条,通过最小化惩罚残差平方和得到."3A£Y i—00—£f(PM j)]2+i=1j=1£a,[[f j(t)]2d j,£J o其中,A j为调节参数,其可以平衡数据的拟合优度和待估参数的光滑度.本文通过R3.3.1中的MGCV程序包拟合GAM模型得到,通过最小化GCV(Generalized Cross Validation)来适当选择调节参数,GCV的定义为:"3a a其中:RSS=£Y i—£f j(PM j)]2A是平i=1j=1A滑矩阵,满足PM t=APM t.2.3不同模型的预测效果评价为了验证本文提出的基于GAM的组合预测模型的有效性,参考已有研究,选用1.4节式(9)表示的误差平方和(SSE)和式(10)表示的平均绝对百分比误差(MAPE)两个指标评价模型的预测效果.预测模型的SSE和MAPE的值越小,表明预测值偏离真实值的程度越小,模型的预测效果越好.分别计算ARMA模型.ARCH模型、NAR模型、基于等权平均的组合预测模型、基于误差平方和倒数法的组合预测模型、基于最优权数法的组合预测模型、基于GAM的组合预测模型预测的兰州市PM2.5浓度的SSE和MAPE,结果如表3所列."n—t.r(A)]表3各预测模型的SSE和MAPE预测效果评价指标SSE MAPE ARMA模型2603083 ARCH模型37.230.89 NAR模型24.21082基于等权平均的组合预测模型22.86078基于误差平方和倒数法的组合预测模型21.52076基于最优权数法的组合预测模型21.38075基于GAM的组合预测模型1986073从表3的结果可以看出,3个单项预测模型的SSE和MAPE均大于4种组合预测,验证了组合预测模型的预测效果优于单项预测模型.本文提出的基于GAM方法的组合模型的SSE和MAPE均小于其他三种组合预测模型,其预测效果最好.3结束语由于单项模型各自的缺陷及利用的信息有限,用单项模型进行预测时一般误差较大,而通过一定的方式将单项预测模型进行组合可以提高预测精度.但是现有的组合预测模型大都是利用不同的准则确定了单项模型的权重,而在现实中,单项模型预测值与原序列值的关系通常是很复杂的,而GAM模型恰好可以刻画被解释变量与解释变量之间的复杂关系,因此,本文提出基于GAM方法的组合预测模型,且通过实证分析了该模型的有效性.实证结果表明:基于GAM方法将ARMA、ARCH和NAR组合起来的预测模型不光优于这三个单项预测模型,还优于利用等权平均法、误差平方和倒数法和最优权数法等组合的预测模型具有很好的应用前景.参考文献:[1]张玉丽,何玉,朱家明,等.基于多元回归模型PM2.5预测问题的研究[J].安徽科技学院学报,2016,30(3):92-97.[]刘文军,郑国义,田学.西安市PM2.5相关因素多元回归分析模型[J].经济数学,2015,32():86-88.32兰州文理学院学报(自然科学版)第35卷[3]许晟昊.应用时间序列分析对北京PM2.5浓度预测[J].当代化工研究,2017(0):6264.[]谢心庆,郑薇,开璇,等.基于时间序列和多元方法的乌鲁木齐PM2.5浓度分析[].云南大学学报,2016, 38():595-601.[]韩婧,李元征,陈新闯,等.基于灰色关联模型的中国城镇PM2.5浓度影响因素分析[J].环境保护科学, 2018,41():69-73.[6]刘宇轩、应方,叶旭红,等.基于后向传播神经网络的PM2.5和臭氧预测研究[J].能源工程,2020(5):76-83[7]李燚航,翟卫欣,颜寒祺,等.基于U-nct神经网络模型的PM2.5逐小时浓度值预测模型[J].北京大学学报(自然科学版),2020,56():796804.[8]陈华友,刘春林.IWOHA算子及其在组合预测中的应用[J].中国管理科学,2004,12():35-40.[]程春英,尹学博.雾霾之PM2.5的来源、成分、形成及危害[J].大学化学,2014,29():16.[10]许立平,罗明志.基于ARIMA模型的黄金价格短期分析预测[J].财经科学,2011(0)2634.[11]张延利,张德生,刘常明,等.基于BP神经网络的黄金价格非线性组合预测模型[J].黄金,2011()5-8[12]莫东序.ARIMA与BP神经网络混合模型在广西GDP预测中的应用[J].广西财经学院学报,2011,24⑹:6-13.[13]王学梅,王凤文,陈滔,等.基于组合模型的PM2.5浓度预测及其不确定性分析[J].环境工程,2020⑻:229-235.[责任编辑:赵慧霞]Combination Forecasting Model and Its Application Based on GAMLU Zheng-zhi1,GAO Xiao-yan2''<,SHI Xiao-ya”(1.School of Mathematics,Lanzhou City University,Lanzhou730070,China;2.College of Science,Gansu Agricultural University,Lanzhou730070,China;3.School of Statistics,Southwestern University of Finance and Economics,Chengdu611130,China.)Abstract:A new prediction modelwasproposedbasedonGAM,whichcombinedARMA,ARCHand NAR models,the model was used to predict,the concentration of PM2.5in Lanzhou,by applying SSE and MAPE as the t.wo indicators to evaluate the prediction model to compare the predicted values. The conclusion was that the prediction results of the combined forecasting modelbasedon GAM had higheraccuracyKey words:generalized additive model(GAM);combined forecasting;PM25prediction。

【原创】R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归数据分析报告论文(附代码数据) (1)

【原创】R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归数据分析报告论文(附代码数据)  (1)

咨询QQ:3025393450有问题百度搜索“”就可以了欢迎登陆官网:/datablogR语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归数据分析报告通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等人(2016),Laurinec和Lucká(2016))。

第一个用例通过K-medoids聚类方法提取典型的电力负荷曲线。

首先,让我们加载所需的包。

library(TSrepr)library(ggplot2)library(data.table)library(cluster)library(clusterCrit)data("elec_load")dim(elec_load)## [1] 50 672有50个长度为672的时间序列(消费者),长度为2周的耗电量的时间序列。

这些测量来自智能电表。

咨询QQ:3025393450有问题百度搜索“”就可以了欢迎登陆官网:/datablog维数太高,并且会发生维数的诅咒。

因此,我们必须以某种方式降低维度。

最好的方法之一是使用时间序列表示,以减少维数,减少噪声并提取时间序列的主要特征。

对于用电的两个季节性时间序列(每日和每周季节性),基于模型的表示方法似乎具有提取典型用电量的最佳能力。

让我们使用一种基于模型的基本表示方法- 平均季节性。

在此还有一个非常重要的注意事项,对时间序列进行归一化是对时间序列进行每次聚类或分类之前的必要步骤。

我们想要提取典型的消耗曲线,而不是根据消耗量进行聚类。

data_seasprof<-repr_matrix(elec_load,func=repr_seas_profile,args=list(freq=48,func=mean),normalise=TRUE,func_norm=norm_z)dim(data_seasprof)## [1] 50 48我们可以看到,维数上已大大降低。

gam模型应用方法

gam模型应用方法

gam模型应用方法
GAM(广义加性模型)是一种灵活的非线性建模方法,在统计学和机器学习领域被广泛应用。

以下是GAM模型的应用方法:
1.加载所需包和数据:首先,需要加载包含GAM模型的包(如R语言中的
mgcv包)和所需的数据集。

2.数据预处理:在拟合GAM模型之前,可能需要对数据进行一些预处理,例
如缺失值处理、变量转换等。

3.拟合GAM模型:使用适当的函数(如R中的gam()函数)拟合GAM模型。

在拟合模型时,需要指定模型中的预测变量和响应变量,以及可能的其他
参数,如光滑项的选择、链接函数等。

4.查看模型摘要和诊断:拟合完模型后,可以查看模型的摘要和诊断信息,
以了解模型的拟合情况、变量的重要性以及可能存在的问题。

5.预测和可视化:使用拟合好的GAM模型进行预测,并将预测结果可视化。

可视化可以帮助我们更好地理解模型的结构和预测结果。

需要注意的是,GAM模型的应用方法可能因具体的软件包和编程语言而有所不同。

此外,在应用GAM模型时,还需要注意模型的假设条件和适用范围,以避免出现误导性的结果。

季节性时间序列模型PPT课件

季节性时间序列模型PPT课件

数据。
SARIMA模型
02
季节性自回归积分滑动平均模型,适用于具有明显季节性的时
间序列数据。
SARIMA-X模型
03
基于SARIMA模型的扩展,适用于具有特定季节性和非季节性
特征的时间序列数据。
季节性时间序列模型的参数
AR参数
自回归模型的参数,用于描述时间序列数据 的自相关关系。
P参数
季节性自回归模型的参数,用于描述时间序 列数据的季节性特征。
在股票价格的时间序列分析中,可以使用季节性自回归积分滑动 平均模型(SARIMA)等季节性时间序列模型来拟合数据,并预 测未来的股票价格走势。
通过对股票价格的时间序列数据进行季节性分析和预测,可以帮 助投资者制定更加科学和有效的投资策略,提高投资收益。
案例二:气温变化的季节性分析
01
气温变化的季节性分析是另一个应用季节性时间序列模型的案例。通过对气温 历史数据的季节性分析,可以了解气温变化的规律和趋势,为气象预测和气候 变化研究提供支持。
感谢您的观看
02
03
季节性时间序列模型的分类:根据不同 的分类标准,季节性时间序列模型可以 分为不同的类型。常见的分类标准包括 模型的复杂度、季节性周期的长度等。 常见的季节性时间序列模型包括季节性 自回归积分滑动平均模型(SARIMA)、 季节性指数平滑模型(SEAS)等。
季节性时间序列模型的应用实例: SARIMA模型在股票市场预测中取得 了较好的效果;SEAS模型在电力需求 预测中得到了广泛应用。这些应用实 例证明了季节性时间序列模型在数据 分析和预测中的实用性和有效性。
对未来研究方向的展望
改进现有模型的性能
尽管现有的季节性时间序列模型取得 了一定的成果,但仍存在一些局限性 ,如对异常值的敏感性、对非平稳数 据的适应性等。未来的研究可以针对 这些局限性,对现有模型进行改进, 提高模型的预测精度和稳定性。

季节趋势模型操作方法

季节趋势模型操作方法

季节趋势模型操作方法季节趋势模型是一种用于分析和预测季节性趋势的统计模型。

它通过分析时间序列数据中的季节性、趋势和周期性变化来预测未来的趋势,从而帮助决策者做出科学的决策。

下面我将详细介绍季节趋势模型的操作方法。

1. 数据收集与准备在开始操作季节趋势模型之前,需要先收集和准备相关的时间序列数据。

时间序列数据是按照时间顺序排列的数据,它可以包括多个指标,如销售额、收入、访客数量等等。

收集的数据应覆盖一段较长的时间跨度,以便更好地捕捉季节性趋势。

2. 数据可视化和初步分析将收集到的时间序列数据进行可视化,可以通过绘制折线图或柱状图来展示数据的波动情况。

对于季节性趋势,可以看出数据是否存在明显的周期性变化。

同时,还要对数据进行初步的分析,包括计算平均值、中位数、方差等统计指标,以了解数据的基本特征。

3. 季节性分解季节趋势模型中的一个核心步骤是对数据进行季节性分解。

季节性分解是将时间序列数据拆分为趋势、季节和残差三个部分的过程。

可以使用不同的方法进行季节性分解,常用的方法包括移动平均法、加权移动平均法和X-12-ARIMA模型等。

4. 拟合季节趋势模型拟合季节趋势模型是指根据分解得到的季节性、趋势和残差数据,选择合适的模型进行建模。

常见的季节趋势模型有季节性自回归移动平均模型(SARIMA)、指数平滑模型和ARIMA模型等。

在选择模型时,可以根据数据的特点、模型的复杂度和准确性等因素进行综合考虑。

5. 参数估计与模型诊断选定模型后,需要对模型进行参数估计和诊断。

参数估计是指根据时间序列数据,利用最大似然估计或最小二乘估计等方法,确定模型中的参数数值。

诊断是通过对模型残差序列的检验,判断模型是否符合数据的统计特性,以进一步提高模型的准确性。

6. 模型评估与预测完成参数估计和模型诊断后,需要对模型进行评估和预测。

评估模型的好坏可以使用一些评价指标,如均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等。

季节自回归模型matlab

季节自回归模型matlab

季节自回归模型matlab
季节自回归模型(Seasonal Autoregressive Model)是一种用
于时间序列分析的统计模型,它考虑了数据中的季节性变化。

在MATLAB中,你可以使用“arima”函数来拟合季节自回归模型。

首先,你需要准备你的时间序列数据,然后使用“arima”函数来指定
季节自回归模型的阶数和季节性周期。

接着,你可以使用拟合好的
模型进行预测或者进行参数估计。

在MATLAB中,使用“arima”函数来拟合季节自回归模型的一
般语法如下:
matlab.
Mdl = arima(p,d,q) % 创建一个自回归移动平均模型。

Mdl = arima(p,d,q,B) % 创建一个季节性自回归移动平均模型。

其中,p是自回归项的阶数,d是差分阶数,q是移动平均项的
阶数,B是季节性周期。

在拟合季节自回归模型之后,你可以使用拟合好的模型进行预测,比如:
matlab.
[yF,yMSE] = forecast(Mdl,NumPeriods,'Y0',y0) % 预测未来NumPeriods个时间点的值。

其中,yF是预测的值,yMSE是均方误差,NumPeriods是预测的时间长度,y0是初始值。

另外,在MATLAB中还有其他一些函数可以用于时间序列分析,比如“estimate”函数用于参数估计,“simulate”函数用于模拟时间序列数据等。

总之,使用MATLAB进行季节自回归模型的分析需要先准备好数据,然后使用“arima”函数拟合模型,最后可以使用拟合好的模型进行预测或者参数估计。

希望这些信息能够帮助到你。

基于GAM和BRT模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE的影响

基于GAM和BRT模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE的影响

第38卷第6期大连海洋大学学报Vol.38No.6 2023年12月JOURNAL OF DALIAN OCEAN UNIVERSITY Dec.2023DOI:10.16535/ki.dlhyxb.2023-041文章编号:2095-1388(2023)06-1063-09基于GAM和BRT模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE的影响刘月1,陈新军1,2,3,4∗,汪金涛1,2,3,4(1.上海海洋大学海洋科学学院,上海201306;2.农业农村部大洋渔业开发重点实验室,上海201306;3.国家远洋渔业工程技术研究中心,上海201306;4.大洋渔业资源可持续开发教育部重点实验室,上海201306)摘要:为探究水温对西北太平洋柔鱼(Ommastrephes bartramii)单位捕捞努力量渔获量(CPUE)的影响,利用2015 2019年间5 11月西北太平洋柔鱼的生产统计数据,结合同时期海洋环境数据,对不同渔汛阶段分别采用广义加性模型(generalized addictive models,GAM)及提升回归树(boosting regression tree,BRT)模型,分析不同水层(0~300m)温度及垂直温度梯度对CPUE的影响,并采用多次十折交叉验证评估了两种模型的稳定性和准确性㊂结果表明:渔汛初期(5 7月),GAM模型筛选的关键因子依据偏差解释率大小依次为纬度(Lat)和150m水层温度(T150)㊁50~100m水温梯度(G50~100)㊁经度(Lon)和100~150m水温梯度(G100~150),BRT模型筛选出的关键因子按贡献率大小依次为表层温度(T0)㊁0~50m水温梯度(G0~50)㊁50m水层温度(T50)㊁Lat和G50~100;渔汛旺期(8 11月),GAM模型筛选出的关键因子依据偏差解释率大小依次为Lat㊁Lon㊁T0㊁G0~50和G50~100,BRT模型筛选出的关键因子按贡献大小率依次为G0-50㊁Lon㊁T0㊁Lat和T50;两种模型比较显示,BRT模型在拟合优度方面优于GAM模型㊂研究表明,不同渔汛阶段西北太平洋柔鱼CPUE的关键影响因素有所不同,渔汛初期中上层水温对CPUE影响较大,而渔汛旺期浅水层水温对CPUE贡献较大㊂关键词:柔鱼;深层水温;CPUE;广义加性模型;提升回归树模型中图分类号:S931㊀㊀㊀㊀文献标志码:A㊀㊀柔鱼(Ommastrephes bartramii)是一种具有重要经济价值的头足类[1],中国于1993年开始在西北太平洋海域利用该资源,并于次年进行商业性生产,目前已形成较大规模的捕捞产业[2-3]㊂柔鱼属于中上层头足类,进行昼夜垂直移动,白天主要聚集在200~300m水层生活,夜间垂直移动到50m 水层以上觅食[4]㊂在柔鱼的活动水层,随着海水深度的增加,水温逐渐降低,但由于黑潮和亲潮的交汇及上升流的作用等,垂直方向会形成温度梯度较大的温跃层,因此,柔鱼的垂直移动可能会受到深层水温及垂直温度梯度的影响㊂每年的5 11月,西北太平洋海域的柔鱼渔场经历初期㊁旺期等不同的渔汛阶段,在此过程中不同水层温度及垂直温度梯度也有不同发展阶段,导致柔鱼最优栖息地在水平与垂直方向均发生复杂变化[5]㊂目前,国内外学者已有一些关于柔鱼渔场与垂直水温关系的研究㊂如Chen等[6]发现,垂直温度梯度比水平温度梯度对柔鱼渔场的形成起着更重要的作用;唐峰华等[7]研究得到柔鱼中心渔场与垂直水温结构的季节性变化关系;Alabia等[8]研究发现了垂直水温与柔鱼潜在栖息地的关系㊂然而,对不同渔汛阶段柔鱼时空分布与深层水温㊁垂直温度梯度的关系尚不清楚㊂鱼类资源时空分布与环境因子关系的分析与探究有多种方法㊂传统回归方法如广义线性模型(generalize linear model,GLM)和广义加性模型(generalized addictive models,GAM)等已在渔业领域广泛应用[2,7,9-10]㊂GAM模型采用平滑函数来处理多个解释变量与响应变量间复杂的非线性关系[10]㊂如Wang等[11]采用GAM模型分析了不同㊀收稿日期:2023-03-04㊀基金项目:国家重点研发计划 蓝色粮仓科技创新 项目(2019YFD0901404);国家自然科学基金(NSFC41876141);上海市科技创新行动计划项目(19DZ1207502)㊀作者简介:刘月(1998 ),女,硕士研究生㊂E-mail:2228264201@㊀通信作者:陈新军(1967 ),男,博士,教授㊂E-mail:xjchen@水层温度及梯度对西北太平洋柔鱼单位捕捞努力量渔获量(catch per unit effort,CPUE)的影响㊂近些年来,提升回归树模型(boosting regression tree, BRT)等机器学习方法发展迅速,展示出独特优势[12],BRT模型能够拟合复杂的非线性关系,自动处理变量间的相互影响及交互作用,数据可以存在缺失值且数据类型灵活多样[13]㊂如黄金玲等[14]使用BRT模型建立了东太平洋大眼金枪鱼的栖息地模型,发现BRT模型能够解释环境因子与栖息地分布的复杂关系,且能处理各种变量间的关系;高峰等[15]基于BRT模型预报了东黄海鲐鱼的渔场分布,结果表明,模型的预报精度较高㊂由此可见,传统学习方法和机器学习方法的适用范围和准确性等存在差异㊂本研究中,利用2015 2019年间5 11月西北太平洋柔鱼不同渔汛期的生产统计数据,结合时空因子(年㊁月㊁经度㊁纬度)和柔鱼栖息地垂直水温数据,通过构建GAM和BRT 两种模型,分析了西北太平洋柔鱼不同渔汛阶段的关键水层温度及垂直温度梯度对CPUE的影响,并对两种模型的分析效果进行了比较,以期为科学寻找中心渔场提供技术支撑㊂1㊀材料与方法1.1㊀渔业和环境数据西北太平洋柔鱼渔业数据由国内某远洋渔业数据中心提供,包括作业日期(年㊁月)㊁作业位置(经度㊁纬度)㊁渔获量(t)和作业次数,数据时间为2015 2019年间5 11月,作业位置的空间覆盖为150ʎ~165ʎE㊁35ʎ~50ʎN;环境数据来源于哥白尼海洋环境监测中心(https://marine.copernicus. eu/),包括表层及50㊁100㊁150㊁200㊁250㊁300m 7个水层温度(T0㊁T50㊁T100㊁T150㊁T200㊁T250㊁T300),计算相邻水层温度的梯度变化(G0~50㊁G50~100㊁G100~150㊁G150~200㊁G200~250㊁G250~300),其计算公式为G x-y=ΔT/ΔH㊂(1)式中:G x-y为x(m)和y(m)深度之间的水温梯度(ħ);ΔH为相邻水层间的深度差(m);ΔT为相邻水层间的温度差(ħ)㊂渔业数据和环境数据具有相同的时间分辨率(月)和空间分辨率(0.25ʎˑ0.25ʎ),按时间㊁地点进行匹配融合㊂采用的资源丰度指标是CPUE,其计算公式为[16]Y(i,j)=C(i,j)/N(i,j)㊂(2)式中:Y(i,j)㊁C(i,j)㊁N(i,j)分别为第i个经度㊁第j个纬度处0.25ʎˑ0.25ʎ渔区的月平均CPUE (t/船)㊁月总渔获量和月总渔船数,本研究中忽略渔船间差异[17]㊂1.2㊀方法1.2.1㊀渔汛划分㊀从图1可见,2015 2019年间9月CPUE最高,5月最低,总体呈现先升高后下降的趋势㊂因此,本研究中将CPUE较低的5㊁6㊁7月划分为渔汛初期,将CPUE较高的8㊁9㊁10㊁11月划分为渔汛旺期[2]㊂图1㊀2015—2019年西北太平洋柔鱼CPUE月间变化及其月平均CPUEFig.1㊀Monthly change in CPUE and monthly mean CPUE of Ommastrephes bartramii in the North-west Pacific Ocean from2015to20191.2.2㊀构建模型㊀以时空因子(年㊁月㊁经度㊁纬度)和环境因子(不同水层温度及梯度)为解释变量,以CPUE为响应变量,分别构建GAM模型和BRT模型㊂1)GAM模型㊂利用GAM模型研究不同水层温度及梯度与柔鱼CPUE的相关关系㊂在GAM中逐步加入解释变量,GAM模型的表达式为㊀ln(CPUE+0.1)~factor(F year)+factor(F month)+㊀㊀㊀s(F Lon)+s(F Lat)+s(T x)+s(G x-y)㊂(3)式中:为防止响应变量进行对数化处理时出现零值,在CPUE值后加0.1,s为自然立方样条平滑(natural cube spline smoother),F year㊁F month㊁F Lon㊁F Lat分别为变量年㊁月㊁经度㊁纬度;T x为x(m)水层深度处的温度;G x-y为x(m)和y(m)深度之间的水温梯度㊂由赤池信息准则(akaike information criterion, AIC)筛选最适模型,分别在渔汛不同阶段的GAM 模型中逐步加入解释变量,得到AIC值最小的多因子模型,最后通过偏差解释率检验模型的拟合效果,模型拟合效果越好,偏差解释率越高[18]㊂用t 检验评估不同渔汛阶段影响因子的显著性,筛选出显著因子,同时采用方差膨胀因子(variance infla-4601大连海洋大学学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第38卷tion factor,VIF)对不同渔汛阶段的变量进行共线性检验[19],一般认为,VIF>2时存在共线性问题,最终筛选出渔汛初期和渔汛旺期两个阶段的关键因子,将时空因子和关键环境因子作为解释变量,以CPUE为响应变量重新构建GAM,GAM模型在R编程环境中使用mgcv包构建模型㊂2)BRT模型㊂BRT模型中变量的相对重要性由其对模型的贡献决定,通过其对BRT模型解释的总偏差相对贡献(%)为每个环境变量分配权重[18]㊂本研究中,构建BRT模型得到不同渔汛阶段不同水层温度及梯度对CPUE影响的权重,所有BRT均在R编程环境中使用gbm包构建模型[14],首先构建抽样率为0.8且重复计算次数为1000次的BRT模型[13,20],选择贡献率排在前5位的环境变量设置不同的参数重新构建预报模型,采用逐步迭代的方式学习每一个决策树,选择最佳参数,用装袋分数(bagging fraction)来控制数据的随机性,指定每一步要选择的数据比例,本研究中选择取值为0.75㊂学习率(learning rate,lr)用于在每个树添加到模型中时收缩其贡献,减小学习率会增加所需树的数量㊂本研究中,学习率设置为0.001㊁0.005㊁0.010㊁0.100,树的复杂度(tree complex-ity,tc)设置为1㊁2㊁4㊁8,具体参考高峰等[15]方法,选择平均估计偏差最低的决策树个数为最优决策树数量[12,15],最后通过计算得到最佳模型中单个因子的权重㊂1.3㊀模型评价利用多次十折交叉验证(10-fold cross-valida-tion)评估两种模型的稳定性和准确性,数据集被分成大小相等的10个子集,算法被训练和评估10次,每次用其中9个子集进行训练,1个子集进行模型性能验证,因此,每个子集都被用作验证数据一次,最终的评估结果是这10次评估的平均值,这种方法能够有效地减少模型评估的方差[21]㊂平均绝对误差(mean absolute deviation,MAE)㊁均方根误差(root mean squared error,RMSE)和决定系数(R2)是评估模型的指标,结合指标比较GAM模型和BRT模型的拟合性能,一般RMSE㊁MAE值越低,R2越高,模型拟合越好㊂2㊀结果与分析2.1㊀GAM模型2.1.1㊀关键因子的筛选㊀根据AIC值分析,在渔汛初期模型剔除的因子为T200㊁T250㊁T300㊁G150~200㊁G250~300,在渔汛旺期模型剔除的因子为T200㊁T250㊁T300㊁G250~300㊂t检验表明,渔汛初期T150㊁G50~100㊁G100~150对柔鱼CPUE有显著影响(P<0.05),渔汛旺期T0㊁T50㊁T150㊁G0~50㊁G50~100㊁G150~200对柔鱼CPUE有显著影响(P<0.05)㊂因此,渔汛初期模型保留了T150㊁G50~100㊁G100~150为解释变量,同时进行多重共线性检验,由于T50㊁T150㊁G150~200的VIF值均大于2,故剔除环境因子T50㊁T150㊁G150~200,渔汛旺期保留了T0㊁G0~50㊁G50~100为解释变量(表1)㊂表1㊀西北太平洋柔鱼最终广义加性模型结果Tab.1㊀Results of the final generalized additive model (GAM)for Ommastrephes bartramii in the North-west Pacific Ocean渔汛不同阶段different stages offishing season变量variablet值t valueP值P value VIFT150-10.05<2ˑ10-16<2渔汛初期early fishing season G50~10020.29<2ˑ10-16<2G100~150-5.98<2ˑ10-16<2T0-12.33<2ˑ10-16<2渔汛旺期main fishing season G0~5029.38<2ˑ10-16<2G50~10021.20<2ˑ10-16<2 2.1.2㊀GAM模型分析㊀根据渔汛初期和渔汛旺期保留的因子,分别重新构建GAM模型㊂渔汛初期,GAM模型对CPUE的总偏差解释率为36.80%,其中,Lat是偏差解释率最高的因子(14.80%),其次是月(month),解释了12.22%的总偏差;渔汛旺期,GAM模型对CPUE的总偏差解释率为47.10%,其中,Lat是偏差解释率最高的因子(29.00%);其次是year和Lon,分别解释了7.53%和4.76%的总偏差(表2)㊂2.2㊀BRT模型2.2.1㊀影响因子的重要性㊀根据BRT模型分析了环境因子对柔鱼CPUE的影响权重,结果显示:渔汛初期,G0~50影响贡献率最大,随后依次是T0㊁Lat㊁G50~100㊁T50;渔汛旺期,G0~50影响贡献率最大,随后依次是Lat㊁Lon㊁T50㊁T0(图2)㊂2.2.2㊀BRT模型分析㊀根据渔汛初期和渔汛旺期保留的因子,重新构建BRT模型㊂在渔汛初期,树的复杂度tc为8的模型在3000棵决策树内均达到拟合,当学习率lr为0.001㊁0.005㊁0.010㊁0.100时,分别在2850㊁550㊁350㊁350棵决策树时达到各自最小预测偏差,但lr为0.005㊁tc为85601第6期刘月,等:基于GAM和BRT模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE的影响的模型预测偏差值最低(图3)㊂因此,后续研究渔汛初期选择参数lr 为0.005和tc 为8㊂在渔汛旺期,lr 为0.001和0.005且tc 为1㊁2㊁4㊁8的模型在3000颗决策树时预测偏差仍在下降,模型的性能未能达到最佳㊂lr 为0.100时,在1000棵决策树左右时已达到拟合,但lr 为0.010㊁tc 为8的模型在2900棵决策树时的预测偏差最低(图4)㊂因此,后续研究渔汛旺期选择参数lr 为0.010和tc 为8㊂表2㊀GAM 模型中各影响因子的相关参数Tab.2㊀Parameters of each factor in the GAM model模型model赤池信息准则AIC累积偏差解释率/%accumulation of deviance explanation 因子偏差解释率/%deviance explained of each factor渔汛初期early fishing season 渔汛旺期main fishing season 渔汛初期early fishing season 渔汛旺期main fishing season 渔汛初期early fishing season 渔汛旺期main fishing season 渔汛初期early fishing season 渔汛旺期main fishing season NULLNULL-170536.4-115922.4+factor(year)+factor(year)-173189.1-122449.24.487.53 4.487.53+factor(month)+factor(month)-181090.2-123260.116.708.4412.220.91+s(Lon)+s(Lon)-181615.3-127685.317.5013.200.804.76+s(Lat)+s(Lat)-192950.1-160760.632.3042.2014.8029.00+s(T 150)+s(T 0)-193998.8-164062.834.2044.60 1.90 2.40+s(G 50~100)+s(G 0~50)-195636.4-166054.936.1046.10 1.90 1.50+s(G 100~150)+s(G 50~100)-196240.9-167346.436.8047.100.70 1.00图2㊀BRT 模型中因子的相对贡献率Fig.2㊀Relative contribution rate of factors in BRTmodel图3㊀渔汛初期BRT 模型中预测偏差与决策树在不同学习率和复杂度下的关系Fig.3㊀Relationship between the number of trees and the predictive deviance for BRT models fitted with tree complexityand learning rate in the early fishing season6601大连海洋大学学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第38卷㊀㊀因子贡献率计算结果显示:渔汛初期,主导因子T 0的相对贡献率为23.2%,随后的因子G 0~50㊁T 50㊁Lat㊁G 50~100的相对贡献率分别为22.4%㊁21.9%㊁16.3%㊁16.1%;渔汛旺期,主导因子G 0~50的相对贡献率为23.9%,随后的因子Lon㊁T 0㊁Lat㊁T 50的相对贡献率分别为21.4%㊁20.0%㊁19.4%㊁15.3%(图5)㊂图4㊀渔汛旺期BRT 模型中预测偏差与决策树在不同学习率和复杂度下的关系Fig.4㊀Relationship between the number of trees and the predictive deviance for BRT models fitted with tree complexityand learning rate in the main fishingseason图5㊀重建BRT 模型中关键因子的相对贡献率Fig.5㊀Relative contribution rate of key factors in reconstructed BRT model2.3㊀拟合优度检验基于GAM 模型和BRT 模型拟合关键水层温度及梯度对西北太平洋柔鱼CPUE 影响的MAE㊁RMSE 和R 2值,分析结果显示,渔汛初期和渔汛旺期,BRT 模型拟合的MAE 和RMSE 整体分布更低,R 2整体分布更高,相较于GAM 模型,BRT 模型拟合更加稳定和准确(图6)㊂2.4㊀基于BRT 模型的关键因子与CPUE 的关系从图7(a)可见:在渔汛初期,T 0在超过13ħ后,CPUE 迅速上升,在17~19ħ时CPUE最高;G 0~50在0~0.23ħ/m 时,CPUE 呈现波动上升,在0.23ħ/m 后CPUE 大幅下降并趋于平稳;T 50在8~15ħ时,CPUE 先大幅上升后又大幅下降,在10~13ħ时CPUE 最高;纬度在超过38ʎN 后,CPUE 迅速上升后保持平稳;G 50~100随着梯度的增加CPUE 先大幅上升,在0.04ħ/m 后CPUE 小幅下降,随后保持平稳㊂从图7(b)可见:G 0~50在0.25~0.35ħ/m时,CPUE 波动剧烈;随着经度的增加,CPUE 呈先上升后下降的趋势,在154~156ʎE 时达到最高;T 0在10ħ后CPUE 大幅上升,在19~22ħ时达到最高;CPUE 在纬度40~44ʎN 时大幅上升,在44ʎN 后小幅下降并趋于平稳;T 50在3~9ħ时CPUE 大幅上升,在9ħ后保持平稳㊂7601第6期刘月,等:基于GAM 和BRT 模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE 的影响图6㊀GAM 模型和BRT 模型拟合优度检验Fig.6㊀Goodness of model fit tests of GAM and BRTmodels图7㊀基于BRT 模型的空间与环境因子效应对西北太平洋柔鱼CPUE 的影响Fig.7㊀Effects of spatial and environmental factors on CPUE of Ommastrephes bartramii in the Northwest Pacific Oceanbased on BRT model3㊀讨论3.1㊀GAM 模型和BRT 模型的拟合差异比较在渔汛初期,GAM 模型筛选出的关键因子依据偏差解释率大小依次为Lat㊁T 150㊁G 50~100㊁Lon㊁G 100~150,BRT 模型筛选出的关键环境因子按贡献率大小依次为T 0㊁G 0~50㊁T 50㊁Lat㊁G 50~100,GAM 模型与BRT 模型筛选得到的结果存在差异;在渔汛旺期,GAM 模型筛选出的关键因子依据偏差解释率大小依次为Lat㊁Lon㊁T 0㊁G 0~50㊁G 50~100,BRT 模型筛选出的关键环境因子按贡献率依次为G 0~50㊁Lon㊁T 0㊁Lat㊁T 50,GAM 模型与BRT 模型筛得到的结果类似㊂原因可能有两点:一是因为渔汛初期产量较低,对模型预测性能的影响较大;二是因为BRT 模型相较于GAM 模型,能更好地处理环境因子间的复杂关系,由于两个模型间的差异及模型本身会存在一定的误差,故在渔汛初期,GAM 模型和BRT 模型筛选出的因子稍有差别[13,20]㊂本研究中利用多次十折交叉验证,使用3种指标(RMSE㊁MAE 和R 2)来评价模型的拟合度,在渔汛初期和渔汛旺期均得出BRT 模型比GAM 模型具有更好的拟合效果和准确度㊂Raul 等[22]使用GAM 和BRT 模型,预测沙氏刺鲅数量方面的性能8601大连海洋大学学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第38卷和准确性,结果表明,BRT模型的预测性能优于GAM模型,这与本研究结果一致㊂因此,本研究中选择BRT模型中筛选出的关键环境因子进行后续分析,按贡献率大小,渔汛初期依次为G0~50㊁T0㊁Lat㊁G50~100㊁T50,渔汛旺期依次为G0~50㊁Lat㊁Lon㊁T50㊁T0㊂3.2㊀关键因子对西北太平洋柔鱼CPUE的影响本研究表明,在时空因子中,BRT模型显示的纬度因子相较于经度因子,具有相对重要的影响,渔汛初期5 7月显示最适纬度为40~42ʎN,渔汛旺期8 11月最适纬度为42~44ʎN,最适经度均为154~157ʎE,最适经纬度的中心渔场位于黑潮与亲潮交汇区㊂从渔汛初期到渔汛旺期最适纬度方向向北偏移了2ʎ,这一变化主要是由于柔鱼随着黑潮北上索饵洄游,同时黑潮和亲潮的强弱及交汇势力的变化也会影响其纬度位置㊂当黑潮势力较强㊁亲潮势力较弱时,渔场位置偏北,反之则偏南[23]㊂本研究中,西北太平洋海域5 6月黑潮势力较弱,7月黑潮势力逐步增强,水温较低,所以渔汛初期渔场位置偏南,渔获产量也普遍较低[24];8 9月黑潮势力达到顶峰,10 11月逐渐减弱,所以渔汛旺期渔场位置偏北,渔获产量较高[25]㊂在环境因子中,渔汛初期主要是中上层水温对CPUE影响较大,渔汛旺期主要是浅水层水温对CPUE影响较大㊂不同渔汛阶段的不同水层柔鱼CPUE的影响因子也不一致,产生的原因可能与柔鱼摄食密切相关㊂渔汛初期的5 7月柔鱼处于幼鱼时期,该时期黑潮流将产卵地的幼鱼向北带入饵料水域,中心渔场的位置与浮游动物密度较高的区域相一致,特别是在磷虾类和桡足类等甲壳类动物资源丰度较高的区域内或附近[26],Watanabe等[27]也认为,柔鱼幼鱼主要摄食磷虾类和桡足类等浮游甲壳动物㊂已知一些桡足类动物在夜间有明显的垂直迁移到中上层的现象[28],柔鱼在夜间摄食的过程中会随着饵料生物移动到中上层㊂在渔汛旺期8 11月,柔鱼已生长到后期即成体阶段㊂陈新军等[29]认为,150~165ʎE的北太平洋海域8 10月影响柔鱼成体阶段资源丰度的主要因子是表层水温㊁0~50m温度梯度和0~100m温度梯度;Wang 等[11]采用GAM模型得到0㊁30㊁100㊁0~30m 水温梯度对北太平洋柔鱼CPUE具有显著影响的结果㊂本研究中得到的浅水层水温是影响渔场形成的关键因子,这与以上研究结果稍有差异但基本一致㊂产生的原因可能是柔鱼成体阶段摄食对象从浮游动物转变成小型鱼类,如灯笼鱼(Myctophidae),该鱼呈昼夜垂直迁移,夜间上升到海面至50m深的一层[30],柔鱼为了摄食随之上升到0~50m水层㊂因此,不论是渔汛初期还是渔汛旺期,柔鱼均会因为摄食生物昼夜垂直移动,相应地在夜间游动至中上层甚至浅水层㊂在渔汛初期和渔汛旺期,随着柔鱼生长和地理位置的变化,不同渔汛阶段日垂直迁移也会发生不同变化,本研究中得到的渔汛初期和渔汛旺期关键因子分别在中上层和浅水层,产生的原因也可能与光照度有关,柔鱼垂直迁移与光照度变化规律相对应,白天柔鱼栖息在深水层,夜间随着光线的变弱上升到中上层及浅水层[30]㊂4㊀结论1)不同渔汛阶段柔鱼时空分布与不同水层水温和垂直温度梯度的关系密切㊂2)基于GAM模型和BRT模型得出,不同渔汛阶段柔鱼CPUE的关键影响因子有所不同,根据拟合优度检验,BRT模型优于GAM模型㊂3)渔汛初期中上层水温对CPUE影响较大,而渔汛旺期浅水层水温对CPUE贡献较大㊂参考文献:[1]㊀YU W,CHEN X J,YI Q,et al.A review of interaction between ne-on flying squid(Ommastrephes bartramii)and oceanographic varia-bility in the North Pacific Ocean[J].Journal of Ocean University of China,2015,14(4):739-748.[2]㊀唐峰华,崔雪森,樊伟,等.公海柔鱼类资源丰度与海洋环境关系的研究[J].中国农业科技导报,2016,18(4):153-162.㊀㊀㊀TANG F H,CUI X S,FAN W,et al.Study on relationship between resources abundance of squids and marine environment in high seas fishing grounds[J].Journal of Agricultural Science and Technolo-gy,2016,18(4):153-162.(in Chinese)[3]㊀魏广恩.北太平洋柔鱼渔场的时空分析与资源丰度的预测[D].上海:上海海洋大学,2018.㊀㊀㊀WEI G E.Spatial and temporal analysis of Ommastrphes bartramii fishing ground and its resource abundance prediction in the North Pacfic Ocean[D].Shanghai:Shanghai Ocean University,2018.(in Chinese)[4]㊀陈峰,陈新军,刘必林,等.西北太平洋柔鱼渔场与水温垂直结构关系[J].上海海洋大学学报,2010,19(4):495-504.㊀㊀㊀CHEN F,CHEN X J,LIU B L,et al.Relationship between fishing ground of Ommastrephes bartramii and vertical temperature struc-ture in the northwestern Pacific Ocean[J].Journal of Shanghai O-cean University,2010,19(4):495-504.(in Chinese) [5]㊀杨铭霞,陈新军,冯永玖,等.中小尺度下西北太平洋柔鱼资源丰度的空间变异[J].生态学报,2013,33(20):6427-6435.㊀㊀㊀YANG M X,CHEN X J,FENG Y J,et al.Spatial variability of small and medium scales resource abundance of Ommastrephes9601第6期刘月,等:基于GAM和BRT模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE的影响bartramii in Northwest Pacific[J].Acta Ecologica Sinica,2013,33(20):6427-6435.(in Chinese)[6]㊀CHEN X J,TIAN S Q,GUAN W J.Variations of oceanic fronts andtheir influence on the fishing grounds of Ommastrephes bartramii in the Northwest Pacific[J].Acta Oceanologica Sinica,2014,33(4): 45-54.[7]㊀唐峰华,杨胜龙,范秀梅,等.基于Argo的西北太平洋公海柔鱼渔场垂直水温结构的变化特征[J].上海海洋大学学报,2019, 28(3):427-437.㊀㊀㊀TANG F H,YANG S L,FAN X M,et al.Variation characteristics of vertical water temperature structure of neon flying squid fishery in northwestern Pacific Ocean based on Argo[J].Journal of Shang-hai Ocean University,2019,28(3):427-437.(in Chinese) [8]㊀ALABIA I D,SAITOH S I,IGARASHI H,et al.Ensemble squidhabitat model using three-dimensional ocean data[J].ICES Jour-nal of Marine Science,2016,73(7):1863-1874.[9]㊀武胜男,陈新军,刘祝楠.基于GAM的西北太平洋日本鲭资源丰度预测模型建立[J].海洋学报,2019,41(8):36-42.㊀㊀㊀WU S N,CHEN X J,LIU Z N.Establishment of forecasting model of the abundance index for chub mackerel(Scomber japonicus)in the northwest Pacific Ocean based on GAM[J].Acta Oceanologica Sinica,2019,41(8):36-42.(in Chinese)[10]㊀武胜男,陈新军.基于GLM和GAM的日本鲭太平洋群体补充量与产卵场影响因子关系分析[J].水产学报,2020,44(1):61-70.㊀㊀㊀WU S N,CHEN X J.Relationship between the recruitment of the Pacific-cohort of chub mackerel(Scomber japonicus)and the in-fluence factors on the spawning ground based on GLM and GAM[J].Journal of Fisheries of China,2020,44(1):61-70.(in Chinese) [11]㊀WANG J T,CHENG Y Q,LU H J,et al.Water temperature at dif-ferent depths affects the distribution of neon flying squid(Ommas-trephes bartramii)in the northwest Pacific Ocean[J].Frontiers inMarine Science,2022,8:741620.[12]㊀方舟,陈洋洋,陈新军,等.基于不同模型研究环境因子对中西太平洋鲣资源丰度的影响[J].中国水产科学,2018,25(5):1123-1130.㊀㊀㊀FANG Z,CHEN Y Y,CHEN X J,et al.Influence of environmental factors on the abundance of skipjack tuna(Katsuwonus pelamis)in west-central Pacific Ocean determined using different models[J].Journal of Fishery Sciences of China,2018,25(5):1123-1130.(in Chinese)[13]㊀ELITH J,LEATHWICK J R,HASTIE T.A working guide to boos-ted regression trees[J].Journal of Animal Ecology,2008,77(4):802-813.[14]㊀黄金玲,戴黎斌,王学昉,等.东太平洋大眼金枪鱼自由鱼群栖息地偏好的时空分布特征[J].上海海洋大学学报,2020,29(6):889-898.㊀㊀㊀HUANG J L,DAI L B,WANG X F,et al.Spatio-temproal distri-bution pattern of habitat preference of bigeye tuna free-swimmingschools in the eastern Pacific Ocean[J].Journal of Shanghai O-cean University,2020,29(6):889-898.(in Chinese) [15]㊀高峰,陈新军,官文江,等.基于提升回归树的东㊁黄海鲐鱼渔场预报[J].海洋学报,2015,37(10):39-48.㊀㊀㊀GAO F,CHEN X J,GUAN W J,et al.Fishing ground forecasting of chub mackerel in the Yellow Sea and East China Sea usingboosted regression trees[J].Acta Oceanologica Sinica,2015,37(10):39-48.(in Chinese)[16]㊀林泓羽,汪金涛,陈新军,等.大西洋中部大眼金枪鱼的时空分布[J].广东海洋大学学报,2022,42(5):123-133.㊀㊀㊀LIN H Y,WANG J T,CHEN X J,et al.Temporal and spatial dis-tribution of Thunnus obesus in the central Atlantic[J].Journal ofGuangdong Ocean University,2022,42(5):123-133.(in Chinese) [17]㊀许骆良,陈新军,汪金涛.2003 2012年秘鲁外海茎柔鱼资源丰度年间变化分析[J].上海海洋大学学报,2015,24(2):280-286.㊀㊀㊀XU L L,CHEN X J,WANG J T.Inter-annual variation in abun-dance index of Dosidicus gigas off Peru during2003to2012[J].Journal of Shanghai Ocean University,2015,24(2):280-286.(inChinese)[18]㊀魏广恩,陈新军.不同环境模态下空间分辨率对北太平洋柔鱼CPUE标准化的影响[J].海洋科学,2021,45(4):147-158.㊀㊀㊀WEI G E,CHEN X J.lmpacts of spatial resolution under different environment modes on CPUE standardization in the North PacificOcean[J].Marine Sciences,2021,45(4):147-158.(in Chinese) [19]㊀赵静,柳晓雪,吴建辉,等.零膨胀模型在珍稀鱼类资源时空分布预测中的应用:以长江口刀鲚为例[J].生态学杂志,2020,39(9):3155-3163.㊀㊀㊀ZHAO J,LIU X X,WU J H,et al.Application of zero-inflated model in predicting the distribution of rare fish species:a casestudy of Coilia nasus in Yangtze Estuary,China[J].ChineseJournal of Ecology,2020,39(9):3155-3163.(in Chinese) [20]㊀刘洋,石永闯,花传祥,等.基于权重分析和GAM模型的秋刀鱼舷提网作业性能影响因素[J].上海海洋大学学报,2022,31(2):502-511.㊀㊀㊀LIU Y,SHI Y C,HUA C X,et al.Factors influencing the stick-held net status of Pacific saury(Cololabis saira)fishery based onweighted analysis and GAM[J].Journal of Shanghai Ocean Uni-versity,2022,31(2):502-511.(in Chinese)[21]㊀李成,石肖飞,张健,等.基于圆形统计和时间序列的月相对两种拖网渔业CPUE的影响[J].大连海洋大学学报,2023,38(2):340-347.㊀㊀㊀LI C,SHI X F,ZHANG J,et al.Effects of lunar phases on CPUEs of trawl fisheries based on circular statistics and time series[J].Journal of Dalian Ocean University,2023,38(2):340-347.(inChinese)[22]㊀RAUL O,MARTÍNEZ-RINCÓN,JUAN parative perform-ance of generalized additive models and boosted regression treesfor statistical modeling of incidental catch of wahoo(Acanthocybi-um solandri)in the Mexican tuna purse-seine fishery[J].Ecolog-ical Modelling,2012,233:20-25.[23]㊀范江涛,陈新军,曹杰,等.西北太平洋柔鱼渔场变化与黑潮的关系[J].上海海洋大学学报,2010,19(3):378-384.㊀㊀㊀FAN J T,CHEN X J,CAO J,et al.The variation of fishing ground of Ommastrephes bartramii in the Northwest Pacific concerningwith Kuroshio Current[J].Journal of Shanghai Ocean University,2010,19(3):378-384.(in Chinese)0701大连海洋大学学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第38卷[24]㊀唐峰华,樊伟,伍玉梅,等.北太平洋柔鱼渔场资源与海洋环境关系的季节性变化[J].农业资源与环境学报,2015,32(3):242-249.㊀㊀㊀TANG F H,FAN W,WU Y M,et al.Seasonal changes of relation-ship between marine environment and squid fishing resources in north Pacific Ocean [J].Journal of Agricultural Resources and Environment,2015,32(3):242-249.(in Chinese)[25]㊀陈新军.北太平洋150ʎE 以西海域柔鱼渔场与时空㊁表温及水温垂直结构的关系[J].上海水产大学学报,2004,13(1):78-83.㊀㊀㊀CHEN X J.Analysis of relationship between fishing ground of Om-mastrephe bartrami and temp-spatial,sea surface temperature andits vertical structure in the western waters 150ʎE of North Pacific [J].Journal of Shanghai Fisheries University,2004,13(1):78-83.(in Chinese)[26]㊀CHENG J H,HUANG H L.Relationship between environmentcharacters and Ommastrephes bartrami fishing ground in the NorthPacific[J].Journal of Fishery Sciences of China,2003(6):507-512.[27]㊀WATANABE H,KUBODERA T,ICHII T,et al.Feeding habits ofneon flying squid Ommastrephes bartramii in the transitional re-gion of the central North Pacific[J].Marine Ecology Progress Se-ries,2004,266:173-184.[28]㊀FROST B.Variability and possible adaptive significance of dielvertical migration in Calanus pacificus ,a planktonic marine cope-pod[J].Bulletin of Marine Science,1988,43(3):675-694.[29]㊀陈新军,许柳雄.北太平洋150ʎE~165ʎE 海域柔鱼渔场与表温及水温垂直结构的关系[J].海洋湖沼通报,2004(2):36-44.㊀㊀㊀CHEN X J,XU L X.Analysis of relationship between fishingground of Ommastrephe bartrami and surface water temperature and its vertical distribution from 150ʎE to 165ʎE in the north-western Pacific[J].Transactions of Oceanology and Limnology,2004(2):36-44.(in Chinese)[30]㊀MURATA M,NAKAMURA Y.Seasonal migration and diel verti-cal migration of the neon flying squid,Ommastrephes bartramii in the North Pacific[J].Japan Marine Fishery Resources Research Center,1998,25:13-30.Impact of vertical structure of water temperature during different fishingseasons on CPUE of neon flying squid (Ommastrephes bartramii )in the Northwest Pacific Ocean using GAM and BRT modelsLIU Yue 1,CHEN Xinjun 1,2,3,4∗,WANG Jintao 1,2,3,4(1.College of Marine Sciences,Shanghai Ocean University,Shanghai 201306,China;2.Key Laboratory of Oceanic Fisheries Exploration,Ministry ofAgriculture and Rural Affairs,Shanghai 201306,China;3.National Engineering Research Center for Oceanic Fisheries,Shanghai 201306,China;4.Key Laboratory of Sustainable Exploitation of Oceanic Fisheries Resources,Ministry of Education,Shanghai 201306,China)Abstract :To explore the effect of water temperature at different depths and vertical structure of water temperatureon catch per unit effort (CPUE)of neon flying squid (Ommastrephes bartramii )and to provide a guidance for the improvement of neon flying squid production efficiency,the influence of 0-300m water temperature and vertical structure at different depths on the CPUE were analyzed based on the fishery data from May to November from 2015to 2019,combined with the marine environmental data of the same period,the generalized additive model (GAM)and the boosting regression tree (BRT)during different fishing seasons.The stability and accuracy of the two mod-els were evaluated using repeated ten-fold cross-validation.The results showed that the key factors screened by the GAM model based on the magnitude of deviation explained were found to be latitude (Lat),150m layer tempera-ture (T 150),50-100m water temperature gradient (G 50-100),longitude (Lon),and 100-150m water temperaturegradient (G 100-150)during the early fishing season (May to July).The BRT model screened factors in order of con-tribution rate were shown to be sea surface temperature (T 0),0-50m water temperature gradient (G 0-50),50m layer temperature (T 50),Lat,and G 50-100.During the main fishing season (August to November),however,thekey factors selected by the GAM model based on the magnitude of deviation explained were Lat,Lon,T 0,G 0-50,and G 50-100.The BRT model selected factors in order of contribution rate were G 0-50,Lon,T 0,Lat,and T 50.The comparison of the two models indicated that BRT was better than the GAM to analyse the actual fishing data,withdifferent key factors affecting CPUE in different stages of fishing season.The great influence on CPUE was observedin the upper-middle water temperature in the early fishing season,and great contribution to CPUE was found in theshallow water temperature in the main fishing season.Key words :Ommastrephes bartramii ;temperature at deep layer;CPUE;GAM model;BRT model1701第6期刘月,等:基于GAM 和BRT 模型的不同渔汛期水温垂直结构对西北太平洋柔鱼CPUE 的影响。

季节性数据模型

季节性数据模型

参数估计
模型检验
(1 −
B)(1 − B12 )xt
=
1 1
+ +
0.66137 B 0.78978B
(1

0.77394
B12

t
残差白噪声检验
参数显著性检验
延迟阶数 6 12 18
结果
统计量 4.50 9.42
P值 0.2120 0.4002
20.58
0.1507
模型显著
待估参数
t 统计量 P 值 -4.66 <0.0001 23.03 <0.0001
* wt 的 SACF 服从乘积 MA(1)模型的 ACF 模式,即在 1 和 12 很大,在 11 和 13 也比较大,其它地方很小。
例 4.1:拟合 1948——1981 年美国女性月度失业率序列
差分平稳 一阶、12 步差分
差分后序列自相关图
6
差分后序列偏自相关图
7
乘积季节模型拟合
模型定阶: ARIMA(1,1,1)×(0,1,1)12
= C + at − θat−1 − Θat−12 + Θθat−13
= C + (1 − θB − ΘB12 + ΘθB13 )at 或: Zt = C + (1 − θB)(1 − ΘB12 )at
模型的右边把常数 C 分开后,现在是表示成两个因子的乘积,第一个表示连续观察的动态结 构,第二个表示 12 个时间间隔的观察间的动态结构。虽然它是一个特殊的 MA(13)模型,它只 包含两个参数,每一个都集中模型动态结构的一个方面。
我们可以证明它的自相关函数为:


⎪⎪ ⎨

季节性时间序列分析方法

季节性时间序列分析方法

季节性时间序列分析方法由于季节性时刻序列在经济生活中大量存在,故将季节时刻序列从非平稳序列中抽出来,单独作为一章加以研究,具有较强的现实意义。

本章共分四节:简单随机时刻序列模型、乘积季节模型、季节型时刻序列模型的建立、季节调整方法X-11程序。

本章的学习重点是季节模型的一样形式和建模。

§1 简单随机时序模型在许多实际问题中,经济时刻序列的变化包含专门多明显的周期性规律。

比如:建筑施工在冬季的月份当中将减少,旅行人数将在夏季达到高峰,等等,这种规律是由于季节性〔seasonality〕变化或周期性变化所引起的。

关于这各时刻数列我们能够说,变量同它上一年同一月〔季度,周等〕的值的关系可能比它同前一月的值的相关更紧密。

一、季节性时刻序列1.含义:在一个序列中,假设通过S个时刻间隔后出现出相似性,我们说该序列具有以S为周期的周期性特性。

具有周期特性的序列就称为季节性时刻序列,那个地点S为周期长度。

注:①在经济领域中,季节性的数据几乎无处不在,在许多场合,我们往往能够从直观的背景及物理变化规律得知季节性的周期,如季度数据〔周期为4〕、月度数据〔周期为12〕、周数据〔周期为7〕;②有的时刻序列也可能包含长度不同的假设干种周期,如客运量数据〔S=12,S=7〕2.处理方法:〔1〕建立组合模型;(1)将原序列分解成S个子序列〔Buys-Ballot 1847〕关于如此每一个子序列都能够给它拟合ARIMA 模型,同时认为各个序列之间是相互独立的。

然而这种做法不可取,缘故有二:〔1〕S 个子序列事实上并不相互独立,硬性划分如此的子序列不能反映序列{}t x 的总体特点;〔2〕子序列的划分要求原序列的样本足够大。

启发意义:假如把每一时刻的观看值与上年同期相应的观看值相减,是否能将原序列的周期性变化排除?〔或实现平稳化〕,在经济上,确实是考查与前期相比的净增值,用数学语言来描述确实是定义季节差分算子。

定义:季节差分能够表示为S t t t S t S t X X X B X W --=-=∇=)1(。

gama指标 -回复

gama指标 -回复

gama指标-回复什么是GAMA 指标?在金融领域,GAMA 指标(Generalized Autoregressive Conditional Heteroskedasticity Mean Average Ratio)是一种常用的统计工具,用于衡量金融市场中的风险水平和预测能力。

它是由两个常用指标——GARCH 模型和MA 模型组合而成。

GAMA 指标结合了GARCH 模型和MA 模型的优点,可以更准确地预测市场的波动性和趋势。

通过分析历史数据,GAMA 指标可以计算出多个时间段内的风险水平,并用于预测未来可能的市场走势。

那么,接下来让我们一步一步地了解GAMA 指标的计算原理和应用方法。

第一步:计算GARCH 模型首先,我们需要计算GARCH 模型,以衡量金融市场的波动性。

GARCH 模型是一种时间序列模型,用于分析和预测数据中的波动性。

它假设价格的波动性与过去价格的波动性存在相关性,并通过计算条件波动性来预测未来的波动性。

GARCH 模型的计算通常包括以下几个步骤:1. 收集金融资产的历史价格数据。

2. 计算每个时间点上的收益率,即当前价格与前一个价格之间的差异。

3. 根据收益率序列,计算条件波动性,即在每个时间点上的波动性预测。

4. 根据条件波动性和历史数据,计算出每个时间点上的GARCH 模型的参数。

5. 使用参数来计算未来可能的波动性。

第二步:计算MA 模型MA 模型(Moving Average Model)是一种时间序列模型,用于分析和预测数据中的趋势。

它假设未来价格的趋势与过去价格的移动平均值之间存在相关性,并通过计算移动平均值来预测未来的趋势。

计算MA 模型通常包括以下几个步骤:1. 使用金融资产的历史价格数据,并计算出每个时间点上的移动平均值。

2. 根据移动平均值序列,计算出每个时间点上的MA 模型的参数。

3. 使用参数来预测未来可能的趋势。

第三步:组合GARCH 模型和MA 模型一旦我们分别计算出了GARCH 模型和MA 模型的结果,就可以将它们组合起来得到GAMA 指标。

generalized additive models算法 -回复

generalized additive models算法 -回复

generalized additive models算法-回复什么是generalized additive models算法(GAM)?Generalized additive models(GAM)是一种统计模型,常用于探索数据集中观测值和自变量之间的非线性关系。

与传统的线性回归模型相比,GAM允许自变量与响应变量之间的关系不是简单的线性关系,而是通过非线性函数的组合来描述。

这使得GAM能够更好地捕捉数据中的复杂关系。

GAM的基本构成元素是非线性平滑函数。

平滑函数是一种将输入变量映射到响应变量的函数,它可以捕捉到输入变量与响应变量之间的非线性关系。

GAM通过将多个平滑函数相加来构建整个模型,每个平滑函数负责描述某个变量与响应变量之间的关系。

这样,GAM可以将复杂的非线性问题分解为多个简单的非线性问题,从而更好地适应数据的特点。

GAM的优点是它既能够处理连续型自变量,也可以处理类别型自变量。

对于连续型自变量,可以使用平滑函数来建模。

对于类别型自变量,可以将其转化为一组虚拟变量,并分别使用平滑函数描述各个类别与响应变量之间的关系。

在构建GAM时,选择合适的平滑函数以及平滑函数的自由度是非常重要的。

过低的自由度可能导致模型过于简单,无法准确拟合数据;而过高的自由度可能导致模型过度拟合,无法进行准确的预测。

因此,选择适当的平滑函数和自由度需要借助交叉验证等方法进行模型选择。

GAM还可以用于处理缺失数据。

在模型估计过程中,可以利用观测到的数据对模型进行拟合,然后使用拟合的模型对缺失数据进行插补。

这样可以最大程度地利用现有数据来估计缺失数据的值,提高模型的准确性。

另一个GAM的优点是其解释性。

用于建模的平滑函数可以通过绘制曲线来展示,并解释为特定变量对响应变量的影响。

这对于帮助我们理解数据背后的机制和关系非常有帮助。

当然,GAM也有一些限制。

首先,它对于高维数据的建模能力有限。

当输入变量非常多时,GAM的模型复杂度可能变得很高,而且建模的过程也变得困难。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GAM(广义相加模型)对物业耗电量进行预测
人们对于电力的需求与依赖随着生活水平的提高而不断加深,用电负荷预测工作开始变得越来越重要,如果可以发现用电负荷的规律性,我们就可以合理安排用电负荷。

我们使用某商业物业两个星期的电耗数据进行分析。

GAM模型
当因变量和自变量不呈线性关系时,可用广义相加模型(GAM)。

GAM模型的优点,在于其解决响应变量与预测因子间的高度非线性和非单调关系方面的突出能力,是一种基于数据的模型(data-driven),数据决定着响应变量和预测因子之间的关系。

电耗数据不是线性的,同时是一个有季节趋势的时间序列趋势。

那么GAM模型是否可以用来预测时间序列呢?
首先绘制出用电量的时间序列图,看下趋势
绘制时间序列有两个主要自变量:天和周。

我们的响应变量是电力负荷。

我们来构建出GAM模型
我们可以看到时间变量对电力负荷的影响。

在左图中,负荷的峰值是白天下午3点左右。

同时我们可以看到,周末耗电量下降。

然后我们绘制耗电量曲面图更直观的发现规律。

相关文档
最新文档