基于时间序列分析的2016年中超联赛进球ARIMA模型研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

足球比赛是以比分为决定胜负的竞技体育项目,而比分由多个进球组成的一种表述,根据足球“胜3平1负0”的积分办法,决定比赛名次。

进球在比赛成绩中起着决定性作用,它是一种体现各种进攻技战术的最终目标。

如在“关键”场次、时间段中,一粒进球的意义已经超出足球运动的范畴,带来的不仅仅是球员、教练、比赛的现实价值,而是辐射到国家荣誉和民族精神的社会价值。

近几年来,中国国家足球队的战绩可以说不尽如人意,就连2016亚洲区12强赛都用“奇迹”来评价出线,甚至被媒体评价为半个亚洲“帮”中国足球踢进12强[1]。

面对很多比赛,我们渴望更多的是比赛胜利,追求结果,以达到出线的目标。

在比赛过程中所呈现出来的技术统计指标有很多,其中比分结果是非常重要的,又受到多种因素的影响。

足球比赛是一项攻守平衡的一项运动,没有进球就谈不上进攻,更谈不上防守。

然而中国足球缺的就是“进球”二字,缺乏攻击力,究其原因一是球队为了快速提升的联赛成绩,高投入引入大牌外援,大部分都集中在中前场,前锋位置基本上由外援占据,国内前锋得不到充分的锻炼。

这是中国足球的“功利”;二是国内前锋的进球意识、自信心有待于提高,本身受到传统文化思想的深刻影响,影响着技战术水平的发挥。

这是中国足球的“保守”。

2016年中超在体奥动力80亿(5年)版权的资金注入、高薪引入国际大牌外援的背景下,联赛的水平提升了一个层次。

尤其是夏季二次转会期间加盟,引爆了联赛的进球狂潮,其精彩程度达到了一个新高度。

据统计,中超自身价值增幅达81%[2],场均近2.2万人,同比2015年有了很大的提升。

在这个“超级军备竞赛”的赛季,研究其独特的进球特点显得更有意义。

时间序列分析(Time series analysis)是一种动态数据处理的统计方法。

主要基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律以用于解决实际问题。

涵盖了数据平稳、平滑指数模型、ARIMA模型、季节性模型、相似性、预测等研究内容,如国内学者在社会消费品指数、入境游客、甲状腺疾病、梅毒发病率、中国粮食价格、GDP、人民币汇率、生态足迹、PM_(2.5)等方面,国外学者对浮游生物群落、空气温度、出版物周期、肺炎球菌疾病、肺结核、基因、经济等方面进行了研究,时间序列分析已经广泛应用到社会的各个领域,方法简单易行,便于掌握,比较适用于短期预测。

统计方法在足球技术统计的应用也在逐渐加强,具有代表性有计数统计、卡方检验、t检验、F检验、回归分析、因子分析等统计分析。

我们应大胆地借鉴数理统计、数学方法分析数据,以解决足球运动中的实际问题。

在足球比赛技术统计中,比分“进球数”是按照时间进行统计记录的,随着时间的变化呈现出不同的变化趋势,是一种动态性和随机性序列。

在前期《2008年中国足球超级联赛成绩与技术统计的因子分析》[3]中指出了进球在比赛中的重要性,称之为“结果因子”。

基于进球在比赛的重要性,又符合时间序列分析的条件,我们尝试运用时间序列分析对进球建立模型与预测,并对2016年中超联赛的640个进球进行分析,探索足球比赛进球的新特点和规律。

论文的贡献在于延续研究前期成果深入探讨“进球结果”理论,丰富我国足球运动的理论,为训练提供科学的数据支持。

创新性开展统计方法在足球比赛技术统计的实际应用和验证,使得统计方法与基础理论有效结合,拓宽统计学和体育学交叉学科的理论应用研究。

一、研究数据
(一)原始数据库的建立
通过体育中超专题网站查找2016年中超联赛的技术统计,对2016年每一轮每一场比赛的进球进行了仔细核对,统计了30轮次,8场次/轮,共240场比赛,640个进球,得到了2016年中超进球分布情况一览表(见表1)。

基于时间序列分析的2016年中超联赛进球ARIMA模型研究
全 涛1,2
(1.临沂大学 体育与健康学院,山东 临沂 276005;2.拉曼大学 中华研究院,马来西亚 吉隆坡 43000)
摘 要:通过文献资料、数理统计、录像观察、对比分析法对2016年中超联赛的640个进球进行时间序列分析,构建ARIMA(1,2,1)模型与数据预测,为了探索足球比赛进球的新特点,创新性开展数理统计方法在足球比赛技术统计的实际应用,为我国足球运动的理论与训练提供科学依据。

关键词:进球;时间序列分析;ARIMA模型;特征
中图分类号:G80-32 文献标识码:A
文章编号:1674-537X(2018)05.0086-06
表1:2016年中超进球分布情况一览表
场次
轮次第1场
第2场
第3场
第4场
第5场
第6场
第7场
第8场
场次
轮次第1场
第2场
第3场
第4场
第5场
第6场
第7场
第8场
131231330163230125523523111217351323033221222841854383334402134110194443511051
34423222013534
63262320442321214
212427253213222233324303870223
35323503539119200032602434233272103011111225442583031145121422262302345312513021232736337143132120132428455422101432112344290221232015
6
1
7
6
5
3
2
2
30
5
4
4
1
1
3
4
4
备注:数据来源于搜狐体育中超2016赛季数据库和中超视频。

统计学上可以运用序列图观察和自相关、偏相关分析图判定时间序列平稳性[4]。

①若时间序列的自相关函数在k>3时都落入置信区间,且逐渐趋于零,则该时间序列具有平稳性;②若时间序列的自相关函数更多地落在置信区间外面,则该时间序列就不具有平稳性。

为判断该数据是否平稳,在spss 菜单栏目选择“分析”-“预测”-“序列图”和“自相关”命令,得到序列图(图2),自相关、偏相关图(图3)、函数统计表(表2)。

表2:2016年中超进球数自相关和偏相
在利用spss 进行数据分析之前,把总场次、轮次、每轮的场次、640个进球4个变量数据录入到spss 中。

我们称之为原始数据库,作为建模数据库。

(二)原始数据的预处理1、定义日期
在spss 菜单栏目选择“数据”-“定义日期”命令,以30轮,8场比赛作为个案完成定义,周期为8,240组数据,以便于数据的进一步分析。

我们在SPSS 数据表格里面的“数据视图”中可以看到增加的“DAY”1-30,“HOUR”0-7,“DATE”10-17……三个变量,视图如图1所示。

图1:“定义日期”后的数据库视图
2、判断平稳性
时间序列分析的前提条件是数据必须具有平稳性特征,在
,b.基于渐近卡方近似。

据围绕着2-4之间的一条均线(进球均数为2.67)上
显示出较强的平稳性特征。

从图3结果显示自相关、偏且只有1条在置信区间外,符合平稳性的判定条件,当在这这里不在一一赘述其原理了。

综上所述,原始数据
间序列分析,可以构建新的ARIMA 模型。

条均线(进球均数为2.67)上下波动,有一定的趋势,但不明显,显示出较强的平稳性特征。

从图3结果显示自相关、偏自相关函数出现了明显的拖尾现象,且只有1条在置信区间外,符合平稳性的判定条件,当然从表2中可以看到具体的函数值,在这这里不在一一赘述其原理了。

综上所述,原始数据初步认定具有平稳性特征,适合做时间序列分析,可以构建新的ARIMA 模型。

表2:2016年中超进球数自相关和偏相关函数统计表
滞后自相关标准误差
a
Box-Ljung统计量偏自相关标准误差值df Sig.b 1.143.064 4.9861.026.143.0652.080.064 6.5592.038.061.0653.041.064 6.9763.073.022.0654-.054.0647.6824.104-.069.0655.002.0647.6835.175.014.0656.075.0639.0956.168.083.0657-.031.0639.3297.230-.050.0658-.046.0639.8538.275-.053.0659
.061.06310.7869.291.078.06510-.024.06310.93310.363-.023.06511.093.06313.12311.285.090.06512.045.06313.65012.324.006.06513.032.06313.90713.380.029.06514.034.06214.21014.434.021.06515.020.06214.31515.502.004.06516
.009
.062
14.337
16
.574
.010
.065
注:a.假定的基础过程是独立性(白噪音),b.基于渐近卡方近似。

二、ARIMA模型的建立(一)模型的初步推断
注:因表格大小限制,原结果中SE 无数字结果,故删除SE 列,所有数值结果保留两位小数。

ARIMA 模型的建立需要利用时间序列中的自相关关系进行初步分析,而自相关关系是通过自相关函数和偏自相关函数
来表现的。

据此在spss 原始数据库中,选择分析-预测-创
建模型命令,将“进球”变量选入“因变量”列表中,并设置
ARIMA 模型的相关参数,其中p=1、d=0、q=1,运算出模型
类型为ARIMA(1,0,1),相关结果输出如表3。

表3给出了该模型的8个拟合优度指标,其中平稳的R
方和R 方都为0,数值远小于1,说明模型的拟合效果较差。

其主要原因为无差分,d=0造成,其结果也没有进行较好地拟合。

从模型-1(图4)来看,也没有随着进球数据的波动进行拟合,拟合值基本为一条直线。

所以从这两个方面来看,与前面的“原始数据有一定趋势,但不明显”的判断一致,说明原数据存在不稳定性,判断为有一定的季节趋势。

图4:“进球”模型-1 ARIMA(1,0,1)(二)模型的改进建立1、模型描述表
先对数据重新进行d 级差分,对原有的模型-1重新进行
2、模型拟合表
从表5可以看出,平稳的R 方=0.70更具有代表性,ARIMA(1,2,1)模型的拟合情况良好。

构建,以求达到理想的拟合结果。

通过多轮的测算验证,最终确定p=1、d=2、q=1,形成了新的序列图和自相关、偏相关图(操作同上,略),对原有的ARIMA 模型进行改进,确定了2016年进球模型为ARIMA(0,0,0)(1,2,1),输出结果如表4。

表4给出了该模型的基本描述,可以看出,所建立的ARIMA 模型的因变量为“进球”,模型名称为“模型_2”,模型的类型为ARIMA(1,2,1)。

注:同表3
表6给出了模型拟合统计量和Ljung-Box Q 统计量,平稳的R 方值为0.700,与模型拟合图中的平稳的R 方一致。

Ljung-Box Q 统计量值为46.298,显著水平为0.000,因此拒绝
残差序列为独立序列的原假设,说明模型拟合后的残差序列是存在自相关的。

3、模型参数表
表7:ARIMA(1,2,1)模型参数表
估计
SE t Sig.进球-模型_2
进球
无转换
常数
-.004.012-.312.755AR,季节性
滞后 1
-.486
.063
-7.744
.000
季节性差分
2
MA,季节性
滞后 1
.995
1.649
.604
.547
表7给出了ARIMA(1,2,1)的模型参数估计值,内容分为AR 和MA 两部分。

其中AR 自回归部分的显著性差异为0.000,MA 移动平均为0.547。

因此,ARIMA(1,2,1)模型比较适合。

4、模型及预测
通过对2016年中超进球数据进行拟合,建立模型ARIMA (1,2,1)模型,并对31-35的进球数进行了结果预测,形成模型拟合及预测图
5。

图5:2016年中超“进球”模型及预测图(35,7)
从图5可以左侧看出,进球序列上整体上成波动状态,拟合值和观测值曲线在整个区间整体上拟合情况良好,明显可以看出拟合值的波动非常接近实际观察值波动性。

因此,可以说明ARIMA(1,2,1)模型对进球的拟合情况效果明显。

从参
考线右侧我们发现,进球在31处波动后呈季节性周期变化,基本维持均线附近左右上下波动,有待于进一步分析其特征及价值。

另外,spss 根据命令输出了31-35(0-7)的预测值、UCL、LCL 值,整理后见如表8,以供参考。

表8:31-35轮次进球预测值
注:对于每个模型,预测都在请求的预测时间段范围内的最后一个非缺失值之后开始,在所有预测值的非缺失值都可用的最后一个时间段或请求预测时间段的结束日期(以较早者为准)结束。

三、结论
(一)进球数量稳定特征
现代足球进球的特点是攻守平衡而且注重进攻效率[],近几十年的规则演变一直鼓励进攻,提高足球的观赏性。

进球数量是体现进攻能力强弱的一个标准,总体上应该具有稳定特征。

图6:2012年-2016年中超场均进球数趋势图我们对近5年的场均进球进行了对比分析发现,2016年中超场均2.67个进球,同比2014年、2015年略低。

进球数量总体上呈偏正太分布,围绕着均线(2.694)上下波动,最终会维持在一个水平上,当然是在现有足球规则的条件下。

2016年中超进球的总体表现并不突出,在各队巨额投入的刺激之下,中超联赛却在进球数量、得分效率等方面都比之
前两个赛季并没有提升。

以国安、鲁能为首的老牌强队本赛季在进攻端都遇到了严重的问题。

究其原因:一是大牌外援的加入没有给2016年中超赛场带来进球狂潮,外援对中超节奏能力的适应,与全队的配合都需要一个时间过程。

二是部分队伍多线作战,身体出现疲劳,造成攻击能力下降。

认为每个俱乐部有计划的合理引援,充分考虑到外援的价值所在,抛弃功利足球的思想;二是应该培养年轻的队员,具有全局意识和发展眼光。

(二)场次动态阶梯分布特征
在模型预测图的基础上,运用spss 里面的图表编辑器添加标记、内插线等功能作处理得到了图6,以便进一步分析2016年中超进球的特点。

图7:2016年中超进球模型动态阶梯分布示意图(轮次/场次)
从图7我们可以看出,数据从左向右逐渐增加,又随着进球数量的增加而减少,整体上呈明显的动态阶梯状趋势。

场次线段中的2球和3球的相当,1球和4球相当,0球和5球相当,这与足球比赛5个队编排方法中的第一轮对阵表相同;6个球以上逐渐减少,出现小金字塔现象。

(三)场次进球对称特征
在统计学上,时间序列数据的季节性不单纯指月份而言,
也可以用年、季度、天、时、分、秒记录。

数据其往往不仅具Array有趋势性,而且具有季节性,尤其在大数据时代,时间序列数
据更加多样化[6]。

从模型可以看出,足球比赛中的进球数受到各种因素的影
响,随着时间的变化具有一定的季节性周期,我们对模型预测
部分进行放大,增加网络线,选择数据标签模式,进一步分析
数据特征。

从图8我们可以看出,以第4场(313)为基准,
两侧数据对称分布,数值有所不同,但差距不大。

在足球比赛
过程中,同一轮次的比赛有着竞争力如涉及进球数、净胜球等,
突出表现在名次列前四的争冠、亚冠名额和摆脱降级问题上。

图8:1-8场次进球示意图
参考文献:
[1]王少喆.半个亚洲将中国“踢进”12强[EB/OL].环球网./n/2016/0330/c345416-29786886.html,2016-03-30.
[2]李哲.总价2.77亿镑!中超增幅81%超5大联赛,英超才7%[EB/OL].新浪体育./china/j/2016-07-23/doc- ifxuhukz0872987.shtml,2016-07-23.
[3]全涛,孙雪翰.2008年中国足球超级联赛成绩与技术统计的因子分析[J].数理统计与管理,2011(2):370-380.
[4]范涛涛,寇艳廷,等.时间序列分析中数据的平稳性判定研究[J].现代电子技术,2013(4):66-68,72.
[5]薛俊,刘天彪,李煜,等.现代足球比赛进球基本特征与规律研究——以第14~20届世界杯足球赛进球为例[J].北京体育大学学 报,2015(8):130-134.
[6]贺珷,张廷安,杨光.2013年中国足球超级联赛射门及进球特征研究[J].北京体育大学学报,2015(06):119-125.
[7]金川江.第18届世界杯足球比赛技术统计指标与比赛结果相关性研究[J].成都体育学院学报,2007(1):23-24.
[8]刘志云.中国女足比赛技术统计指标与比赛结果的相关性研究[J].武汉体育学院学报,2011(2):26-27.
[9]阚丽萍.足球运动中9项指标与比赛成绩的相关性分析[J].体育科技文献通报,2008(2):26-27.
[10]全涛.2008年欧洲足球锦标赛攻击性进攻技术统计分析[J].数理统计与管理,2010(5):937-94.
[11]杨岭.运用“因子分析法”对现代足球进球战术特征的研究[D].湖南师范大学,2012年.
[12]杨次榆,李献青,李秋良.足球比赛进球规律探析[J].成都体育学院学报,2006(3):68-73.
[13]马佳羽,韩兆洲.复杂季节时间序列模型研究[J].统计与决策,2017(6):27-30.
[14]王丽娜,肖冬荣.基于ARMA模型的经济非平稳时间序列的预测分析[J].武汉理工大学学报(交通科学与工程版),2004(1):133-136.。

相关文档
最新文档