数学建模统计建模论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
历年数模竞赛试题的统计分析
摘要
全国大学生数学建模竞赛作为大学生热门赛事,其试题难度趋势及建模方法是直接关系到比赛好坏。
本文也是围绕该问题,利用主成分统计方法及历年赛题相关文献建立一系列数学模型对历年赛题进行综合评价预测和重要性建模方法排序,最后由模型的求解结果提出建设性意见。
对于问题一:本文利用主成分分析方法建立了综合评价预测模型,在实际基础上对影响赛题难易度的因素设置合理的值,再利用第一主成分对历年赛题进行综合评价,评价结果为,2010年的赛题最难,其次是2015年,在此基础上建立主成分回归方程,对2016年赛题难易程度的预测,结果为该年的获奖率较高,难度不大。
对于问题二:本文在综合评价预测模型基础上建立了重要性排序模型。
通过对历年的赛题解题方法进行统计分析,建立评价函数,最后得到建模方法的重要性排序。
建模中所用方法最多、最重要的是运筹规划,次之是网络优化和数值运算。
对于问题三,我们在问题一和问题二的求解结果的基础上提出短期建议应提高运筹规划,网络优化和数值运算的掌握与应用,并在长期建议中提出提高阅读能力,拓宽知识面和学习计算机新型算法等建议。
该模型思路方法清晰,适合对数模竞赛题进行统计分析。
关键字:主成分分析;评价;预测;排序
1介绍
1.1背景
自80年代开始,我国的数学建模教学和数学建模竞赛日益蓬勃地发展起来。
到如今,全国数学建模竞赛已成为全国大学生及研究生的重要赛事,且竞赛成绩也成为了衡量一个高等学府实力的一个标准。
数学建模竞赛有利于推进高校学生的综合素质教育,还有利于建立高校学生把实际问题和数学方法联立的思想方法。
正因为如此,提前的科学性教学以及对历年赛题的分析也变得尤为重要。
1.2问题重述
全国大学生数学建模竞赛题型众多,对于建模竞赛试题题型及难度趋势的把握,关系到赛前准备工作的落实及比赛成绩的好坏。
但是将每个题目都做一遍显然不可能,一种思路是对题目的特点进行分析,作出判断,用于指导赛前的各项准备工作。
请根据历年的全国题目(必选)和有关高校的选拔题目(自选)的特点(例如数据、方法、规模等),建立模型进行分析,解决以下问题:
1、对建模题目的难度趋势进行综合评价和预测。
2、根据这些题目常用的建模方法作统计分析,对常用建模方法的重要性进行排序。
3、对建模培训的内容、方式等方面给出建议报告。
1.3问题分析
针对以上问题,进行如下分析:
对于问题一:本问题主要是解决对建模题目的难度进行综合评价,并对建模题目进行预测。
首先我们通过查阅文献,对历届的赛题进行难易度分析,选取了针对数模竞赛问题的难易度影响因素,并且根据每一个因素取值不同特点,可将其分为连续变量、分类变量、等级变量,并给出了变量范围。
通过主成分分析的方法,对历届的赛题的难易度进行综合评价,然后建立主成分回归方程对2016年建模题目难度进行预测。
对于问题二:本问题主要对历代建模题目的题目方法统计,然后对建模方法的重要性进行排列。
我们通过查阅文献,对历年的赛题解题方法进行统计分析,然后在问题一模型的基础上,建立评价函数,对建模使用方法的重要性进行排序。
最后,对重要的建模的方法进行分析。
对于问题三:本问题是在前两问题求解的基础上如何有效地进行建模培训和学习提出建设性意见。
利用问题一的历年赛题难度评价结果和问题二的重要性建模方法结果,针对因素分析提出学习内容方面建议,针对使用方法分析提出重点学习使用方法建议。
1.4问题假设
1.假设影响数模问题的难度趋势因素不完全相关。
2.由于各个因素影响数模问题的难度趋势是有差异的,假设随机因素服从
2(0,)N σ。
1.5符号解释
ij x ,ij y :第i 组样本数据中第j 个变量的值
X :样本阵
Y :X 做标准化后的标准化矩阵
j x :矩阵X 中第j 的均值 j a :矩阵X 中第j 的标准差
R :标准化的矩阵Y 的样本相关系数阵 j F ,j Q :第j 个主成分 Y Q :评价函数
i c :第i 个指标的权重 A :重要性综合评价
2模型建立与求解 2.1综合评价预测模型 2.1.1模型的建立
由假设1,影响数模问题的难度趋势因素不完全相关,利用统计中主成分思想来筛选因素是有意义的,主成分的基本思想是利用线性代数中的正交变换将一组相关变量生成新的不相关的新的变量,然后对新的变量进行降维处理,以高精度形成低维系统[1]。
通过查阅相关文献[2]
,制定了影响数学建模题目难易程度的因素,具体见表1,而且我们根据每一个因素取值不同特点,可将其分为连续变量、分类变量、等级变量,并给出了变量范围。
表1数学建模题目难易程度的因素
影响因素 变量性质 变量范围 易.........难
题目阅读量 连续变量 150500n ≤≤ 150........500 条件的利用情况 分类变量 0,1 0..........1 考查知识点的多少 等级变量 15n ≤≤ 1. (5)
数学过程的复杂性 等级变量 15n ≤≤ 1..........5 数据收集的难易程度 等级变量 15n ≤≤ 1..........5 问题的开放性 分类变量 0,1 0..........1 情景特征的建模难度 等级变量 15n ≤≤ 1..........5 问题的可思考性 分类变量 0,1 0..........1 问题情景的新颖性 等级变量 15n ≤≤ 1..........5 问题的表达方式 分类变量 0,1 0..........1 分布设问情况 等级变量 15n ≤≤ 1..........5 计算机算法的容易度 分类变量 0,1 0. (1)
由表1得,设影响因素构成的向量为1212(,,,)x x x 。
则样本阵为:
1112112122221
2
T n T n T n n nn n x x x x x x x x X x x x x ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪
=
= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭
⎝⎭ (1) 其中,ij x 表示第i 组样本数据中第j 个变量的值。
对X 做标准化变换得标准化矩阵Y 为
1112112122221
2
T n T n T n n nn n y y y y y y y y Y y y y y ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪
=
= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭
⎝⎭ (2) 其中,ij j ij j
x x y a -=
,j x ,j a 代表矩阵X 中第j 的均值与标准差。
计算标准化的矩阵Y 的样本相关系数阵R
1
T Y Y
R n =- (3)
计算相关系数矩阵R 的特征值
0n R I λ-= (4) 解得n 个特征值120n λλλ≥≥≥≥,取前m 个主成分j F (1,2
j m =),
需要由下式确定:
110.8m
j
j n
j
j λλ
==≥∑∑ (5)
其中(5)式也成为累计贡献率,它的意义是前m 个主成分综合原始变量所含信息的能力。
在假设2的基础上得到主成分回归方程,此方程可以对未来赛题的难易程度作出预测,方程为:
1122n n f x x x βββ=+++(1,2
,12n =) (6)
2.1.2模型的求解
通过查阅2009年至2015年全国大学生数学建模赛题分析的相关文献[3]
,我们由此为依据得到影响题目难易程度的具体变量值,查阅浙江赛区2009年至2015荣获全国一等奖的比率作为衡量题目难易程度的指标,比率越高,题目越 简单,具体见表2。
表2 数模赛题难易程度的具体变量值及获奖率
年份
2009 2010 2011 2012 2013 2014 2015 题目阅读量 500 195 387 457 483 302 189 条件的利用情况 1 0 1 0 0 0 1 考查知识点的多少 4 5 4 4 4 5 5 数学过程的复杂性 4 5 3 4 5 5 5 数据收集的难易程度
4 4 2 3 4
5 4 问题的开放性 1 1 0 1 0 1 1 情景特征的建模难度 2 3 2 3 4 4 5 问题的可思考性 0 1 0 0 1 0 1 问题情景的新颖性 3 5 2 3 5 3 4 问题的表达方式 0 1 0 0 0 0 1 分布设问情况 4 5 3 4 4 4 4 计算机算法的容易度
1
1
1
1
1
1
获奖率
0.036585 0.052922 0.043513 0.051459 0.052672 0.050833 0.044715
由(1)—(5)式,通过SAS编程计算,得到表3的结果
表3影响因素的相关参数
特征值累计贡献率
1 6.28847749 0.524
2 1.7731475 0.6718
3 1.56782999 0.8025
4 1.45721733 0.9239
5 0.60155408 0.974
6 0.31177361 1
由于前三个主成分的累计贡献率已经达到0.8,因此3
m ,具体主成分见表4,
表4 影响因素的样本主成分
主成分1 主成分2 主成分3
x1 -0.293936 0.44339 -0.051158
x2 -0.163226 -0.492259 0.041319
x3 0.329157 -0.263566 0.259519
x4 0.359983 0.269671 0.135596
x5 0.272626 0.278789 0.412325
x6 0.190478 -0.188215 0.480923
x7 0.26401 0.141776 0.220633
x8 0.300956 0.045613 -0.404933
x9 0.319979 0.271372 -0.345077
x10 0.314979 -0.405917 -0.170298
x11 0.33737 0.105441 -0.071855
x12 -0.250454 0.184495 0.37782
由于第一主成分的特征值最大,我们选取第一主成分对赛题难易程度排序,结果见表5。
表5赛题难易程度排序
名次年份
1 2010
2 2015
3 2014
4 2013
5 2012
6 2009
7 2011
由(6)式由SAS 软件求得主成分回归方程如下:
将表2的结果代入回归方程得到各年获奖率的理论值,具体见表6。
表6各年的获奖率实际值与理论值 年份 实际值 理论值 相对误差 2009 0.036585 0.044683207 0.221353205 2010 0.052922 0.051731732 0.022490987 2011 0.043513 0.041019729 0.057299451 2012 0.051459 0.04670392 0.092405216 2013 0.052672 0.054144838 0.027962447 2014 0.050833 0.047626081 0.063087345 2015 0.044715 0.046783305 0.046255283
将表6结果利用Matlab 画出图像,得到图1。
图1各年的获奖率实际值与理论值图像
大数据近年来是许多学者研究的方向[4]
,我们以此为背景利用主成分回归方程对2016年赛题的难易程度进行预测,具体结果见表7。
表7 2016年赛题的难易程度预测
年份
2016 题目阅读量 300 条件的利用情况 1 考查知识点的多少
4
123456789101112
.0000047480.0023848960.0007970.001094120.0005070.0013732330.0003469810.0016632640.0011664360.0005910370.0012250.03459206310.000836938x x x x x x x x x x x f x --++-+++-+-=+
数学过程的复杂性 4 数据收集的难易程度
4 问题的开放性 0 情景特征的建模难度
5 问题的可思考性 1 问题情景的新颖性 5 问题的表达方式 0 分布设问情况 4 计算机算法的容易度
1
获奖率 0.050143919
2.1.3结果分析
由主成分分析综合评价结果表5发现,2010年的赛题最难,其次是2015年,这是因为这两年考察知识点、数学过程的复杂性等级较高,而且问题具有一定的开放性、新颖性,建模难度比较大,这些都是和实际情况相符合。
由表6和图1结果不难发现,主成分回归方程用来预测的相对误差较小,理论值和实际值的曲线非常接近,说明主成分回归方程用来预测较为合理,利用此方程来预测2016年赛题的难度趋势,由表7得知,该年的获奖率较高,说明试题大家普遍都能做,难度不大。
2.2重要性排序模型 2.2.1模型的建立
我们选取综合评价预测模型的相关方法,即主成分分析方法,建立评价函数,最后对各个数模方法的重要性进行排序。
同样,设影响因素构成的向量为12(,,,)n y y y 。
根据实际数据调查[3]
,对历年数模问题的方法进行统计,具体见表2,0表示没有用到该方法,1表示用到了该方法。
表1 对公共安全因素评判打分
年份 1w 2w L w 方法
1y 11y 11y 1L y
2y 21
y 22
y 2L y
n y 1
n y 2
n y
nL y
则样本阵为:
11121121
22221
2
T n T n T n n nn n y y y y y y y y
Y y y y y ⎛⎫⎛⎫ ⎪
⎪ ⎪ ⎪
== ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭
⎝⎭ (7) 其中,ij y 表示第i 组样本数据中第j 个变量的值。
对Y 做标准化变换得标准化矩阵Z 为
1112112122221
2
T n T n T n n nn n z z z z z z z z Z z z z z ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪
=
= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭
⎝⎭ (8) 在(3)—(4)式基础上,解得n 个特征值120n λλλ≥≥
≥≥特征值越大,对应
的因素也就越重要,因此根据特征值的大小,可以将方法的重要程度按从大到小排列。
一般来说特征值所对应方法无法确定,而主成分最大的优点是利用低维向量系统就可进行评价,只需取部分主成分构造评价函数得到评价权重,即可对重要的影响因素进行筛选,取前m 个主成分j Q (1,2j m =),需要由(5)式确
定, 利用前m 个主成分构造评价函数: 11221
1
(/)m
m
Y j j j L n j j Q Q b w b w b w λλ====++
+∑∑ (9)
由此得到原有指标得分值: 1,(1,2
,)L
Yi j ij j V b y i n ===∑ (10)
由(7)式得到各指标的权重:
1/n
i Yi Yi i c V V ==∑ (11)
再由表2的结果,运用模糊评判[5]
,计算各类方法用到的总数: 11L
i ij j r y ==∑(1,2,
,i n =) (12)
由(12)式得到各类方法归一化的矩阵:
1111
2111111/000/0000/n
i i n
i i n n i i r r r r R r r ===⎛⎫ ⎪
⎪
⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪
⎝⎭
∑∑∑ (13)
最后得到重要性的综合评判:
ij A c R = (14) 2.2.2模型的求解
通过查阅1993年至2015年全国大学生数学建模赛题方法的相关文献[3]
,得到表8的结果。
1表示运用该方法,0表示没有运用该方法。
表8 1993年至2015年赛题的建模方法
1993 1994 1995 1996 1997 1998 1999 2000 运筹规划 1 1 1 1 1 1 1 1 网络优化 1 0 0 1 0 1 1 1 数值计算 1 1 1 0 1 1 1 0 统计与评价 0 0 0 0 0 0 0 0 微分方程与差分方程 0 0 0 1 0 0 0 0
计算机模拟 1 0 0 0 1 0 1 1 几何与微积分 0 0 0 0 0 0 0 0
续表8
2001 2002 2003 2004 2005 2006 2007 2008 运筹规划 1 1 1 0 1 1 1 0 网络优化 0 0 0 1 0 1 1 1 数值计算 1 0 0 1 1 1 1 1 统计与评价 0 1 0 1 1 0 0 1 微分方程与差分方程 0 0 1 0 0 0 1 0
计算机模拟 0 0 0 0 0 0 0 0 几何与微积分 0 0 0 0 0 0 0 0
续表8
2009 2010 2011 2012 2013 2014 2015 运筹规划 0 0 1 1 1 0 1
网络优化0 0 0 0 0 1 1
数值计算 1 1 1 0 1 0 0
统计与评价 1 1 1 1 1 0 1
微分方程与差分
方程
0 0 0 0 0 1 0
计算机模拟 1 0 0 0 0 0 0
几何与微积分0 1 0 0 0 1 0
由(7)、(8)、(3)—(5)式,通过SAS编程计算,得到表9结果。
表9 建模方法的相关参数
特征值贡献率累计贡献
率
1 8.93661956 0.3885 0.3885
2 5.14980931 0.2239 0.6125
3 3.3179153
4 0.1443 0.7567
4 2.78368969 0.121 0.8777
5 2.1757972 0.094
6 0.9723
6 0.63616889 0.027
7 1
由于前四个主成分的累计贡献率已经达到0.8,因此4
m ,
表10 建模方法样本的主成分
主成分1 主成分2 主成分3 主成分4 x1 0.211482 0.219838 -0.281344 -0.016169
x2 0.301503 0.050412 -0.011771 -0.141351
x3 0.301503 0.050412 -0.011771 -0.141351
x4 0.032873 0.343386 0.284405 0.17103
x5 0.225157 0.071869 -0.204958 -0.361372
x6 0.261559 0.193988 -0.087131 0.216168
x7 0.211482 0.219838 -0.281344 -0.016169
x8 0.085384 0.28239 -0.061541 -0.01805
x9 0.301503 0.050412 -0.011771 -0.141351
x10 0.172941 -0.159786 0.372745 -0.014027
x11 0.050991 0.214069 0.395226 -0.190797
x12 0.121161 -0.169018 -0.164976 0.465196
x13 0.283971 -0.208416 0.120466 -0.010924
x14 0.261559 0.193988 -0.087131 0.216168
x15 0.158972 0.280834 0.064603 0.172912
x16 0.121161 -0.169018 -0.164976 0.465196
x17 0.084759 -0.291138 -0.282804 -0.112345
x18 0.017203 -0.369235 -0.090192 0.061307 x19 0.283971 -0.208416 0.120466 -0.010924 x20 0.172941 -0.159786 0.372745 -0.014027 x21 0.283971 -0.208416 0.120466 -0.010924 x22 -0.233894 0.182566 0.073747 0.243261 x23 0.144198 0.002105 0.263883 0.332398
由(9)—(11)式,得到指标的分值及权重,具体见表11。
表11指标的分值及权重
1Y V 2Y V 3Y V 4Y V 5Y V 6Y V 7Y V
2.151468 1.247506 1.325564 0.519753 0.453466 0.235456
0.10425
1c 2c 3c 4c 5c 6c 7c
0.369099 0.214018 0.22741 0.089167 0.077795 0.040394
0.01788
再由(12)—(14)式,得到重要性方法排列结果:
0.03566974,0.05513,0.01351,0.004715,0.003(0.1006606,0.00)3,054A 2.2.3结果分析
由上述结果不难发现,运筹规划方法占的比重是最大的,其次网络优化方法以及数值计算方法也比较大,运筹规划方法包括线性规划、非线性规划、动态规划、决策论、排队论等优化知识,网络优化包括图论等。
这和数学建模本身来说是比较相符,在现实意义下,优化问题一直是热门问题,也是一个难点问题,因此求解结果较为合理。
3数学建模建设性报告
全国大学生数学建模竞赛作为大学生的重要赛事,也作为衡量一个高校实力的
一个重要赛事。
对竞赛试题的把控对各高校来说具有不可忽视的重要性。
本文基于这种情况运用数学模型对2016年的赛事试题进行了预测。
预测结果如下:
1.按照往年趋势,预测2016年全国大学生数学建模竞赛赛题依然以低阅读量,多知识面,少数据以及较大开放性为主。
在此基础上对计算机的算法要求也会相应增加。
设问情况以4问或5问为主,设问条理清晰。
2.基于往年数据的分析,预测2016年全国大学生数学建模竞赛赛题解法主
要以运筹规划,网络优化和数值运算为主。
在此主体上,可能存在统计与评价的方法的应用,其他数学方法可能的几率较低。
基于以上两点预测结果,提出相应的建议:
1.对于短期建议,2016年数模竞赛在即,我们需要的是对主要方法运筹规划,网络优化,数值运算,统计与评价方法重点学习,并能熟练地应用,还需适量了解其他方法的运用。
2.对于长期建议,我们应加强在阅读理解题意的能力,未来的趋势是在少阅读量的基础上提出相应问题。
还应拓宽知识面,未来发展将有更广的知识面和更大的开放性。
在此基础上对计算机新型算法的掌握也有较大的重要性,未来的计算将更依赖于计算机,计算的复杂性也会相应的加大。
以上是对教学和学习方面的几项建议。
4模型的优缺点及推广
优点:1.综合评价预测模型在对难易度分析方面有较为简便的运算和较强的适应性。
2.重要性排序模型运用主成分分析法,运用客观数据,可靠性较高,结果较为准确。
缺点:综合评价预测模型运用了主成分分析法,对难度打分存在主观意思误差。
推广:综合评价预测模型可适用于大多数有历史数据的近期预测,重要性排序模型可适用于事物因素筛选情况。
5参考文献
[1]张鹏.基于主成分分析的综合评价研究[D].南京:南京理工大学,2004
[2]杜明荣.高中物理试题难度的影响因素研究[D].重庆:西南大学,2008
[3]中国数学建模网./home/
[4]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):10-17
[5]刘运通,胡江碧.模糊评判的数学模型及其参数估计[J],北京工业大学学报,2001,27(1):112-115。