随机数学建模方法及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机数学建模方法及其应用
学院:数学与计算机科学学院班级:2012级数学与应用数学班姓名:马从从学号:P121713346
回归分析法概述
回归分析法是通过研究两个或两个以上变量之间的相关关系,运用数理统计方法从事物的抑制状况预测未来的一种信息研究定量方法。
优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
缺点:是当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
案例分析
以某医院的病例调查为例,对多元线性回归的显着性判断进行说明。
某医院为了解病人对医院工作的满意程度、病人的年龄、病情的严重程度、病人的忧虑程度之间的关系随机调查该医院的10位病人,可得到如下表格。
年龄病情程度忧虑程度满意度
50 51 2.3 48
36 46 2.3 57
40 48 2.2 66
41 44 1.8 70
28 43 1.8 89
49 54 2.9 36
42 50 2.2 46
45 48 2.4 54
52 62 2.9 26
29 50 2.1 77
步骤:
1、将数据导入spss
2、打开分析--回归--- 线性
3、依次打开界面的每个选项进行对应选择。
可得到以下结果。
模型汇总b
模型R R 方调整R 方标准估计的误差
1 .960a.92
2 .88
3 6.528
a. 预测变量: (常量), 忧虑程度, 年龄, 病情程度。
b. 因变量: 满意度
Anova b
模型平方和df 均方 F Sig.
1 回归3031.208 3 1010.403 23.710 .001a
残差255.692 6 42.615
总计3286.900 9
a. 预测变量: (常量), 忧虑程度, 年龄, 病情程度。
b. 因变量: 满意度
系数a
模型 非标准化系数
标准系数
B 标准 误差
试用版
t Sig.
1
(常量)
175.525
21.335
8.227
.000
年龄 -1.171 .389 -.509 -3.015 .024 病情程度 -.512 .799 -.146 -.641 .545 忧虑程度
-19.645
12.361
-.389
-1.589
.163
a. 因变量: 满意度
由上表可
以得出:
321645.195117.01713.15249.175x x x y ---=
聚类分析法概述
聚类分析法是将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似
优点:聚类分析模型的优点就是直观,结论形式简明。
缺点:在样本量较大时,要获得聚类结论有一定困难。
由于相似系数是根据被试的
残差统计量a
极小值
极大值
均值
标准 偏差
N
预测值 25.92 85.36 56.90 18.352 10 残差 -11.526 5.108 .000 5.330 10 标准 预测值 -1.688 1.551 .000 1.000 10 标准 残差 -1.766
.782
.000
.816
10
a. 因变量: 满意度
反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
案例分析
某教育研究所根据相关数据欲对北京18个区县中职教育发展进行聚类研究。
包括每万人的中职在校生数、每万人的中职招生数、每万人的中职毕业生数、每万人的中职专任教师数、专任教师中本科以上学历者占的比例等。
数据表格如下
东城156 53 45 15 0.507 0.245 701 0.0109 5356
西城119 42 31 13 0.502 0.331 552 0.0063 6449
崇文202 72 57 16 0.566 0.193 633 0.0168 5357
宜武176 57 31 17 0.63 0.234 584 0.0155 6432
朝阳221 77 45 17 0.499 0.254 553 0.0228 6625
海淀169 64 42 13 0.573 0.183 573 0.0048 5840
丰台166 66 48 15 0.444 0.142 465 0.0112 5532
石景
192 61 52 19 0.524 0.085 535 0.0158 5695 山
门头
127 53 33 30 0.143 0.026 376 0.0057 3904 湾
房山115 38 25 10 0.571 0.127 618 0.0061 7020
昌平232 80 66 19 0.531 0.106 491 0.0072 5089
顺义67 35 17 5 0.341 0.079 403 0.0006 3056
通县98 40 25 7 0.533 0.107 474 0.0031 5559
大兴205 76 67 16 0.597 0.129 616 0.0107 4990
平谷81 39 21 7 0.192 0.03 533 0.0007 2518
怀柔121 52 27 12 0.223 0.076 637 0.0023 4149
密云84 41 22 6 0.558 0.091 618 0.0043 4376 延庆78 31 23 5 0.366 0.07 424 0.0039 4677 步骤为:
1、将数据导入spss
2、打开分析----分类---系统聚类
3、在聚类界面依次进行相应项目,进行勾选。
可得如下结果。
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
聚类表
阶 群集组合
首次出现阶群集
群集 1
群集 2
系数
群集 1
群集 2
下一阶
1 2 13 .000 0 0 4 2 10 18 .000 0 0 4 3 5 7 .000 0 0 10 4 2 10 .000 1 2 12 5 8 9 .000 0 0 7 6 3 14 .000 0 0 15 7 6 8 .000 0 5 8 8 4 6 .000 0 7 10 9 1 12 .001 0 0 11 10 4 5 .001 8 3 12 11 1 17 .001 9 0 13 12 2 4 .002 4 10 14 13 1 16 .003 11 0 15 14 2 11 .004 12 0 16 15 1 3 .006 13 6 16 16 1 2 .017 15 14 17 17
1
15
.095
16
西城 2 -+
通县13 -+
房山10 -+
延庆18 -+
朝阳 5 -+
丰台7 -+
石景山8 -+-------+
门头湾9 -+ |
海淀 6 -+ |
宜武 4 -+ +---------------------------------------+
昌平11 -+ | |
崇文 3 -+-+ | |
大兴14 -+ | | |
东城 1 -+ +-----+ |
顺义12 -+ | |
密云17 -+-+ |
怀柔16 -+ |
平谷15 -------------------------------------------------+
判别分析法概述
判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
优点:用这种方法得出的预测数据比较接近实际;另外,采用这种方法,便于确定分配给各销售人员的销售任务,发挥其积极性,激励他们努力完成各自的销售任务。
缺点:由于受各种因素的影响,就比如销售人员的预测也会出现偏差,对销售人员的预测往往需要进行修正。
案例分析
为研究1991年中国城镇居民月平均收入状况,现将30个省、市、自治区为为三类。
试根据已有数据,研究广东、广西分别属于哪个收入类别?数据如下。
1 北京170.03 110.
2 59.76 8.38 4.49 26.8 16.44 11.9 0.41
2 天津141.55 82.58 50.98 13.4 9.3
3 21.3 12.36 9.21 1.05
3 河北119.
4 83.33 53.39 11 7.52 17.3 11.79 12 0.7
4 上海194.53 107.8 60.24 15.6 8.88 31 21.01 11.8 0.16
5 山东130.4
6 86.21 52.3 15.9 10.5 20.61 12.14 9.61 0.47
6 湖北119.29 85.41 53.02 13.1 8.44 13.8
7 16.47 8.3
8 0.51
7 广西134.46 98.61 48.18 8.9 4.34 21.49 26.12 13.6 4.56
8 海南143.79 99.97 45.6 6.3 1.56 18.67 29.49 11.8 3.82
9 四川128.05 74.96 50.13 13.9 9.62 16.14 10.18 14.5 1.21
10 云南127.41 93.54 50.57 10.5 5.87 19.41 21.2 12.6 0.9
11 新疆122.96 101.4 69.7 6.3 3.86 11.3 18.96 5.62 4.62
1 山西102.49 71.7
2 47.72 9.42 6.96 13.12 7.9 6.66 0.61
2 内蒙
古
106.14 76.27 46.19 9.65 6.27 9.655 20.1 6.97 0.96
3 吉林104.93 72.99 44.6 13.7 9.01 9.435 20.61 6.65 1.68
4 黑龙
江
103.34 62.99 42.95 11.1 7.41 8.342 10.19 6.45 2.68
5 江西98.089 69.45 43.04 11.4 7.95 10.59 16.5 7.69 1.08
6 河南104.12 72.23 47.31 9.48 6.43 13.14 10.43 8.3 1.11
7 贵州108.49 80.79 47.52 6.06 3.42 13.69 16.53 8.37 2.85
8 陕西113.99 75.6 50.88 5.21 3.86 12.94 9.492 6.77 1.27
9 甘肃114.06 84.31 52.78 7.81 5.44 10.82 16.43 3.79 1.19
10 青海108.8 80.41 50.45 7.27 4.07 8.371 18.98 5.95 0.83
11 宁夏115.96 88.21 51.85 8.81 5.63 13.95 22.65 4.75 0.97
1 辽宁128.46 68.91 43.41 22.4 15.3 13.88 12.4
2 9.01 1.41
2 江苏135.24 73.18 44.54 23.9 15.2 22.38 9.661 13.9 1.19
3 浙江162.53 80.11 45.99 24.3 13.9 29.5
4 10.9 13 3.47
4 安徽111.77 71.07 43.64 19.4 12.
5 16.68 9.698 7.02 0.63
5 福建139.09 79.09 44.19 18.5 10.5 20.23 16.47 7.67 3.08
6 湖南124 84.66 44.05 13.5 7.4
7 19.11 20.49 10.3 1.76
1 广东211.3 114 41.44 33.
2 11.2 48.72 30.77 14.9 11.1
2 西藏175.9
3 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0
分别为:人均生活费收入、人均各种奖金、超额工资、人均国有经济单位职工工资、人均各种津贴、人均来源国有经济单位标准工资、人均工作单位得到的其他收入、人均集体所有制工资收入、个体劳动者收入、人均集体所有制职工标准工资。
步骤为:
1、将数据导入到spss中
2、打开分析---分类---判别
3、在判别界面上进行相应操作,并选定。
可得如下结果。
组统计量
组均值的均等性的检验
Wilks 的 Lambda F df1 df2 Sig.
V3 .916 .368 2 8 .703
V4 .915 .374 2 8 .699
V5 .976 .099 2 8 .907
V6 .920 .349 2 8 .715
V7 .973 .109 2 8 .898
V8 .889 .501 2 8 .624
V9 .866 .619 2 8 .562
V10 .983 .068 2 8 .935
V11 .864 .631 2 8 .556
主成分分析概述
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
优点:1、可消除评估指标之间的相关影响。
因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。
2、可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。
3、主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部
分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。
用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。
缺点:1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
3、当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
案例分析
地区GDP
人均
GDP
农业
增加值
工业
增加值
第三产
业增加
值
固定资
产投资
基本建
设投资
社会消
费品零
售总额
海关出
口总额
地方财
政收入
辽
宁
5458.2 13000 14883.3 1376.2 2258.4 1315.9 529.0 2258.4 123.7 399.7
山
东
10550 11643 1390.0 3502.5 3851.0 2288.7 1070.7 3181.9 211.1 610.2
河
北
6076.6 9047 950.2 1406.7 2092.6 1161.6 597.1 1968.3 45.9 302.3
天
津
2022.6 22068 83.9 822.8 960.0 703.7 361.9 941.4 115.7 171.8
江
苏
10636 14397 1122.6 3536.3 3967.2 2320.0 1141.3 3215.8 384.7 643.7
上
海
5408.8 40627 86.2 2196.2 2755.8 1970.2 779.3 2035.2 320.5 709.0 浙7670 16570 680.0 2356.5 3065.0 2296.6 1180.6 2877.5 294.2 566.9
江
福
4682 13510 663.0 1047.1 1859.0 964.5 397.9 1663.3 173.7 272.9 建
广
11770 15030 1023.9 4224.6 4793.6 3022.9 1275.5 5013.6 1843.7 1202.0 东
广
2437.2 5062 591.4 367 995.7 542.2 352.7 1025.5 15.1 186.7 西
步骤:
1、将数据导入spss
2、打开分析---降维---因子分析
3、对应界面完成相应操作,并勾选。
可得结果如下
描述统计量
均值标准差分析N
GDP 6671.14 3410.308 10
人均GDP 16095.40 9713.803 10
农业增加值2147.450 4494.5273 10
工业增加值2083.59 1306.561 10
第三产业增加值2659.830 1275.2963 10
固定资产投资1658.630 830.2837 10
基本建设投资768.600 368.1172 10
社会消费品零售总额2418.090 1212.5053 10
海关出口总额352.830 537.2115 10
地方财政收入506.520 312.6804 10
相关矩阵a
GDP 人均GDP 农业增加值工业增加值第三产业增加值相关GDP 1.000 -.094 -.052 .967 .979 人均GDP -.094 1.000 -.171 .113 .074 农业增加值-.052 -.171 1.000 -.132 -.050 工业增加值.967 .113 -.132 1.000 .985 第三产业增加值.979 .074 -.050 .985 1.000 固定资产投资.923 .214 -.098 .963 .973 基本建设投资.922 .093 -.176 .939 .940 社会消费品零售总额.941 -.043 .013 .935 .962 海关出口总额.637 .081 -.125 .705 .714 地方财政收入.826 .273 -.086 .898 .913 a. 此矩阵不是正定矩阵。
相关矩阵a
固定资产投资基本建设投资社会消费品零售
总额
相关GDP .923 .922 .941 人均GDP .214 .093 -.043
农业增加值-.098 -.176 .013
工业增加值.963 .939 .935
第三产业增加值.973 .940 .962
固定资产投资 1.000 .971 .937
基本建设投资.971 1.000 .897
社会消费品零售总额.937 .897 1.000
海关出口总额.717 .624 .836
地方财政收入.934 .848 .929 a. 此矩阵不是正定矩阵。
相关矩阵a
海关出口总额地方财政收入
相关GDP .637 .826 人均GDP .081 .273
农业增加值-.125 -.086
工业增加值.705 .898
第三产业增加值.714 .913
固定资产投资.717 .934
基本建设投资.624 .848
社会消费品零售总额.836 .929
海关出口总额 1.000 .882
地方财政收入.882 1.000 a. 此矩阵不是正定矩阵。
公因子方差
初始提取
GDP 1.000 .938
人均GDP 1.000 .691
农业增加值 1.000 .470
工业增加值 1.000 .957
第三产业增加值 1.000 .978
固定资产投资 1.000 .970
基本建设投资 1.000 .897
社会消费品零售总额 1.000 .985
海关出口总额 1.000 .642
地方财政收入 1.000 .927
提取方法:主成份分析。
解释的总方差
成份
初始特征值提取平方和载入
合计方差的% 累积% 合计方差的% 累积%
1 7.220 72.205 72.205 7.220 72.205 72.205
2 1.235 12.346 84.551 1.235 12.346 84.551
3 .877 8.769 93.319
4 .547 5.466 98.786
5 .085 .854 99.640
6 .021 .211 99.850
7 .012 .119 99.970
8 .002 .018 99.988
9 .001 .012 100.000
10 -2.975E-16 -2.975E-15 100.000
描述统计量
均值标准差分析N GDP 6671.14 3410.308 10 人均GDP 16095.40 9713.803 10 农业增加值2147.450 4494.5273 10 工业增加值2083.59 1306.561 10 第三产业增加值2659.830 1275.2963 10 固定资产投资1658.630 830.2837 10 基本建设投资768.600 368.1172 10 社会消费品零售总额2418.090 1212.5053 10 海关出口总额352.830 537.2115 10 提取方法:主成份分析。
成份矩阵a
成份
1 2
GDP .949 .195
人均GDP .112 -.824
农业增加值-.109 .677
工业增加值.978 -.005
第三产业增加值.986 .070
固定资产投资.983 -.068
基本建设投资.947 -.024
社会消费品零售总额.977 .176
海关出口总额.800 -.051
地方财政收入.954 -.128
提取方法:主成分分析法。
a. 已提取了2 个成份。
因子分析法概述
因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。
应用范围为:解决共线型问题、评价问卷的结构效度、寻找变量间潜在的结构、内在结构证实
案例分析
下表资料为25位健康人的7项生化检验结果,7项生化检验指标依次命名为X1到X7,数据如下。
X1 X2 X3 X4 X5 X6 X7
3.76 3.66 0.54 5.28 9.77 13.74
4.78
8.59 4.99 1.34 10.02 7.5 10.16 2.13
6.22 6.14 4.52 9.84 2.17 2.73 1.09
7.57 7.28 7.07 12.66 1.79 2.1 0.82
9.03 7.08 2.59 11.76 4.54 6.22 1.28
5.51 3.98 1.3
6.92 5.33
7.3 2.4
3.27 0.62 0.44 3.36 7.63 8.84 8.39
8.74 7 3.31 11.68 3.53 4.76 1.12
9.64 9.49 1.03 13.57 13.13 18.52 2.35
9.73 1.33 1 9.87 9.87 11.06 3.7
8.59 2.98 1.17 9.17 7.85 9.91 2.62
7.12 5.49 3.68 9.72 2.64 3.43 1.19
4.69 3.01 2.17
5.98 2.76 3.55 2.01
5.51 1.34 1.27 5.81 4.57 5.38 3.43
1.66 1.61 1.57
2.8 1.78 2.09
3.72
5.9 5.76 1.55 8.84 5.4 7.5 1.97
9.84 9.27 1.51 13.6 9.02 12.67 1.75
8.39 4.92 2.54 10.05 3.96 5.24 1.43
4.94 4.38 1.03 6.68 6.49 9.06 2.81
7.23 2.3 1.77 7.79 4.39 5.39 2.27
9.46 7.31 1.04 12 11.58 16.18 2.42
9.55 5.35 4.25 11.74 2.77 3.51 1.05
4.94 4.52 4.5 8.07 1.79 2.1 1.29
8.21 3.08 2.42 9.1 3.75 4.66 1.72
9.41 6.44 5.11 12.5 2.45 3.1 0.91 步骤为:
1、把数据导入spss
2、打开分析---降维---因子分析
3、在所打开的界面进行相应操作,并勾选。
结果如下
描述统计量
均值标准差分析N
X1 7.1000 2.32380 25
X2 4.7732 2.41779 25
X3 2.3488 1.66556 25
X4 9.1524 3.01405 25
X5 5.4584 3.27344 25
X6 7.1680 4.55784 25
X7 2.3460 1.61091 25
相关矩阵
X1 X2 X3 X4 X5 X6 X7 相关X1 1.000 .580 .201 .909 .283 .287 -.533 X2 .580 1.000 .364 .837 .166 .261 -.608 X3 .201 .364 1.000 .436 -.704 -.681 -.649 X4 .909 .837 .436 1.000 .163 .203 -.678 X5 .283 .166 -.704 .163 1.000 .990 .427 X6 .287 .261 -.681 .203 .990 1.000 .357 X7 -.533 -.608 -.649 -.678 .427 .357 1.000 成份矩阵a
成份
1 2
X1 .746 .489
X2 .796 .372
X3 .709 -.597
X4 .910 .389
X5 -.234 .963
X6 -.177 .972
X7 -.886 .219
提取方法:主成分分析法。
a. 已提取了2 个成份。
公因子方差
提取
X1 .797
X2 .773
X3 .859
X4 .980
X5 .983
X6 .976
X7 .834
提取方法:主成份
分析。
解释的总方差
成份
提取平方和载入旋转平方和载入
合计
方差
的% 累积% 合计
方差
的% 累积%
1 3.395 48.503 48.503 3.306 47.231 47.231
2 2.806 40.090 88.59
3 2.895 41.362 88.593 提取方法:主成份分析。
旋转成份矩阵a
成份
1 2
X1 .878 .161 X2 .878 .033 X3 .421 -.826 X4 .990 .004 X5 .159 .979 X6 .214 .964 X7 -.732 .547 提取方法:主成分分析法。
旋转法:具有Kaiser 标准化的正交旋转法。
a. 旋转在3 次迭代后收敛。
成份转换矩阵
成份 1 2
1 .921 -.389
2 .389 .921
提取方法:主成分分析法。
旋转法:具有Kaiser 标准化的正交旋转法。
成份得分系数矩阵
成份
1 2
X1 .270 .075
X2 .268 .031
X3 .110 -.277
X4 .301 .023
X5 .070 .343
X6 .087 .339
X7 -.210 .173
提取方法:主成分分析法。
旋转法:具有Kaiser 标准化的正交旋转法。
构成得分。
成份得分协方差矩阵
成份 1 2
1 1.000 .000
2 .000 1.000
提取方法:主成分分析法。
旋转法:具有Kaiser 标准化的正交旋转法。
构成得分。
分析结果可得:最后得到的第一个因子和第二个因子又可以代入到原始数据中,进而在此进行进一步分析。
成份矩阵a。