概率论与数理统计在数学建模中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率论与数理统计在数学建模中的应用
概率论与数理统计在数学建模中的应用
——国 冰。
第一节 概率模型
一、初等概率模型
初等概率模型主要介绍了可靠性模型、传染病流行估计、常染色体遗传模型等三类问题:
1、复合系统工作的可靠性问题的数学模型
设某种机器的工作系统由N 个部件组成,各部件之间是串联的,即只要有一个部件失灵,整个系统就不能正常工作.为了提高系统的可靠性,在每个部件上都装有主要元件的备用件及自动投入装置(即当所使用元件损坏时,备用元件可自动替代之而开始工作)明显地,备用件越多,整个系统正常工作的可靠性就越大. 但是,备用件过多势必导至整个系统的成本、重量和体积相应增大,工作精度也会降低. 因此,配置的最优化问题便被提出来了:在某些限制性条件之下,如何确定各部件的备用件数量,使整个系统的工作可靠性最大? 这是一个整体系统的可靠性问题.我们假设第i 个部件上装有i x 个备用件(1,2,,)i N =,此时该部件正常工作的概率为()i p x ,那么整个系统正常工作的可靠度便可用
1()n
i i p p x ==∏ (9.1)
来表示.
又设第i 个部件上的每个备用件的费用为i C ,重量为i W ,并要求总费用不超过C ,总重量不超过W ,则问题的数学模型便写成为
1max ()n
i i p p x ==∏
合理的决策必须具备三个条件:
(1)目标合理;
(2)决策结果满足预定目标的要求;
(3)决策本身符合效率、满意、有限合理、经济性的原则。
所谓风险型决策是指在作出决策时,往往有某些随机性的因素影响,而决策者对于这些因素的了解不足,但是对各种因素发生的概率已知或者可估算出来,因此这种决策存在一定的风险.
①风险决策模型的基本要素
决策者——进行决策的个人、委员会或某个组织.在问题比较重大和严肃时,通常应以后者形式出现.
方案或策略——参谋人员为决策者提供的各种可行计划和谋略. 如渔民要决定出海打鱼与否便是两个方案或称两个策略.
准则——衡量所选方案正确性的标准.作为风险型决策,采用的比较多的准则是期望效益值准则,也即根据每个方案的数学期望值作出判断.对收益讲,期望效益值越大的方案越好;反之对于损失来讲,期望效益值越小的方案越好.
事件或状态——不为决策者可控制的客观存在的且将发生的自然状态称为状态(事件),如下小雨,下大雨和下暴雨即为三个事件或称三种状态,均为人所不可控因素.
结果——某事件(状态)发生带来的收益或损失值.
②风险决策方法
•利用树形图法表示决策过程具有直观简便的特点,将其称为决策树的方法.
•充分利用灵敏度分析(即优化后分析)方法对决策结果作进一步的推广和分析.
决策树一般都是自上而下的来生成的。
选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
从根到叶子节点都有一条路径,这条路径就是一条“规则”。
决策树可以是二叉的,也可以是多叉的。
对每个节点的衡量:
1) 通过该节点的记录数
2) 如果是叶子节点的话,分类的路径
3) 对叶子节点正确分类的比例。
有些规则的效果可以比其他的一些规则要好。
决策树对于常规统计方法的优点。
构造好的决策树的关键在于如何选择好的逻辑判断或属性。
对于同样一组例子,可以有很多决策树能符合这组例子。
人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。
要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。
由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。
下面我们利用一个例题来说明如何来建立风险决策模型。
例1、天龙服装厂设计了一款新式女装准备推向全国。
如果直接大批量生产与销售,主观估计成功与失败的概率各为0.5,其分别的获利为1200万元与-500万元,如取消生产销售计划,则损失设计与准备费用40万元。
为稳妥起见,可先小批量生产试销,试销的投入需45万元。
据历史资料与专家估计,试销成功与失败的概率分别为0.6与0.4,又据过去情况,大批生产销售为成功的例子中,试销成功的占84%,大批生产销售失败的事例中,试销成功的占36%。
试根据以上数据,通过建立决策树模型按期望值准则确定最优决策。
解答:本题显然是要考核风险性决策模型的建立能力。
按照这类模型的建立思路,我们有:
问题分析与模型假设
1. 问题涉及直接大批量生产与销售、取消生产销售计划和小批量试销售这样三个决策方案的取舍,在每种方案下又分为成功或失败两种结果;
2. 决策目标在表面上看是获利大小,实际上是要决定试销与否;
3. 尚需注意后面几句话:“大批生产销售为成功的例子中,试销成功的占84%,大批生产销售失败的事例中,试销成功的占36%”,这意味着要计算两个概率,其一是当试销成功时,大批量销售成功与失败的概率;其二是试销失败情
况下,大批量销售成功与失败的概率,这意味着要利用贝叶斯概率公式;
4. 设定以下变量
A --试销成功,则A --试销失败;
B --大量销售成功,则B --大量销售失败。
模型建立求解
1.先来计算两个概率,注意到,36.0)/(,6.0)(,84.0)/(===B A P B P B A P 代入贝叶斯概率公式 )()/()()/()()/()/(B P B A P B P B A P B P B A P A B P +=
,78.04
.036.06.084.06.084.0≈⨯+⨯⨯= 从而.22.0)/(=A B P 即当试销成功时,大批量销售成功与失败的概率分别为0.78和0.22.
同理可以算出在试销失败情况下,大批量销售成功与失败的概率分别为0.22和0.78.
2. 以试销与否作为决策思路,先画一方块“囗”称为决策结点,由决策结点向右引出若干条直线表示不同的策略(方案)称为策略分枝,策略分枝的右端画一个圆圈“○”称为状态结点,由它引出表示不同状态及其发生的概率的分枝称为概率分枝,最后在概率分枝的终点画“△”符号表示这一分枝的最终结果的效益值(期望值),正值表收益,负值表示损失.本例对应的决策树如图(见图-2):
这棵树即为所求的数学模型。
我们继续将模型求解出来。
根据期望利润值最大准则对决策树进行计算,值得指出的是,画决策树是从左向右画出,画的过程中将各种已知数据标于相应的位置上. 但在决策树上进行决策计算却是从右向左进行的:先计算最右端每个状态结点的期望值。
一级决策问题,只需利用结果点效益值计算各状态结点的期望效益值即可. 当有两级以上决策时则需从右向左逐级计算.结果如图-3
万 万 万
万
万
万 万
万
万
图
决策树的优缺点:
优点:
1)可以生成可以理解的规则。
2)计算量相对来说不是很大。
3)可以处理连续和种类字段。
4)决策树可以清晰的显示哪些字段比较重要
缺点:
1)对连续性的字段比较难预测。
2)对有时间顺序的数据,需要很多预处理的工作。
3)当类别太多时,错误可能就会增加的比较快。
4)一般的算法分类的时候,只是根据一个字段来分类
三、随机性存储模型
问题分析与模型假设 工厂为了稳定的生产,需要贮存一定的原料或零部件;商店为了满足顾客的需要,要有足够的库存商品;银行为了进行正常的营业,需要一定的货币进行周转;医院为了手术的急需,血库必备充足血液. 总之库存问题是普遍存在的. 早在1915年, 哈里斯(Harris)
对商业中的库存问题建立了一个简单模型,并求万 万 万
万
万 万
万
万 万
图
得了最优解, 但未被人们注意. 1918年威尔逊(Wilson)重新得出了哈里斯的公式, 并将其发展. 他们的模型都是确定性的, 二次大战后, 带有随机性因素的库存模型得到研究。
目前, 库存问题的兴趣已转到了多物品、多个库存点的理论。
在随机性需求的情况下,要制订最优的存储策略必须知道一个时间段(如一天、一周、一个月等)内需求量的概率分布,以及订货费、存储费、缺货费(在随机需求的情况下,缺货几乎是不可避免的)。
这里有两个可以考虑的问题,第一个问题是:决策者在每个时间段初,应该根据已有的存储量确定应订购多少货物使存储量达到最大,记这个最大的存储量为S 。
第二个问题是:已有的存储量不低于什么数值时,本时间段就可以不再订购,记这个决定不再订购的那个存储量的最低值为s 。
整个这种随机存储策略称为(,)s S 存储策略。
给出以下假设:
(1) 只考虑一种物品, 其需求是随机的, 需求量X 是非负连续的随机变量,密度函数为()x ϕ, 分布函数为()x Φ;
(2) 只考虑一个库存周期,即在库存周期开始时, 做一次决策, 决定进货量;
(3) 瞬时供货;
(4) 决策前原有库存量为I , 进货量为Q , 决策后的库存量为y I Q =+;
(5) 费用包括订货费、存贮费和缺货费. 每次的订购手续费为K , 货物单价为p ; 存贮费在周期末结算, 它与期末的库存量成正比, 比例系数为h (单位存贮费), 缺货费与缺货量成正比, 比例系数为g (单位缺货损失);
(6) 决策的准则是期望总费用最小.
模型的建立与求解
库存问题有补充—库存—需求三个环节. 在这一系统中, 若一次进货量多, 进货的次数就少, 进货的费用就少, 但库存量大, 库存费用就大, 造成需求缺货就可能少, 缺货损失就会少; 若一次进货量少, 进货的次数就多, 进货费用就大, 但库存量小, 库存费用就小, 造成需求缺货就可能多, 缺货损失就会大. 如何协调这些矛盾, 使该系统在某种准则下运行最佳. 即如何确定进货量, 使
其总费用最小.
进货费用为
1()()0
K p y I y I
c y I y I +->⎧-=⎨
=⎩ 存贮费用为
2()()0
h y X X y
c y X X y -<⎧-=⎨
≥⎩ 期望存贮费用为
220
()()()()()y
Ec y X c y x x dx h y x x dx ϕϕ∞-=-=-⎰⎰
缺货损失为
3()()0
g X y X y
c X y X y ->⎧-=⎨
≤⎩ 期望缺货损失为
330
()()()()()y
Ec X y c x y x dx g x y x dx ϕϕ∞∞
-=-=-⎰⎰
记 23()()()L y Ec y X Ec X y =-+- 则总费用为
()()()()K p y I L y y I
C y L y y I +-+>⎧=⎨
=⎩
(2) 目的是求min ()y
C y
当需要进货时有
()()()()()()y y
C y K p y I h y x x dx g x y x dx ϕϕ∞
=+-+-+-⎰⎰
令 0()()()0y y dC y p h x dx g x dx dx
ϕϕ∞=+-=⎰⎰ (3) 若S 是使函数达到极小值的点, 则
0()()S
g p
S x dx h g
ϕ-Φ==
+⎰ (4) 设s 为库存量进货点, 即当初始库存I s <时, 进货至S ; 当I s ≥不进货。
当
I s =时, 不进货. 总费用为()L s , 它应小于y S =(此时进货量为S s -)的总
费用()()K p S s L S +-+, 即
()()()L s K p S s L S ≤+-+
当I s <时,进货。
则()()()L I K p S I L S ≥+-+, 于是s 应满足
()()()L s K p S s L S =+-+, 即
()()ps L s K pS L S +=++ (5) 若模型假设(1)改为需求量X 是非负离散随机变量, 分布为
0{}(0,1,),0,1k k k k P X k p k p p ∞
====≥=∑
(1) 式可变为
()()()y
y
k k k k L y h y k p g k y p ===-+-∑∑ (1)′
(4)式可变为
1
0S S
k k k k g p p p h g -==-≤≤+∑∑ (2)′
(5)式变为
()()ps L s K pS L S +≤++ (3) ′
s 是满足上式的最小正整数. 实例
例1 设某公司用某种原料进行生产, 已知该原料每吨单价800元, 订货费60元, 存贮费每吨40元, 缺货损失每吨1015元, 原有存贮量为10吨. 已知对原料需求的概率
(30)0.2,(40)0.2,(50)0.4,(60)0.2P X P X P X P X ========
求该公司订购原料的最佳方案.
解 由模型假设有:60,40,1015,10,800K h g I p ===== 计算
1015800
0.204101540
g p g h --=≈++ 因为
(30)0.20.204,(30)(40)0.40.204P X P X P X ==<=+==>
所以40,30S Q S I ==-=S=40, Q=S –I=40–10=30 又因为
()40260K pS L S ++=
800×30+1015×[(40–30)×0.2+(50–30)×0.4+(60–30)×0.2]=40240≤
()K pS L S ++
所以30s =. 故存贮策略为每个阶段开始时检查存贮量I , 当30I >吨时不必补充存贮; 当30I ≤吨时补充存贮量到40吨.
例 2 某市石油公司希望确定一种油的存贮策略, 以确定应贮存的油量. 该油的市场需求服从指数分布, 其密度函数为
0.0000010.0000010
()0
0x e x x x ϕ-⎧≥=⎨
<⎩ 该种油每近2元, 不需进货费. 由于油库归该公司管辖, 油池灌满与没灌满时的管理费用实际上没有多少差别, 故可以认为存贮费用为零. 如缺货就从邻市调用, 缺货费为3元/斤.
解 由模型假设0,0,3,2K h g p ==== 计算
32
0.33330
g p g h --=≈++ 由 S
0.000001 0
0.000001d 0.333x e x -=⎰, 有0.0000010.667x e -=, 两端取对数解出
405000S ≈
因
()20()()3()()23()()s
s
s
ps L s s s x x dx x s x dx s x s x dx
ϕϕϕ∞∞∞
+=+⨯-+-=+-⎰⎰⎰
()0()()3()()23()()S S
S
K pS L S S x x dx x S x dx S x S x dx ϕϕϕ∞∞
++=⨯-+-=+-⎰⎰⎰K+p
由观察可知, 它有唯一解s S =。
所以当库存下降到405000斤以下就应进货, 使库存达到405000斤. 出现s S =, 是因为进货费为零, 可以频繁进货, 又存贮费为零, 存贮量多一些也不会增加费用。
第二节数据分析模型
一、主成分分析模型和因子分析模型
例1 现希望对30 个省市自治区经济发展基本情况的八项指标进行分析。
具体采用的指标有:GDP 、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值,数据文件见附表。
这是一个综合分析问题,八项指标较多,可以用主成分分析法进行综合。
打开文件后在SPSS 中的操作如下:
使用SPSS软件中的Analyze→Data Reduction→Factor Analysis就进入了Factor的主对话框。
在Factor的主对话框将x1 x8选入Variables框。
在Descritives子对话框选中选择“Coefficients”,按Continue回到Factor 的主对话框选择OK按钮输出结果,SPSS 在调用Factor Analyze 过程进行分析时,首先会自动对原始变量进行标准化,因此以后的输出结果中在通常情况下都是指标准化后的变量。
在结果输出中会涉及一些因子分析中的内容,因此这里仅给出与主成分分析有关的部分如下:
GDP 居民
消费
水平
固定
资产
投资
职工
平均
工资
货物
周转
量
居民
消费
价格
指数
商品
零售
价格
指数
工业
总产
值
Correl ation GDP 1.00
.267 .951 .187 .617
-.27
3
-.26
4
.874 居民消费.267 1.00.426 .716 -.15-.23-.59.363
水平 0
1 5 3 固定资产投资 .951 .426 1.00
.396 .431 -.28
0 -.35
9 .792 职工平均工资 .187 .716 .396
1.00
0 -.35
7 -.14
5 -.54
3 .099 货物周转量
.617
-.15
1
.431
-.35
7
1.00
0 -.25
3 .022 .659
居民消费价格指数 -.273 -.23
5 -.280 -.14
5 -.25
3
1.00
.763
-.12
5
商品零售价格指数 -.264 -.59
3 -.359 -.54
3
.022 .763
1.000 -.19
2
工业总产值
.874 .363 .792 .099 .659
-.125 -.192 1.00
表1 1. 1 为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性比较强,的确存在信息上的重叠。
表1 1. 2 给出的是各成分的方差贡献率和累计贡献率,由表1 1. 2 可知,只有前3个特征根大于1,因此SPSS 只提取了前三个主成分。
第一主成分的方差所占所有主成分方差的46.92%,接近一半,前三个主成分的方差贡献率达到9.55% ,因此选前三个主成分己足够描述经济发展的水平。
Component Matrix(a)
a 3 components extracted.
随后表1 1. 3 中的输出为主成分系数矩阵,可以说明各主成分在各变量上的载荷,从而得出各主成分的表达式,注意在表达式中各变量己经不是原始变量,而是标准化变量。
10.88410.60620.91130.46540.48650.51060.6217 0.8228
F ZX ZX ZX ZX ZX ZX ZX ZX =++++--
+20.38510.59620.16330.72540.73750.25760.59670.4298
F ZX ZX ZX ZX ZX ZX ZX ZX =-+-++-
+30.12010.27720.21330.36240.27950.79460.43370.2108
F ZX ZX ZX ZX ZX ZX ZX ZX =+++-+-
+
由于各自变量己经过标准化,因此以上三个主成分的均数均为0。
可以证明,各主成分的方差应当为前述特征根i λ,但这里计算出的数值方差均为特征根的平方,即各主成分的原始数值还应该除以一个特征根的平方根才行,在第1主成分的表达式中,X1,X2 ,X3,X8的系数较大,可以看成是反映GDP 、固定资产投资、居民消费水平和工业总产值的综合指标。
在第2主成分中,X4和X5的系数较大,可以看成是反映职工平均工资和货物周转量方面的综合指标。
在第3主成分中,X6系数较大,可以看成是反映居民消费价格指数方面的综合指标。
主成分分析本质上是一种矩阵变换过程,并不要求各主成分部具有实际意义,本例中各主成分含义显得并不十分明确,我们将进一步在因子分析中对其继续进行分析,操作如下:
选择Analyze 下拉菜单中的Data Reduction 中的Factor Analysis ,在Factor 的主对话框将x1 x8选入Variables 框。
在Factor的主对话框中的Descritives子对话框选中选择“KMO and Bartlett's test of sphericity”,按Continue回到Factor的主对话框选择OK 按钮输出结果。
这里只对比较重要的结果加以解释,对相同的输出结果不再重复说明。
KMO 和球形Bartlett检验用于因子分析的适用性检验。
KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关阵是否是单位阵。
Kaiser-Meyer-Olkin Measure of
Sampling Adequacy. .620
Bartlett's Test of Sphericity
Approx.
Chi-Square
231.285 df 28
Sig. .000
由Bartlett检验可以看出,应拒绝各变量独立的假设,即变量问具有较强的相关性。
但是KMO 统计量为0.620,小于0.7,说明各变量问信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。
Initial Extract
ion
GDP 1.000 .945 居民消费水平 1.000 .799 固定资产投资 1.000 .902 职工平均工资 1.000 .873 货物周转量 1.000 .857 居民消费价格指
数
1.000 .957
变量共同度Communalities 是表示各变量中所含原始信息能被提取的公因子所表示的程度,由上表中所示的变量共同度可知:几乎所有变量共同度都在80% 以上,因此提取出的这几个公因子对各变量的解释能力是较强的。
随后会输出方差累计贡献率表格,和主成分分析中完全相同,因此省略。
a 3 components extracted.
表1 1. 6 为曾经阅读过的因子载荷矩阵,在前面己经直接按列的方向将其解释为各主成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。
128
10.88410.38520.120320.60610.59620. 277380.82210.42920.2103ZX F F F ZX F F F ZX F F F εεε=+++=--+=+-+
在表达式中各变量己经不是原始变量,而是标准化变量。
i ε表示特殊因子,是除了这4个公因子外影响该变量的其他因素,其对该变量的影响程度为1—变量共同度。
原来设计了8个变量来表示经济发展水平,而经过因子分析后,只需用三个因子即可描述影响地区经济发展状况。
因子分析要求提取出的公因子有实际含义,但是从上面各因子和原始变量的相关系数可以看出,现在各因子的意义不是很明显,为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行旋转,使因子和原始变量间的关
系进行重新分配,相关系数向0-1分化,从而更加容易进行解释。
对于本例可以采用方差最大旋转加以分析,如果对于各种旋转方法没有把握,选择它一般没有什么问题。
在Factor的主对话框中的Rotation子对话框选中选择“Varimax”,按Continue回到Factor的主对话框选择OK按钮输出结果变化如下:
Total Variance Explained
Compon ent
Initial Eigenvalues
Extraction Sums of
Squared Loadings
Rotation Sums of Squared
Loadings
Tot
al
% of
Varian
ce
Cumulativ
e %
Tot
al
% of
Varian
ce
Cumulativ
e %
Tot
al
% of
Varian
ce
Cumulativ
e %
1 3.75
4 46.924 46.924
3.75
4
46.924 46.924
3.20
7
40.092 40.092
2 2.20
3 27.532 74.456
2.20
3
27.532 74.456
2.21
7
27.708 67.800
3 1.20
8 15.096 89.551
1.20
8
15.096 89.551
1.74
21.752 89.551
4 .403 5.042 94.593
5 .214 2.673 97.266
6 .138 1.722 98.988
7 .066 .829 99.817
8 .015 .183 100.000
Extraction Method: Principal Component Analysis.
方差解释表格最右侧会给出旋转后各因子的载荷情况,只有前三个特征根大于1,因此SPSS 只提取了前三个公因子。
在旋转后三个公因子的方差累计贡献均发生了变化,但仍然会保持从大到小的顺序,而且前三个因子的方差贡献率仍为89.55% ,和旋转前完全相同,因此选前三个因子己足够描述经济发展的
水平。
Rotated Component Matrix(a)
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 5 iterations.
进行方差最大旋转后,旋转后的因子载荷矩阵如上所示,可以看出第一公因子在X1、X2、X5和X8有较大的载荷,主要从GDP、固定资产投资、货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。
第二公因子在X2、X4有较大载荷,从居民消费水平和职工平均工资方面反映经济发展水平,因此命名为消费因子。
第二公因子在X6和X7上有较大载荷,表现为居民消费价格指数和水平价格指数方面,因此命名为价格因子。
与未旋转前相比较,旋转后各公因子的意义显然更加明确合理。
前面得到了因子结构表达式,可以将各变量表示为公因子的线性形式,但是更多的时候需要将公因子表达为各变量的线性形式。
公因子的表达式也称为因子得分函数系数,但是在因子分析中,不能像主成分分析一样,直接从列的分析得到公因子的表达式,也就是它不能通过矩阵变换的方法由因子载荷阵得到,只能采用估计的方法求得。
最常用的估计方法是Regression 回归法,也是SPSS的默认估计方法。
其次也可以用Bartlett或者AndersonRubin 估计法。
在Score 子对话杠中选择“Display factor score coefficient matrix ”,即可输出因子得分函数的系数矩阵。
如果还选择了"Save as variables",则SPSS 还可以直接保存各因子得分值为一个变量。
估计出因子得分函数后,虽然可以人工计算出因子得分,但是需要先将变量标准化,再输入公式计算,比较麻烦,而通过该选项就可以直接将各因子的得分存为相应的新变量。
在本例中可以得到了如表1 1. 10 所示的因子得分函数系数矩阵,据此可以直接写出各公因子的表达式。
Component Score Coefficient Matrix
Component
1 2 3 GDP
.306 .011 .047 居民消费水平 .025 .387 .040 固定资产投资 .270 .129 .075 职工平均工资 -.025 .451 .096 货物周转量 .248 -.319 -.139 居民消费价格指数
.070 .180 .653 商品零售价格指数
.077 -.098 .462 工业总产值
.317
.026
.123
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
Component Scores.
10.30610.02520.27030.02540.24850.07060.07770.3178
F ZX ZX ZX ZX ZX ZX ZX ZX =++-+++
+20.01110.38720.12930.45140.31950.18060.09870.0268
F ZX ZX ZX ZX ZX ZX ZX ZX =+++-+-
+30.04710.04020.07530.09640.13950.6536
0.46270.1238
F ZX ZX ZX ZX ZX ZX ZX ZX =+++-+++
在上例中,介绍了如何计算主成分。
实际上,在统计界对于主成分分析法是否能作为一种独立的统计方法还存在争议,很多人认为主成分分析法只是一种思想,只能被看成是其他多元统计分析方法的基础。
统计软件的设定也各不相同, SPSS就没有把主成分分析法单独列出,但在另一些统计软件中主成分分析法却又单独存在。
的确,从应用范围和功能上讲,因子分析法完全能够替代主成分分析法,并且功能更为强大。
但是,不管怎么说,主成分分析法还是有其独到之处的,特别是在综合评价和主成分回归(用各主成分得分作为新的自变量来代替原来的多个自变量,以消除多重共线性)时相当有用。
二、聚类分析模型
例2 为了反映中国各地区的生活水平差异性,我们收集整理了2002 年中国部分省市的国民经济数据,具体包括: x1:人均粮食支出(元/人),x2:人均副食支出(元/人),x3:人均烟、酒、饮料支出(元/人),x4:人均其他副食支出(元/人),x5:人均衣着支出(元/人),x6:人均日用杂品支出(元/人),x7:人均水电燃料支出(元/人),x8:人均其他非商品支出(元/人),数据具体情况详见附表。
现希望通过聚类分析的方法把相似的省份找出来,即把这些省份归为若干的类别,从而更好地了解中国各市地区生活水平的差异。
在SPSS 中,实现层次聚类法的过程步骤如下:
使用SPSS软件中的Analyze→ Classify→ Hierarchical Cluster,就进入了层次聚类分析的对话框。
在系统聚类分析的主对话框将x1x8添加到Variable(s)框,将“城市”添加到Label Cases by框。
在plots子对话框选中“Dendrogram”,按Continue返回系统聚类分析的主对话框。
在Method子对话框中的“Cluster Method”选择“Ward’s method”,在“Standardize”中选“Z scores”按Continue返回系统聚类分析的主对话框,按“OK”。
在层次聚类法的操作过程中,只需按照菜单、对话杠中提供的项目进行选择就可以完成了,根据以上设置, SPSS 给出的聚类结果如下:
Agglomeration Schedule
Stage
Cluster Combined
Coefficients
Stage Cluster First
Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 27 30 .278 0 0 4
2 14 2
3 .646 0 0 16
3 29 31 1.182 0 0 10
4 27 28 1.770 1 0 7
5 4 8 2.373 0 0 12
6 1
7 24 3.017 0 0 17
7 16 27 3.681 0 4 10
8 3 7 4.363 0 0 22
9 18 22 5.149 0 0 13
10 16 29 6.053 7 3 18
11 12 25 7.099 0 0 24
12 4 5 8.180 5 0 18
13 15 18 9.293 0 9 14
14 10 15 10.841 0 13 17
15 2 6 12.432 0 0 20
16 14 20 14.036 2 0 21
上表为聚类过程表,它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1(在这里是30 步)。
但为了便于显示,这里只给出头、尾几步的情况。
表的第1 列列出了聚类过程的步骤号,第2 列和第3 列出了在某一步骤中哪些省市参与了合并,例如从结果中可以看出,在第1步中,第27条记录(陕西)和第30条记录(宁夏)首先被合并在一起。
第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。
第5列和第6列表示参与合并的省市(类别)是在第几步中第一次出现的,0代表该记录是第一次出现在聚类过程中,例如,从聚类过程第2 步中可以看出,该步骤中参与合并的省市是第14条记录(江西)所在类别和第23条记录(四川)所在类别,第7 列表示在这一步骤中合并的类别,下一次将在第几步中与其他类再进行合并,例如在聚类 .程第2步中,看到这一步中合并产生的类别将在第16步和其他类别再进行合并。
这里读者朋友要注意,在聚类过程的描述中,往往一个记录号己经不单单代表的是一个记录,而是一个类别,例如在上面所讲的第4步中,记录号27代表的是陕西、宁夏两条记录组成的类别,而不仅仅是第27条记录(陕西)一个
聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用中,并不关心聚类的具体过程。
但是当需要判断数据应该分成多少类别时,聚类系数那一列却有着很好的参考价值。
事实上,可以根据该系数的变化来判断数据应该被分成多少类,当两个相邻步骤系数变化远大于前面相邻步骤变化时,便可以大致确定从统计意义上讲,应该将聚类过程进行到那里的类别数是。