多元统计复习题附答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复习题
原文:
答案:
4.2 试述判别分析的实质。
4.3 简述距离判别法的基本思想和方法。
4.4 简述贝叶斯判别法的基本思想和方法。
4.5 简述费希尔判别法的基本思想和方法。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它
们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则
X ,D
2
(X ,G 1)D 2(X ,G 2)
X ,D
2
(X ,G 1)> D 2(X ,G 2,
具体分析,
2212(,)(,)
D G D G -X X
111122111111
111222111
211122
()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()
22()2()
---''=-++-'
+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为
X ,W(X)
X ,W(X)<0
②多个总体的判别问题。
设有k 个总体k G G G ,,,21 ,其均值和协方差矩阵分别是k μμμ,,,21 和k ΣΣΣ,,,21 ,且
ΣΣΣΣ====k 21。
计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,21(,)()()D G ααα-'=--X X μΣX μ
1111
22()C α
ααα
α----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X
取ααμΣI 1-=,αααμΣμ1
2
1-'-=C ,k ,,2,1 =α。
可以取线性判别函数为
()W C αα
α'=+X I X , k ,,2,1 =α 相应的判别规则为i G ∈X 若 1()max()i k
W C α
αα≤≤'=+X I X
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k 个总体k G G G ,,,21 ,其各自的分布密度函数)(,),(),(21x x x k f f f ,假设k 个总体各自出现的概率分别为k q q q ,,,21 ,0≥i q ,
11
=∑=k
i i
q。
设将本来属于i G 总体的样品错判到总体j G 时造成的损失为)|(i j C ,
k j i ,,2,1, =。
设k 个总体k G G G ,,,21 相应的p 维样本空间为 ),,,(21k R R R R =。
在规则R 下,将属于i G 的样品错判为j G 的概率为
x x d f R i j P j
R i )(),|(⎰= j i k
j i ≠=,,2,1,
则这种判别规则下样品错判后所造成的平均损失为
∑==k
j R i j P i j C R i r 1
)],|()|([)|( k i ,,2,1 =
则用规则R 来进行判别所造成的总平均损失为
∑==k
i i R i r q R g 1
),()(
∑∑===k i k
j i R i j P i j C q 1
1
),|()|(
贝叶斯判别法则,就是要选择一种划分k R R R ,,,21 ,使总平均损失)(R g 达到极小。
基本方法:∑∑===
k i k
j i R i j P i j C q R g 1
1),|()|()(
x x d f i j C q k
i k
j R i i j
∑∑⎰===1
1
)()|(
∑⎰∑===k j R k
i i i j
d f i j C q 1
1
))()|((x x
令
1
(|)()()k i
i
j
i q C j i f h ==∑x x ,则 ∑⎰
==k
j R j j
d h R g 1
)()(x x
若有另一划分),,,(**2*1*
k
R R R R =,∑⎰
==k
j R j j
d h R g 1
*
*)()(x x
则在两种划分下的总平均损失之差为
∑∑⎰
==⋂-=-k i k
j R R j i j
i d h h R g R g 11
*
*)]()([)()(x x x
因为在i R 上)()(x x j i h h ≤对一切j 成立,故上式小于或等于零,是贝叶斯判别的解。
从而得到的划分
)
,,,(21k R R R R =为
1{|()min ()}
i i j j k
R h h ≤≤==x x x k i ,,2,1 =
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
1122()p p U u X u X u X '=+++=X u X
系数),,,(21'=p u u u u 可使得总体之间区别最大,而使每个总体部的离差最小。
将新样品的p 个指标值代入线性判别函数式中求出()U X 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。
二者只是要求有各类母体的两阶矩存在。
而贝叶斯判别必须知道判别变量的分布类型。
因此前两者相对来说较为简单。
② 当k=2时,若则费希尔判别与距离判别等价。
当判别变量服从正态分布时,二者与贝叶斯判别也
等价。
③ 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不
同。
④ 距离判别可以看为贝叶斯判别的特殊情形。
贝叶斯判别的判别规则是 X
,W(X)
X ,W(X)<lnd
距离判别的判别规则是
X ,W(X)
X ,W(X)<0
二者的区别在于阈值点。
当21q q =,)1|2()2|1(C C =时,1=d ,0ln =d 。
二者完全相同。
4.7
设有两个二元总体
和
,从中分别抽取样本计算得到
,, 假设,试用距离判别法建立判别函
数和判别规则。
样品X =(6,0)’应属于哪个总体?
解:
= ,
= , =
=
即样品X 属于总体
5.1 判别分析和聚类分析有何区别? 5.2 试述系统聚类的基本思想。
5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造
5.5试述K 均值法与系统聚类法的异同。
5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品(或变量)进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?
答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n 个样本看作p 维空间的n 个点。
点之间的距离即可代表样品间的相似度。
常用的距离为 (一)闵可夫斯基距离:1/1
()()
p
q q
ij ik jk k d q X X ==-∑
q 取不同值,分为
(1)绝对距离(1q =)
1
(1)p
ij ik jk k d X X ==-∑
(2)欧氏距离(2q =)
21/2
1
(2)()
p
ij ik jk k d X X ==-∑
(3)切比雪夫距离(q =∞)
1()max ij ik jk
k p
d X X ≤≤∞=-
(二)马氏距离
(三)兰氏距离
对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p 维空间的向量,一般用
(一)夹角余弦
(二)相关系数
5.5试述K 均值法与系统聚类法的异同。
答:相同:K —均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。
不同:系统聚类对不同的类数产生一系列的聚类结果,而K —均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K —均值法确定类数的参考。
6.1 试述主成分分析的基本思想。
21
()()()ij i j i j d M -'=--X X ΣX X
11()p ik jk
ij k ik jk X X d L p X X =-=+∑
cos p
ik jk
ij
X X θ=
∑
()()p
ik i jk j ij X X X X r --=∑
6.2 主成分分析的作用体现在何处?
6.3 简述主成分分析中累积贡献率的具体含义。
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
6.1 试述主成分分析的基本思想。
答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取更多信息时,再考虑第二个线性组合。
继续这个过程,直到提取的信息与原指标差不多时为止。
这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?
答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。
6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p 个原始变量12,,
,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量12,,
,p Y Y Y 的方差之和
1
p
k
k λ
=∑。
主成分分析的目的是减少变量的个数,所以一般不会使用所有p 个主成分的,忽略一些带有较小方差的主成
分将不会给总方差带来太大的影响。
这里我们称1
p k k k k ϕλλ==∑ 为第k 个主成分
k Y 的贡献率。
第一主成分的贡献率
最大,这表明11Y T '=X 综合原始变量12,,
,p X X X 的能力最强,而23,,,p Y Y Y 的综合能力依次递减。
若只取()
m p <个主成分,则称1
1
p
m
m k
k
k k ψλλ
===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,,
,p X X X 的
能力。
通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵
出发的,其结果受变量单
位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R 代替∑。
对于研究经济问题所涉及的变量单位大都不统一,采用R 代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
7.1 试述因子分析与主成分分析的联系与区别。
7.2 因子分析主要可应用于哪些方面?
7.3 简述因子模型中载荷矩阵A 的统计意义。
.
7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?
7.1 试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。
②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。
因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。
因子分析也可以说成是主成分分析的逆问题。
如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。
而因子分析是从显在变量去提炼潜在因子的过程。
此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
7.2 因子分析主要可应用于哪些方面?
答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。
具体来说,①因子分析可以用于分类。
如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。
即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。
对我们进一步研究与探讨指示方向。
在社会调查分析中十分常用。
③因子分析的另一个作用是用于时空分解。
如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
7.3 简述因子模型中载荷矩阵A 的统计意义。
答:对于因子模型
1122i i i ij j im m i X a F a F a F a F ε=++
++
++ 1,2,
,i p =
因子载荷阵为1112
121
22212
12
(,,
,)m m m p p pm a a a a a a A A A a a a ⎡⎤⎢⎥⎢
⎥==⎢⎥⎢⎥⎢⎥
⎣
⎦A
i X 与j F 的协方差为:
1Cov(,)Cov(,)m
i j ik k i j k X F a F F ε==+∑
=1
Cov(
,)Cov(,)m
ik
k j i j k a
F F F ε=+∑
=ij a
若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了变量
i
X 对公
共因子
j
F 的相对重要性。
变量共同度221
1,2,,m
i
ij
j h a
i p ==
=∑
22
21122()()()()()i i i im m i D X a D F a D F a D F D ε=++
++22i i h σ=+ 说明变量i X 的方差由两部分组成:第一部分为
共同度2i h ,它描述了全部公共因子对变量i X 的总方差所作的贡献,反映了公共因子对变量i X 的影响程度。
第二部分为特殊因子i ε对变量i X 的方差的贡献,通常称为个性方差。
而公共因子j F 对X 的贡献2
21
1,2,,p
j
ij
i g a
j m ==
=∑
表示同一公共因子j F 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。
7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?
答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。
但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。
这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。
这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。
最大方差旋转法是一种正交旋转的方法,其基本思路为: ①A
其中令*
**(),
/ij
p m ij ij
i a d a h ⨯===A A Γ 21
1p j ij i d d p ==∑ *
A 的第j 列元素平方的相对方差可定义为2
21
1()p j ij j i V d d p ==-∑
②12m V V V V =++
+
最大方差旋转法就是选择正交矩阵Γ,使得矩阵*A 所有m 个列元素平方的相对方差之和达到最大。
8.1 什么是对应分析?它与因子分析有何关系?
8.2试述对应分析的基本思想。
8.3 试述对应分析的基本步骤。
8.1 什么是相应分析?它与因子分析有何关系?
答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。
其特点是它所研究的变量可以是定性的。
相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。
因此,因子分析是相应分析的基础。
具体而言,式表明Zu j 为相对于特征值的关于
因素A 各水平构成的协差阵
的特征向量。
从而建立了相应分析中R 型因子分析和Q 型因子分析的关系。
8.2试述相应分析的基本思想。
答:相应分析,是指对两个定性变量的多种水平进行分析。
设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
要寻求列联表列因素A 和行因素B 的基本分析特征和最优列联表示。
相应分析即是通过列联表的转换,使得因素A 和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。
把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。
8.3 试述相应分析的基本步骤。
答:(1)建立列联表
设受制于某个载体总体的两个因素为A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为
()ij r c
k ⨯=K 。
(2)将原始的列联资料K =(kij) r ⨯c 变换成矩阵Z =(zij) r ⨯c ,使得zij 对因素A 和列因素B 具有对等性。
通过变换。
得c '=ΣZ Z ,r '=ΣZZ 。
(3)对因素B 进行因子分析。
计算出c '=ΣZ Z 的特征向量
及其相应的特征向量
计算出因素B 的因子
)
(4)对因素A 进行因子分析。
计算出r '=ΣZZ 的特征向量
及其相应的特征向量
计算出因素A 的因子
(5)选取因素B 的第一、第二公因子
选取因素A 的第一、第二公因子 将B 因素的c 个水平,,
A 因素的r 个水平
同时反应到相同坐标轴的因子平面上上
(6)根据因素A 和因素B 各个水平在平面图上的分布,描述两因素及各个水平之间的相关关系。
9.1 什么是典型相关分析?简述其基本思想。
9.2 什么是典型变量?它具有哪些性质?
9.3 试分析一组变量的典型变量与其主成分的联系与区别。
9.1 什么是典型相关分析?简述其基本思想。
答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
用于揭示两组变量之间的在联系。
典型相关分析的目的是识别并量化两组变量之间的联系。
将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。
基本思想:
(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
即: 若设(1)
(1)(1)
(1)12(,,
,)p X X X =X
、(2)(2)(2)
(2)
12(,,
,)q X X X =X 是两组相互关联的随机变量,分别在两组变量中选
取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。
在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。
(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。
()(1)()(1)
()(1)
()(1)1122i i i i i P P
U a X a X a X '=+++a X
()(2)()(2)()(2)()(2)1122i i i i i q q
V b X b X b X '=+++b X
(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。
9.2 什么是典型变量?它具有哪些性质?
答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。
具体来说,
()(1)()(1)
()(1)
()(1)1122i i i i i P P
U a X a X a X '=++
+a X
()(2)()(2)()(2)
()(2)1122i i i i i q q
V b X b X b X '=+++b X
在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称(1)(1)
'a X 、(1)(2)'b X 是(1)X 、
(2)X 的第一对典型相关变量。
典型变量性质:
典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。
1. ()1,()1
(1,2,,)k k D U D V k r ===
(,)0,(,)0()i j i j Cov U U Cov V V i j ==≠
2. 0(,1,2,,)
(,)0
()0()
i i j i j i r Cov U V i j j r λ≠==⎧⎪
=≠⎨⎪>⎩
9.3 试分析一组变量的典型变量与其主成分的联系与区别。
答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。
主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。
4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
(1)(1)(1)(1)12(,,,)p X X X =X 、(2)(2)(2)(2)
12(,,,)q X X X =X
7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。
下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分析法找出其简化的指标系统。
4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
销售情况产品序号销售价格口味评分信任度评分
畅销1 2.2 5 8
2 2.5 6 7
3 3.0 3 9
4 3.2 8 6
平销5 2.8 7 6
6 3.5 8 7
7 4.8 9 8
滞销8 1.7 3 4
9 2.2 4 2
10 2.7 4 3
⑴根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
⑵现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。
解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss 解题的步骤如下:
1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中
的“group”变量选入分组变量中,将X1、X2、X3变量选入自变量中,并选择Enter independents together 单选按钮,即使用所有自变量进行判别分析。
2.点击Define Range按钮,定义分组变量的取值围。
本例中分类变量的围为1到3,所以在最小值和
最大值中分别输入1和3。
单击Continue按钮,返回主界面。
如图4.1
图4.1 判别分析主界面
3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。
选中Function Coefficients栏中的
Fisher’s:给出Bayes判别函数的系数。
(注意:这个选项不是要给出Fisher判别函数的系数。
这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。
这里极易混淆,请读者注意辨别。
)如图4.2。
单击Continue按钮,返回主界面。
图4.2 statistics 子对话框
4. 单击Classify …按钮,弹出classification 子对话框,选中Display 选项栏中的Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。
如图4.3。
图4.3 classification 对话框
5. 返回判别分析主界面,单击OK 按钮,运行判别分析过程。
1) 根据判别分析的结果建立Bayes 判别函数:
Bayes 判别函数的系数见表4.1。
表中每一列表示样本判入相应类的Bayes 判别函数系数。
由此可建立判别函数如下:
Group1: 3761.162297.121689.11843.811X X X Y ++--= Group2: 3086.172361.131707.10536.942X X X Y ++--=
Group3: 3447.62960.41194.2449.173X X X Y ++--=
将各样品的自变量值代入上述三个Bayes 判别函数,得到三个函数值。
比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
Classification Function Coefficients
group
1 2 3 x1 -11.689 -10.707 -2.194 x2 12.297 13.361 4.960 x3 16.761 17.086 6.447 (Constant)
-81.843
-94.536
-17.449
Fisher's linear discriminant functions
表4.1 Bayes 判别函数系数
根据此判别函数对样本进行回判,结果如表4.2。
从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。
在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。
3种滞销饮料均正确判定。
整体的正确率为80.0%。
Classification Results a
group Predicted Group Membership Total
1
2
3
Original Count
1 3 1 0 4
2 1 2 0
3 3
0 0 3 3 %
1 75.0 25.0 .0 100.0
2 33.
3 66.7 .0 100.0 3
.0
.0
100.0
100.0
a. 80.0% of original grouped cases correctly classified.
表4.2 错判矩阵
2) 该新饮料的0.31=X ,82=X ,53=X ,将这3个自变量代入上一小题得到的Bayes 判别函数,2Y 的值最大,
该饮料预计平销。
也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification 子对话框中同时要求输出casewise results ,运行判别过程,得到相同的结果。
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
单位:(亿元) 行业名称
资产 总计
固定资产净值平均余额
产品销 售收入
利润 总额
煤炭开采和选业
6917.2 3032.7 683.3 61.6 石油和天然气开采业 5675.9 3926.2 717.5 33877 黑色金属矿采选业 768.1 221.2 96.5 13.8 有色金属矿采选业 622.4 248 116.4 21.6 非金属矿采选业 699.9 291.5 84.9 6.2 其它采矿业
1.6 0.5 0.3 0
解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS 对这六个行业进行主成分分析的方法如下:
1. 在SPSS 窗口中选择Analyze →Data Reduction →Factor 菜单项,调出因子分析主界面,并将变量15
X X -移入Variables 框中,其他均保持系统默认选项,单击OK 按钮,执行因子分析过程(关于因子分子在SPSS
中实现的详细过程,参见7.7)。
得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。
第一个因子就可以解释86.5%
表6.1 特征根和方差贡献率表
表6.2 因子载荷阵
2.将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。
点击菜单项中的Transform→
Compute,调出Compute variable对话框,在对话框中输入等式:
z1=a1 / SQRT(3.46),计算第一个特征向量。
点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。
表6.3 特征向量矩阵
z1
x1 0.509
x2 0.537
x3 0.530
x4 0.413
根据表6.3得主成分的表达式:
X
Y1X
.0
X
509
=
+
+
X+
3
.0
413
4
530
.0
.0
537
2
1
3.再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式:
y1x
.0
4
*
x
x
=
+
+
x+
1
509
3
.0
413
*
*
.0
537
*
2
.0
53
根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。
6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:
表6.7 特征根和方差贡献率表
表6.8 因子载荷阵
表6.6 特征向量矩阵
z1 z2 x1 0.29 0.47 x2 0.28 0.48 x3 0.14 -0.29 x4 0.31 -0.37 x5 0.40 -0.20 x6 0.40 -0.27 x7 0.31 0.39 x8 0.39 0.12 x9
0.39 -0.24
根据表6.6得主成分的表达式:
939.0839.0731.064.054.0431.0314.0228.0129.01X X X X X X X X X Y +++-++++= 924.0812.0739.0627.052.0437.0329.0248.0147.02X X X X X X X X X Y -++----+=
分别计算出以上三项后,利用公式2121Y Y Y ∑∑+=
λ
λ
λλ得到综合得分并排序如下表: 地区
y1
y2 y
170038.89 254204.05 197055.90 70185.88 34213.02 58638.59 50894.53 69593.93 56897.04 55849.21 32174.58 48249.65 42167.71 29244.98 38019.51 40552.85 28367.34 36641.30 45747.38 11555.73 34771.86 45747.38 11555.73 34771.86 天津 39597.90 21080.52 33653.82 39597.90 21080.52 33653.82 36680.75 25804.65 33189.52 35237.27 14552.46 28597.44
31830.56
17629.53 27272.03
25149.73 16499.39 22372.97
22734.16 16326.97 20677.45
乌鲁木齐22284.54 15284.68 20037.59
23184.99 12310.22 19694.19
23909.27 9770.56 19370.75
21524.95 14179.21 19166.96
33808.79 -17638.73 17294.14
19445.42 9809.99 16352.45
18561.81 9822.90 15756.62
16568.97 13769.80 15670.44
17666.70 11325.77 15631.26
18494.34 8579.72 15311.75
呼和浩特16128.60 13359.10 15239.59
18845.23 6252.54 14802.98
18229.33 7399.62 14752.99
16764.15 4871.97 12946.76
14598.40 9288.20 12893.83
15782.07 6297.20 12737.43
14319.85 8659.41 12502.85
12865.97 10960.08 12254.18
15339.90 4138.48 11744.24
27859.53 -22407.66 11723.76
10450.62 6144.51 9068.36
11526.86 2677.29 8686.15
最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。
可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。
根据表7.3易得:
X
X
X
X
.0
1X
1
+
+
=
+
+
F+
X
064
378
.0
5
.0
.0
432
4
6
2
085
332
.0
137
.0
3
X
X
X
439
.0
2X
X
+
=
1
+
+
F+
+
X
014
073
.0
5
.0
6
169
.0
4
2
400
.0
.0
484
3
表7.3 因子得分系数矩阵
将每个学生的六门成绩分别代入F1、F2,比较两者的大小,F1大的适合学文,F2大的适合学理。
计算结果为学号是1、16、24的学生适合学文,其余均适合学理。
7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。
下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分
解:令价格为X1,发动机为X2,功率为X3,轴距为X4,宽为X5,长为X6,轴距为X7,燃料容量为X8,燃料效率为X9,用SPSS找简化的指标系统的具体步骤同7.7。
此时在系统默认情况下提取因子,结果是只抽取了一个成分,从方差贡献来看,前三个成分贡献了90.9%,因此重复因子分析过程,并在第三步Extraction子对话框中的Number of factors后的矩形框中输入3,即为要提取的公因子的数目。
因子分析结果如下:
表7.4 旋转后的因子得分系数矩阵。