多元统计分析及R语言建模考试试卷
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、计分法
2、综合指数法
3、Topsis 法 4、秩和比(RSR)法 5、层次分析(AHP)法 6、模糊评价方法 7、多元统计分析方法 8、灰色系统评价方法
得分
评阅人
二、证明题(共 1 小题,共 20 分)
设 y = a1x1+ a2x2 +…+apxp a x,其中 a = (a1,a2,…,ap) ,x = (x1,
性质(6)得证
得分
评阅人
三、运算题(共 3 小题,共 20 分)
下面左表为五个观察值,两个变量的数据,右表为用欧氏距离计算的距离矩阵,
x2 1234567
x1
x2
1
5
7
2
7
1
3
3
2
4
6
5
5
6
6
1 5 4
3
2
3
4
5
6
7
x1
1. (10 分)写出用 R 语言分析的命令 (1) 请将数据 x1 和 x2 写入 R 向量中:
判别分析:根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等
Fisher 判别法;通过将多维数据投影到某一方向上,使得投影之后类与类之间 尽可能分开,然后再寻找合适的判别准则。 Bayes 判别法:假设已知对象的先验概率和“先验条件概率”, 而后得到后验 概率, 由后验概率作出判别。 5. 指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。 标准化方法 (1)主成分分析法。主成分分析是多元统计分析的一个分支。是将其分量相关的 原随机向量,借助于一个正交变换,转化成其分量不相关的新随机向量,并以方 差作为信息量的测度,对新随机向量进行降维处理。再通过构造适当的价值函数, 进一步做系统转化。 (2)数据包络分析法。它是创建人以其名字命名的 DEA 模型——CR 模型。DEA 法 不仅可对同一类型各决策单元的相对有效性做出评价与排序,而且还可进一步分 析各决策单元非 DE 有效的原因及其改进方向,从而为决策者提供重要的管理决 策信息。 (3)模糊评价法。模糊评价法奠基于模糊数学。它不仅可对评价对象按综合分值 的大小进行评价和排序,而且还可根据模糊评价集上的值按最大隶属度原则去评 定对象的等级。 综合评价方法
复相关分析;研究一个变量 x0 与另一组变量 (x1,x2,…,xn)之间的相关 程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响, 那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数…n 的测定,可先求出 x0 对一组变量 x1,x2,…,xn 的回归直线,再计算 x0 与用 回归直线估计值悯之间的简单直线回归。复相关系数为…n 的取值范围为 0≤…n ≤1。复相关系数值愈大,变量间的关系愈密切。
p
p
(5) ii i , 这里
i 1
i 1
= ( )ii p p
(6)
证明(1)(2)(3):
设 的特征向量为 U= (u1,u2,…,up),则 U U=I,即 U 为一正交阵,且
p
= U U = U diag( 1, 2 , , p )U = i uiui i 1
因此 a
p
p
p
a= i a uiui a= i (a ui) (a ui) = i (a ui)2
Min. 1st Qu. Median Mean 3rd Qu. Max.
(5) 写出计算下面相关阵 R 命令: cor(dat) (2 分)
y x1 x2 x3 x4 y x1 x2 x3 x4
(6) 写出计算下面回归系数的 R 命令:fm=lm(y~x1+x2+x3+x4,data=dat);fm (2
分)
Coefficients:
表 1 财政收入多因素分析数据
y
x1
x2
x3
x4
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
1. 基本统计分析和 R 语言命令(15 分) (1) 如果将该数据存入到一个文本文件中,写出将该文本数据读入 数据框 dat 中的 R 命令:dat=("",,header=T) (1 分) (2) 如果将该数据拷贝到剪切板中,写出将该数据读入数据框 dat 中的 R 命令:dat=("clipboard",header=T) (1 分) (3) 写出提取 2000 年数据的 R 命令: dat[10,] (1 分) 写出提取税收(x2)数据的 R 命令: dat[,5] (1 分) 写出提取 2001 年至 2008 年经济活动人口(x4)数据的 R 命令: dat[11:18,5] (1 分) (4) 写出计算财政收入统计量的 R 命令: summary(y) (2 分)
另外,Cov(yi, yj)= Cov(ui x, uj x)= ui i
uj= ui j uj= j ui uj=0,
因此,有上述可得变量 x 的主成分是以 的特征向量为系数的线性组合,且主成 分 y 之间互不相关,y 的 p 个分量是按方差大小、由大到小排列的。性质(1)(2) (3)得证。
(2)试在图中标出这些距离
3.(5 分)试用最长距离法对其进行聚类分析,画出聚类图,并按二类、三类 进行分类
第一步:计算距离阵
X=(x1,x2);X D=dist(X,diag=TRUE,upper=TRUE);D
6
5
第二步:进行系统聚类(最长距离法)
hc=hclust(D,'complete');hc
2
1
1
5
4
D hclust (*, "complete")
得分
评阅人
四、案例分析题(共 2 小题,共 30 分)
我们知道,财政收入与国民生产总值和税收等经济指标有密切的依存关系。 今收集了我国改革开放以来财政收入(y:百亿元),国民生产总值 (x1:百亿元), 税收(x2:百亿元),进出口贸易总额(x3:百亿元),经济活动人口(x4:百万人)的 部分数据,见下表所示,分析财政收入和国民生产总值、税收、进出口贸易总额、 经济活动人口之间的关系。
第三步:画出聚类图 (1)按二类进行分类
plot(hc); (hc,2)
Cluster Dendrogram
D hclust (*, "complete")
(2)按三类进行分类
plot(hc); (hc,3)
4
3
2
Height
3
2
1
1
5
4
Cluster Dendrogram
6
5
4
3
2
Height
3
多元统计Βιβλιοθήκη Baidu析及 R 语言建模考试试卷
课程名称:_____多元统计分析 ______________
课程类别
教 授课教师姓名:________王斌会______________ 师 考试时间:_ _年_____月______日 填
写
必修[ ] 选修[ ] 考试方式 开卷[ ] 闭卷[ ] 试卷类别(A、B)
主成分分析和因子分析的区别
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把 主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在 解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。 因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor) 之间也不相关,共同因子和特殊因子之间也不相关。
2.(5 分)
(1) 写出计算下面绝对距离阵的 R 命令:
x1=c(5,7,3,6,6) x2=c(7,1,2,5,6) X=(x1,x2);X D=dist(X,diag=TRUE,upper=TRUE,p=1);D
12345 108732 280556 375067 435601 526710
i 1
i 1
i 1
于是 a
p
a i (a ui)2= 1 (a U) (a U) = 1 a UU a= 1 a a= 1 i 1
应取 a u1 时,u1
u1= u1 1 u1= 1
故 y1= u x 就是第一主成分,其方差最大,
Var(y1) = Var(u1 x) = 1
同理,Var(yi) = Var(ui x) = i
x2,…,xp) ,求主成分就是寻找 x 的线性函数 a x 使相应的方差达到最大,
即 Var(a x) = a
a 达到最大,且 a a =1,此处 为 x 的协方差阵。
设 的特征根为
。试证明下面性质:
(1)y=U x,U U=I,这里 U 为 x 的协方差阵的特征向量(单位化的)组
成的正交阵。 (2)y 的各分量之间是互不相关的。 (3)y 的 p 个分量是按方差大小、由大到小排列的。 (4)y 的协方差阵为对角阵。
典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的 整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标 之间的相关关系,分别在两组变量中提取有代表性的两个综合变量 U1 和 V1(分 别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来
反映两组指标之间的整体相关性。
(12)联合分析
(13)多变量图表示法
(14)多维标度法
2. 简单相关分析、复相关分析和典型相关分析有何不同并举例说明之。
简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并 对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的 相关关系的一种统计方法。例如,以 X、Y 分别记小学生的数学与语文成绩,感 兴趣的是二者的关系如何,而不在于由 X 去预测 Y。
令 ej=( 0, , 0,1, 0, , 0 ) 为单位向量,则
xj= ej x,yi= ui x
所以,Cov(yi, xj)= Cov(ui x, ej x)= ej D(x) ui= ej
ui= i ej ui= i uij
故
a( yi , x j )
Cov( yi , x j ) uij i var( yi ) var(x j ) jj
x1=c(5,7,3,6,6);x1 x2=c(7,1,2,5,6);x2
(2) 写出绘制上面散点图的 R 命令:
x1=c(5,7,3,6,6);x1 x2=c(7,1,2,5,6);x2 plot(x1,x2)
(3) 写出绘制系统聚类图的 R 命令:
X=(x1,x2);X D=dist(X,diag=TRUE,upper=TRUE);D hc=hclust(D,'complete');hc plot(hc)
性质(4)可有(1)(2)(3)得到。
证明性质(5):
由 U= (u1, u2 , , up ) ,则有
= UU
p
p
于是 ii =tr( )=tr(U U )= tr( U U)= tr( )= i
i 1
i 1
证明性质(6):(6)
由前面的证明得知 var( yi ) i , var(xj ) jj
3. 试说明主成分分析和因子分析不同点和相同之处。 主成分分析和因子分析的相同之处
1.都可以降维、分析多个变量的基本结构
2.因子分析是主成分分析的进一步推广。主成分分析可被视为一种固定效应 的因子分析,是因子分析的特列
3.都是利用变量之间的相关性将它们进行分类
4.主成分分析中,各个主成分之间互不相关;因子分析中,公因子之间不相 关、特殊因子之间不相关、公因子与特殊因子之间不相关
[A] 共 8 页
考
学院(校)
专业 班(级)
生
填 姓名
学号
写
题号 一 二 三 四 五 六 七 八 九 十 总 分 得分
得分
评阅人
一、简答题(共 5 小题,每小题 6 分,共 30 分)
1. 常用的多元统计分析方法有哪些 (1)多元正态分布检验
(2)多元方差-协方差分析 (3)聚类分析 (4)判别分析 (5)主成分分析 (6)因子分析 (7)对应分析 (8)典型相关性分析 ( 9)定性数据建模分析 (10)路径分析(又称多重回归、联立方程) (11)结构方程模型
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时 候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同 的因子。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中 则是把主成分表示成个变量的线性组合。
4. 判别分析以及 Fisher 判别和 Bayes 判别的基本思想是什么
2、综合指数法
3、Topsis 法 4、秩和比(RSR)法 5、层次分析(AHP)法 6、模糊评价方法 7、多元统计分析方法 8、灰色系统评价方法
得分
评阅人
二、证明题(共 1 小题,共 20 分)
设 y = a1x1+ a2x2 +…+apxp a x,其中 a = (a1,a2,…,ap) ,x = (x1,
性质(6)得证
得分
评阅人
三、运算题(共 3 小题,共 20 分)
下面左表为五个观察值,两个变量的数据,右表为用欧氏距离计算的距离矩阵,
x2 1234567
x1
x2
1
5
7
2
7
1
3
3
2
4
6
5
5
6
6
1 5 4
3
2
3
4
5
6
7
x1
1. (10 分)写出用 R 语言分析的命令 (1) 请将数据 x1 和 x2 写入 R 向量中:
判别分析:根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等
Fisher 判别法;通过将多维数据投影到某一方向上,使得投影之后类与类之间 尽可能分开,然后再寻找合适的判别准则。 Bayes 判别法:假设已知对象的先验概率和“先验条件概率”, 而后得到后验 概率, 由后验概率作出判别。 5. 指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。 标准化方法 (1)主成分分析法。主成分分析是多元统计分析的一个分支。是将其分量相关的 原随机向量,借助于一个正交变换,转化成其分量不相关的新随机向量,并以方 差作为信息量的测度,对新随机向量进行降维处理。再通过构造适当的价值函数, 进一步做系统转化。 (2)数据包络分析法。它是创建人以其名字命名的 DEA 模型——CR 模型。DEA 法 不仅可对同一类型各决策单元的相对有效性做出评价与排序,而且还可进一步分 析各决策单元非 DE 有效的原因及其改进方向,从而为决策者提供重要的管理决 策信息。 (3)模糊评价法。模糊评价法奠基于模糊数学。它不仅可对评价对象按综合分值 的大小进行评价和排序,而且还可根据模糊评价集上的值按最大隶属度原则去评 定对象的等级。 综合评价方法
复相关分析;研究一个变量 x0 与另一组变量 (x1,x2,…,xn)之间的相关 程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响, 那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数…n 的测定,可先求出 x0 对一组变量 x1,x2,…,xn 的回归直线,再计算 x0 与用 回归直线估计值悯之间的简单直线回归。复相关系数为…n 的取值范围为 0≤…n ≤1。复相关系数值愈大,变量间的关系愈密切。
p
p
(5) ii i , 这里
i 1
i 1
= ( )ii p p
(6)
证明(1)(2)(3):
设 的特征向量为 U= (u1,u2,…,up),则 U U=I,即 U 为一正交阵,且
p
= U U = U diag( 1, 2 , , p )U = i uiui i 1
因此 a
p
p
p
a= i a uiui a= i (a ui) (a ui) = i (a ui)2
Min. 1st Qu. Median Mean 3rd Qu. Max.
(5) 写出计算下面相关阵 R 命令: cor(dat) (2 分)
y x1 x2 x3 x4 y x1 x2 x3 x4
(6) 写出计算下面回归系数的 R 命令:fm=lm(y~x1+x2+x3+x4,data=dat);fm (2
分)
Coefficients:
表 1 财政收入多因素分析数据
y
x1
x2
x3
x4
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
1. 基本统计分析和 R 语言命令(15 分) (1) 如果将该数据存入到一个文本文件中,写出将该文本数据读入 数据框 dat 中的 R 命令:dat=("",,header=T) (1 分) (2) 如果将该数据拷贝到剪切板中,写出将该数据读入数据框 dat 中的 R 命令:dat=("clipboard",header=T) (1 分) (3) 写出提取 2000 年数据的 R 命令: dat[10,] (1 分) 写出提取税收(x2)数据的 R 命令: dat[,5] (1 分) 写出提取 2001 年至 2008 年经济活动人口(x4)数据的 R 命令: dat[11:18,5] (1 分) (4) 写出计算财政收入统计量的 R 命令: summary(y) (2 分)
另外,Cov(yi, yj)= Cov(ui x, uj x)= ui i
uj= ui j uj= j ui uj=0,
因此,有上述可得变量 x 的主成分是以 的特征向量为系数的线性组合,且主成 分 y 之间互不相关,y 的 p 个分量是按方差大小、由大到小排列的。性质(1)(2) (3)得证。
(2)试在图中标出这些距离
3.(5 分)试用最长距离法对其进行聚类分析,画出聚类图,并按二类、三类 进行分类
第一步:计算距离阵
X=(x1,x2);X D=dist(X,diag=TRUE,upper=TRUE);D
6
5
第二步:进行系统聚类(最长距离法)
hc=hclust(D,'complete');hc
2
1
1
5
4
D hclust (*, "complete")
得分
评阅人
四、案例分析题(共 2 小题,共 30 分)
我们知道,财政收入与国民生产总值和税收等经济指标有密切的依存关系。 今收集了我国改革开放以来财政收入(y:百亿元),国民生产总值 (x1:百亿元), 税收(x2:百亿元),进出口贸易总额(x3:百亿元),经济活动人口(x4:百万人)的 部分数据,见下表所示,分析财政收入和国民生产总值、税收、进出口贸易总额、 经济活动人口之间的关系。
第三步:画出聚类图 (1)按二类进行分类
plot(hc); (hc,2)
Cluster Dendrogram
D hclust (*, "complete")
(2)按三类进行分类
plot(hc); (hc,3)
4
3
2
Height
3
2
1
1
5
4
Cluster Dendrogram
6
5
4
3
2
Height
3
多元统计Βιβλιοθήκη Baidu析及 R 语言建模考试试卷
课程名称:_____多元统计分析 ______________
课程类别
教 授课教师姓名:________王斌会______________ 师 考试时间:_ _年_____月______日 填
写
必修[ ] 选修[ ] 考试方式 开卷[ ] 闭卷[ ] 试卷类别(A、B)
主成分分析和因子分析的区别
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把 主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在 解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。 因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor) 之间也不相关,共同因子和特殊因子之间也不相关。
2.(5 分)
(1) 写出计算下面绝对距离阵的 R 命令:
x1=c(5,7,3,6,6) x2=c(7,1,2,5,6) X=(x1,x2);X D=dist(X,diag=TRUE,upper=TRUE,p=1);D
12345 108732 280556 375067 435601 526710
i 1
i 1
i 1
于是 a
p
a i (a ui)2= 1 (a U) (a U) = 1 a UU a= 1 a a= 1 i 1
应取 a u1 时,u1
u1= u1 1 u1= 1
故 y1= u x 就是第一主成分,其方差最大,
Var(y1) = Var(u1 x) = 1
同理,Var(yi) = Var(ui x) = i
x2,…,xp) ,求主成分就是寻找 x 的线性函数 a x 使相应的方差达到最大,
即 Var(a x) = a
a 达到最大,且 a a =1,此处 为 x 的协方差阵。
设 的特征根为
。试证明下面性质:
(1)y=U x,U U=I,这里 U 为 x 的协方差阵的特征向量(单位化的)组
成的正交阵。 (2)y 的各分量之间是互不相关的。 (3)y 的 p 个分量是按方差大小、由大到小排列的。 (4)y 的协方差阵为对角阵。
典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的 整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标 之间的相关关系,分别在两组变量中提取有代表性的两个综合变量 U1 和 V1(分 别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来
反映两组指标之间的整体相关性。
(12)联合分析
(13)多变量图表示法
(14)多维标度法
2. 简单相关分析、复相关分析和典型相关分析有何不同并举例说明之。
简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并 对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的 相关关系的一种统计方法。例如,以 X、Y 分别记小学生的数学与语文成绩,感 兴趣的是二者的关系如何,而不在于由 X 去预测 Y。
令 ej=( 0, , 0,1, 0, , 0 ) 为单位向量,则
xj= ej x,yi= ui x
所以,Cov(yi, xj)= Cov(ui x, ej x)= ej D(x) ui= ej
ui= i ej ui= i uij
故
a( yi , x j )
Cov( yi , x j ) uij i var( yi ) var(x j ) jj
x1=c(5,7,3,6,6);x1 x2=c(7,1,2,5,6);x2
(2) 写出绘制上面散点图的 R 命令:
x1=c(5,7,3,6,6);x1 x2=c(7,1,2,5,6);x2 plot(x1,x2)
(3) 写出绘制系统聚类图的 R 命令:
X=(x1,x2);X D=dist(X,diag=TRUE,upper=TRUE);D hc=hclust(D,'complete');hc plot(hc)
性质(4)可有(1)(2)(3)得到。
证明性质(5):
由 U= (u1, u2 , , up ) ,则有
= UU
p
p
于是 ii =tr( )=tr(U U )= tr( U U)= tr( )= i
i 1
i 1
证明性质(6):(6)
由前面的证明得知 var( yi ) i , var(xj ) jj
3. 试说明主成分分析和因子分析不同点和相同之处。 主成分分析和因子分析的相同之处
1.都可以降维、分析多个变量的基本结构
2.因子分析是主成分分析的进一步推广。主成分分析可被视为一种固定效应 的因子分析,是因子分析的特列
3.都是利用变量之间的相关性将它们进行分类
4.主成分分析中,各个主成分之间互不相关;因子分析中,公因子之间不相 关、特殊因子之间不相关、公因子与特殊因子之间不相关
[A] 共 8 页
考
学院(校)
专业 班(级)
生
填 姓名
学号
写
题号 一 二 三 四 五 六 七 八 九 十 总 分 得分
得分
评阅人
一、简答题(共 5 小题,每小题 6 分,共 30 分)
1. 常用的多元统计分析方法有哪些 (1)多元正态分布检验
(2)多元方差-协方差分析 (3)聚类分析 (4)判别分析 (5)主成分分析 (6)因子分析 (7)对应分析 (8)典型相关性分析 ( 9)定性数据建模分析 (10)路径分析(又称多重回归、联立方程) (11)结构方程模型
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时 候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同 的因子。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中 则是把主成分表示成个变量的线性组合。
4. 判别分析以及 Fisher 判别和 Bayes 判别的基本思想是什么