第十二章相关与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章 相关与回归分析
四、名词解释
1.消减误差比例
变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来度量。
将削减误差比例记为PRE 。
2. 确定性关系
当一个变量值确定后,另一个变量值夜完全确定了。
确定性关系往往表现成函数形式。
3.非确定性关系
在非确定性关系中,给定了一个变量值,另一个变量值还可以在一定范围内变化。
4.因果关系
变量之间的关系满足三个条件,才能断定是因果关系。
1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关
单相关只涉及到两个变量,所以又称为二元相关。
三个或三个以上的变量之间的相关关系则称为复相关,又称多元相关。
6.正相关与负相关
正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图
散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X 与Y 的相互关系,即得相关图,又称散点图。
8.皮尔逊相关系数r
皮尔逊相关系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。
9.同序对
在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y Y <,则称这一配对是同序对。
10.异序对
在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y >Y ,则称这一配对是异序对。
11.同分对
如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i j
Y =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。
六、计算题
1.对某市市民按老中青进行喜欢民族音乐情况的调查,样本容量为200人,调查结果示于下表,试把该频数列联表:①转化为相对频数的联合分布列联表②转化为相对频数的条件分布列联表;③指出对于民族音乐的态度与被调查者的年岁有无关系,并说明理由。
对于民族音乐的态度(Y)
年岁(X)
Σ老中青
喜欢不喜欢38 38 30 15 33 46
Σ
2.已知十名学生身高和体重资料如下表,(1)根据下述资料算出身高和体重的皮尔逊相关系数和斯皮尔曼相关系数;(2)根据下述资料求出两变量之间的回归方程(设身高为自变量,体重为因变量)。
身高(cm)171 167 177 154 169
体重(kg)53 56 64 49 55
身高(cm)175 163 152 172 162
体重(kg)66 52 47 58 50 【皮尔逊相关系数:0.889,斯皮尔曼相关系数:0.94,回归方程:Y=-54.48+0.66X】
3.假定有不同文化程度的35~45岁育龄妇女100人的生育情况如下表,求文化程度与平均生育数的相关系数r。
序号一二三四五育龄妇女人数20 20 20 20 20
文化程度(年)平均生育数
4.74
6
3.31
9
3.08
12
2.41
16
1.94
4.某市有12所大专院校,现组织一个评审委员会对各校校园及学生体质进行评价,结果如下,试求环境质量与学生体质的关系的斯皮尔曼相关系数和肯得尔等级相关系数。
环境名次 3 9 7 5 12 8 10 2 11 4 1 6
体质名次 5 9 6 7 12 8 11 1 10 3 2 4
【斯皮尔曼相关系数:0.94,肯德尔等级相关系数:0.83】5.以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度之Gamma系数和肯德尔相关系数τc。
文化程度
婚姻美满
大学中学小学
美满9 16 5
一般8 30 18
不美满 3 4 7
【τc=0.18】6.以下为两位评判员对10名参赛人名次的打分。
试用斯皮尔曼等级相关系数来描述两评判员打分的接近程度。
参赛人 A B C D E F G H I J
评判员1 评判员2 1
1
2
2
4
3
3
4
5
5
8
6
6
7
7
8
9
9
10
10
【斯皮尔曼相关系数:0.95】
7.某原始资料为:
X 65 73 91 88 76 53 96 67 82 85
Y 5 7 13 13.5 7 4.5 15 6.7 10 11 要求:(1)求回归方程;(2)这是正相关还是负相关;(3)求估计标准误差;
(4)用积差法求相关系数。
【Y=-11.48+0.27X】【正相关】【相关系数r=0.95】
8.两变量X、Y之间的关系如下表,
X 2 4 6 8 10 12
Y 14 10 9 7 5 4
(1)求回归方程;(2)求相关系数。
【Y=-0.957X+14.867】【r=0.98】
9.试就下表所示资料,计算关于身高和体重的皮尔逊相关系数。
N0身高(厘米)体重(千克)
1
2
3
4
5
6
7
8
9
10 160
161
165
165
167
170
172
174
176
180
51
56
59
66
63
70
69
73
80
65
【r=0.77】
10.青年歌手大奖赛评委会对10名决赛选手的演唱水平(X)和综合素质(Y)进行打分,评价结果如下表(表中已先将选手按演唱水平作了次序排列)所示,试计算选手的演唱水平和综合素质间的肯德尔等级相关系数及斯皮尔曼等级相关系数。
选手名
A B C D E F G H I J
演唱水平(X ) 综合素质(Y ) 1 2 3 4 5 6 7 8 9 10 3 1 5 2 7 4 10 8 6 9 【肯德尔系数:0.56,斯皮尔曼系数:0.76】
11.青年歌手大奖赛,假设五位评委对10名决赛选手的演唱水平进行排序,他们的有关评价结果列于下表,试通过计算肯德尔和谐系数,检验专家意见的一致性和相关程度。
五位评委 10名决赛选手
A B C D E F G H I J A B C D E 1 2 3 4 5 6 7 8 9 10 3 2 1 4 5 8 9 7 10 6 1 3 2 4 8 7 6 5 9 10 4 2 1 5 3 10 8 6 7 9 5 2 1 9 3 8 4 6 10 7
【0.76】
12.某地区失业率与通货膨胀率之间的资料如下表所示,试求:(1)拟合指数回归方程
c Y =x ab ;(2)失业率与通货膨胀率之间的相关系数。
失业率(%) 1.0 1.6 2.0 2.5 3.1 3.6 4.0 4.5 5.1 5.6 6.0 6.5 通胀率(%) 1.6 1.5 1.1 1.3 0.6 0.9 0.8 0.8 0.7 0.6 0.6 0.6
【()
x
e y 1803.0717.1-=】【相关系数0.76】
13.试就下表所示资料,求算员工工作满足感高与归属感之Gamma 系数,并解释Gamma 系数具有削减误差比例PRE 性质。
工作满足感与归属感
归属感(Y ) 工作满足感(X ) Y F
低(1) 中(2) 高(3) 低(1) 中(2) 高(3) 8 4 3 6 5 1 4 4 5 15 12 13 Fx
18 13 9
40
【G=0.092】
14.已知相关系数r =0.6,估计标准误差X
Y S =8,样本容量为62。
求:
1)剩余变差值;
2)剩余变差占总变差的百分比; 3)求总变差值。
15.在相关和回归分析中,已知下列资料:2
X S =16,2
Y S =25,2
XY S =-19,a =30。
要求:1)计算相关系数r ,说明相关程度;2)求出直线回归方程。
16.在相关和回归分析中,已知下列有关资料:X S =5,Y S =10,n =20,r =0.9,
2
)
(∑-Y Y =2000。
试计算:
1)回归系数b ;
2)回归变差和剩余变差; 3)估计标准误差X
Y S 。
17.根据下述假设资料求回归方程。
X 1 2 3 4 5 6 7 Y 23.0
23.4
24.1
25.2
26.1
26.9
27.3
18.某10户家庭样本具有下列收入(元)和食品支出(元/周)数据: 收入(X ) 20 30 33 40 15 13 26 38 25 43 支出(Y )
7
9
8
11
5
4
8
10
9
10
要求:1)写出最小平方法计算的回归直线方程;
2)在95.46%把握下,当X =45时,写出Y 的预测区间。
19.根据下述假设资料,试用积差法求相关系数。
输出X (亿元)
12
10
6
16
8
9
10
输出Y (亿元) 12 8 6 11 10 8 11
20.对40个企业的横截面样本数据进行一元回归分析,因变量与其平均数的离差平方和为6000,而回归直线拟合的剩余变差为2000,求:
1)变量间的相关指数R ; 2)该方程的估计标准误差。
七、问答题
1.简述积差系数的特性。
2.简述回归分析和相关分析之间的密切联系。
部分计算参考:(见计算题六)
2. 已知十名学生身高和体重资料如下表,(1)根据下述资料算出身高和体重的皮尔逊相关系数和斯皮尔曼相关系数;(2)根据下述资料求出两变量之间的回归方程(设身高为自变量,体重为因变量)。
皮尔逊相关系数与回归方程 编号 身体重
编号 身高(cm ) 体重(kg )
1 171 53
2 167 56
3 177 64
4 154 49
5
169 55 6 175 66 7 163 52 8 152 47 9 172 58 10
162
50
2
x 2
y
高(cm )x (kg )y
xy
1 171 53 29241
2809 9063 2 167 56 27889 3136 9352 3 177 64 31329 4096 11328 4 154 49 23716 2401 7546 5 169 55 28561 3025 9295 6 175 66 30625 4356 11550 7 163 52 26569 2704 8476 8 152 47 23104 2209 7144 9 172 58 29584 3364 9976 10 162 50
26244 2500 8100 合计 1662
550 276862
30600
91830
2
2
2
2
n xy x y r 0.89n x (x)
n y (y)
-=
=--∑∑∑∑∑∑∑
22
n xy x y b 0.659
n x (x)y x a=b 54.479n n
y=a+bx=-54.479+0.659x
-=
=--=-∑∑∑∑∑∑∑
斯皮尔曼相关系数 编号 身高(cm )
次序
体重(kg ) 次序 d
1 171 4 53 6 -
2 4 2 167 6 56 4 2 4
3 177 1 6
4 2 -1 1 4 154 9 49 9 0 0
5 169 5 55 5 0 0
6 175 2 66 1 1 1
7 163 7 52 7 0 0
8 152 10 47 10 0 0
9 172 3 58 3 0 0 10 162
8
50
8
0 合计
10
2s 2
6d r 1-0.94n(n -1)
==∑
2
d
4. 某市有12所大专院校,现组织一个评审委员会对各校校园及学生体质进行评价,结 果如下,试求环境质量与学生体质的关系的斯皮尔曼相关系数和肯得尔等级相关系数。
环境名次 3 9 7 5 12 8 10 2 11 4 1 6 体质名次
5
9
6
7
12
8
11
1
10
3
2
4
斯皮尔曼等级相关系数
环境名次 体质名
次
d
3 5 -2
4 9 9 0 0 7 6 1 1
5 7 -2 4 12 12 0 0 8 8 0 0 10 11 -1 1 2 1 1 1 11 10 1 1 4 3 1 1 1 2 -1 1
6 4
2
4
合计
18
2s 2
6d r 1-
0.94n(n -1)
==∑
肯德尔等级相关系数
A
B C D E F G H I J K L 环境名次(x ) 3 9 7 5 12 8 10 2 11 4 1 6 体质名次(y)
5
9
6
7
12
8
11
1
10
3
2
4
1) A : 同序对 AC AB AD AE AF AG AH AI AK 9 异序对 AJ AL 2 2) B : 同序对 BC BD BG BH BI BJ BK BL BE BF 10
3) C : 同序对 CE CF CG CH CI CJ CK CL 8 异序对CD 1 4 D : 同序对 DE DF DG DH DI DJ DK 7 异序对 DL 1 5) E : 同序对 EG EH EI EJ EK EL EF 7 6) F : 同序对 FG FH FI FJ FK FL 6
2
d
7) G : 同序对 GH GJ GK GL 4 异序对GI 1 8) H : 同序对 HI HJ HK HL 4 9) I : 同序对 IJ IK IL 3 10)J : 同序对 JK JL 2 11)K : 同序对 KL 1
合计:同序对s n 61= 异序对d n 5=
s d
a n n 0.831
n(n 1)2
τ-=
=-
5. 以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度 Gamma 系数和肯德尔相关系数τc 。
文化程度
婚姻美满
大学
中学
小学
美 满 9 16 5 一 般 8 30 18 不美满
3
4
7
s n =9×(30+18+4+7)+16×(18+7)+8×(4+7)+30×7=1229 d n =5×(30+8+3+4)+18×(3+4)+16×(8+3)+30×3=617
[]s d
c 2
n n 1n (m 1)/m 2
τ-=
=-0.18
6.以下试两位评判员对10名参赛人名次的打分。
试用斯皮尔曼等级相关系数来描述两评判员打分的接近程度。
参赛人 A B C D E F G H I J 评判员1 评判员2 1 1
2 2
4 3
3 4
5 5 8 6
6 7
7 8
9 9
10 10
参赛人 评审员1 评审员2
d A 1 1 0 0 B 2 2 0 0 C 4 3 1 1 D 3 4 -1 1 E
5 5
2
d
F 8 6 2 4
G 6 7 -1 1
H 7 8 -1 1
I 9 9 0 0
J 10 10
0 合计
8
2s 2
6d r 1-
0.95n(n -1)
==∑
7.某原始资料为:
X 65 73 91 88 76 53 96 67 82 85 Y
5
7
13
13.5
7
4.5
15
6.7
10
11
要求:(1)求回归方程;
(2)这是正相关还是负相关;【正相关】 (3)求估计标准误差; (4)用积差法求相关系数。
X Y
xy 65
5 4225 25 325 73 7 5329 49 511 91 13 8281 169 1183 88 13.5 7744 182.25 1188
76 7 5776 49 532 53 4.5 2809 20.25 238.5 96 15 9216 225 1440 67 6.7 4489 44.89 448.9 82 10 6724 100 820 85 11 7225 121 935 776
92.7
61818
985.39 7621.4
2
2
2
2
2
2
n xy x y r 0.95
n x (x)
n y (y)
n xy x y b 0.267
n x (x)
y x a=b 11.477n n
y=a+bx=-11.477+0.267x
-==---=
=--=-∑∑∑∑∑∑∑∑∑∑∑∑∑∑
17.根据下述假设资料求回归方程。
X 1 2 3 4 5 6 7 Y
23.0
23.4
24.1
25.2
26.1
26.9
27.3
2x 2y
编号 x
y
xy
1 1 23.0 1 529 23
2 2 23.4 4 547.56 46.8
3 3 24.1 9 580.81 72.3
4 4 25.2 16 635.04 100.8
5 5 26.1 25 681.21 130.5
6 6 26.9 36 723.61 161.4
7 7 27.3 49 745.29 191.1 合计
28
176.0
140
4442.52
725.9
7
r
a
b
0.992832
22.0143
0.782143
22
n xy x y b 0.782
n x (x)y x a=b 22.014n n
y=a+bx=22.014+0.782x
-==--=∑∑∑∑∑∑∑
18.某10户家庭样本具有下列收入(元)和食品支出(元/周)数据: 收入(X ) 20 30 33 40 15 13 26 38 25 43 支出(Y )
7
9
8
11
5
4
8
10
9
10
要求:1)写出最小平方法计算的回归直线方程;
2)在95.46%把握下,当X =45时,写出Y 的预测区间。
收入(X ) 支出(Y )
xy 20 7 400 49 140 30 9 900 81 270 33 8 1089 64 264 40 11 1600 121 440 15 5 225 25 75 13 4 169 16 52 26 8 676 64 208 38 10 1444 100 380 24 9 576 81 216 43 10 1849 100 430 282 81 8928 701 2475
2x 2y 2
x 2
y
2
2
n xy x y b 0.196
n x (x)
y x a=
b 2.585
n n
y=a+bx=2.585+0.196x
-==--=∑∑∑∑∑∑∑
19.根据下述假设资料,试用积差法求相关系数。
输出X (亿元)
12
10 6 16 8 9
10
输出Y (亿元) 12
8
6
11
10
8 11 输出 x (亿元) 输出 y (亿元
xy 12 12 144
144 144 10 8 100 64 80 6 6 36 36 36 16 11 256 121 176 8 10 64 100 80 9 8 81 64 72 10
11
100
121
110
2
2
2
2
n xy x y r 0.70n x (x)
n y (y)
-=
=--∑∑∑∑∑∑∑
2
x 2
y。