1 相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
9 11
-1
0 0
示例1计算:
根据气温与地温的观测数据,就可以计算它们 之间的秩相关系数
6 4 rxy 1 1 0.9720 2 12 (12 1) 1716
i 1
6 di2
12
即:气温(x)与地温( y )之间的等级相关系 数为0.9720。
秩相关系数的检验 检验过程同前。秩相关系数表见表3。
第一讲 相关分析
• 一、要素间的相关类型 • 二、相关表和相关图 • 三、相关程度的测定
一、要素间的相关类型
• 根据相关程度的不同
– 不相关。如果两个变量彼此的数量变化相互独立,这 种关系称为不相关; – 完全相关。如果一个变量的数量变化完全由另一个变 量的数量变化所唯一确定,这种关系称为完全相关; – 不完全相关。介于不相关与完全相关之间的关系,称 为不完全相关
n
1 lxx xi 2 xi 1450.707 n i 1 i 1
n n
2
1 l yy yi 2 yi 1598.903 n i 1 i 1
n n
2
rxy
lxy lxx l yy
1522.26 0.9995 1450.707 1598.903
表6-1
年份 1997 1998 1999 2000 2001 2002 2003 2004
产品产量与生产费用相关表
产品产量x 1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0 生产费用y 62 86 80 110 115 132 135 160
• 从上表可看出,产品产量与生产费用之间存在一定的 正相关关系。
(二)多要素间相关程度的测定
• 偏相关系数的计算与检验 • 复相关系数的计算与检验
偏相关和复相关是两个相对应的概念
1 偏相关系数的计算与检验
0.05 0.996 92 0.950 00 0.878 3 0.811 4 0.754 5 0.706 7 0.666 4 0.631 9 0.602 1 0.576 0 0.552 9 0.532 4
0.02 0.999 507 0.980 00 0.934 33 0.882 2 0.832 9 0.788 7 0.749 3 0.715 5 0.685 1 0.658 1 0.633 9 0.612 0
2.相关图
• 又称散点图,它是将相关表中的观测值在 平面直角坐标系中用坐标点描绘出来,以 表明相关点的分布状况 • 通过相关图可以大致看出两个变量之间有 无相关关系以及相关的形态、方向和密切 程度
• 例如,以表6-1为例,用EXCEL绘制相关图 如下
产品产量与生产费用相关图 生 产 费 用
180 160 140 120 100 80 60 40 20 0 9 8 7 6 5 4 3 2 1 0
0.01 0.999 877 0.990 00 0.958 73 0.917 20 0.874 5 0.834 3 0.797 7 0.764 6 0.734 8 0.707 9 0.683 5 0.661 4
0.001 0.999 998 0.999 000 0.991 160 0.974 06 0.950 74 0.924 93 0.898 2 0.872 1 0.847 1 0.823 3 0.801 0 0.780 0
1 相关系数的计算与检验
相关系数的计算
①定义:
rxy
n
(x
i 1 i 1
n
i
x )( yi y )
2 ( y y ) i i 1 n
(1 )
2 ( x x ) i
x
和 y 为两要素的平均值。
②说明:
1 rxy 1
rxy大于0时正相关,小于0时负相关; rxy的绝对值越接近于1,两要素的关系越密切;越接 近于0,两要素的关系越不密切。
2 秩相关系数的计算与检验
•
秩相关系数
又称等级相关系数,或顺序相关系数,是将两要 素的样本值按数据的大小顺序排列位次,以各要 素样本值的位次代替实际数据而求得的一种统计 量。
6 d i 2 n(n 1)
i 1 2 n
1 rxy
(3)
示例1
月份 1 气温(x) -4.7 顺序号 12 地温(y) -3.6 顺序号 12 d 0
表3
n
4 5
秩相关系数检验的临界值
显著水平α
0.05
1.000 0.900
0.01
-1.000
n
16 18
显著水平α
0.05
0.425 0.399
0.01
0.601 0.564
6
7 8 9 10 12 14
0.829
0.714 0.643 0.600 0.564 0.456 0.456
0.943
0.893 0.833 0.783 0.746 0.712 0.645
相关分析实例1
地温(Y) -3.6 -1.4 5.1 14.5 22.3 26.9 28.2 26.5 X2 22.09 5.29 19.36 174.24 408.04 585.64 676 605.16 Y2 12.96 1.96 26.01 210.25 497.29 723.61 795.24 702.25 XY 16.92 3.22 22.44 191.4 450.46 650.98 733.2 651.9
2
3 4
-2.3
4.4 13.2
10
8 7
-1.4
5.1 14.5
10
8 6
0
0 +1
5
6 7 8 9
20.2
24.2 26 24.6 19.5
4
3 1 2 5
22.3
26.9 28.2 26.5 21.1
4
2 1 3 5
0
+1 0 -1 0
10
11 12
12.5
4 -2.8
6
9 11
13.4
4.6 -1.9
9
10 11 12 合计
19.5
12.5 4 -2.8 138.8
21.1
13.4 4.6 -1.9 155.7
380.25
156.25 16 7.84 3056.16
445.21
179.56 21.16 3.61 3619.11
411.45
167.5 18.4 5.32 3323.19
计算
1 n n 1 lxy xi yi xi yi 3323.19 138.8 155.7 1522.26 n i 1 i 1 12 i 1
相关分析实例2
表2
月 份 月平均气温 t/ ℃ 降雨量 p/mm 1 3.8 77.7 2 4 51.2
伦敦的月平均气温与降水量
3 5.8 60.1 4 8 54.1 5 11.3 55.4 6 14.4 56.8 7 16.5 45 8 16.2 55.3 9 13.8 67.5 10 10.8 73.3 11 6.7 76.6 12 4.7 79.6
③简化:
n n 1 记 lxy ( xi x )( yi y ) xi yi xi yi n i 1 i 1 i 1 i 1 n n
1 n 2 2 lxx ( xi x ) xi xi n i 1 i 1 i 1
表3 检验相关系数 0 的临界值(r)表
P{| r | r }
f 1 2 3 4 5 6 7 8 9 10 11 12
0.10 0.987 69 0.900 00 0.805 4 0.729 3 0.669 4 0.621 5 0.582 2 0.549 4 0.521 4 0.497 3 0.476 2 0.457 5
• 根据相关所涉及变量的多少
– 单相关。两个变量之间的相关关系称为单相关 – 复相关。多个变量之间的相关关系称为复相关
二、相关表和相关图
1.相关表
• 反映变量之间相关关系的统计表 • 相关表的编制
–将某一变量按其取值大小排列,然后再将与 其相关的另一变量的对应值平行排列得到
• 例如,某地区某企业近8年产品产量与生 产费用的相关情况如表6-1所示:
产 品 产 量
19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04
时间 生产费用(万元) 产品产量(千吨)
图2 相关图
三、相关程度的测定
• •
两要素之间相关程度的测定 多要素间相关程度的测定
两要素之间相关程度的测定
• 相关系数的计算与检验 • 秩相关系数的计算与检验
(1)根据表2中的数据,我们可以利用公式(1),计算伦敦市 月平均气温(t)与降水量(p)之间的相关系数
rtp
(t t )( p p)
i 1 i i
12
(ti t )
i 1
12
2
2 ( p p ) i i 1
12
300.91 250.55 1508.34
300.91 0.489 5 15.83 38.84
(2) 计算结果表明,伦敦市的月平均气温(t )与降水量 (p)之 间呈负相关,即异向相关。
相关系数的检验
相关系数是根据样本数据计算的,具有一定随机 性,能否真实地表现变量总体的相关情况受到随 机因素和样本容量大小的影响。故需要对其进行 检验。 样本相关系数的检验包括两类检验: (1)对总体相关系数是否等于0进行检验; (2)对总体相关系数是否等于某一给定的不为0 的数值进行检验。 样本相关系数的检验主要是指第一种情况
20
22 24 26 28 30 --
0.377
0.359 0.343 0.329 0.317 0.306 --
Fra Baidu bibliotek
0.534
0.508 0.485 0.465 0.448 0.432 --
注:n代表样本个数,α代表不同的置信水平,也称显著水平, 表中的数值为临界值r 。
在上例中,在n=12时,查表得: r0.01 = 0.712,由于 rxy = 0.9720 > r0.01 =0.712,所以 在α=0.01的置信水平上来看,该地的气温与 地温之间呈等级相关的。
n n n n
2
1 n 2 2 l yy ( yi y ) yi yi n i 1 i 1 i 1
2
公式(1)可简化为
rxy
l xy l xx l yy
(2)
表1 月份 1 2 3 4 5 6 7 8 气温(X) -4.7 -2.3 4.4 13.2 20.2 24.2 26 24.6
• 根据相关的形式不同
– 线性相关。如果变量之间的关系近似地表现为一条直 线,则称为线性相关; – 非线性相关。如果变量之间的关系近似地表现为一条 曲线,则称为非线性相关或曲线相关
要素间的相关类型
• 根据变量相关方向的不同
– 正相关。正相关是指两个变量之间的变化方向 一致,都是增长或下降趋势,如居民收入增加, 居民消费额随之增加,故它们是正相关; – 负相关。负相关是指两个变量变化趋势方向相 反,如产品单位成本降低,利润随之增加,故 它们是负相关
• 相关系数检验法
在给定的置信水平下,通过查相关系数检验的临界值表来 实现,见表3
在表3中,f 称为自由度,其数值为 f = n-2,n为样本数;上 方的代表不同的置信水平;表内的数值代表不同的置信 水平下相关系数 r 的临界值,即r;公式P{|r|>r}=的意思 是当所计算的相关系数r的绝对值大于在水平下的临界值 r时,两要素不相关(即0)的可能性只有 对伦敦市月平均气温(t)与降水量(p)之间相关系数的检 验结果:f =12-2=10,对显著性水平0.10,查表3,得知: r0.10= 0.4973。 因为|rtp|=0.4895< r =0.4973,所以,伦敦市 月平均气温(t)与降水量(p)之间的相关性并不显著
对总体相关系数是否等于0的检验
• t 检验法 步骤如下: 第一步 提出原假设和备择假设,即H0:0, H1: 0 假设样本相关系数r是抽自具有零相关的总体; 第二步 计算检验统计量t
t r n2 1 r2
第三步 规定显著性水平,并依据自由度(n-2)确定临 界值t(n-2); 第四步 做出判断。将计算的统计量与临界值对比,若 统计量大于或等于临界值,表明变量间线性相关在统计 上是显著的,若统计量小于临界值,则说明相关关系在 统计上并不显著。