相关系数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高二数学 选修1-2
1.2
相关系数
西安远东二中 李建章
复习回顾
不相关 1、两个变量的关系
函数关系 相关 关系
线性相关 非线性相关
相关关系:对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量 之间的关系。
2、最小二乘估计下的线性回归方程:
b
( x x)( y
i 1 i n i 1 i
n
_
i
y)
2
_
x y x
i 1 i 1 n i 2 i
n
i
nxy
2
_ _
( x x)
n( x)
y bx a
a y bx
1)(x,y) 称为样本点的中心。 2)a,b 的意义是:以 a 为基数,x 每增加1个单位,y相 应地平均增加 b 个单位。
3、求线性回归方程的步骤:
完全负相关 无线性相关 完全正相关
-1.0
-0.5
0
0.5
正相关程度增加
1.0
r
负相关程度增加
1.试计算课本P73中变量的线性相关系数r。 2.计算下表中两变量的线性相关系数r: x y -5 0 -4 3 -3 4 0 5 3 4 4 3
y
5 4 3 2 1 -4 -2
5 0
经计算后得 r=0。 通常,|r|越大,线性关系越强,用直 线拟合的效果就越好。一般来说 :
年份 x y 2000 24.4 19 2001 29.5 6 2002 32.9 1 2003 28.7 10 2004 30.3 1 2005 28.9 8
(1)对变量x,y进行相关性检验: (2 )根据规律推断,该地区 2006 年三月下旬平均气温为 27 C ,试 估计 2006 年四月化蛹高峰日为哪一天 解析: x 29.12
解:画出散点图
列表:
i 1 2 3 4 5 6 7 8 ∑
xi 154 157 158 159 160 161 162 163 1274
i
yi 155 156 159 162 161 164 165 166 1288
x i2 23716 24649 24964 25281 25600 25921 26244 26569 202944
2
202944 8 159.25 80 0.963 59.5 116
207484 8 161
2
因为r=0.963接近1,所以x与y具有较强的 线性相关关系.
建立线性回归模型:y=a+bx
b
x y
i1 n 2 i
n
i i
nxy
_ 2
_ _
x n x i1
思考2:在上面的散点图中,这些点散布在从左下角 到右上角的区域,对于两个变量的这种相关关系,我 们将它称为正相关.一般地,如果两个变量成正相关, 那么这两个变量的变化趋势如何?
但是在样本点非常多的情况下,散点图 不好做,那么我们如何来刻画他们之间是否 具有线性相关关系呢?
如何描述它们之 间线性相关关系 的强弱呢?
假设两个随机变量的取值分别是(x1,y1),(x2,y2), …(xn,yn),则变量间线性相关系数r的计算公式如下:
r
lxy lxxl yy
( x x)( y y)
i 1 i i
n
( x x) ( y y )
2 i 1 i i 1 i
n
n
2
x y nx y
b
lxy lxx
x y nx y
i 1 n i i
x
i 1
2
i
nx
2
a y bx
若b>0则正相关;若b<0则负相关
相关性 1、在散点图中,点有一个集中的大致趋势
2、在散点图中,所有的点都在一条直线附近
波动----线性相关。
y
2. | r | 最大时,Q 越小 变量之间的线性相关程度越高
3. | r | 越接近 0,Q 越大 变量之间的线性相关程度越低
4.当 r 0 ,
b l xy l xx 0 ,
y 与 x 同增减 两个变量正相关
5 .当 r 0 b<0 一个变量增加,另一变量减少 两个变 量负相关
n
_ _
b
( x x)( y
i 1 i n i 1
n
_
i
y)
_
x y
i 1 n i i 1
n
i
nxy
_ _
2 ( x x ) i
2 2 x n( x ) i
例. 下表是随机抽取的8对母女的身高数据,试 根据这些数据探讨y与x之间的关系.
母亲身高x/cm 154 157 158 159 160 161 162 163 女儿身高y/cm 155 156 159 162 161 164 165 166
161
计算相关系数:
r
x y
i1
n
i i
nxy
_ _
n 2 _ 2 n 2 _ 2 xi n x yi n y i1 i1 205194 8 159.25 161
r∈[-1,-0.75]或[0.75,1],线性 -6 关系很强; r∈[-0.75,0.75],线性关系很弱。
0
2
4
6
x
1.如图所示,图中有5组数据,去掉 组 数据后(填字母代号),剩下的4组数据的线 性相关性最大( A )
A.E B.C C.D D.A
2、对于散点图下列说法中正确一个是( C )
y
O
O
O
y
x
x
x
y
O
x
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有 一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似描述, 这种近似的过程称为曲线拟合。在两个变量x和y的散点图中,所有点看 上去都在一条直线附近波动,则称变量间是线性相关的。此时,我们可 以用一条直线来拟合,这条直线叫回归直线。
表 1-3 x y -5 0 -4 3 -3 4 0 5 3 4 4 3 5 0
1.列表
I 1 2 3 4 5 6 7
2.计算 相关系数
yi
0 3 4 5 4 3 0 19
xi
-5 -4 -3 0 3 4 5 0
xi2
25 14 9 0 9 16 25 100
yi2
0 9 16 25 16 9 0 75
y i2 24025 24336 25281 26244 25921 26896 27225 27556 207484
i
x iy i 23870 24492 25122 25758 25760 26404 26730 27058 205194
x 其中: x n
y 159.25 y n
相关系数r的性质: (1) (2)
当r 0 时 , 表明两个变量正相关 ; 当r 0 时, 表明两个变量负相关 .
r 1 ; (3) r 越接近于1,x,y的线性相关
程度越强; (4)
r
越接近于0,x,y的线性相关
P7思考交流
程度越弱;
Q(a, b) l yy n[ y (a bx)] lxx (b ) lxx lxx 2 2 lxy lxy 2 Qmin l yy l yy (1 ) l yy (1 r ) lxx l yy lxx 2 由于 Q 0 ,所以 r 1 ,即 r [1,1]
A.通过散点图一定可以看出变量之间的变化规律
B.通过散点图一定不可以看出变量之间的变化规律 C.通过散点图可以看出正相关与负相关有明显区别 D.通过散点图看不出正相关与负相关有什么区别
3
A
r
xiyi n x y
i1 _ 2 2 2 2 xi n(x) yi n(y) i1 i1 n n
(1)计算平均数 x , y n i与 yi 的积,求 xi yi (2)计算 x n n i 1 2 2 xi , yi (3)计算 i 1 i 1 (4)将上述有关结果代入公式,求b、a, 写出回归直线方程.
复习
给定n个样本点(x1,y1),(x2,y2),…(xn,yn),如 果图像上面显示它们具有线性相关关系的话,就可以 通过下面的公式计算出a,b的值,代入 y=a+bx 即可得 n 线性回归方程。
a y b x 7.5 2.3 29.12 74.476
所以,线性回归方程为 y 2.3x 74.476
当 x 27 时, y 2.3 27 74.476 12.376 据此估计该地区 2006 年 4 月 12 日或 13 日为化蛹高峰日。
例2 请计算表1-3中变量的线性相关系数r,通过计算,发现 了什么?
误差
2 2
lxy
lxy
2
|r|越接近1,误差 Q 越小,变量间的线性程度越强; |r|越接近 0,误差 Q 越大,变量间的线性程度越弱. 若r 若r 若r
0,则 lxy 0,即b
lxy
,则两变量负相关; 0,则 b 0
lxx
0,则两变量正相关;
0,则两变量不相关。
相关系数取值及其意义
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
思考:观察散点图的大致趋势,人的年龄的与人体脂 肪含量具有什么相关关系?
年龄与脂肪的散点图,从整体上看,它们是线性相关的
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
y 7.5
x y
i
x
i i
2 i
5125 .01
2 y i 563
i
1222
r
x y 6x y x 6x y 6 y
2 i 2 2 i
2
0.9493
1222 6 7.5 29.12 b 2.3 2 5125 .01 6 29.12
x y
i1 n 2 i
n
i i
8xy
_ 2
ຫໍສະໝຸດ Baidu
_ _
x 8 x i1
1.345
a y b x 53.191
故y对x的线性回归方程为 y 53.191 1.345 x
说明:
1。由于 Q 0 从而 r 2 1 故相关系数 r 的取值范围是 [1,1]
6.当 r 0 y 与 x 两个变量线性不相关
7.当 | r | 0.75 很强的线性相关关系
8.当 | r | 0.75 不具有线性相关关系
例 1 为了研究三月下旬的平均气温 x ( 单位: C )与四月二十号前 棉花害虫化蛹高峰日 y 的关系,某地区观察了 2000 年至 2005 年 间的情况,得到下面的数据:
xi yi
0 -12 -12 0 12 12 0 0
x
i 1
n
2 i
100
n
y
i 1
n
2 i
75
x y
i 1 i
n
i
0
x0
y 2.71
r
x y nx y
i 1 i i
x
2
i
nx
2
y
2
i
ny
2
0 7 0 2.71 100 7 0 75 7 2.71
2 2
0
y 6 5 4 3 2 1 -6 -4 -2 0 -1 2 4 6 x
i 1 i i
n
x
i 1
n
2
i
nx
2
y
i 1
n
2
i
ny
2
建构数学
相关系数
i
r=
(x
i=1 n i=1
n
- x)(yi - y)
n
2 2 (x x) (y y) i i i=1
n _ _
x y
i1
i i
nxy
n _ n 2 2 2 2 xi n(x) yi n(y) i1 i1
1.2
相关系数
西安远东二中 李建章
复习回顾
不相关 1、两个变量的关系
函数关系 相关 关系
线性相关 非线性相关
相关关系:对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量 之间的关系。
2、最小二乘估计下的线性回归方程:
b
( x x)( y
i 1 i n i 1 i
n
_
i
y)
2
_
x y x
i 1 i 1 n i 2 i
n
i
nxy
2
_ _
( x x)
n( x)
y bx a
a y bx
1)(x,y) 称为样本点的中心。 2)a,b 的意义是:以 a 为基数,x 每增加1个单位,y相 应地平均增加 b 个单位。
3、求线性回归方程的步骤:
完全负相关 无线性相关 完全正相关
-1.0
-0.5
0
0.5
正相关程度增加
1.0
r
负相关程度增加
1.试计算课本P73中变量的线性相关系数r。 2.计算下表中两变量的线性相关系数r: x y -5 0 -4 3 -3 4 0 5 3 4 4 3
y
5 4 3 2 1 -4 -2
5 0
经计算后得 r=0。 通常,|r|越大,线性关系越强,用直 线拟合的效果就越好。一般来说 :
年份 x y 2000 24.4 19 2001 29.5 6 2002 32.9 1 2003 28.7 10 2004 30.3 1 2005 28.9 8
(1)对变量x,y进行相关性检验: (2 )根据规律推断,该地区 2006 年三月下旬平均气温为 27 C ,试 估计 2006 年四月化蛹高峰日为哪一天 解析: x 29.12
解:画出散点图
列表:
i 1 2 3 4 5 6 7 8 ∑
xi 154 157 158 159 160 161 162 163 1274
i
yi 155 156 159 162 161 164 165 166 1288
x i2 23716 24649 24964 25281 25600 25921 26244 26569 202944
2
202944 8 159.25 80 0.963 59.5 116
207484 8 161
2
因为r=0.963接近1,所以x与y具有较强的 线性相关关系.
建立线性回归模型:y=a+bx
b
x y
i1 n 2 i
n
i i
nxy
_ 2
_ _
x n x i1
思考2:在上面的散点图中,这些点散布在从左下角 到右上角的区域,对于两个变量的这种相关关系,我 们将它称为正相关.一般地,如果两个变量成正相关, 那么这两个变量的变化趋势如何?
但是在样本点非常多的情况下,散点图 不好做,那么我们如何来刻画他们之间是否 具有线性相关关系呢?
如何描述它们之 间线性相关关系 的强弱呢?
假设两个随机变量的取值分别是(x1,y1),(x2,y2), …(xn,yn),则变量间线性相关系数r的计算公式如下:
r
lxy lxxl yy
( x x)( y y)
i 1 i i
n
( x x) ( y y )
2 i 1 i i 1 i
n
n
2
x y nx y
b
lxy lxx
x y nx y
i 1 n i i
x
i 1
2
i
nx
2
a y bx
若b>0则正相关;若b<0则负相关
相关性 1、在散点图中,点有一个集中的大致趋势
2、在散点图中,所有的点都在一条直线附近
波动----线性相关。
y
2. | r | 最大时,Q 越小 变量之间的线性相关程度越高
3. | r | 越接近 0,Q 越大 变量之间的线性相关程度越低
4.当 r 0 ,
b l xy l xx 0 ,
y 与 x 同增减 两个变量正相关
5 .当 r 0 b<0 一个变量增加,另一变量减少 两个变 量负相关
n
_ _
b
( x x)( y
i 1 i n i 1
n
_
i
y)
_
x y
i 1 n i i 1
n
i
nxy
_ _
2 ( x x ) i
2 2 x n( x ) i
例. 下表是随机抽取的8对母女的身高数据,试 根据这些数据探讨y与x之间的关系.
母亲身高x/cm 154 157 158 159 160 161 162 163 女儿身高y/cm 155 156 159 162 161 164 165 166
161
计算相关系数:
r
x y
i1
n
i i
nxy
_ _
n 2 _ 2 n 2 _ 2 xi n x yi n y i1 i1 205194 8 159.25 161
r∈[-1,-0.75]或[0.75,1],线性 -6 关系很强; r∈[-0.75,0.75],线性关系很弱。
0
2
4
6
x
1.如图所示,图中有5组数据,去掉 组 数据后(填字母代号),剩下的4组数据的线 性相关性最大( A )
A.E B.C C.D D.A
2、对于散点图下列说法中正确一个是( C )
y
O
O
O
y
x
x
x
y
O
x
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有 一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似描述, 这种近似的过程称为曲线拟合。在两个变量x和y的散点图中,所有点看 上去都在一条直线附近波动,则称变量间是线性相关的。此时,我们可 以用一条直线来拟合,这条直线叫回归直线。
表 1-3 x y -5 0 -4 3 -3 4 0 5 3 4 4 3 5 0
1.列表
I 1 2 3 4 5 6 7
2.计算 相关系数
yi
0 3 4 5 4 3 0 19
xi
-5 -4 -3 0 3 4 5 0
xi2
25 14 9 0 9 16 25 100
yi2
0 9 16 25 16 9 0 75
y i2 24025 24336 25281 26244 25921 26896 27225 27556 207484
i
x iy i 23870 24492 25122 25758 25760 26404 26730 27058 205194
x 其中: x n
y 159.25 y n
相关系数r的性质: (1) (2)
当r 0 时 , 表明两个变量正相关 ; 当r 0 时, 表明两个变量负相关 .
r 1 ; (3) r 越接近于1,x,y的线性相关
程度越强; (4)
r
越接近于0,x,y的线性相关
P7思考交流
程度越弱;
Q(a, b) l yy n[ y (a bx)] lxx (b ) lxx lxx 2 2 lxy lxy 2 Qmin l yy l yy (1 ) l yy (1 r ) lxx l yy lxx 2 由于 Q 0 ,所以 r 1 ,即 r [1,1]
A.通过散点图一定可以看出变量之间的变化规律
B.通过散点图一定不可以看出变量之间的变化规律 C.通过散点图可以看出正相关与负相关有明显区别 D.通过散点图看不出正相关与负相关有什么区别
3
A
r
xiyi n x y
i1 _ 2 2 2 2 xi n(x) yi n(y) i1 i1 n n
(1)计算平均数 x , y n i与 yi 的积,求 xi yi (2)计算 x n n i 1 2 2 xi , yi (3)计算 i 1 i 1 (4)将上述有关结果代入公式,求b、a, 写出回归直线方程.
复习
给定n个样本点(x1,y1),(x2,y2),…(xn,yn),如 果图像上面显示它们具有线性相关关系的话,就可以 通过下面的公式计算出a,b的值,代入 y=a+bx 即可得 n 线性回归方程。
a y b x 7.5 2.3 29.12 74.476
所以,线性回归方程为 y 2.3x 74.476
当 x 27 时, y 2.3 27 74.476 12.376 据此估计该地区 2006 年 4 月 12 日或 13 日为化蛹高峰日。
例2 请计算表1-3中变量的线性相关系数r,通过计算,发现 了什么?
误差
2 2
lxy
lxy
2
|r|越接近1,误差 Q 越小,变量间的线性程度越强; |r|越接近 0,误差 Q 越大,变量间的线性程度越弱. 若r 若r 若r
0,则 lxy 0,即b
lxy
,则两变量负相关; 0,则 b 0
lxx
0,则两变量正相关;
0,则两变量不相关。
相关系数取值及其意义
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
思考:观察散点图的大致趋势,人的年龄的与人体脂 肪含量具有什么相关关系?
年龄与脂肪的散点图,从整体上看,它们是线性相关的
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
y 7.5
x y
i
x
i i
2 i
5125 .01
2 y i 563
i
1222
r
x y 6x y x 6x y 6 y
2 i 2 2 i
2
0.9493
1222 6 7.5 29.12 b 2.3 2 5125 .01 6 29.12
x y
i1 n 2 i
n
i i
8xy
_ 2
ຫໍສະໝຸດ Baidu
_ _
x 8 x i1
1.345
a y b x 53.191
故y对x的线性回归方程为 y 53.191 1.345 x
说明:
1。由于 Q 0 从而 r 2 1 故相关系数 r 的取值范围是 [1,1]
6.当 r 0 y 与 x 两个变量线性不相关
7.当 | r | 0.75 很强的线性相关关系
8.当 | r | 0.75 不具有线性相关关系
例 1 为了研究三月下旬的平均气温 x ( 单位: C )与四月二十号前 棉花害虫化蛹高峰日 y 的关系,某地区观察了 2000 年至 2005 年 间的情况,得到下面的数据:
xi yi
0 -12 -12 0 12 12 0 0
x
i 1
n
2 i
100
n
y
i 1
n
2 i
75
x y
i 1 i
n
i
0
x0
y 2.71
r
x y nx y
i 1 i i
x
2
i
nx
2
y
2
i
ny
2
0 7 0 2.71 100 7 0 75 7 2.71
2 2
0
y 6 5 4 3 2 1 -6 -4 -2 0 -1 2 4 6 x
i 1 i i
n
x
i 1
n
2
i
nx
2
y
i 1
n
2
i
ny
2
建构数学
相关系数
i
r=
(x
i=1 n i=1
n
- x)(yi - y)
n
2 2 (x x) (y y) i i i=1
n _ _
x y
i1
i i
nxy
n _ n 2 2 2 2 xi n(x) yi n(y) i1 i1