变量间的相关关系

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

变量间的相关关系
1、相关关系的理解
我们曾经研究过两个变量之间的函数关系:一个自变量对应着唯一的一个函数值,这两者之间是一种确定关系。

生活中的任何两个变量之间是不是只有确定关系呢?如:学生成绩与教师水平之间存在着某种联系,但又不是必然联系,对于学生成绩与教师水平之间的这种不确定关系,我们称之为相关关系。

这就是我们这节课要共同探讨的内容————变量间的相关关系。

例1、根据样本数据作出散点图,直观感知变量之间的相关关系。

在研究相关关系前,先回忆一下函数的表示方法有哪些——列表,画图象,求解析式。

下面我们就用这些方法来研究相关关系。

看这样一组数据:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,根据样本数据,人体的脂肪含量与年龄之间有怎样的关系?
结论:随着年龄增长,脂肪含量在增加。

用x轴表示年龄,y轴表示脂肪。

一组样本数据就对应着一个点。

2、散点图
这个图跟我们所学过的函数图象有区别,它叫作散点图。

3、判断正、负相关、线性相关:
请观察这4幅图,看有什么特点?
图1呈上升趋势,图2呈下降趋势。

这就像函数中的增函数和减函数。

即一个变量从小到大,另一个变量也从小到大,或从大到小。

对于图1中的两个变量的相关关系,我们称它为正相关。

图2中的两个变量的相关关系,称为负相关。

后面两个图很乱,前面两个图中点的分布呈条状。

从数学的角度来解释:即图1、2中的点的分布从整体上看大致在一条直线附近。

我们称图1、2中的两个变量具有线性相关关系。

这条直线叫做回归直线。

图3、4中的两个变量是非线性相关关系
1、找回归直线
下面我们再来看一下年龄与脂肪的散点图,
图1
2
图图3
图4
从整体上看,它们是线性相关的。

如果可以求出回归直线的方程,我们就可以清楚地了解年龄与体内脂肪含量的相关性。

这条直线可以作为两个变量具有线性相关关系的代表。

能否画出这条直线?
多种方法展示
总结:所有的点离这条直线最近的方案最好。

从整体上看,各点与此直线的距离和最小。

利用最小二乘法推导回归系数公式
假设我们已经得到两个具有线性相关关系的变量的一组数据:
11(,)x y 22(,)x y ……(,)n n x y 。

当自变量x 取i x (i =1,2,……,n )时,可以得到ˆi y
bx a =+(i =1,2,……,n ),它与实际收集到的i y 之间的偏差是ˆ()i i i i y y
y bx a -=-+(i =1,2,……,n ),这样用n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。

总的偏差为1
ˆ()n
i i i y y
=-∑,偏差有正有负,易抵消,所以采用绝对值1
ˆn
i i i y y
=-∑,由于带绝对值计算不方便所以换成平方,
2
22221122331
ˆ()()()()()n
i i n n i Q y y
y bx a y bx a y bx a y bx a ==-=--+--+--+⋅⋅⋅+--∑现在的问题就归结为:当a ,b 取什么值时Q 最小。

将上式展开、再合并,就可以得到可以求出Q 取最小值时
1
1
22
21
1
()()()
n n
i
i
i i
i i n
n
i
i i i x x y y x y nx y
b x x x nx a y bx
====---=
=
--=-∑∑∑∑(其中11n i i x x n ==∑,1
1n i i y y n ==∑) 推导过程用到偏差的平方,由于平方又叫二乘方,所以这种使“偏差的和”最小的方法叫 “最小二乘法”。

3、求出回归直线方程,并分析它的意义
利用最小二乘法就可以求出回归系数,进一步求出回归方程。

下面我们具体操作一下。

我们先明确几个符号的含义:i x 表示年龄,1x 是23,2x 是27,直到
14x 是61。

i 从1到14, i y 表示脂肪,1y 是9.5,2y 是17.8 。

i i x y 表示年龄与
脂肪的成绩,2i x 表示 年龄的平方
2
2
2
1221221
1
11()()()()()()()()()n
n
i i i i n n i i i i n n i i i i i i x x y y x x y y Q n a y bx x x b y y x x x x ======⎡⎤⎡⎤----⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=--+---+-⎣⎦⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑
218.5 529 480.6 729 826.8 1521 1061.9 1681 1237.5 2025 1288.7 2401 1410 2500 1568.8 2809 1630.8 2916 1758.4 3136 1755.6 3249 1943 3364 2112 3600 2110.6 3721 48.071 27.264286
19403.2
34181
2x i
x i y i
x y i
i
11n i i x x n ==∑表示自变量年龄的平均数,1
1n
i i y y n ==∑表示因变量脂肪的平均数,
21
n
i
i x
=∑表示自变量的平方和,1
n
i i i x y =∑表示自变量与因变量乘积的和。

要求出 a ,b ,
必须先求出这些量。

数学实验2:求出下列各式的值(n=14)
11n i i x x n ==∑= 1
1n
i i y y n ==∑=
1
n
i i
i x y =∑=
21
n
i
i x
=∑= 1
2
2
1
n
i i
i n
i
i x y nx y
b x
nx
==-=
=-∑∑ a y bx =-=
ˆy
bx a =+ 通过计算,求出了0.448,0.5765a b =-= ˆ0.57650.448y
x =- 求出回归直线方程有什么用呢?表格中选取年龄x 的一个值代入上述回归直线的方程,看看得出的数据与真实数值之间的关系。

ˆ0.5765500.44829.272
y
=⨯-=
估计值是29.272,与实际值28.2有偏差,为什么会出现这样的结果?回归直线是估计出的,把a 带入肯定有误差。

试预测某人37岁时,他体内的脂肪含量。

并说明结果的含义。

代入计算
ˆ0.5765370.44820.882
y
=⨯-=
我们不能说他的体内脂肪含量的百分比一定是20.882%?只能说他体内的脂肪含量在20.90%,附近的可能性比较大。

*4、利用相关系数判断线性相关程度
非线性相关,直线不能很好地反映图中两个变量之间的关系。

显然求回归直线的方程是没有意义的。

有些变量线性相关,有些非线性相关,怎样衡量变量的线性相关程度呢?
这时我们引入一个量:相关系数
()()
n
i
i
x x y y r --=

注意它的符号:当0r >时,x ,y 正相关,当0r <时,x ,y 负相关,统计学认为:
对于r ,若[]1,0.75r ∈--,那么负相关很强,若[]0.75,1r ∈,那么正相关很强, 若(][)0.75,0.30r ∈--∈或r 0.30,0.75,那么相关性一般, 若[]0.25,0.25r ∈-,那么相关性较弱,
5、线性回归方程具体如何应用
线性回归方程为ˆˆˆy
bx a =+的求法: (1) 先求变量x 的平均值,既1231
()n x x x x x n
=+++⋅⋅⋅+
(2) 求变量y 的平均值,既1231
()n y y y y y n
=
+++⋅⋅⋅+ (3) 求变量x 的系数ˆb
,有两个方法 法11
2
1
()()
ˆ()
n
i
i
i n
i
i x x y y b
x x ==--=-∑∑(题目给出不用记忆)
[]1122222
12()()()()...()()()()...()n n n x x y y x x y y x x y y x x x x x x --+--++--=
⎡⎤-+-++-⎣⎦
(需理解并会代入数
据)
法21
2
1
()()
ˆ()
n
i
i
i n
i
i x x y y b
x x ==--=-∑∑(题目给出不用记忆)
[]1122222212...,...n n n x y x y x y nx y x x x nx ++-⋅=
⎡⎤+++-⎣⎦
(这个公式需要自己记忆,稍微简单些)
(4) 求常数ˆa
,既ˆˆa y bx =- 最后写出写出回归方程ˆˆˆy
bx a =+。

可以改写为:ˆˆy bx a =-(ˆy y 与不做区分) 总结:
1.函数关系与相关关系的区别?
函数关系是一种确定性关系,而相关关系是一种非确定性关系.
2.回归公式∑∑∑∑====--=
---=n
i i
n
i i
i n
i i
n
i i
i
x n x
y x n y
x x x y y
x x b
1
2
2
1
1
2
1
)
()
)((ˆ x b y a
ˆˆ-= a x b y ˆˆˆ+= 3.回归分析的步骤?
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.
4.回归直线的性质 a x b
y ˆˆ+= ⑴回归直线 过样本点的中心
()y x ,
其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==n
i i y n y 1
1
⑵回归直线的斜率的估计值b
ˆ的意义: a x b y ˆˆˆ+=
解释变量x每增加一个单位,预报变量y就增加bˆ个单位. 例:已知,x y之间的一组数据:
求y与x的回归方程:
解:(1)先求变量x的平均值,既
1
(0123) 1.5
4
x=+++=
(2)求变量y的平均值,既
1
(1357)4
4
y=+++=
(3)求变量x的系数ˆb,有两个方法
法1ˆb=
[] 11223344
2222
1234
2222
()()()()()()()() ()()()()
(0 1.5)(14)(1 1.5)(34)(2 1.5)(54)(3 1.5)(74)5
7
(0 1.5)(1 1.5)(2 1.5)(3 1.5)
x x y y x x y y x x y y x x y y
x x x x x x x x
--+--+--+--
=
⎡⎤
-+-+-+-
⎣⎦
--+--+--+--
==⎡⎤
-+-+-+-
⎣⎦
法2ˆb=[][] 1122
22222222
12
...011325374 1.545
7 (0123)
n n
n
x y x y x y nx y
x x x nx
++-⋅⨯+⨯+⨯+⨯-⨯⨯
==⎡⎤⎡⎤
+++-+++
⎣⎦⎣⎦
(4)求常数ˆa,既
525
ˆ
ˆ4 1.5
77 a y bx
=-=-⨯=
最后写出写出回归方程
525ˆ
ˆˆ
77 y bx a x
=+=+。

相关文档
最新文档