相关系数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
, x iy i 13. i = 1
n
于是有b=
xi yi n x y
i 1
n
xi2
n
2
x
0.849
i 1
aybx85.712
所以回归方程是 $ y0.849x85.712
所以,对于身高为172cm的女大学生,由回归方程可以预报 其体重为
$ y 0 .8 4 9 7 2 8 5 .7 1 2 6 0 .3 1 6 (k g )
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程, 并预报一名身高为172cm的女大学生的体重。
解:1、选取身高为自变量x,体重为因变量y,作散点图: 2、由散点图知道身高和体重有比较好的 线性相关关系,因此可以用线性回归方程 刻画它们之间的关系。
• 注:b 与 r 同号
• 问题:达到怎样程度,x、y线性相关呢?它们的相 关程度怎样呢?
a
1
n
相关系数 r=
i=1(xi - x)(yi - y)
n i=1(xi
-x)2×i=n1(yi
-y)2
r>0正相关;r<0负相关.通常,
r∈[-1,-0.75]--负相关很强;
r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
i 1
a
7
3、线性回归模型
yabx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
a
8
案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据 如下表所示:
编号 1 2 3 4 5 6 7 8
在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。
- ∵回归直线恒过点 ( x ,,y 故) 称
- 为( x样,本y 点) 的中心。
a
12
案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据 如下表所示:
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
建构数学
相关系数
• 1.计算公式
n
(xi - x)(yi - y)
r=
i=1
n
n
(xi - x)2 (yi - y)2
i=1
i=1
• 2.相关系数的性质
n
__
xiyi nxy
i1
n i1
xi2
n
_
x
2
n i1
yi2
n
_
y
2
• (1)|r|≤1.
• (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱.
探究P4: 身高为172cm的女大学生的体重一定是60.316kg吗?如
果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是60.316kg, 但一般可以认为她的体重a 在60.316kg左右。 14
对r进行 显著性检验
相关系数r的绝对值与1接近到什么程度才表明利用
线性回归模型比较合理呢a?
2
相关关系的测度
(相关系数取值及其意义)
完全负相关
无线性相关
完全正相关
-1.0 -0.5 0 +0.5 +1.0
r
负相关程度增加 正相关程度增加
a
3
①.求相关系数r的步骤:
(1)计算平均数 x , y
n
(2)计算 x i 与y i 的积,求 x i y i
3、从散点图还看到,样本点散布在某一条 直线的附近,而不是在一条直线上,所以 不能用一a次函数y=bx+a描述它们关系9。
我们可以用下面的线性回归模型来表示:y=bx+a+e, 其中a和b为模型的未知参数,e称为随机误差。
思考P3产生随机误差项e 的原因是什么?
随机误差e的来源(可以推广到一般):
1、其它因素的影响:影响身高 y 的因素不只是体重 x,
可能还包括遗传基因、饮食习惯、生长环境等因素;
2、用线性回归模型近似真实模型所引起的误差;
3、身高 y 的观测误差。
a
10
计算可得r=0.798,所以可以线性相关求回归方程。
函数模型与回归模型之间的差别
GDP
120000
中国GDP散点图
100000
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,
并预报一名身高为172cm的女大学生的体重。
根据最小二乘法估计 a$和 b$就是未知参数a和b的最好估计,
制表 i 1 2 3 4 5 6 7 8 合计
xi
yi
xi yi xi2
x
n
, y , a x i2 i = 1
i 1
aˆYbˆXa
6
②.求线性回归方程的步骤:
源自文库(1)计算平均数 x , y
(2)计算 x
i
与y
i
的积,求
n
xiyi
n
n
(3)计算
x
2 i
,
y
2 i
i1
(4)将上述i1有关i结1 果代入公式,求b、a
,写出回归直线方程.
n
xi yi n x y
b i1 n
2 a yb x
xi2 n x
n
n
(3)计算
x
2 i
,
y
2 i
i1
i 1
i 1
(4)将上述有关结果代入公式,求r
r
n
xi yi nxy
i1
n
2 n
2
(xi2 nx )(yi2 ny )
i1
a i1
4
②练习2:已知变量X,Y满足下表,
求相关系数r
x
1
2
3
y
1
3
8
XiYi Xi2
yi2
n
r
xi yi nxy
i1
n
2 n
2
(xi2
nx a
)(yi2 ny
)
5
i1
i1
问题4:对于线性相关的两个变量用 什么方法来刻划之间的关系呢?
2、最小二乘估计
①最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(X i X )2
i 1
n
xi yi n x y
i1 n
2
xi2 n x
80000
60000
40000
20000
0 1992
1993
1994
1995
1996
1997
1998
年
1999
2000
2001
2002
2003
函 ybxa 回归模型: y数bx a ae
可以提供 选择模型的准则
11
函数模型与回归模型之间的差别
线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值 由自变量x和随机误差项e共同确定,即自变量x只能解析部分 y的变化。