变量间的相关关系、统计案例教案(绝对经典)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§11.3 变量间的相关关系与独立性检验
⎪⎪
⎩
⎪
⎪
⎨⎧⎩⎨
⎧、不相关、非线性相关、线性相关、不确定的相关关系、确定的函数关系两个变量的关系32121 1.相关性
(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.从
散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.
(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线
叫回归直线.
若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.
如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (4)相关系数
①r =
∑n
i =1 (x i -x )(y i -y )
∑n
i =1
(x i -x
)2∑n
i =1
(y i -y )2
或()()
12
2
1
1
n
i i i n n
i i i i x y
nx y
r x x y y ===-=--∑∑∑;
②当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.
r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当r 的绝对值>0.75时,认为两个变量有很强的线性相关关系。 2.线性回归方程 (1)最小二乘法
如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来
刻画这些点与直线ˆˆˆy
bx a =+的接近程度,使得上式达到最小值的直线ˆˆˆy bx a =+就是所要求的直线,这种方法称为最小二乘法(使得样本数据的点到回归直线的距离平方和最小的方法). (2)回归方程
方程ˆˆˆy
bx a =+是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中,是待定参数.
1
2
1
()()ˆ()n
i
i
i n
i
i x x y y b
x x ==--=-∑∑
[]
1
1
2
2
222
12()()()()...()()()()...()n
n
n
x x y y x x y y x x y
y x x x x x x --+--++--=⎡⎤-+-++-⎣⎦
或者1
22
1
ˆn
i i
i n
i
i x y
nx y
b
x
nx ==-=-∑∑
[]11222
222
1
2
...,
...n n n
x y x y x y nx y x x x nx
++-⋅=⎡⎤+++-⎣⎦
ˆˆa
y bx =- 线性回归方程过样本点的中心(,)
3、回归分析
(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差.
(2)随机误差e 的估计值e ˆ(a x b y y y e i
i i i i ˆˆˆˆ--=-=)叫做相对于点(x i ,y i )的残差。 残差平方和越大,则拟合效果越好,否则反之。 (3)相关指数
用相关指数R 2来刻画回归的效果,其计算公式是:R 2=∑∑==---
n i i
n
i i i
y y
y
y
1
2
1
2)()ˆ(1 ,R 2的值越大,说明残
差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2
越接近于1,表示回归效果越好. 4.独立性检验
设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2;变量B :B 1,B 2;其2×2列联表:
B
A
B 1 B 2 总计 A 1 a b a +b A 2
c
d
c +
d 总计 a +c b +d
n =a +b +c +d
构造一个随机变量K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
.
利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 通常当K 2<2.706时,认为没有充分依据显示两个变量有关,但也不能显示无关。 参考数据:
1.已知x 、y 的取值如下表:
x 0 1 3 4 y
2.2
4.3
4.8
6.7
从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a =________.
答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ), 又x =2,y =4.5,代入y =0.95x +a ,得a =2.6.
2.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y =0.254x +0.321.由线性回归方程可知,家庭
P (K 2
≥k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k
0.455
0.708 1.323 2.072
2.706
3.841 5.024 6.635 7.879 10.828