变量间的相关关系、统计案例教案(绝对经典)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§11.3 变量间的相关关系与独立性检验

⎪⎪

⎨⎧⎩⎨

⎧、不相关、非线性相关、线性相关、不确定的相关关系、确定的函数关系两个变量的关系32121 1.相关性

(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.从

散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.

(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.

(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线

叫回归直线.

若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.

如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (4)相关系数

①r =

∑n

i =1 (x i -x )(y i -y )

∑n

i =1

(x i -x

)2∑n

i =1

(y i -y )2

或()()

12

2

1

1

n

i i i n n

i i i i x y

nx y

r x x y y ===-=--∑∑∑;

②当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.

r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当r 的绝对值>0.75时,认为两个变量有很强的线性相关关系。 2.线性回归方程 (1)最小二乘法

如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来

刻画这些点与直线ˆˆˆy

bx a =+的接近程度,使得上式达到最小值的直线ˆˆˆy bx a =+就是所要求的直线,这种方法称为最小二乘法(使得样本数据的点到回归直线的距离平方和最小的方法). (2)回归方程

方程ˆˆˆy

bx a =+是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中,是待定参数.

1

2

1

()()ˆ()n

i

i

i n

i

i x x y y b

x x ==--=-∑∑

[]

1

1

2

2

222

12()()()()...()()()()...()n

n

n

x x y y x x y y x x y

y x x x x x x --+--++--=⎡⎤-+-++-⎣⎦

或者1

22

1

ˆn

i i

i n

i

i x y

nx y

b

x

nx ==-=-∑∑

[]11222

222

1

2

...,

...n n n

x y x y x y nx y x x x nx

++-⋅=⎡⎤+++-⎣⎦

ˆˆa

y bx =- 线性回归方程过样本点的中心(,)

3、回归分析

(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差.

(2)随机误差e 的估计值e ˆ(a x b y y y e i

i i i i ˆˆˆˆ--=-=)叫做相对于点(x i ,y i )的残差。 残差平方和越大,则拟合效果越好,否则反之。 (3)相关指数

用相关指数R 2来刻画回归的效果,其计算公式是:R 2=∑∑==---

n i i

n

i i i

y y

y

y

1

2

1

2)()ˆ(1 ,R 2的值越大,说明残

差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2

越接近于1,表示回归效果越好. 4.独立性检验

设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2;变量B :B 1,B 2;其2×2列联表:

B

A

B 1 B 2 总计 A 1 a b a +b A 2

c

d

c +

d 总计 a +c b +d

n =a +b +c +d

构造一个随机变量K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

.

利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 通常当K 2<2.706时,认为没有充分依据显示两个变量有关,但也不能显示无关。 参考数据:

1.已知x 、y 的取值如下表:

x 0 1 3 4 y

2.2

4.3

4.8

6.7

从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a =________.

答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ), 又x =2,y =4.5,代入y =0.95x +a ,得a =2.6.

2.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y =0.254x +0.321.由线性回归方程可知,家庭

P (K 2

≥k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

k

0.455

0.708 1.323 2.072

2.706

3.841 5.024 6.635 7.879 10.828

相关文档
最新文档