高二数学文第一章 第1—2节 回归分析;独立性检验北师大版知识精讲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高二数学文第一章 第1—2节 回归分析;独立性检验北师大版
【本讲教育信息】
一、教学内容
选修1—2 第一章 统计案例 第1—2节 回归分析、独立性检验
二、教学目标
1. 进一步了解回归分析的基本思想、方法及初步应用.掌握线性回归方程的求法及相关系数的意义以及求法。
了解正相关和负相关的意义。
了解一些简单的可线性化的回归分析方法。
2. 初步了解条件概率的意义及其求法,了解相互独立事件的含义及其概率的求法;通过样本数据的列联表对独立性检验有初步的理解,能够判断两个变量是否有关联。
三、教学重、难点
对线性回归方程以及相关系数的意义和求法、独立性检验有初步的理解是重点;条件概率与独立事件的理解、独立性检验的思想是学习的难点。
四、知识要点分析 (一)回归分析:
(1)线性回归方程:现实生活中存在有关系的一些变量,这些关系除了可以用函数关系表示确定的关系外,还有一些变量的关系是一种非确定关系,称之为相关关系,研究这种相关关系的变量之间关系的方法就是回归分析。
而最小二乘法是回归分析的重要方法。
即用一个一次方程y=ax+b 近似表示两个相关关系的量x 和y 之间的关系,其中
12
21
;n
i i
xy i n
xx
i
i x y nx y
l b a y bx l x
nx
==-=
=
=--∑∑。
(2)相关系数:无论两个变量之间的线性关系如何都可以得到这样的线性方程,即使二者完全不符合线性关系。
为了检验两个变量之间是不是线性相关,可以首先用相关系数进
行判断其线性相关性,,|r|≤1,|r|越大变量x 、y
之间的线性相关程度越高,|r|越小变量x 、y 之间的线性相关程度越低,r >0时变量之间正相关,即同时增减,r <0时变量之间负相关,即一个变量增加的同时另一个变量减少。
相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义的.
(3)可线性化的回归分析:有的变量之间虽然表现出一种非线性相关关系,但是根据
散点图可以看出变量之间的关系是否符合类似x
x b b bx
y a y ae y ae ===、、、bln y a x =+、 b
y a x
=+等函数,可以通过适当的变换,将其转化成线性函数进行线性回归分析——可线
性化的回归分析。
(二)独立性检验:
(1)条件概率与独立事件:已知B事件发生的条件下A事件发生的概率称为B发生的条件概率,记为P(A|B ),P(A B)P(AB)
P(A|B)=
=,AB A B P(B)P(B)
其中为事件,都发生,
P (AB )为事件A ,B 都发生的概率。
如果P (A|B )=P (A ),则P (AB )= P (A )P (B ),
我们称事件A ,B 相互独立,也就是事件A 发生的概率与B 是否发生没有关系,如果事件12n 12n 12n A A A P(A A A )=P(A )P(A )(A )P 、、相互独立,则
(2)独立性检验:两个事件是不是线性相关可以用相关系数来考查,而相关性除了线性相关以外还有非线性相关,两个量是不是有相关性可以用列联表的方法进行独立性检验。
设A 、B 是两个变量,每一个变量都可以取两个值
12121121
A:A ,A B:B ,B B B B A A A ==变量即为不发生。
变量即为不发生。
表中a 表示变量A 取A 1且变量B 取B 1时的数据,b 表示变量A 取A 1且变量B 取B 2
时的数据,c 表示变量A 取A 2且变量B 取B 1时的数据,d 表示变量A 取A 2且变量B 取B 2时的数据,记n=a+b+c+d.则
111122111111121212212121a a+b a+c c+d b+d P(A B ),P(A ),P(B ),P(A ),P(B )n n n n a a+b a+c P(A B )=P(A )P(B ),A ,B .n n b a+b b+d P(A B )=P(A )P(B ),A ,B n n c c+d a+c P(A B )=P(A )P(B ),A ,B n n d =⨯=⨯=⨯用估计估计估计估计估计n 若,即可认为即独立n 若,即可认为即独立.n 若,即可认为即独立.n 若222222c+d b+d P(A B )=P(A )P(B ),A ,B n n
=⨯,即可认为即独立.n 上述等式即使两个变量独立也不一定相等,因为概率都是用频率来估计的,但是只要是
近似相等就可以认为是独立的,如果相差较大就可以认为具有相关关系。
2
2
()()()()()
n ad bc x a b c d a c b d -=
++++记卡方公式
2 2.706A x ≤当时,可以认为变量、B 独立
2 2.706A x >当时,有90%的把握判断变量、B 有关联. 2 3.841A x >当时,有95%的把握判断变量、B 有关联. 2 6.635A x >当时,有99%的把握判断变量、B 有关联.
【典型例题】
考点一:回归分析。
例1、从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重.
编号 1 2 3 4 5 6 7 8 身高/cm 165
165
157 170 175 165 155 170 体重/kg
48 57
50
54
64
61
43
59
解:首先作出散点图:
编 号 x i y i x i 2 x i y i 1 165 48 27225 7920 2 165 57 27225 9405 3 157 50 24649 7850 4 170 54 28900 9180 5 175 64 30625 11200 6 165 61 27225 10065 7 155 43 24025 6665 8 170 59 28900 10030 Σ
1322
436
218774
72315
Σ表示各项的和
8
xy 1
8
2
2
2xx
1
y x 1651651571701751651551701322
x 165.25
88
4857505464614359436y 54.5
88723158165.2554.5
b=
0.848
2187748165.2554.5i i
i i i x x y nx y
l l x nx
a y bx ==+++++++=
==+++++++===--⨯⨯=
=
≈-⨯-=-=∑∑设线性回归方程为=a +b(其中y 表示体重,表示身高)则0.848165.2585.7
-⨯≈- 所以线性回归方程近似为0.84885.7y x =-,当x=172时,y ≈60.16
说明:
(1)步骤:第一步:作散点图 第二步:求回归方程 第三步:代值计算 (2)以上计算大多是近似值。
(3)观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画
身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女大学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,线性回归模型是一种近似模拟的模型.
例2、为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做100次和150次试验,并且利用线性回归方法,求得回归直线分别为1t 和2t ,已知两人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( )
A. 1t 和t 2有交点(s ,t )
B. 1t 与2t 相交,但交点不一定是(),s t
C. 1t 与2t 必定平行
D. 1t 与2t 必定重合
说明:回归直线方程y=bx+a ,其中12
21
;n
i i
xy i n
xx
i
i x y nx y
l b a y bx l x
nx
==-=
=
=--∑∑
,,)y bx a bx y bx y =+=+-回归直线方程可以写成
所以回归直线一定过(x 点,我们称之为中心点.
考点二:相关系数的意义和求法: 例3、关于x 与y 有如下数据:
x 2 4 5 6 8 y
30 40 60 50
70
求变量x ,y 的线性回归方程以及相关系数,并讨论其相关性。
解:作出散点图如下
编 号 1 2 3 4 5 Σ x i 2 4 5 6 8 25 y i 30 40 60 50 70 250 x i 2 4 16 25 36 64 145 x i y i 60 160 300 300 560 1380 y i 2
900
1600
3600
2500
4900
13500
Σ表示各项的和
24568
x 5
5
++++==设线性回归方程为y=ax+b
则 8
xy 18
2
2
2xx
1
3040506070
y 50
5l 13805550b=
6.5
l 1455550 6.5517.5
i i
i i i x y nx y
x nx
a y bx ==++++=
=--⨯⨯=
=
=-⨯-=-=-⨯=∑∑ 所以利用线性回归方法得出的线性回归方程为y=6.5x+17.5 变量x ,y 的相关系数
1
2
2
2
2
221
1
1380555014555
13500550
n
i i
xy i n
n
xx yy
i i i i x y nx y
l r l l x nx
y ny
===--⨯⨯=
=
=
-⨯-⨯--∑∑∑
130
0.92201000
=
≈⨯
r ≈0.92说明变量x ,y 正相关,且相关性较强
例4、在冬季,某地居民对猪肉的需求情况的一组数据如下表
价格x (万元) 12 11 10 9 需求量y (吨)
10
11
12
13
(1)求出y 对x 的回归方程;
(2)如果价格升为14万元/吨,请你预测猪肉的需求量是多少. 解:(1)
序号 x i y i x i 2 y i 2 x i y i 1 12 10 144 100 120 2 11 11 121 121 121 3 10 12 100 144 120 4
9 13 81 169 117 ∑
42
46
446
434
478
∴y 对x 的回归方程为y=22-x (2)当x =14时,y=22-14=8
答:线性回归方程是y=22-x ,价格升为14万元/吨,预测猪肉的需求量大约是8吨.
考点三:条件概率与独立事件
例5、某并联电路上有3个灯泡A 1,A 2,A 3,如在某时刻A 1亮的概率为0.95,A 2亮的概率为0.90,A 3亮的概率为0.96,则在此时刻只有A 2亮的概率为( )
A. 0.003
B. 0.0003
C. 0.0018
D. 0.0024
解:并联电路中,三个灯泡是否亮是相互独立的,只有A 2亮,即123A A A 事件发生, ,选C
说明:如果事件A 是否发生与B 发生的概率无关,就称事件A 、B 相互独立,AB 都发生的概率为P (AB )=P (A )P (B ),A 不发生记做A ,它发生的概率P (A )=1-P (A )
考点四:独立性检验
例6、期末考试李老师对他所教的两个班获优秀成绩的同学进行了成绩统计,统计数据如 男生优秀 女生优秀 合计 甲班 16人 20人 36人 乙班 10人 14人 24人 合计
26人
34人
60人
解:由卡方公式得2
60(16142010)0.045 2.706(1620)(1610)(1014)(2014)
x ⨯-⨯==<++++
结论:成绩的优秀与男、女生的性别无关 说明: B A B 1 B 2 总计 A 1 a b a+b A 2 c d c+d 总计
a+c
b+d
n=a+b+c+d
2
()()()()()
n ad bc x a b c d a c b d -=
++++卡方公式
本节涉及的思想方法:
1. 回归分析的数学思想。
2. 假设检验的数学思想。
3. 条件概率的求法
4. 相互独立事件都发生的概率的求法。
预习导学案
(选修1—2 第二章 框图 第一节 流程图、第二节 结构图)
预习前知: 1. 流程图。
流程线
流程图的常见结构:顺序结构、选择结构、循环结构。
流程图的常见语句:开始结束语句、输入输出语句、执行(赋值)语句,判断语句。
2. 结构图。
结构图的概念
层次结构图,分类图。
【模拟试题】(答题时间:90分钟)
一、选择题:
1. 炼钢时钢水的含碳量与冶炼时间有( ) A. 确定性关系 B . 相关关系 C. 函数关系 D. 无任何关系
2. 下列结论正确的是( ) ①函数关系是一种确定性关系 ②相关关系是一种非确定性关系
③回归分析是对具有函数关系的两个变量进行统计分析的一种方法
④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
A. ①② B. ①②③ C. ①②④ D. ①②③④ 3. 已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
A. 4x 23.1y +=
B. 5x 23.1y +=
C. 08.0x 23.1y +=
D. 23.1x 08.0y +=
A.(2,2)点
B.(1.5,0)点
C.(1,2)点
D.(1.5,4)点
5. 设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )
A. b 与r 的符号相同
B. a 与r 的符号相同
C. b 与r 的符号相反
D. a 与r 的符号相反
6. 为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人经计算知x 相同,y 也相同,下列正确的是( )
A. 1l 与2l 重合
B. 1l 与2l 一定平行
C. 1l 与2l 相交于点),(y x
D. 无法判断1l 和2l 是否相交 7.
根据以上数据,则( )
A. 种子经过处理跟是否生病有关
B. 种子经过处理跟是否生病无关
C. 种子是否经过处理决定是否生病
D. 以上都是错误的
二、填空题
8. 有下列关系:(1)人的年龄与他(她)拥有的财富之间的关系;(2)曲线上的点与该点的坐标之间的关系;(3)苹果的产量与气候之间的关系;(4)森林中的同一种树木,其断面直径与高度之间的关系;(5)学生与他(她)的学号之间的关系,其中有相关关系的是 9. 在两个变量的回归分析中,作散点图的目的是(1) (2) ________。
10. 许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x )和收入低于官方规定的贫困线的人
数占本州人数的百分比(y )的数据,建立的回归直线方程如下ˆ0.8 4.6y
x =+,斜率的估计等于0.8说明 ,成年人受过9年或更少教育的百分比(x )和收入低
于官方的贫困线的人数占本州人数的百分比(y )之间的相关系数 (填充“大于0”或“小于0”)
三、解答题 11. 若)101(,153
1
≤≤=+=
i iy y i x i i ,求.,y x 12.某企业为考察生产同一种产品的甲、乙两条生产线的产品合格率,同时各抽取100件产品,检验后得到如下列联表:
请问甲、乙两线生产的产品合格率在多大程度上有关系?
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图 (2)描述天数x 与繁殖个数y 之间的关系
【试题答案】
1. B 解:钢水的含碳量与冶炼时间有关但是也和其他量有关,含碳量与冶炼时间只是相关关系。
2. C 解:函数关系是一种确定性关系,不需要进行统计分析,相关关系是非确定性关系,需要进行统计分析。
回归分析就是对非确定性关系进行统计分析的一种常用方法。
3. C 解:回归直线过中心点。
4. D 解:回归直线方程a x b y +=其中
12
21
;n
i i
xy i n
xx
i
i x y nx y
l b a y bx l x
nx
==-=
=
=--∑∑
,,)y bx a bx y bx y =+=+-回归直线方程可以写成
所以回归直线一定过(x 点,我们称之为中心点.
5. A 解:
12
212
2
21
1
1
2
2
21
1
;()0,()(),()0
n
n
i i
i i
xy i n
xx
i i n n
n
xx i i xy i i yy
i i i n n
i i i i x y nx y
x y nx y
l l b a y bx r l x nx
l x x x nx l x x y y l y y y ny b r =======--=
=
=-=
=
-=-=->=--=-=->∑∑∑∑∑∑∑∑,其中所以和的符号相同
6. C 解:12
21
;n
i i
xy i n
xx
i i x y nx y
l b a y bx l x nx
==-=
=
=--∑∑,
无论两个人的数据差距有多大,只要x y 和相同则中心点相同,线性回归直线一定过中心点),(y x 。
7. B
解:利用卡方公式
22
2
()407(3221310161)0.16 2.706
()()()()(32101)(61213)(3261)(101213)n ad bc x a b c d a c b d -⨯-⨯===<++++++++
∴种子经过处理跟是否生病无关
二、填空题 8. (1)(3)(4)
解:人的年龄和其拥有的财富是相关关系,苹果的产量与气候之间是相关关系,森林中的同一种树木,其断面直径与高度之间是相关关系;曲线上的点与该点的坐标之间的关系是确定关系;学生与他(她)的学号之间是一一对应的确定关系。
9.(1)判断两变量是否线性相关 (2)判断两变量更近似于什么函数关系
解:回归分析之前需要作出散点图,其目的就是要(1)判断两变量是否线性相关 (2)判断两变量更近似于什么函数关系。
10. 一个地区受过9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右;大于0
解:按照题意x 每增加1,y 就增加0.8,由线性回归方程的近似性知收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右;成年人受过9年或更少教育的百分比(x )和收入低于官方的贫困线的人数占本州人数的百分比(y )之间为正相关,所以相关系数大于0. 三、解答题 11. 解:
5 503 2503
6 513 3063
7 523 3643 平均值
3433 14003
3431400
x ,33y =
=
12. 解:利用卡方公式
22
2
()200(975953)0.52 2.706()()()()(973)(955)(9795)(35)
n ad bc x a b c d a c b d -⨯-⨯===<++++++++
没有充分证据证明甲乙两线生产的产品合格率有关。
13. 解:(1)用excel 作出散点图如下(也可以在坐标系中描点作出)
显然函数符合指数函数图像
(2)由散点图看出样本点分布在一条指数函数y=2C x
e C 的周围,于是令z=lny ,则
x
1
2 3 4 5 6 z 1.79 2.48 3.22
3.89
4.55
5.25 序号
1 2 3 4 5 6 ∑
i x 1 2 3 4 5 6 21
i z
1.79
2.48
3.22 3.89
4.55
5.25 21.18 2i x 1 4 9 16 25 36 91 i i x z
1.79
4.96
9.66
15.56
22.75
31.5
86.22
设z =6
1
12
2
2
221
1
86.226 3.5 3.53
0.69; 1.112
916 3.5n
i i i i
xz i i n
n xx
i i i i x z nxz
x z
nxz
l b a z bx l x nx
x nx
====---⨯⨯===
=
==-=-⨯--∑∑∑∑
z =0.69x +1.112, 则有0.69 1.112
x y e
+=。