2021年高中数学第1章统计案例 学案新人教A版选修1-2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章统计案例
哲学知识告诉我们事物之间是有联系的、联系是普遍的,任何事物都是运动的、任何两个事物之间都存在着普遍联系.具体到现实问题中,我们会发现有些问题是从变化的角度来分析是存在两个都在变化的量,关系非常密切,一个现象发生一定量的变化,另一个现象一般也会发生相应的变化,但又不能用函数概念去定义,也无法用函数的模型来代换.如商场销售收入每增加一万元时,因所卖商品不同,销售利润一般会增加不同的数值;施肥量增加一斤,一般地产量也会增加,但数值有时不固定.
5月31日是世界无烟日.有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?若从数学角度分析,这里的疾病和吸烟就是彼此相关的两个变量.
如何用数学的方法来刻画这种变量之间的关系呢?本章要学习的统计案例就是通过对一对变量使用线性回归的方法来研究变量之间的对应关系.通过本章的学习,我们将知道如何研究变量之间的相关关系,如何模拟变量之间的函数关系,如何检验两个变量之间的独立性.
1.1回归分析的基本思想及其初步应用
自主预习·探新知
情景引入
人们常说“名师出高徒”.的确,我们看到很多优秀的老师,他们的学生也非常优秀.但是,名师一定出高徒吗?我们也看到,有些名师的弟子并不高明,甚至比较平庸.
由此可见,名师和高徒之间不是确定性的关系,也不可否认它们之间有着密切的关系,或者说它们之间是密切相关的,但相关性怎样呢?
新知导学
1.回归分析
(1)概念:回归分析是对具有相关关系的两个变量进行统计分析一种常用方法. (2)步骤:画__散点图__→求__回归方程__→用回归方程进行__预报__. 2.线性回归模型
(1)在线性回归方程y ^=a ^+b ^
x 中,b ^=__
∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x
)2
__= ∑i =1
n
x i y i -n x - y

∑i =1
n
x 2i -n x
2
__,a ^=
__y -b ^
x ,其中x =__1n ∑i =1n x i __,y =__1n ∑i =1n
y i __,(x ,y )称为变量__样本中心点__,
回归直线过样本点的中心.
(2)线性回归模型y =bx +a +e ,其中e 称为__随机误差__,自变量x 称为__解释__变量,因变量y 称为__预报__变量.
3.刻画回归效果的方式 残差 把随机误差的估计值e ^
i 称为相应于点(x i ,y i )的残差
残差图
作图时纵坐标为__残差__,横坐标可以选为__样本编号__,或__身高数据
__,或__体重估计值__等,这样作出的图形称为残差图残差图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这
样的带状区域的宽度__越窄__,说明模型拟合精度越高
残差
平方和
残差平方和为__∑
n
i=1
(y i-y
^
i
)2__,残差平方和__越小__,模型拟合效果越好
相关
指数R2
R2=1-__

i=1
n
(y i-y
^
i
)2

i=1
n
(y i-y)2
__,R2表示__解释__变量对__预报__变量变化的贡献率,R2越接近于1,表示回归的效果越好
预习自测
1.下列结论正确的是(C)
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①②B.①②③
C.①②④D.①②③④
[解析]函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.故选C.
2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归直线方程可能是(A)
A.y=0.4x+2.3B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+4.4
[解析]∵变量x与y正相关,∴C、D排除;又∵线性回归直线方程过点(x,y),排除B;故选A.
3.下图是根据变量x、y的观测数据(x i,y i)(i=1,2,…,10)得到的散点图,由这些散点图可以判断变量x、y具有相关关系的图是(D)
A .①②
B .①④
C .②③
D .③④
[解析] 根据散点图中点的分布情况,可判断③④中的变量x ,y 具有相关的关系. 4.已知x ,Y 的取值如下表:
x 2 3 4 5 Y
2.2
3.8
5.5
6.5
从散点图分析,Y 与x 线性相关,且回归直线方程为y ^
=1.42x +a ,则a 的取值为__-0.47__.
[解析] x =2+3+4+5
4
=3.5, y =
2.2+
3.8+5.5+6.5
4
=4.5
又∵回归直线过点(x ,y ), ∴4.5=1.42×3.5+a ,∴a =-0.47.
5.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系如表:
x 3 4 5 6 7 8 9 y
66
69
73
81
89
90
91
(1)求x ,y ;
(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. [解析] (1)x =3+4+5+6+7+8+9
7
=6,
y =
66+69+73+81+89+90+917=559
7

(2)因为y 与x 有线性相关关系,
所以b ^

∑i =1
7
x i y i -7x y
∑i =1
7
x 2i -7x
2
=3 487-7×6×
559
7
280-7×36
=4.75,
a ^

5597-6×4.75=719
14
≈51.36.
故回归方程为y ^
=4.75x +51.36.
互动探究·攻重难
互动探究解疑 命题方向❶
概念的理解和判断
典例1 有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y ^=b ^x +a ^
可以估计观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( C ) A .1 B .2 C .3
D .4
[思路分析] 由题目可获取以下信息:①线性回归分析;②散点图;③相关性检验等的相关概念及意义.
解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论. [解析] ①反映的正是最小二乘法思想,故正确. ②反映的是画散点图的作用,也正确.
③解释的是回归方程y ^=b ^x +a ^
的作用,故也正确.
④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系. 『规律方法』 解答概念辨析题,应紧扣线性回归分析中每个概念的定义进行,要准确把握概念的内涵.
┃┃跟踪练习1__■
下面变量关系是相关关系的是( A ) ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①②
B .①③
C.②③D.②④
[解析]①②是相关关系,③④是非相关关系.
命题方向❷
线性回归模型
典例2一台还可以用的机器由于使用的时间较长,它按不同的转速生产出来的某机械零件有一些会有缺陷,每小时生产有缺陷的零件的多少随机器运转的速率而变化,下表为抽样试验结果:
转速x(转/秒)1614128
每小时生产有缺陷的零件数Y(件)1198 5
(1)画出散点图;
(2)如果Y与x有线性相关关系,求回归直线方程;
(3)若实际生产中,允许每小时生产的产品中有缺陷的零件最多为10个,则机器的运转速度应控制在什么范围内?
[解析](1)画出散点图,如图所示:
(2)由题意得x=12.5,y=8.25,∑
i=1
4
x i y i=438,∑
i=1
4
x2i=660,
∴b
^


i=1
4
x i y i-4x y

i=1
4
x2i-4x2

438-4×12.5×8.25
660-4×12.52
≈0.728 6,
a
^
=y-b
^
x=8.25-0.728 6×12.5=-0.857 5.故回归直线方程为y
^
=0.728 6x-0.857 5.
(3)令0.728 6x-0.857 5≤10,得x≤
108 575
7 286≈14.9,故机器的转速应控制在14.9转/秒以下.
┃┃跟踪练习2__■
下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(t)与相应的生产能耗y(t)的几组对应数据:
x 345 6
y
2.5 t
4 4.5
根据上表提供的数据,求出y 关于x 的线性回归方程为y ^
=0.7x +0.35,那么表中t 的值为( A )
A .3
B .3.15
C .3.5
D .4.5
[解析] 样本中心点是(x -,y -
),即(4.5,11+t 4).因为回归直线过该点,所以11+t 4=
0.7×4.5+0.35,解得t =3.
命题方向❸
线性回归分析
典例3 某运动员训练次数与训练成绩之间的数据关系如下: 次数(x ) 30 33 35 37 39 44 46 50 成绩(y )
30
34
37
39
42
46
48
51
(1)(2)求出回归方程; (3)作出残差图;
(4)计算R 2,并说明运动员的训练次数对成绩的影响占百分之几.
[解析] (1)作出该运动员训练次数(x )与成绩(y )的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(2)x =39.25,y
=40.875,∑
i =18
x 2
i =12 656,∑
i =1
8
x i y i =13 180,
所以b ^

∑i =1
8
(x i -x )(y i -y )∑i =1
8
(x i -x )2

∑i =1
8
x i y i -8x y
∑i =1
8
x 2i -8x
2
≈1.041 5,
a ^
=y -b ^
x =-0.003 875,
∴回归直线方程为y ^
=1.041 5x -0.003 875.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
x y b ^
=y -y ^ 30 30 -1.241 1 33 34 -0.365 6 35 37 0.551 4 37 39 0.468 4 39 42 1.385 4 44 46 0.177 9 46 48 0.094 9 50
51
-1.071 1
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适. (4)计算相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
『规律方法』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
2.“R 2、残差图”在回归分析中的作用:
(1)R 2是用来刻画回归效果的,由R 2=1-
∑i =1
n
(y i -y ^
i )2
∑i =1
n
(y i -y )2
可知R 2越大,意味着残差平方和
越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.
┃┃跟踪练习3__■
一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,
测得数据如下:
零件数x(个)102030405060708090100 加工时间
y(min)
626875818995102108115122
(1)计算总偏差平方和、残差平方和及相关指数;
(2)作出残差图;
(3)进行残差分析.
[解析](1)由x、y的数据得散点图如图.
由散点图可以认为样本点大致分布在某条直线的附近,因此可以用线性回归模型来拟合.设线性回归方程为y
^
=a
^
+b
^
x,列出下表:
i 1234 5
x i(个)1020304050
y i(min)6268758189
x i y i620 1 360 2 250 3 240 4 450
i 678910
x i(个)60708090100
y i(min)95102108115122
x i y i 5 7007 1408 64010 35012 200 所以x=55,y≈91.7,b
^


i=1
10
x i y i-10x y

i=1
10
x2i-10x2

55 950-10×55×91.7
38 500-10×552
≈0.668,a
^
=y-b
^
x≈91.7-0.668×55≈54.96.因此,线性回归方程为y
^
=0.668x+54.96.将数据代入相应公式可得如下数据表:
零件数
x(个)
1020304050
加工时间 y (min) 62 68 75 81 89 (y i -y )2 882.09 561.69 278.89 114.49 7.29 y ^
=0.668x +54.96 61.64 68.32 75.0 81.68 88.36 残差 0.36 -0.32 0 -0.68 0.64 零件数 x (个) 60
70
80
90
100
加工时间 y (min) 95 102 108 115 122 (y i -y )2 10.89 106.09 265.69 542.89 918.09 y ^
=0.668x +54.96 95.04 101.72 108.4 115.08 121.76 残差
-0.04
0.28
-0.4
-0.08
0.24
所以总偏差平方和为3 688.1,残差平方和为1.408,相关指数R 2=1-1.408
3 688.1≈0.999 6.
(2)作出残差图如图,横坐标为零件数的数据,纵坐标为残差.
(3)由题中数据可得样本相关系数r 的值为0.999 8,再结合散点图可以说明x 与y 有很强的线性相关关系.由R 2的值可以看出回归效果很好,也说明用线性回归模型拟合数据效果很好.
由残差图也可以观察到,第4个样本点和第5个样本点的残差比较大,需要确认在采集在这两个样本点的过程中是否有人为的错误.
易混易错警示
准确理解概念和参数的含义
典例4 关于x 与y 有如下数据:
x 2 4 5 6 8 y
30
40
60
50
70
为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^
=6.5x +17.5,乙模型y ^
=7x +17,试比较哪一个模型拟合的效果更好.
[错解] ∵R 2甲=1-
∑i =1
5
(y i -y ^
i )2
5i =1
(y i -y -)2
=1-155
1 000=0.845, R 2
乙=1-
∑i =1
5
(y i -y -
i )2
∑i =1
5
(y i -y -
)2
=1-180
1 000
=0.82,
∴R 2甲>R 2
乙.
∴乙模型拟合的效果更好.
[辨析] 明确R 2的大小与拟合效果的关系
用相关指数R 2来比较模型的拟合效果,R 2越大,模型的拟合效果越好,并不是R 2越小模型的拟合效果越好.
[正解] ∵R 2甲=1-
∑i =1
5
(y i -y ^
i )2
5i =1
(y i -y -)2
=1-155
1 000=0.845,
R 2乙
=1-∑i =1
5
(y i -y -
i )2
∑i =1
5
(y i -y -
)2
=1-1801 000
=0.82,
∴R 2甲>R 2乙.
∴甲模型拟合的效果更好. ┃┃跟踪练习4__■
甲、乙、丙、丁4位同学各自对A ,B 两个变量进行回归分析,分别得到散点图与残差平方和∑i =1n
(y i -y ^
i )2如表:
甲 乙 丙 丁
散点图
残差平方和
115
106
124
103
A .甲
B .乙
C .丙
D .丁
[解析] 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持殊差平方和越小,由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些,故选D .
学科核心素养 可线性化的回归分析
当回归方程不是形如y =bx +a (a 、b ∈R )时,称之为非线性回归方程 ,非线性回归方程也可以线性化,依据样本点的分布态式选择合适的曲线方程来拟合数据,其具体步骤如下:
(1)作散点图确定曲线模型
因为曲线所对应的函数种类繁多,这就要求我们充分想象,大胆猜测拟合函数类型,估计使用哪个函数拟合.
(2)非线性转化为线性
先通过适当变换化非线性关系为线性关系:
①指数型:y =ca x (a >0且a ≠1,c >0,a ,c 为常数). 两边取自然对数ln y =ln(ca x ), 即ln y =ln c +x ln a ,
令⎩
⎪⎨⎪⎧
y ′=ln y
x ′=x ,原方程变为y ′=ln c +x ′ ln a , 然后按线性回归模型求出ln a ,ln c . ②对数型:y =a +b ln x (a ,b 为常数,x >0).
令⎩⎪⎨⎪⎧ y ′=y ,x ′=ln x ,
原方程变为y ′=a +bx ′, 然后按线性回归模型求出a ,b .
③幂函数:y =ax n (a ,n 为常数,a ,x 均取正值). 两边取常用对数lg y =lg(ax n ),
令⎩
⎪⎨⎪⎧
y ′=lg y ,x ′=lg x ,原方程变为y ′=nx ′+lg a , 然后按线性回归模型求出n ,lg a . ④y =bx 2+a 型(a ,b 为常数).
令⎩
⎪⎨⎪⎧
y ′=y ,x ′=x 2,原方程变为y ′=bx ′+a , 然后按线性回归模型求出a ,b .
⑤y =a +b
x 型(a ,b 为常数,x ≠0).
令⎩
⎪⎨
⎪⎧
y ′=y x ′=1
x ,原方程变为y ′=a +bx ′, 然后按线性回归模型求出a ,b . (3)分析模型的拟合效果
对于同一问题可以有几种不同的拟合模型,对于给定的样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以通过以下几种方式确定选用哪种模型更合适.
①可以根据转换后的对应数据作散点图来确定线性回归的拟合情况,判断使用哪一种曲线模型较为合适.
②可以通过原始数据及y 和x 之间的非线性回归方程列出残差对比分析表,一般通过残差平方和比较两种模型的拟合效果,其中残差平方和较小的拟合效果较好.
③还可以用R 2来比较模型的拟合效果,R 2越大(越接近1),拟合效果越好.
典例5 对某种书籍的成本费Y (元)与印刷册数x (千册)的数据做了初步处理,
得到下面的散点图及一些统计量的值.
x y w
∑i =1
6
(x i -x )2
i =1
6w 2i -6w 2
∑i =1
6
x i y i -6x
y
∑i =1
6
w i y i -6w
y 4.83
4.22 0.377 5 60.17 0.60 -39.38
4.8
表中w i =1x i ,w =16∑i =
1
6
w i .
为了预测印刷20千册时每册的成本费,建立了两个回归模型:y =a +bx ,y =c +d
x .
(1)根据散点图,你认为选择哪个模型预测更可靠?(只选出模型即可)
(2)根据所给数据和(1)中选择的模型,求Y 关于x 的回归方程,并预测印刷20千册时每册的成本费.
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截
距的最小二乘估计公式分别为β^

∑i =1
n
u i v i -n u
v
∑i =
1
n
u
2i -n u
2
,α^=v -β^
u .
[思路分析] (1)根据散点图可得到选择模型y =c +d
x 更可靠的结论.(2)建立Y 关于w 的
线性回归方程y ^
=d ^
w +c ^
,求得Y 关于w 的线性回归方程为y ^
=1.2+8w ,再求出Y 关于x 的回归方程,令x =20,求出y ^
的值,得到印刷20千册时每册的成本费.
[解析] (1)由散点图可以判断,模型y =c +d
x
更可靠.
(2)建立Y 关于w 的线性回归方程y ^
=d ^
w +c ^
,则d ^

∑i =1
6
w i y i -6w y
∑i =1
6
w 2i -6w 2
=4.80.60
=8, ∴c ^
=y -d ^
w =4.22-0.377 5×8=1.2,∴Y 关于w 的线性回归方程为y ^
=1.2+8w ,
因此,Y 关于x 的回归方程为y ^=1.2+8
x
.当x =20时,预测该书每册的成本费为y ^=1.2
+8
20=1.6(元).
1.2 独立性检验的基本思想及其初步应用
自主预习·探新知
情景引入
饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?
新知导学
1.分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的__不同类别__,像这样的变量称为分类变量.(2)列联表:
①定义:列出的两个分类变量的__频数表__称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1y2总计
x1 a b a+b
x2 c d c+d
总计a+c b+d a+b+c+d
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否__相互影响__,常用等高条形图表示列联表数据的__频率特征__.
(2)观察等高条形图发现__
a
a+b
__和__
c
c+d
__相差很大,就判断两个分类变量之间有关系.
3.独立性检验
定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=__a+b+c+d__
具体
步骤
①确定α,根据实际问题的需要,确定允许推断“两个分类变量有关系”犯
错误概率的上界α,然后查表确定__临界值K0__.
②计算K2,利用公式计算随机变量K2的__观测值k__.
③下结论,如果__k≥K0__,就推断“X与Y有关系”,这种推断__犯错误的
概率__不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断
“X与Y有关系”,或者在样本数据中__没有发现足够证据__支持结论“X
与Y有关系”
预习自测
1.如下是一个2×2列联表,则表中m,n的值分别为(B)
A.10,38B.17,45
C.10,45D.17,38
[解析]由题意,根据2×2列联表可知:a+35=45,解得a=10,则m=a+7=10+7=17,又由35+b=73,解得b=38,则n=7+38=45,故选B.
2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过(C)
A.0.25B.0.75
C.0.025 D.0.975
[解析]通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.
3.春节期间,“厉行节约,反对浪费”之风悄然吹开.某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下表格:
K2=n(ad-bc)
(a+b)(c+d)(a+c)(b+d)

参照附表,得到的正确结论是__③__.(只填正确的序号)
①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;
②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;
③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;
④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.
[解析] 由2×2列联表得到a =43,b =9,c =32,d =16,则a +b =52,c +d =48,a +c =75,b +d =25,ad =688,bc =288,n =100.代入K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )

得K 2
=100×(688-288)2
52×48×75×25
≈3.419.
因为2.706<3.419<3.841.
所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
4.(2019·全国卷Ⅰ文,17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意 男顾客 40 10 女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=
n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
.
P (K 2≥k )
0.050 0.010 0.001 k
3.841
6.635
10.828
[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为40
50=0.8,因此男顾客对该
商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为30
50=0.6,因此女顾客对该商场服务满意的概率的
估计值为0.6.
(2)K 2的观测值
k =100×(40×20-30×10)250×50×70×30
≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
互动探究·攻重难
互动探究解疑 命题方向❶
等高条形图的应用
典例1 从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血液
中是否含有酒精以及他们是否对事故负有责任将数据整理如下:
有责任 无责任 总计 有酒精 650 150 800 无酒精 700 500 1 200 总计 1 350
650
2 000
试分析血液中含有酒精与对事故负有责任是否有关系.
[解析] 作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系.
『规律方法』 通过等高条形图可以粗略地直观判断两个分类变量是否有关系,一般地,在等高条形图中,a a +b 与c
c +d
相差越大,两个分类变量有关系的可能性就越大.
┃┃跟踪练习1__■
某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
[解析] 作列联表如下:
性格内向 性格外向 总计 考前心情紧张 332 213 545 考前心情不紧张
94 381 475 总计
426
594
1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
命题方向❷
独立性检验的应用
典例2某中学对高二甲、乙两个同类班级,进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
60分以下61-70分71-80分81-90分91-100分甲班(人数)31161218
乙班(人数)78101015
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?
优秀人数非优秀人数合计
甲班
乙班
合计
参考公式及数据:K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 [思路分析](1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;
(2)依统计数据填写列联表,代入公式计算K 2的估计值,查表下结论. [解析] (1)由题意知,甲、乙两班均有学生50人, 甲班优秀人数为30人,优秀率为30
50=60%,
乙班优秀人数为25人,优秀率为25
50=50%,
所以甲、乙两班的优秀率分别为60%和50%. (2)
因为
K 2=
100×(25×30-25×20)2
55×45×50×50
≈1.010<3.841,
所以由参考数据知,没有95%的把握认为有帮助. 『规律方法』 1.独立性检验的步骤:
第一步,确定分类变量,获取样本频数,得到列联表.
第二步,根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k 0.
第三步,利用公式
K 2=
n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
计算随机变量K 2的观测值K 0.
第四步,作出判断.
如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.
2.由于独立性检验计算量大,要细致,避免计算失误. ┃┃跟踪练习2__■
目前,学案导学模式已经成为教学中不可或缺的一部分,为了了解学案的合理使用是否对学生的期末复习有着重要的影响,我校随机抽取100名学生,对学习成绩和学案使用程度进行了调查,统计数据如下表所示:
合计
100
已知随机抽查这100名学生中的一名学生,抽到的是善于使用学案的学生的概率是0.6. (1)请将上表补充完整(不用写计算过程);
(2)试运用独立性检验的思想方法分析:有多大的把握认为学生的学习成绩与对学案的使用程度有关.
[解析] (1)补全的列联表如下:
善于使用学案
不善于使用学案
合计 学习成绩优秀 40 10 50 学习成绩一般
20 30 50 合计 60
40
100
(2)K 2=
100×(40×30-10×20)2
50×50×60×40
≈16.667>6.635,
故有99%的把握认为学生的学习成绩与对学案的使用程度有关.
易混易错警示
准确掌握公式中的参数含义
典例3 有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统
计后,得到如下的列联表
班级与成绩列联表
优秀 不优秀 总计 甲班 10 35 45 乙班 7 38 45 总计
17
73
90
试问能有多大把握认为“成绩与班级有关系”? [错解]
由公式得:K 2=
90×(10×7-35×38)2
17×73×45×45
=56.86,
56.86>6.635所以有99%的把握认为“成绩与班级有关系”.
[辨析] 由于对2×2列联表中a ,b ,c ,d 的位置不清楚,在代入公式时代错了数值导致计算结果的错误.
[正解]K2=
90×(10×38-7×35)2
17×73×45×45
=0.653,
0.653<2.706,
所以没有充分证据认为成绩与班级有关.
学科核心素养
独立性检验的基本思想
1.独立性检验的基本思想
独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k≥6.635)≈0.01来评价假设不合理的程度,计算出k>6.635,说明假设不合理的程度约为99%,即两个分类变量有关这一结论成立的可信度为99%,不合理的程度可查下表得出:
P(K2
≥k0)
0.500.400.250.150.100.050.0250.0100.0050.001
k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.82 8
反证法假设检验
要证明结论A 备选假设H1
在A不成立的前提下进行推理在H1不成立,即H0成立的条件下进行推理
推出矛盾,意味着结论A成立推出有利于H1成立的小概率事件发生,意味着H1成立的可能性
没有找到矛盾,不能对A下任何结论,即反证法不成功推出有利于H1成立的小概率事件不发生,接受原假设
独立性检验的思想来自统计中的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生,而假设检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度。

相关文档
最新文档