2019高中数学 第三章 统计案例章末复习课学案 新人教A版选修2-3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章统计案例
章末复习课
[整合·网络构建]
[警示·易错提醒]
1.线性回归方程中的系数及相关指数R2,独立性检验统计量K2公式复杂,莫记混用错.2.相关系数r是判断两随机变量相关强度的统计量,相关指数R2是判断线性回归模型拟合效果好坏的统计量,而K2是判断两分类变量相关程度的量,应注意区分.3.在独立性检验中,当K2≥6.635时,我们有99.9%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%而不是两分类变量有关系的概率为99%.
专题一回归分析思想的应用
回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.
[例1] 下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008—2014.
(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.
附注:
参考数据:∑7
i =1 y i =9.32,∑7
i =1 t i y i =40.17,
∑7
i =1 (y i -y )2
=0.55,7≈2.646.
参考公式:相关系数r =
∑n
i =1 (t i -t )(y i -y )
∑n
i =1 (t i -t )2
∑n
i =1 (y i -y )
2
,
回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=
∑n
i =1 (t i -t )(y i -y )
∑n
i =1 (t i -t )
2
,a ^=y -b ^t . 解:(1)由折线图中数据和附注中参考数据得
t =4,∑7
i =1 (t i -t )2
=28,
∑7
i =1 (y i -y )2
=0.55,
∑7
i =1 (t i -t )(y i -y )=∑7
i =1 t i y i -t ∑7
i =1 y i =40.17-4×9.32=2.89,
r ≈
2.89
0.55×2×2.646
≈0.99.
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.
(2)由y =9.327≈1.331及(1)得b ^
=∑7
i =1 (t i -t )(y i -y )∑7
i =1 (t i -t )2
=2.8928≈0.10, a ^
=y ^-b ^
t =1.331-0.10×4≈0.93.
所以y 关于t 的回归方程为y ^
=0.93+0.10t .
将2018年对应的t =11代入回归方程得y ^
=0.93+0.10×11=2.03. 所以预测2018年我国生活垃圾无害化处理量约为2.03亿吨.
归纳升华
解决回归分析问题的一般步骤
1.画散点图.根据已知数据画出散点图.
2.判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
3.实际应用.依据求得的回归方程解决问题.
[变式训练] 近年来,随着以煤炭为主的能源消耗大幅攀升、机动车持有量急剧增加,某市空气中的PM 2.5(直径小于等于2.5微米的颗粒物)的含量呈逐年上升的趋势,如图是根据该市环保部门提供的2010年至2014年该市PM 2.5年均浓度值画成的散点图.(为便于计算,把2010年编为1,2011年编号为2,…,2014年编号为5)
(1)以PM 2.5年均浓度值为因变量,年份的编号为自变量,利用散点图提供的数据,用最小二乘法求出该市PM 2.5年均浓度值与年份编号之间的线性回归方程y ^=b ^x +a ^;
(2)按世界卫生组织过渡期目标-1的标准,空气中PM 2.5的年均浓度限值为35微克/立方米,该市若不采取措施,试预测到哪一年该市空气中PM 2.5的年均浓度值将超过世界卫生组织过渡期目标-1设定的限值.
解:(1)由散点图可得,变量x i ,y i 组成的几组数据为(1,13),(2,15),(3,20),(4,22),(5,25),则x -=3,y -
=19,所以
b ^=
(-2)×(-6)+(-1)×(-4)+0×1+1×3+2×6
(-2)2+(-1)2+02+12+22
=3.1, a ^
=y --b ^x -
=19-3.1×3=9.7.
所以所求线性回归方程为y ^
=3.1x +9.7.
(2)由3.1x +9.7>35,得x >25331=85
31,因为x ∈N ,所以x =9.故可预测到2018年该
市空气中PM 2.5的年均浓度值将超过世界卫生组织过渡期目标-1设定的限值.
专题二 独立性检验的应用
独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用等高条形图来直观反映两个分类变量之间差异的大小;利用假设检验求随机变量K 2
的值能更精确地判断两个分类变量间的相关关系.
[例2] 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图,将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否在犯错误的概率不超过0.10的前提下认为“体育迷”与性别有关.
(2)方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X ,若每次抽取的结果是相互独立的,求X 的分布列、期望E (X )和方差D (X ).
解:(1)由频率分布直方图可知,在抽取的100人中“体育迷”有(0.020+0.005)×10×100=25(人).
由独立性检验的知识得2×2列联表如下:
将2×2得K 2
的观测值=100×(30×10-45×15)2
75×25×45×55=10033
≈3.030>2.706.
所以在犯错误的概率不超过0.10的前提下认为“体育迷”与性别有关. (2)由频率分布直方图知抽到“体育迷”的频率为(0.020+0.005)×10=0.25, 将频率视为概率,即从观众中抽取一名“体育迷”的概率为1
4
.
由题意知X ~B ⎝ ⎛⎭
⎪⎫3,14, 从而X 的分布列为:
E (X )=np =3×14=34
,
D (X )=np (1-p )=3×14×34=916
.
归纳升华
独立性检验问题的求解方法
1.等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.
2.K 2
统计量法:通过公式
K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
,
先计算观测值k ,再与临界值表进行比较,最后得出结论.
[变式训练] “十一”黄金周前某地一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:
系?
解:因为K 2
的观测值
k =7 645×(1 407×2 065-2 842×1 331)2
4 249×3 396×2 738×4 907
≈30,30>10.828,
所以在犯错误的概率不超过0.001的前提下,认为票价上浮后游客人数与所处地区有关系.
专题三 数形结合思想
数形结合思想在统计中的应用主要是将收集到的数据利用图表的形式表示出来,直观地反映变量间的关系.
[例3] 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下,问铅中毒病人和对照组的尿棕色素阳性数有无差别?
解:,而对照组仅占24.32%.说明他们之间有较大差别.
根据列联表作出等高条形图由图可知,铅中毒病人中与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系.
归纳升华
收集数据、整理数据是统计知识处理问题的两个基本步骤,将收集到的数据利用图表的形式整理出来,能够直观地反映变量之间的关系.在精确度要求不高的情况下,可以利用散点图、等高条形图等对两个变量之间的关系做出判断.
[变式训练] 根据如下样本数据:
得到的回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:根据题中表内数据画出散点图如图所示,由散点图可知b<0,a>0.
答案:B。