高考文科数学一轮复习练习-统计及统计案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§10.2 统计及统计案例探考情悟真题
【考情探究】
考点内容解读
5年考情
预测热度考题示例考向关联考点
抽样方法①理解随机抽样的必要性和重
要性;②会用简单随机抽样方法
从总体中抽取样本
2019课标全国Ⅰ,6,5分系统抽样—
★★☆
2018课标全国Ⅲ,14,5分分层抽样—
统计图表了解分布的意义和作用,会列频
率分布表,会画频率分布直方
图、频率分布折线图、茎叶图,
体会它们各自的特点
2017课标全国Ⅲ,3,5分认识折线图—
★★☆
2018课标全国Ⅰ,3,5分认识扇形统计图—
2018课标全国Ⅰ,19,12分
用频率分布直方图解
决实际问题
平均数
样本的数字特征①理解样本数据标准差的意义
和作用,会计算数据标准差;②
能从样本数据中提取基本的数
字特征,并给出合理的解释;③
会用样本的频率分布估计总体
分布,会用样本的基本数字特征
估计总体的基本数字特征;④会
用随机抽样的基本方法和样本
估计总体的思想解决一些简单
的实际问题
2017课标全国Ⅰ,2,5分理解方差或标准差—
★★☆
2019课标全国Ⅲ,4,5分用样本估计总体—
2019课标全国Ⅲ,17,12分
用频率分布直方图估
计数字特征
频率分布直方图
2019课标全国Ⅱ,19,12分频数分布表及数字特征—
变量间的相关性①会作两个有关联变量的数据
的散点图,并利用散点图认识变
量间的相关关系;②了解最小二
乘法的思想,能根据给出的线性
回归方程系数公式建立线性回
归方程
2016课标全国Ⅲ,18,12分相关系数与回归方程折线统计图
★★☆
2017课标全国Ⅰ,19,12分相关系数数字特征
独立性检验了解独立性检验的基本思想、
方法及其简单应用,能通过计算
判断两个变量的相关程度
2019课标全国Ⅰ,17,12分独立性检验用频率估计概率
★★☆
2017课标全国Ⅱ,19,12分
频率分布直方图与独
立性检验
用频率估计概率
2018课标全国Ⅲ,18,12分茎叶图与独立性检验样本的数字特征
分析解读
从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.
破考点练考向
【考点集训】
考点一抽样方法
1.(2019河南部分省示范性高中1月份联考,7)某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2 400名学生中抽取30人进行调查.现将2 400名学生随机地从1~2 400编号,按编号顺序平均分成30组(1~80号,81~160号,……,2 321~2 400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是()
A.416
B.432
C.448
D.464
答案A
2.(2018安徽安庆一中、山西太原五中等五省六校(K12联盟)期末联考,3)某中学有高中生960人,初中生480人,为了了解学生的身体状况,采用分层抽样的方法,从该校学生中抽取容量为n的样本,其中高中生有24人,那么n等于()
A.12
B.18
C.24
D.36
答案D
考点二统计图表
1.(2019广东东莞第二次调研考试,3)有24名投资者想到某地投资,他们年龄的茎叶图如图所示,先将他们的年龄从小到大编号为1—24号,再用系统抽样方法抽出6名投资者,邀请他们到实地进行考察.其中年龄不超过55岁的人数为()
39
401125
51366778889
600123345
A.1
B.2
C.3
D.4
答案B
2.(多选题)(2020届山东夏季高考模拟,9)下图为某地区2006年—2018年地方财政预算内收入、城乡居民储蓄年末余额折线图.
根据该折线图可知,该地区2006年—2018年()
A.财政预算内收入、城乡居民储蓄年末余额均呈增长趋势
B.财政预算内收入、城乡居民储蓄年末余额的逐年增长速度相同
C.财政预算内收入年平均增长量高于城乡居民储蓄年末余额年平均增长量
D.城乡居民储蓄年末余额与财政预算内收入的差额逐年增大
答案AD
考点三样本的数字特征
1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为()
A.4
B.3
C.2
D.1
答案B
2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x ,方差为s 2
,则( ) A.x =4,s 2
<2 B.x =4,s 2
>2 C.x >4,s 2<2 D.x >4,s 2
>2
答案 A
考点四 变量间的相关性
1.(2018河南焦作四模,3)已知变量x 和y 的统计数据如下表:
x 3 4 5 6 7 y
2.5
3
4
4.5
6
根据上表可得回归直线方程为y ^=b ^
x-0.25,据此可以预测当x=8时,y ^
=( ) A.6.4 B.6.25 C.6.55 D.6.45
答案 C
2.(2018湖南张家界三模,4)已知变量x,y 之间的线性回归方程为y ^
=-0.7x+10.3,且变量x,y 之间的一组相关数据如下表所示,则下列说法错误..
的是( ) x 6 8 10 12 y
6
m
3
2
A.变量x,y 之间成负相关关系
B.可以预测,当x=20时,y ^
=-3.7 C.m=4
D.该回归直线必过点(9,4) 答案 C
考点五独立性检验
(2018贵州六校12月联考,18)海南大学某餐饮中心为了解新生的饮食习惯,在全校新生中进行了抽样调查,调查结果如下表所示:
喜欢甜品不喜欢甜品合计
南方学生602080
北方学生101020
合计7030100
(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?
(2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
P(K2≥k0)0.100.050.010
k0 2.706 3.841 6.635
附:K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
答案(1)将2×2列联表中的数据代入公式计算,得K2=100×(60×10-20×10)2
70×30×80×20=100
21
≈4.762.
由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间
Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},
其中a i表示喜欢甜品的学生,i=1,2,b j表示不喜欢甜品的学生,j=1,2,3.
Ω由10个基本事件组成,且这些基本事件的出现是等可能的.
用A表示“3人中至多有1人喜欢甜品”这一事件,则
A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.
事件A由7个基本事件组成,因而P(A)=7
10
.
炼技法提能力
【方法集训】
方法1 解与频率分布直方图有关问题的方法
1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,2
2.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()
A.56
B.60
C.120
D.140
答案D
2.(2020届广西桂林十八中模拟,18)某家电公司销售部门共有200名销售员,每年部门对每名销售员都有1 400万元的年度销售
任务.已知这200名销售员去年完成的销售额在区间[2,22](单位:百万元)内,现将其分成5组:第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22),并绘制出频率分布直方图,如图.
(1)若用分层抽样的方法从这200名销售员中抽取容量为25的样本,求a的值和样本中完成年度任务的销售员人数;
(2)从(1)中样本内完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.
答案(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03.∴样本中完成年度任务的人数为200×0.03=6.
(2)样本中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3,从这6人中随机抽取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,
共15个,获得此奖励的2名销售员在同一组的基本事件分别为A1A2,A1A3,A2A3,B1B2,B1B3,B2B3,共6个,故所求概率为6
15=2
5 .
方法2 样本的数字特征的求解及其应用
1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为()
A.①③
B.①④
C.②③
D.②④
答案B
2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是.
答案 c
方法3 回归直线方程的求解与运用
1.(2020届河南南阳第一中学模拟,1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i=1,2,…,n)都在直线y=-15
x+1上,则这组样本数据的样本相关系数为( ) A.-1
B.1
C.-15
D.15
答案 A
2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期 1月10日 2月10日 3月10日 4月10日 5月10日 6月10日 昼夜温 差x(℃) 10 11 13 12 8 6 就诊人 数y
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验. (1)求选取的2组数据恰好是相邻两个月数据的概率;
(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y 关于x 的线性回归方程y ^=b ^
x+a ^
;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想? 参考公式:b ^=
∑i=1n
x i y i -nx y ∑i=1n
x i 2-nx
2
=
∑i=1
n
(x i -x)(y i -y)∑i=1
(x i -x)2
,a ^=y -b ^
x ;
参考数据:11×25+13×29+12×26+8×16=1 092,112
+132
+122
+82
=498.
答案 (1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)=515=1
3
.
(2)由题表中数据求得x =11,y =24,由公式求得b ^=18
7
,
则a ^
=y -b ^
x =-307
,
所以y 关于x 的线性回归方程为y ^=18
7
x-307
.
(3)由(2)知,当x=10时,y ^=
150
7
,|
150
7
-22|<2,当x=6时,y ^=78
7
,|
78
7
-12|<2, 所以,该小组所得线性回归方程是理想的.
方法4 独立性检验的思想方法
(2018山西太原五中模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如图所示的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.
(1)根据已知条件完成下面的2×2列联表,能否在犯错的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关?
网购迷
非网购迷
合计
年龄不超过40岁 年龄超过40岁
合计
(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率. 附:K 2
=
n(ad -bc)2
(a+b)(c+d)(a+c)(b+d)
.
答案 (1)根据已知条件完成2×2列联表如下:
网购迷 非网购迷 合计 年龄不超过40岁 20 45 65 年龄超过40岁
5 30 35 合计
25
75
100
K 2
=
100×(20×30-5×45)2
25×75×65×35
≈3.297,因为
3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄
不超过40岁有关.
(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A 、B,其余8名市民记为c 、d 、e 、f 、g 、h 、m 、n,现从10人中任取2人,基本事件有AB 、Ac 、Ad 、Ae 、Af 、Ag 、Ah 、Am 、An 、Bc 、Bd 、Be 、Bf 、Bg 、Bh 、Bm 、Bn 、cd 、ce 、cf 、cg 、ch 、cm 、cn 、de 、df 、dg 、dh 、dm 、dn 、ef 、eg 、eh 、em 、en 、fg 、fh 、fm 、fn 、gh 、gm 、gn 、hm 、hn 、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件有AB 、Ac 、Ad 、Ae 、Af 、Ag 、Ah 、Am 、An 、Bc 、Bd 、Be 、Bf 、Bg 、Bh 、Bm 、Bn,共17种,
故所求的概率P=1745
.
【五年高考】
A 组 统一命题·课标卷题组
考点一 抽样方法
1.(2019课标全国Ⅰ,6,5分)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()
A.8号学生
B.200号学生
C.616号学生
D.815号学生
答案C
2.(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是.
答案分层抽样
考点二统计图表
1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是()
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案A
2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是()
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案A
3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案D
4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7)
频数13249265
使用了节水龙头50天的日用水量频数分布表
日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)
频数151310165
(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表) 答案(1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
x1=1
×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
50
该家庭使用了节水龙头后50天日用水量的平均数为
x2=1
×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
50
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
考点三样本的数字特征
1.(2019课标全国Ⅲ,4,5分)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()
A.0.5
B.0.6
C.0.7
D.0.8
答案C
2.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()
A.x1,x2,…,x n的平均数
B.x1,x2,…,x n的标准差
C.x1,x2,…,x n的最大值
D.x1,x2,…,x n的中位数
答案B
3.(2019课标全国Ⅲ,17,12分)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
答案本题主要考查频率分布直方图的含义,以及用频率分布直方图估计样本的数字特征,通过实际问题的应用考查学生的运算求解能力,考查了数学运算的核心素养,体现了应用意识.
(1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
4.(2019课标全国Ⅱ,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)
企业数22453147
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:√74≈8.602.
答案本题考查了统计的基础知识、基本思想和方法,考查学生对频数分布表的理解与应用,考查样本的平均数,标准差等数字特征的计算方法,以及对现实社会中实际数据的分析处理能力.
(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7
100
=0.21.
产值负增长的企业频率为2
100
=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=1
100
(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=1
100∑
i=1
5
n i(y i-y)2
=1
100
[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.029 6,
s=√0.029 6=0.02×√74≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
考点四变量间的相关性
1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序12345678
零件尺寸9.9510.129.969.9610.019.929.9810.04
抽取次序910111213141516
零件尺寸10.269.9110.1310.029.2210.0410.059.95
经计算得x=1
16∑
i=1
16
x i=9.97,s=√1
16

i=1
16
(x i-x)2=√1
16
(∑
i=1
16
x i2-16x2)≈0.212,√∑
i=1
16
(i-8.5)2≈18.439,∑
i=1
16
(x i-x)(i-8.5)=-2.78,
其中x i为抽取的第i个零件的尺寸,i=1,2, (16)
(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ii)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(x i,y i)(i=1,2,…,n)的相关系数
r=
∑i=1n
(x -x)(y -y)
√∑i=1
(x i -x)2√∑i=1
(y i -y)
2
.
√0.008≈0.09.
答案 (1)由样本数据得(x i ,i)(i=1,2,…,16)的相关系数为r=
∑i=116
(x i -x)(i -8.5)
√∑i=1
(x i -x)
2√∑i=1
(i -8.5)
2
=
-2.78
0.212×√16×18.439
≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s,x +3s)以外,因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,剩下数据的平均数为115
×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.
∑i=1
16
x i 2=16×0.2122
+16×9.972
≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
115
×(1 591.134-9.222-15×10.022
)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为√0.008≈0.09.
2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;
(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:
参考数据:∑i=1
7
y i =9.32,∑i=1
7
t i y i =40.17,√∑i=1
7
(y i -y)2=0.55,√7≈2.646.
参考公式:相关系数r=
∑i=1n
(t i -t)(y -y)
√∑i=1(t i -t)2∑i=1
(i -y)2
,
回归方程y ^=a ^+b ^
t 中斜率和截距最小二乘估计公式分别为:
b ^
=
∑i=1
n
(t i -t)(y i -y)∑i=1
n
(t i -t)2
,a ^
=y -b ^
t .
答案 (1)由折线图中数据和附注中参考数据得
t =4,∑i=17(t i -t )2
=28,√∑i=1
7
(y i -y)2=0.55,
∑i=1
7(t i -t )(y i -y )=∑i=1
7t i y i -t ∑i=1
7
y i =40.17-4×9.32=2.89,
r ≈
2.89
0.55×2×2.646
≈0.99.(4
分)
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(6分)
(2)由y =9.32
7
≈1.331
及(1)得b ^=
∑i=1
7
(t i -t)(y i -y)∑i=1
7
(t i -t)2
=
2.8928
≈0.10,
a ^
=y -b ^
t =1.331-0.10×4≈0.93.
所以y 关于t 的回归方程为y ^
=0.93+0.10t.(10分)
将2016年对应的t=9代入回归方程得:y ^
=0.93+0.10×9=1.83. 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)
考点五 独立性检验
1.(2019课标全国Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意 不满意 男顾客 40 10 女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2
=
n(ad -bc)2
(a+b)(c+d)(a+c)(b+d)
.
P(K 2≥k) 0.050 0.010 0.001 k
3.841
6.635
10.828
答案 本题通过对概率与频率的关系、统计案例中两变量相关性检验考查学生的抽象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.
(1)由调查数据,男顾客中对该商场服务满意的比率为4050
=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050
=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K 2
=
100×(40×20-30×10)2
50×50×70×30
≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
2.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表;
超过m
不超过m
第一种生产方式 第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2
=
n(ad -bc)2
(a+b)(c+d)(a+c)(b+d)
,
P(K 2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828
.
答案 (1)第二种生产方式的效率更高. 理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分. (2)由茎叶图知m=79+81
2
=80. 列联表如下:
超过m 不超过m 第一种生产方式 15 5 第二种生产方式
5
15
(3)由于 K 2
=
40×(15×15-5×5)2
20×20×20×20
=10>6.635,所以有
99%的把握认为两种生产方式的效率有差异.
3.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:。

相关文档
最新文档