2020高考数学(文科)二轮专题精讲《统计与统计案例》
2020新课标高考数学(文)二轮总复习课件:1-4-1 统计、统计案例
上一页
返回导航
下一页
新课标高考第二轮总复习•文科数学
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; [解析] (1)根据茎叶图中的数据知, 用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟, 用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 78 分钟, 所以第二种生产方式的工作时间较少些,效率更高.
返回导航
下一页
新课标高考第二轮总复习•文科数学
(1)在图②中作出 B 地区用户满意度评分的频率分布直方图,并通过直方图比较两 地区满意度评分的平均值及分散程度;(不要求计算出具体值,给出结论即可)
B 地区用户满意度评分的频率分布直方图
上一页
②
返回导航
下一页
[解析] (1)如图所示.
新课标高考第二轮总复习•文科数学
排在中间的两个数据是 79 和 81,它们的中位数 m=80.
填写列联表如下:
超过 m 不超过 m 总计
第一种生产方式 15
5
20
第二种生产方式 5
15
20
总计
20
20
40
上一页
返回导航
下一页
新课标高考第二轮总复习•文科数学
(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异? 附:K2=a+bcn+add-ab+cc2b+d.
卷Ⅱ 频率分布表、平均数与标准差的计
2019
算·T19
是由生活情境、文字描 述、图表数据、公式组
古典概型概率计算·T3 卷Ⅲ 随机抽样、样本估计总体·T4
频率分布直方图和平均数计算·T17
成,一般设计2~3个问 题,是试卷中阅读量最大 的题目.
高考数学文科二轮专题攻略课件:第十四讲 统计与统计案例
考点聚焦 栏目索引
答案 B 依题意及系统抽样的意义可知,将这600名学生按编号 一次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3
高考导航
+12(k-1),令3+12(k-1)≤300,得k≤103 ,因此A营区被抽中的人数是
4
25.令300<3+12(k-1)≤495,得 103 <k≤42,因此B营区被抽中的人数
考点聚焦 栏目索引
2.相关系数r
当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关.
高考导航
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对
值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|
r|大于0.75时,认为两个变量有很强的线性相关性.
考点聚焦 栏目索引
^
^
a, 其中b
( xi
i1 n
x)( yi
y)
,
(xi x)2
i1
^
^
a y b x.
考点聚焦 栏目索引 高考导航
解析 (1)作出散点图如下.
考点聚焦 栏目索引 高考导航
考点聚焦 栏目索引
y
11 13
16
15 6
20
21
6
16, (
i 1
yi
y)2
76,
r
6
(xi x)( yi y)
观察题图易知1号,4号,5号学生的面试分数在100分以下,
故选择的两人的面试分数均在100分以下的选择方法有(1,4),(1,
5),(4,5),共3种, 故选择的两人的面试分数均在100分以下的概率为 3 .
2020版高考数学大二轮专题突破文科通用版 课件:6.2.1 统计与统计案例
������
∑ xi2
������=1− Nhomakorabeax2.
-6-
2.变量间的相关关系
(1)如果散点图中的点从整体上看大致分布在一条直线的附近,那
么我们说变量x和y具有线性相关关系.
(2)线性回归方程:若变量x与y具有线性相关关系,有n个样本数据
(xi,yi)(i=1,2,…,n),则回归方程为
^ ^ ^ ^ ^ ^ ������
之和为0.5处的横坐标;
(3)平均数������ = ���1���(x1+x2+…+xn).体现在频率分布直方图中是由各小
矩形的宽的中点的横坐标乘以相应小矩形的面积,然后求和得到;
(4)方差
s2=���1���[(x1-������)2+(x2-������)2+…+(xn-������)2]=���1���
由公式:���^���=(2×250+3×30(04++49+×14600++255+×43560)-+5×6×16600)-5×4×400
=85,
a^ =400-85×4=60,∴���^���=85x+60.
(2)由题意:w=-5x2+85x-80,
所以,年平均利润������������
=-5x+85-80=85-5
的平均值
频率、频数分 布表,平均数、 方差
样本估 计总体
分析、计算
频率,频率分布 样本估 直方图;平均数 计总体
观察、分析、 计算,方程思 想
-5-
1.样本的数字特征
(1)众数:是指出现次数最多的数,体现在频率分布直方图中,是指
2020高考数学(文科)新思维大二轮(教师课件):第1课时 统计、统计案例
生 2 000 人,男、女生所占的比例如图所示.为了解
学生的学习情况,用分层抽样的方法从该校学生中抽
取一个容量为 n 的样本,已知从高中生中抽取女生
21 人,则从初中生中抽取的男生人数是( )
A.12
B.15
C.20
D.21
送分考点·练中自检 重点突破·考法全练 押题精炼·直通高考 专题限时训练
首页 上页 下页 末页
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的
中点值为代表).(精确到 0.01)
附: 74≈8.602.
[知、求、想]——规范思路
知
求
想
产值增长率不低于 40%及产值负增长的企业比 (1)频率分布表
例
频率
(2)频率分布表
平均数与标准差
平均数与标准差公式
送分考点·练中自检 重点突破·考法全练 押题精炼·直通高考 专题限时训练
考点一 考点二
解析:因为抽样比为 3
0002×1 70%=1100,
所以从初中生中抽取的男生人数为 2 000×60%×1100=12.
故选 A.
答案:A
送分考点·练中自检 重点突破·考法全练 押题精炼·直通高考 专题限时训练
首页 上页 下页 末页
考点一 考点二
2.(2019·四川成都模拟)空气质量指数 AQI 是检测空气质量的重要参数,其数值越大 说明空气污染状况越严重,空气质量越差.某地环保部门统计了该地区 12 月 1 日至 12 月 24 日连续 24 天的空气质量指数 AQI,根据 得到的数据绘制出如图所示的折线图,则下列说 法错误的是( ) A.该地区在 12 月 2 日空气质量最好 B.该地区在 12 月 24 日空气质量最差 C.该地区从 12 月 7 日至 12 月 12 日 AQI 持续 增大 D.该地区的空气质量指数 AQI 与这段日期成负相关
2020版高考文科数学二轮课件:4-7-2 统计
(2)频率分布直方图中各小长方形的面积之和为 1.
(3)利用频率分布直方图求众数、中位数与平均数.
利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率
分布直方图中:
①最高的小长方形底边中点的横坐标即众数. ②中位数左边和右边的小长方形的面积和相等. ③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积 乘以小长方形底边中点的横坐标之和.
共有 60 位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5
B.0.6
C.0.7
D.0.8
【解析】 由题意得,阅读过《西游记》的学生人数为 90-80+60=70,则其与该 校学生人数之比为 70÷100=0.7.故选 C.
【答案】 C 【点评】 本题考查抽样数据的统计,渗透了数据处理和数学运算素养.采取去重法, 利用转化与化归思想解题.
∴有 90%的把握认为生产的产品质量与设备的选择具有相关性,故选 A. 【答案】 A
【例 2】 (2019 年北师大)工人月工资 y(元)随劳动生产率 x(千元)变化的回归方程为^y =50+80x,下列判断不正确的是( )
A.劳动生产率为 1 000 元时,工资约为 130 元 B.劳动生产率提高 1 000 元时,工资提高约 80 元 C.劳动生产率提高 1 000 元时,工资提高约 130 元 D.当月工资为 210 元时,劳动生产率约为 2 000 元
c
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量 K2=(a+b)(an+(ca)d-(bbc+)d2 )(c+d),其中 n=a+b+c+d 为样本容
量.
2020版高考文科数学大二轮专题复习新方略讲义:7.2统计与统计案例 Word版含解析
(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;『对接训练』众数、中位数、平均数与直方图的关系『对接训练』.甲投中个数的极差是29.乙投中个数的众数是21.甲投中个数的中位数是25单位:千米)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是().月跑步平均里程的中位数为6月份对应的平均里程数.月跑步平均里程逐月增加.月跑步平均里程高峰期大致在8月和9月(1)求回归直线方程的关键『对接训练』对所得数据进行整理,绘制散点图并计算出一些数据如下:w i =10.3,∑i =15y i =15.8,∑i =15x i y i =22.76,,∑i =15(x i -x )2=0.46,∑i =15(w i -w )2=3.56=α+βu 的斜率和截距 解析:(1)根据散点图可知,广告投入x 的回归方程类型.由题意知,10.35×15.853.56=0.45, -15.810.3A.39B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是()A.①③都可能为分层抽样B.②④都不能为分层抽样C.①④都可能为系统抽样D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A.答案:A3.[2019·广东惠州一调]已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据()的平均数为()A.95 B.96C.97 D.98解析:由系统抽样法及已知条件可知被选中的其他88别是88,94,99,107,故平均数为湖北重点高中协作体联考::7村有15人,则样本容量为率与人均销售额成正相关关系.故选A.]根据如表数据,得到的回归方程为4 5 6 7 85 4 3 2 1元,则该教师2018年的家庭总收入为( )元 B .95 000元D .85 000元由已知得,2017年的就医费用为80 000×10%年的就医费用为8 000+4 750=12 750(元),所以该教师年的家庭总收入为12 750=85 000(元).故选D .::2个,则样本容量为300人的样本进行调查,::4为________解析:人成绩的平均数恰为10025人中选取2人,基本事件的总数为人成绩的平均数恰为100的基本事件为(95,105),(94,106),(93,107)①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3.从这6人中随机选取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个,中间三组的人数可构成等差数列.100名调查对象的性别进行统计,发现平均每周元的男性有20人,低于300请根据统计数据完成下列2×2列联表,并判断是否有平均每周消费金额与性别有关?男性女性=,解析:(1)①该地区-112.6112.6×100%≈②若月环比增长率为负数,则本期数2017年3月、2017年5个月的月环比增长率为负数.由已知,得≈a^=y--b^x-=104.56,∴线性回归方程为y^=1.16x+104.56.当x=18时,y^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。
2020高考数学(文科,通用)复习课件:专题7 第2讲统计与统计案例.ppt
第三组中没有疗效的有6人,则第三组中有疗效的
人数为( )
思维启迪 根据第一组与第二组
的人数和对应频率估计
样本总数,然后利用第
三组的频率和无疗效人
数计算;
A.6
B.8 C.12 D.18
解析 志愿者的总人数为0.16+200.24×1=50,
所以第三组人数为50×0.36=18, 有疗效的人数为18-6=12. 答案 C
热点一 抽样方法
例1 (1)(2013·陕西)某单位有840名职工,现采用
系 统 抽 样 方 法 抽 取 42 人 做 问 卷 调 查 , 将 840 人 按
1,2,…,840随机编号,则抽取的42人中,编号落
入区间[481,720]的人数为( )
A.11
B.12 C.13 D.14
思维启迪
系统抽样时需要抽取几个个体,样本就分成几组,且抽
思维启迪 分层抽样最重要的是各层的比例.
解析 本题属于分层抽样,设该学校的教师人数为x, 所以3126000=160-x 150,所以 x=200.
(1)随机抽样各种方法中,每个个体被抽到的概率
思 都是相等的;(2)系统抽样又称“等距”抽样,被 维 抽到的各个号码间隔相同;分层抽样满足:各层
升
华 抽取的比例都等于样本容量在总体容量中的比例.
2.常用的统计图表 (1)频率分布直方图
频率 ①小长方形的面积=组距×组距=频率;
②各小长方形的面积之和等于1;
③小长方形的高=频 组率 距,所有小长方形的高的和为组1距.
(2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数
数字特
(全国通用)2020版高考数学第二层提升篇专题四统计与概率第1讲统计、统计案例讲义
第1讲统计、统计案例[全国卷3年考情分析](1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在2~4题的位置.(2)统计与统计案例在解答题中多出现在第17、18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.[例1] (1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )A.25,25,25,25B.48,72,64,16C.20,40,30,10D.24,36,32,8(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷B 的人数为( )A.7B.9C.10D.15[解析] (1)因为抽样比为10020000=1200,所以每类人中应抽选的人数分别为4800×1200=24,7200×1200=36,6400×1200=32,1600×1200=8.故选D. (2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k +9(k =0,1,…,31).由451≤30k +9≤750,解得44230≤k ≤74130,又k ∈N ,故k =15,16, (24)共10人.[答案] (1)D (2)C[解题方略] 系统抽样和分层抽样中的计算 (1)系统抽样①总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组Nn个(有零头时要先去掉). ②若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +N n,…,k +(n -1)N n.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[跟踪训练]1.(2019·全国卷Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )A.8号学生B.200号学生C.616号学生D.815号学生解析:选C 根据题意,系统抽样是等距抽样,所以抽样间隔为1000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.2.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是( )A.12B.15C.20D.21解析:选 A 因为抽样比为213000×70%=1100,所以从初中生中抽取的男生人数为2000×60%×1100=12.故选A.[例2] (2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例; (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100 i =15n i (y i -y )2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s =0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.[解题方略] 1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算. (2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大. 2.从频率分布直方图中得出有关数据的方法[跟踪训练]1.(2019·石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是( )A.23,22B.23,22.5C.21,22D.21,22.5解析:选D 由茎叶图可得甲的成绩的平均数为10+11+14+21+23+23+32+348=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为22+232=22.5.2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.(1)求图中a的值;(2)估计这种植物果实重量的平均数x和方差s2(同一组中的数据用该组区间的中点值作代表).解:(1)由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.(2)各组中点值和相应的频率依次为x=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.题型一回归分析在实际问题中的应用[例3] 某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(单位:cm)的情况如表1:该省某市2019年11月份AQI指数频数分布如表2:(1)设x =M100,若x 与y 之间是线性关系,试根据表1的数据求出y 关于x 的线性回归方程.(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI 指数存在相关关系如表3:根据表3估计小李的洗车店2019年11月份每天的平均收入.附参考公式:y ^=b ^x +a ^,其中b ^=,a ^=y -b ^x .[解] (1)x =14(9+7+3+1)=5,y =14(0.5+3.5+6.5+9.5)=5,∑4,i =1x i y i =9×0.5+7×3.5+3×6.5+1×9.5=58. ∑4,i =1x 2i =92+72+32+12=140,所以b ^=58-4×5×5140-4×52=-2120,a ^=5-⎝ ⎛⎭⎪⎫-2120×5=414,所以y 关于x 的线性回归方程为y ^=-2120x +414.(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元,估计小李洗车店2019年11月份每天的平均收入为130×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).[解题方略] 求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线y ^=b ^x +a ^必经过样本点的中心(x ,y )快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二 独立性检验在实际问题中的应用[例4] (2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2的观测值k =100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.[解题方略] 独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d )计算出K2的观测值;(3)比较K 2的观测值与临界值的大小,作出统计推断.[跟踪训练]1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为( ) A.0.1% B.0.5% C.99.5%D.99.9%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:选C 因为K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.2.2019年秋新学期开始,某市对全市中小学学生进行健康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y 的数据如下表:根据前五个年级的数据,利用最小二乘法求出y 关于x 的线性回归方程,并根据方程预测六年级学生的近视率.附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘法估计公式分别为得b ^=2.76-2.2555-45=0.051,a ^=0.15-0.051×3=-0.003,得线性回归方程为y ^=0.051x -0.003.当x =6时,代入得y ^=0.051×6-0.003=0.303, 所以六年级学生的近视率在0.303左右.数学建模——回归分析问题的求解[典例] (2019·合肥市第二次质量检测)为了了解A 地区足球特色学校的发展状况,某调查机构统计得到如下数据:(1)根据表中数据,计算y 与x 的相关系数r ,并说明y 与x 的线性相关性强弱(已知:0.75≤|r |≤1,则认为y 与x 线性相关性很强;0.3≤|r |<0.75,则认为y 与x 线性相关性一般;|r |≤0.25,则认为y 与x 线性相关性较弱);(2)求y 关于x 的线性回归方程,并预测A 地区2019年足球特色学校的个数(精确到个).[解] (1)x =2016,y =1,r =i =15(x i -x )(y i -y )i =15(x i -x )2i =15(y i -y )2=(-2)×(-0.7)+(-1)×(-0.4)+1×0.4+2×0.710× 1.3= 3.63.6056=0.9984>0.75, ∴y 与x 线性相关性很强.a ^=y -b ^x =1-0.36×2016=-724.76,∴y 关于x 的线性回归方程是y ^=0.36x -724.76. 当x =2019时,y ^=0.36×2019-724.76=2.08, 即A 地区2019年足球特色学校约有208个. [素养通路]本题是典型的回归分析问题,在实际问题中收集数据,画散点图,用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.[专题过关检测]A 组——“6+3+3”考点落实练一、选择题1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A.73B.78C.77D.76解析:选B 样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差解析:选A 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.3.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:由表中数据得线性回归方程:y ^=-2x +60,则a 的值为( ) A.48 B.62 C.64D.68解析:选C 由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a=64,故选C.4.如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误,选D.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是( )A.13,12B.13,13C.12,13D.13,14解析:选B 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,即2d -d 2=0,又d ≠0,故d =2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为(4+22)×510=13,中位数为12+142=13.6.(2019·成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数; ②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数; ③从最近五场比赛的得分看,乙比甲更稳定; ④从最近五场比赛的得分看,甲比乙更稳定.其中所有正确结论的编号为( ) A.①③ B.①④ C.②③D.②④解析:选C 对于①,甲得分的中位数为29,乙得分的中位数为30,错误; 对于②,甲得分的平均数为15×(25+28+29+31+32)=29,乙得分的平均数为15×(28+29+30+31+32)=30,正确;对于③,甲得分的方差为15×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=15×(16+1+0+4+9)=6,乙得分的方差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=15×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③.二、填空题7.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.解析:x =10×0.97+20×0.98+10×0.9910+20+10=0.98.则经停该站高铁列车所有车次的平均正点率的估计值为0.98. 答案:0.988.(2019·安徽五校联盟第二次质检)数据a 1,a 2,a 3,…,a n 的方差为σ2,则数据2a 1,2a 2,2a 3,…,2a n 的方差为________.解析:设a 1,a 2,a 3,…,a n 的平均数为a ,则2a 1,2a 2,2a 3,…,2a n 的平均数为2a , σ2=(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n.则2a 1,2a 2,2a 3,…,2a n 的方差为(2a 1-2a )2+(2a 2-2a )2+(2a 3-2a )2+…+(2a n -2a )2n=4×(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n=4σ2.答案:4σ29.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:⎝ ⎛⎭⎪⎫参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d解析:分析列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99% 三、解答题10.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P (C )的估计值为0.70.(1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a +0.20+0.15,故a =0.35.b =1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?解:(1)由频率分布直方图可知,(0.010+0.015+0.015+a +0.025+0.005)×10=1,所以a =0.03. 所以参加高中数学竞赛的考生的成绩的平均数为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71, 成绩的众数为75.设参加高中数学竞赛的考生的成绩的中位数为x ,则0.1+0.15+0.15+(x -70)×0.03=0.5,解得x ≈73.3, 所以中位数为73.3.(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为2060=13,所以各分数段抽取人数依次为2,3,3,6,5,1.12.(2019·沈阳市质量监测(一))某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差. (2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.B 组——大题专攻强化练1.(2019·武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y (万元)与该月产量x (万件)之间有如下一组数据:(1)通过画散点图,发现可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明. (2)①建立月总成本y 与月产量x 之间的回归方程;②通过建立的y 关于x 的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)附注:①参考数据:错误!i =27.31,∑i =110x 2i -10x 2≈0.850,∑i =110y 2i -10y 2≈1.042,b ^≈1.223. ②参考公式:相关系数回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为:解:(1)由已知条件得,r =b ^·∑i =110x 2i -10x 2∑i =110y 2i -10y 2,∴r =1.223×0.8501.042≈0.998,这说明y 与x 正相关,且相关性很强. (2)①由已知求得x =1.445,y =2.731, a ^=y -b ^x =2.731-1.223×1.445≈0.964,∴所求回归直线方程为y ^=1.223x+0.964.②当x =1.98时,y =1.223×1.98+0.964≈3.386(万元), 此时产品的总成本约为3.386万元.2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)估计旧养殖法的箱产量低于50kg 的概率并估计新养殖法的箱产量的平均值; (2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)旧养殖法的箱产量低于50kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50kg 的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.(2)根据箱产量的频率分布直方图得2×2列联表如下:由表中数据得K 2=200×(62×66-34×38)2100×100×96×104≈15.705,由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.3.(2019·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:他们用两种模型①y =bx +a ,②y =a e bx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由. (2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)(ⅰ)剔除异常数据,即3月份的数据后,得x =15×(7×6-6)=7.2, y =15×(30×6-31.8)=29.64.(ⅱ)把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04,故预报值为62.04万元.4.每年10月中上旬是小麦的最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技兴趣小组为了解昼夜温差的大小与小麦发芽的多少之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:(1)请根据统计的最后三组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;(3)若100颗小麦种子的发芽数为n 颗,则记n %的发芽率,当发芽率为n %时,平均每亩地的收益为10n 元,某农场有土地10万亩,小麦种植期间昼夜温差大约为9℃,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.附:在线性回归方程y ^=b ^x +a ^中,b ^=解:(1)∵x =11+13+123=12,y =85+90+863=87,∴b ^=11×85+13×90+12×86-3×12×87112+132+122-3×122=52, 由b ^x +a ^=y ,即52×12+a ^=87,得a ^=57,∴线性回归方程为y ^=52x +57.(2)当x =8时,y ^=52×8+57=77,与实际值79比较,误差没有超过两颗; 当x =10时,y ^=52×10+57=82,与实际值81比较,误差也没有超过两颗. 所以(1)中得到的线性回归方程y ^=52x +57是可靠的. (3)由y ^=52x +57得,当x =9时,y ^=79.5,即每亩地的收益大约为795元,所以该农场种植小麦所获得的收益大约为7950万元.。
2020高考文科数学二轮提分广西等课标3卷专用课件:7.1 统计与统计案例
差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价
较高、评价较为一致,对乙部门的评价较低,评价差异较大.(注:利用
其他统计量进行分析,结论合理的也可)
-13-
命题热点一 命题热点二 命题热点三 命题热点四
回归方程的求法及回归分析 【思考】 两个变量具备什么关系才能用线性回归方程来预测? 如何判断两个变量具有这种关系?
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
题后反思利用频率分布直方图求众数、中位数与平均数时,应注意 这三者的区分:(1)最高的长方形的中点即众数;(2)中位数左边和右 边的直方图的面积是相等的;(3)平均数是频率分布直方图的“重心”, 等于频率分布直方图中每个小长方形的面积乘小长方形底边中点 的横坐标之和.
2.茎叶图刻画数据的优点:(1)所有数据信息都可由茎叶图看到;(2) 茎叶图便于记录和表示,能反映数据在各段上的分布情况.
3.茎叶图刻画数据的不足:茎叶图不能直接反映总体的分布情况, 这就需要通过茎叶图给出的数据求出数据的数字特征,进一步估计 总体情况.
-11-
命题热点一 命题热点二 命题热点三 命题热点四
命题热点一 命题热点二 命题热点三 命题热点四
解 (1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增 长率不低于 40%的企业频率为1140+07=0.21. 产值负增长的企业频率为1020=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于 40%
的企业比例为 21%,产值负增长的企业比例为 2%.
s= 0.029 6=0.02× 74≈0.17.
2020年高考文科数学二轮专题复习十:概率统计与统计案例(附解析)
2020年高考文科数学二轮专题复习十:概率统计与统计案例(附解析)1.以实际问题为背景,考查抽样方法的选择或根据抽样方法求值; 2.根据折线图或其它统计图,分析实际问题的走势及变化;3.考察均值、标准差、中位数等特征数的意义及对样本数据的特征分析; 4.列举法求解古典概型概率,或分析一些规则对称图形考察几何概型; 5.以实际问题为背景,考察独立性检验相关运算和相关性百分比分析;6.以实际问题为背景,分析两变量间的线性相关性,并通过线性回归方程进行预估;7.以频率分布表或频率分布图为依据,求解参数值,并通过均值与标准差的计算对实际问题进行对比或优化.1.简单随机抽样定义:一般地,设一个总体含有N 个个体,从中逐个不放回的抽取n 个个体作为样本(n N ), 如果每次抽取时总体内的各个个体被抽到的机会相等,就把这种抽样方法叫做简单随机抽样. 最常用的简单随机抽样方法有两种---抽签法和随机数法. 适用范围:总体含个体数较少.2.系统抽样一般地,假设要从容量为N 的总体中抽取容量为n 的样本,我们可以按下列步骤进行系统抽样: (1)先将总体的N 个个体编号.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;(2)确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取N k n=; (3)在第1段用简单随机抽样确定第一个个体编号()l l k ≤;(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号()l k +,再加k 得到第3个个体编号(2)l k +,依次进行下去,直到获取整个样本.注意:如果遇到Nn不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除. 适用范围:总体含个体数较多.3.分层抽样定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样. 适用范围:总体由差异明显的几部分构成.4.频率分布直方图极差:一组数据中最大值与最小值的差; 频数:即个数;频率:频数与样本容量的比值,频率分布直方图中各小长方形的面积表示相应各组的频率; 众数:出现次数最多的数,可以有多个.若无具体样本数据,则频率分布直方图中最高矩形的中点值可视为众数估计值;中位数:按大小顺序排列的一组数据中居于中间位置的数,若中间位置有两个数,则取它们的平均数,中位数只有一个.若无具体样本数据,则频率分布直方图中将所有矩形面积平分的直线对应的横坐标可视为中位数的估计值;平均数:所有样本数值之和除以样本个数的值.若无具体样本数据,则频率分布直方图中将每个矩形对应的区间中点值与该矩形面积相乘,然后全部相加得到的数值可视为该样本的平均值的估计值; 标准差:考察样本数据的分散程度的大小,一般用s 表示.标准差越大,则数据离散程度越大;标准差越小,则数据离散程度越小.s =方差:标准差的平方,用2s 表示,也是刻画样本数据的分散程度,与标准差一致.2222121[()()...()]n s x x x x x x n=-+-++-.5.最小二乘法回归直线$$y bx a =+$,其中1122211()()ˆ()ˆˆn ni i i i i i n ni ii i x x y y x y nx y b x x x nx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑.6.相关系数()()niix x y y r --=∑,当r 为正时,表明变量x 与y 正相关;当r 为负时,表明变量x 与y 负相关.[1,1]r ∈-,r 的绝对值越大,说明相关性越强;r 的绝对值越小,说明相关性越弱.7.事件一般用大写字母A,B,C,...表示.必然事件:一般地,我们把在条件S下,一定会发生的事件,叫做相对于条件S的必然事件.不可能事件:在条件S下,一定不会发生的事件,叫做相对于条件S的不可能事件.确定事件:必然事件与不可能事件统称为相对于条件S的确定事件.随机事件:在条件S下可能发生也可能不发生的事件,叫做相对于条件S的随机事件.互斥事件:在一次试验中不可能同时发生的两个事件.对立事件:在一次试验中有且仅有一个会发生的两个事件.8.概率概率是一个确定的数,与每次的试验无关,用来度量事件发生的可能性大小.9.古典概型(1)实验中所有可能出现的基本事件只有有限个;(2)每个基本事件出现的可能性相等;(3)()AP A=包含的基本事件的个数基本事件的总数.10.几何概型每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例.()AP A=构成事件的区域长度(面积或体积)试验的全部结果所构成的区域长度(面积或体积).11.回归分析(1)样本点的中心(,)x y一定满足回归方程;(2)点(,)i i x y 的残差$i ii e y y =-$; (3)$22121()1()niii nii y y R y y ==-=--∑∑,2R 越大,则模型的拟合效果越好;2R 越小,则模型的拟合效果越差.12.独立性检验2K 的观测值2()()()()()n ad bc k a b c d a c b d -=++++.1.(2019·全国Ⅰ卷文)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,3,L,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生2.(2019·全国Ⅰ卷文)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++经典常规题(45分钟)3.(2019·全国Ⅱ卷文)生物实验室有5只兔子,其中只有3只测量过某项指标.若从这5只兔子中随机取出3只,则恰有2只测量过该指标的概率为()A.23B.35C.25D.154.(2019·全国Ⅱ卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.(1(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602≈.5.(2019·全国Ⅲ卷文)两位男同学和两位女同学随机排成一列,则两位女同学相邻的概率是()A.16B.14C.13D.126.(2019·全国Ⅲ卷文)为了解甲,乙两种离子在小鼠体内的残留程度,进行如下实验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同,摩尔浓度相同。
2020届高考数学(文)课标版二轮习题:专题四第1讲 统计与统计案例 含解析
第1讲统计与统计案例一、选择题1.(2019湖南师范大学附属中学月考,7)将参加夏令营的400名学生编号为001,002,…,400,采用系统抽样的方法抽取一个容量为40的样本,且随机抽得的第1个号码为003,这400名学生分住在三个营区,从001到180在第一营区,从181到295在第二营区,从296到400在第三营区,则三个营区被抽中的人数分别为()A.18,12,10B.20,12,8C.17,13,10D.18,11,11答案A根据系统抽样的特点,知抽样间隔为400=10,被抽到的号码l=10k+3,k∈Z.40由题意可知,第一营区可分为18个小组,每组抽取1人,共抽取18人,由第二营区的编号为181到295,可知181≤10k+3≤295,k∈Z,可得18≤k≤29,k∈Z,因此第二营区应抽取12人,则第三营区应抽取10人,所以三个营区被抽中的人数分别为18,12,10.2.(2019湖北武汉调研,4)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A结伴步行,B自行乘车,C家人接送,D其他方式,并将收集的数据整理绘制成如下两幅不完整的统计图.根据图中信息,可知本次抽查的学生中A类人数是()A.30B.40C.42D.48答案A根据选择D方式的有18人,占15%,得总人数为18=120,15%故选择A方式的人数为120-42-30-18=30.3.某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A.100 000元B.95 000元C.90 000元D.85 000元答案 D 由已知得,2017年的就医费用为80 000×10%=8 000元,故2018年的就医费用为12 750元,所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D. 4.已知变量x,y 之间的线性回归方程为y ^=-0.7x+10.3,且变量x,y 之间的一组相关数据如下表所示,则下列说法错误..的是( ) x6 8 10 12 y 6 m3 2A.变量x,y 之间呈负相关关系B.可以预测,当x=20时,y ^=-3.7C.m=4D.该回归直线必过点(9,4)答案 C 由-0.7<0,得变量x,y 之间呈负相关关系,故A 正确;当x=20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由题中表格数据可知。
2020版高考数学二轮复习第二部分专题四概率与统计第1讲统计与统计案例练习文含解析
第1讲统计与统计案例A级基础通关一、选择题1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、nn=( 30,那么高三)人中抽取81人进行问卷调查,已知高二被抽取的人数为A.860 B.720 C.1 020 D.1 040 130解析:. 依题意,分层抽样比为=401 2001nn=1 040.),解得81=(1 000+1 200+所以40答案:D2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A.13B.19C.20D.51解析:由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.所以样本中还有一位同学的编号为20号.答案:C3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现xy(单位:万元与捐赠的现金)的对应数据,由此表金,下表记录了第年(2013年是第一年)^yxymx+0.35,则预测关于的线性回归方程2019=中的数据得到了年捐赠的现金大约是( )x 6 354 y4.542.53B.万元A.5 5.2万元D.5.55.25C.万元万元--xy=3.5,4.5,解析:由统计表格,知=mm=0.7,+0.35,则=所以3.54.5^yx0.35, +0.7=因此.^xy=0.7×7+0.35==7时,5.25(万元),当故2019年捐赠的现金大约是5.25万元.答案:Cnn块地块地作试验田.这4.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了xxx,下面给出的指标中可以用来评估这种农作物亩产分别为,…,,的亩产量(单位:kg)n21量稳定程度的是( )xxx的平均数,,…,A.n21xxx的标准差, B.,…,n21xxx的最大值, C.,…,n21xxx的中位数,…,D.,n21解析:刻画评估这种农作物亩产量稳定程度的指标是标准差.答案:B5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:22ss)则频率分布直方图(单位:箱)的方差分别为甲,,记甲种酸奶与乙种酸奶的日销售量(2122ssa)与的值及的大小关系分别是中的( 212222ssasas B.>=0.15A.=0.015,< ,21212222sasass,.C =0.015><D.=0.15,2211aa根据频率分布直方0.015.=,得1=10×0.025)++0.030+0.010+(0.020由解析:22ss.>图,乙中较稳定,则21C 答案:二、填空题我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车)6.(2019·全国卷Ⅱ个车次的正点率为10个车次的正点率为0.98,有中,有10个车次的正点率为0.97,有20 .0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________-0.99+10×+10×0.9720×0.98x0.98.==解析:1020+10+0.98. 则经停该站高铁列车所有车次的平均正点率的估计值为0.98答案:单位:分钟)的茎叶图如图所示:7.在一次马拉松比赛中,35名运动员的成绩(若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.解析:依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.答案:48.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:总计女男分类60 喜爱402050 20不喜爱301105060总计试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:2k PK 0.001 )(0.0500.010≥0 k 10.8283.8416.63502bcadn)-(2Knabcd)+(参考公式:=,其中+=+abcdacbd)+)(+)(+)(+(.2)×20×30-20110×(402kK≈观测值数据,可得=的列解析:根据联表中50×60×60×507.822>6.635,所以在犯错误的概率不超过0.01的前提下(约有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99%三、解答题9.微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别”有关?解:(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).a+0.14+2×0.12)由已知得:2(0.04+=1, (2)a=0.08. 解得由题设条件得列联表总计非微信控分类微信控50 38男性1250 女性2030100总计68322bcnad)(-2K==所以abcdacbd)+(++)()(+)(2)×3012×100(3820-2.941>2.706.≈3268×××5050 的把握认为“微信控”与“性别”有关.90%所以有.单位:天的日用水量数据10.(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50 天的日用3)m(水量数据,得到频数分布表如下:和使用了节水龙头50 天的日用水量频数分布表未使用节水龙头50使用了节水龙头50天的日用水量频数分布表(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:(2)估计该家庭使用节水龙头后,日用水量小于0.35 m天计算,同一组中的365估计3的概率;该家庭使用节水龙头后,一年能节省多少水?(一年按(3) .数据以这组数据所在区间中点的值作代表) (1)所求的频率分布直方图如下:解:×0.35 m根据以上数据,该家庭使用节水龙头后,日用水量小于的频率为0.2(2)30.35 30.1m0.480.0520.12.60.11+×+×+×=,因此该家庭使用节水龙头后,日用水量小于0.48. 的概率的估计值为-1x(0.05×1+0.15×3+(3)该家庭未使用节水龙头50天的日用水量的平均数为=1500.48.0.65×5)=++0.25×2+0.35×40.45×9+0.55×26 该家庭使用了节水龙头后50天的日用水量的平均数为-1x0.35.=0.55×5)10+0.45×16++(0.05×1+0.15×50.25×13+0.35×=2503 365=47.45(m).估计使用节水龙头后,一年可节省水(0.48-0.35)× B级能力提升进行统计得到如下折线)(单位:分11.对某两名高三学生在连续9次数学测试中的成绩图,下面是关于这两位同学的数学成绩分析.①甲同学的成绩折线图具有较好的对称性,故平均成绩为130分;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在区间[110,120]内;③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关;④乙同学连续九次测验成绩每一次均有明显进步.其中正确的结论,有________(填写正确的序号).解析:①甲同学的成绩折线图具有较好的对称性,最高130分,平均成绩低于130分,①错误;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在区间[110,120]内,②正确;③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关,③正确;④乙同学在这连续九次测验中第四次、第七次成绩较上一次成绩有退步,故④不正确.答案:②③12.(2019·天一大联考)某机构为了了解不同年龄的人对一款智能家电的评价,随机选名购买该家电的消费者,让他们根据实际使用体验进行评分.50取了.yx若根据统计数据,用最小二乘法.,对该款智能家电的评分为(1)设消费者的年龄为^2yyxxsyx 的方差为+40,且年龄14.4得到的方差为关于,评分的线性回归方程为1.2==x2ryxs=22.5.求的相关系数与,并据此判断对该款智能家电的评分与年龄的相关性强弱;y,评分划分为按照一定的标准,将50名消费者的年龄划分为“青年”和“中老年”(2)的把握认为对该智能家电的评价,整理得到如下数据,请判断是否有99%“好评”和“差评”与年龄有关.分类差评好评16 青年8^^^^bxaryb=+率:线性回归直线的=关;相系数斜=附.2bcadn)-(2dnabcK.=++=,其中+独立性检验中的dbdcabac)+++(+)()()(临界值表:2k PK 0.001 )≥0.050(0.0100 k 10.8283.8416.6350r=数=(1)相关系:解^2s1250x b0.96. ==·=1.2×152s50y故对该款智能家电的评分与年龄的相关性较强.(2)由2×2列联表得16-20×850×(×62K9.624>6.635.2)≈=22×282624××的把握认为对该智能家电的评价与年龄有关.99%故有.。
2020新高考数学二轮教师用书:专题六第1讲 统计、统计案例
第1讲 统计、统计案例 [考情考向·高考导航]1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小.2.注重知识的交汇渗透,统计与概率,统计案例与概率是近年命题的热点,以解答题中档难度出现.[真题体验]1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( ) A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半详细分析:A [设新农村建设前经济收入为x ,则新农村建设后经济收入为2x ,对于A ,新农村建设前,种植收入为60x 100,新农村建设后,种植收入为37·2x 100=74x100,种植收入增加,故A 不正确;对于B ,新农村建设前其他收入为4x 100,建设后其他收入为10x100,故B 正确;对于C ,新农村建设前,养殖收入为30x 100,建设后养殖收入为60x100,故C 正确;对于D ,新农村建设后,养殖收入与第三产业收入的总和占经济收入的28%+30%=58%,超过了一半,故D 正确.]2.(2019·全国Ⅱ卷)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁一列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为____________.详细分析:平均正点率的估计值为10×0.97+20×0.98+10×0.9940=0.98.答案:0.983.(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)(精确到0.01)附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)记:“旧养殖法的箱产量低于50 kg”为事件B,“新养殖法的箱产量不低于50 kg”为事件C而P(B)=0.040×5+0.034×5+0.024×5+0.014×5+0.012×5=0.62,P(C)=0.068×5+0.046×5+0.010×5+0.008×5=0.66,P (A )=P (B )P (C )=0.409 2 (2)由计算可得K 2K 2=200×(62×66-38×34)2100×100×96×104=15.705,∵15.705>6.635, ∴P (K 2≥6.635)≈0.001∴有99%以上的把握认为箱产量与养殖方法有关.(3)设中位数为x ,则0.004×5+0.020×5+0.044×5+0.068(x -50)=0.5,∴x =52.35.[主干整合]1.二种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少 分层抽样:按比例抽样 2.必记公式数据x 1,x 2,…,x n 的数字特征公式 (1)平均数:x =x 1+x 2+…+x nn.(2)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].(3)标准差:s =1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 3.重要性质及结论(1)频率分布直方图的三个结论 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1; ③小长方形的高=频率组距.(2)回归直线方程:一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).其回归方程y ^=b ^x +a ^,其过样本点中心(x ,y ).(3)独立性检验K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 抽样方法1.(2019·福州市一模)为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A .抽签法B .随机数表法C .按性别分层抽样D .按年龄段分层抽样详细分析:D [根据该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,男女“微信健步走”活动情况差异不大;最合理的抽样方法是按年龄段分层抽样.故选D.]2.(2019·日照一模)《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其意为:“今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱”,则乙应出(所得结果四舍五入,保留整数)钱数为( )A .17B .28C .30D .32详细分析:D[根据分层抽样原理,抽样比例为 100560+350+180=10109,所以乙应交关税为350×10109≈32(钱).故选D.]3.(2019·成都三模)如图是调查某学校高三年级男女学生是否喜欢篮球运动的等高条形图,阴影部分的高表示喜欢该项运动的频率.已知该年级男生女生各500名(假设所有学生都参加了调查),现从所有喜欢篮球运动的同学中按分层抽样的方式抽取32人,则抽取的男生人数为________.详细分析:由已知得,喜欢篮球运动的女生有500×0.2=100人,喜欢篮球运动的男生有500×0.6=300人,共有400人喜欢篮球运动.按分层抽样的方式抽取32人,抽样比为32=0.08,400则抽取的男生人数为300×0.08=24人.答案:24抽样方法主要有简单随机抽样、分层抽样二种,这二种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体个体数的比值.热点二用样本估计总体数字特征与茎叶图的应用[例1-1](2020·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选1人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中根据茎叶图能得到的统计结论的编号为( ) A .①②③ B .②③④ C .①②④D .①③④[详细分析] C [由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确. 男生平均每天锻炼时间超过65分钟的概率P 1=510=12,女生平均每天锻炼时间超过65分钟的概率P 2=410=25,P 1>P 2,因此④正确.设男生、女生两组数据的平均数分别为x 甲,x 乙,标准差分别为s 甲,s 乙.易求x甲=65.2,x 乙=61.8,知x 甲>x 乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散, ∴s 甲<s 乙,③错误.因此符合茎叶图所给数据的结论是①②④.]用样本的频率分布估计总体分布[例1-2] (2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[审题指导] (1)由所给的频数分布表确定出相应的频数,再代入频率公式,即可求得相应频率,并以此估计总体.(2)根据平均数,方差的计算公式及题设要求计算即可.[详细分析] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7] =0.029 6,s =0.029 6=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1.两类数字特征的意义(1)平均数、中位数、众数描述数据的集中趋势;(2)方差和标准差描述数据的波动大小.方差、标准差越大,数据的离散程度越大,越不稳定.2.与频率分布直方图有关的问题(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)众数为频率分布直方图中最高矩形的底边中点的横坐标.(3)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (4)平均数等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标乘积的和.(北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.=20.所以总体中分数在区间[40,50)内的人数估计为400×5100(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,=30,所以样本中分数不小于70的男生人数为60×12所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.热点三回归分析与独立性检验回归分析及应用[例2-1](2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[审题指导] 根据给出的两个模型(回归直线方程)求2018年的环境基础设施投资额的预测值,再根据题中给出的折线图进行对照说明.[详细分析] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5 t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.求回归直线方程的关键及实际应用(1)关键:正确理解计算b ^,a ^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.独立性检验及应用[例2-2] (2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[审题指导] (1)根据2×2列联表确定相应的频率,即为所求的概率. (2)根据2×2列联表计算出K 2的值,并与临界值比较进行判断. [详细分析] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6(2)K 2的观测值k =100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.独立性检验的关键(1)根据2×2列联表准确计算K2的观测值k,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.(1)(2020·广东湛江模拟)某产品的广告费用x(万元)与销售额y(万元)的统计数据如表:根据上表可得线性回归方程y=9.4x+a,据此模型预测,广告费用为6万元时的销售额为()A.65.5万元B.66.6万元C.67.7万元D.72万元详细分析:A[x=2+3+4+54=3.5,y=26+39+49+544=42,代入线性回归方程,得42=9.4×3.5+a^,解得a^=9.1,所以线性回归方程为y^=9.4x+9.1,当x=6时,y=65.5,故选A.](2)(2019·东营三模)某同学利用课余时间做了一次社交软件使用习惯调查,得到2×2列联表如下:附表:A.在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B.在犯错的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C .在犯错的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D .在犯错的概率超过0.001的前提下认为社交软件使用习惯与年龄有关详细分析:A [K 2=30×(4×2-16×8)220×10×12×18=10,由于7.879<10<10.828,可以认为在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关,故选A.]限时45分钟 满分74分一、选择题(本大题共7小题,每小题5分,共35分)1.(2020·福州模拟)某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表:其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取出1人,此人的年龄为50岁以上的概率为539,则xy的值为( ) A.32 B .4 C.83D .8详细分析:D [由题意得10N =539,解得N =78.∴35~50岁中被抽取的人数为78-48-10=20. ∴4880+x =2050=1020+y ,解得x =40,y =5.∴xy=8.] 2.(2019·全国Ⅱ卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A .中位数B .平均数C .方差D .极差详细分析:A[去掉1个最高分,1个最低分,不变的数字特征为中位数.]3.(2020·吉林省长春市高三监测)如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是()A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门详细分析:D[由题图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由题图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由题图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由题图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误.选D.]4.(2020·广州调研)将某校100名学生的数学测试成绩(单位:分)按照[90,100),[100,110),[110,120),[120,130),[130,140),[140,150]分成6组,制成的频率分布直方图如图所示,若分数不低于a为优秀,如果优秀的人数为25,则a的值是()A.130 B.140C.133 D.137详细分析:A[由题意可知,成绩在[90,100)内的频率为0.005×10=0.05,频数为5,成绩在[100,110)内的频率为0.018×10=0.18,频数为18,成绩在[110,120)内的频率为0.030×10=0.3,频数为30,成绩在[120,130)内的频率为0.022×10=0.22,频数为22,成绩在[130,140)内的频率为0.015×10=0.15,频数为15,成绩在[140,150]内的频率为0.010×10=0.1,频数为10,而优秀的人数为25,成绩在[140,150]内的有10人,成绩在[130,140)内的有15人,所以成绩在[130,150]内的共25人,所以分数不低于130为优秀,故a =130,选A.]5.(2020·重庆六校联考)某老师任教高三A 班、高三B 班两个班,两个班各有50个学生,如图反映的是两个班在某学期5次数学测试中的班级平均分,根据图表,下列结论不正确的是( )A .A 班的数学成绩平均水平高于B 班 B .B 班的数学成绩没有A 班稳定C .下次考试B 班的数学成绩平均分要高于A 班D .在第1次考试中,A ,B 两个班的总平均分为98分详细分析:C [A 班的数学成绩平均值为101+98+101+100+1055=101(分),B 班的数学成绩平均值为95+100+96+105+1005=99.2(分),即A 正确;A 班平均成绩的方差为15×(0+9+0+1+16)=5.2,B 班平均成绩的方差为15×(4.22+0.64+3.22+5.82+0.64)=12.56,即B 正确;在第1次考试中,A ,B 两个班的总平均分为101+952=98(分),即D 正确;无法根据图表知道下次考试成绩的情况,C 不正确,故选C.]6.(2020·苏州模拟)气象意义上从春季进入夏季的标志为:“连续5天的日平均温度均不低于22℃”.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数):①甲地:5个数据的中位数为24,众数为22; ②乙地:5个数据的中位数为27,总体均值为24;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8.则肯定进入夏季的地区有()A.①②③B.①③C.②③D.①详细分析:B[①甲地:5个数据的中位数为24,众数为22,可知5个数据均不低于22,①符合题意;②乙地:5个数据的中位数为27,总体均值为24,当中有可能某一天的气温低于22℃,故不符合题意;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8,若有某一天的气温低于22℃,则总体方差就大于10.8,故满足题意.则肯定进入夏季的地区有甲地、丙地.故选B.]7.(2019·宁波三模)第十八届亚运会在印尼·雅加达举办,在篮球比赛中,某参赛队中甲、乙两名篮球运动员在13场比赛中的得分情况用茎叶图表示如下:根据上图,对这两名运动员的成绩进行比较,下列四个结论中不正确的是()A.甲运动员得分的极差大于乙运动员得分的极差B.甲运动员得分的中位数大于乙运动员得分的中位数C.甲运动员得分的平均值大于乙运动员得分的平均值D.甲运动员的成绩比乙运动员的成绩稳定详细分析:D[根据茎叶图可知,甲运动员的得分为19,18,18,26,21,20,35,33,32,30,47,41,40;乙运动员的得分为17,17,19,19,22,25,26,27,29,29,30,32,33,对于A,由图中的数据可得甲运动员得分的极差为47-18=29,乙运动员得分的极差为33-17=16,故甲运动员得分的极差大于乙运动员得分的极差,因此A正确;对于B,甲运动员得分的数据从小到大排列:18,18,19,20,21,26,30,32,33,35,40,41,47,位于中间的数是30,所以甲运动员得分的中位数是30分,同理得乙运动员得分的中位数是26分,因此甲运动员得分的中位数大于乙运动员得分的中位数,故B正确;对于C,不难得出甲运动员得分的平均值约为29.2分,乙运动员得分的平均值为25.0分,因此甲运动员得分的平均值大于乙运动员得分的平均值,故C正确;对于D,甲的方差s2甲≈113×[(19-29.5)2+(18-29.2)2+…+(40-29.9)2]≈88.18,同理,得乙的方差s2乙≈29.54,乙的方差小于甲的方差,所以乙运动员的成绩比甲运动员的成绩稳定,故D不正确,故选D.]二、填空题(本大题共3小题,每小题5分,共15分)8.《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问:各几何?”其意为:今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱,则丙应出________钱(所得结果四舍五入,保留整数).详细分析:甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,丙应出100×180560+350+180=1656109≈17(钱).答案:179.(2019·青岛三模)某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘制成频率分布直方图,如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.详细分析:由题图知,(0.04+0.12+x +0.14+0.05)×2=1,解得x =0.15,所以学习时间在6至10小时之间的频率是(0.15+0.14)×2=0.58,所求人数为100×0.58=58. 答案:5810.(双空填空题)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.详细分析:(1)由图分析,乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中,语文成绩名次比其总成绩名次靠前的是乙.(2)根据丙在这两个图中对应的点的横坐标相同,找出丙在第一个图中对应的点.观察易得,丙同学成绩名次更靠前的科目是数学.答案:(1)乙 (2)数学三、解答题(本大题共2小题,每小题12分,共24分)11.(2020·陕西质检)2018年12月,针对国内天然气供应紧张的问题,某市政府及时安排部署,加气站采取了紧急限气措施,全市居民打响了节约能源的攻坚战.某研究人员为了了解天然气的需求状况,对该地区某些年份天然气需求量进行了统计,并绘制了相应的折线图.(1)由折线图可以看出,可用线性回归模型拟合年度天然气需求量y (单位:千万立方米)与年份x (单位:年)之间的关系.并且已知y 关于x 的线性回归方程是y ^=6.5x +a ^,试确定a ^的值,并预测2018年该地区的天然气需求量.(2)政府部门为节约能源出台了《购置新能源汽车补贴方案》,该方案对新能源汽车的续航里程做出了严格规定,根据续航里程的不同,将补贴金额划分为三类,A 类:每车补贴1万元,B 类:每车补贴2.5万元,C 类:每车补贴3.4万元.某出租车公司对该公司60辆新能源汽车的补贴情况进行了统计,结果如下表:汽车的补贴情况,在该出租车公司的60辆车中抽取6辆车作为样本,再从6辆车中抽取2辆车进一步跟踪调查,求恰好有1辆车享受3.4万元补贴的概率.详细分析:(1)由折线图数据可知x =2008+2010+2012+2014+20165=2012,y=236+246+257+276+2865=260.2代入线性回归方程y^=6.5x+a^可得a^=-12817.8.将x=2018代入方程可得y^=299.2千万立方米.(2)根据分层抽样可知A类,B类,C类抽取辆数分别为1辆,2辆,3辆分别编号为A,B1,B2,C1,C2,C3.基本事件有(A,B1)(A,B2)(A,C1)(A,C2)(A,C3)(B1,B2),(B1,C1)(B1,C2)(B1,C3)(B2,C1)(B2,C2)(B2,C3)(C1,C2)(C1,C3)(C2,C3)共15种,设“恰好有1辆车享受3.4万元补贴”为事件D,则P(D)=35.12.(2019·全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A、B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同,摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).详细分析:本题考查频率分布直方图和平均数,属于基础题.(1)由题得a+0.20+0.15=0.70,解得a=0.35,由0.05+b+0.15=1-P(C)=1-0.70,解得b=0.10.(2)由甲离子的直方图可得,甲离子残留百分比的平均值为0.15×2+0.20×3+0.30×4+0.20×5+0.10×6+0.05×7=4.05,乙离子残留百分比的平均值为0.05×3+0.10×4+0.15×5+0.35×6+0.20×7+0.15×8=6.00答案:(1)a=0.35,b=0.10;(2)4.05,6.00。
2020年高考数学二轮复习:14 统计与统计案例
2020年高考数学二轮复习:14 统计与统计案例一、单选题(共12题;共24分)1.某学校运动会的立定跳远和30秒跳绳两个单项比赛分成预赛和决赛两个阶段.下表为10名学生的预赛成绩,其中有三个数据模糊.在这10名学生中,进入立定跳远决赛的有8人,同时进入立定跳远决赛和30秒跳绳决赛的有6人,则()A. 2号学生进入30秒跳绳决赛B. 5号学生进入30秒跳绳决赛C. 8号学生进入30秒跳绳决赛D. 9号学生进入30秒跳绳决赛【答案】B【考点】随机抽样和样本估计总体的实际应用2.某企业一种商品的产量与单位成本数据如表:现根据表中所提供的数据,求得y关于x的线性回归方程为ŷ=2x−1,则a值等于( )A. 4.5B. 5C. 5.5D. 6【答案】B【考点】线性回归方程3.某公司决定利用随机数表对今年新招聘的800名员工进行抽样调查他们对目前工作的满意程度,先将这800名员工进行编号,编号分别为001,002,…,799,800,从中抽取80名进行调查,下图提供随机数表的第4行到第6行32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 43 77 89 23 45若从表中第5行第6列开始向右依次读取3个数据,则抽到的第5名员工的编号是()A. 007B. 253C. 328D. 736【答案】A【考点】简单随机抽样4.国庆70周年庆典磅礴而又欢快的场景,仍历历在目.已知庆典中某省的游行花车需要用到某类花卉,而该类花卉有甲、乙两个品种,花车的设计团队对这两个品种进行了检测.现从两个品种中各抽测了10株的高度,得到如下茎叶图.下列描述正确的是()A. 甲品种的平均高度大于乙品种的平均高度,且甲品种比乙品种长的整齐B. 甲品种的平均高度大于乙品种的平均高度,但乙品种比甲品种长的整齐C. 乙品种的平均高度大于甲品种的平均高度,且乙品种比甲品种长的整齐D. 乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐【答案】 D【考点】茎叶图,众数、中位数、平均数,极差、方差与标准差5.用系统抽样法从130件产品中抽取容量为10的样本,将130件产品从1~130编号,按编号顺序平均分成10组(1~13号,14~26号,…,118~130号),若第9组抽出的号码是114,则第3组抽出的号码是()A. 36B. 37C. 38D. 39【答案】A【考点】系统抽样方法6.小张刚参加工作时月工资为5000元,各种用途占比统计如下面的条形图.后来他加强了体育锻炼,目前月工资的各种用途占比统计如下面的拆线图.已知目前的月就医费比刚参加工作时少200元,则目前小张的月工资为()A. 5500B. 6000C. 6500D. 7000【答案】A【考点】频率分布折线图、密度曲线7.近几年,我国农村电子商务发展迅速,使得农副产品能够有效地减少流通环节,降低流通成本,直接提高了农民的收益.某农村电商对一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A. 46.5,48,60B. 47,48,60C. 46.5,48,55D. 46.5,51,60【答案】A【考点】茎叶图,众数、中位数、平均数,极差、方差与标准差8.2010-2018年之间,受益于基础设施建设对光纤产品的需求,以及个人计算机及智能手机的下一代规格升级,电动汽车及物联网等新机遇,连接器行业增长呈现加速状态.根据该折线图,下列结论正确的个数为()①每年市场规模量逐年增加;②增长最快的一年为2013~2014;③这8年的增长率约为40%;④2014年至2018年每年的市场规模相对于2010年至2014年每年的市场规模,数据方差更小,变化比较平稳A. 1 B. 2 C. 3 D. 4【答案】C【考点】极差、方差与标准差,随机抽样和样本估计总体的实际应用9.中学生在家务劳动中能更密切地与家人接触交流,也可缓解压力、休息大脑.经调查,某校学生有70%的学生认为自己参与家务劳动能使家庭关系更融洽,30%的学生认为自己是否参与家务劳动对家庭关系无影响.现为了调查学生参加家务劳动时长情况,决定在两类同学中利用分层抽样的方法抽取100名同学参与调查,那么需要抽取认为自己参与家务劳动能使家庭关系更融洽的同学的个数是()A. 30B. 70C. 80D. 100【答案】B【考点】分层抽样方法10.如图是国家统计局今年4月11日发布的2018年3月到2019年3月全国居民消费价格的涨跌幅情况折线图.(注:2019年2月与2018年2月相比较称同比,2019年2月与2019年1月相比较称环比),根据该折线图,下列结论错误的是()A. 2018年3月至2019年3月全国居民消费价格同比均上涨B. 2018年3月至2019年3月全国居民消费价格环比有涨有跌C. 2019年3月全国居民消费价格同比涨幅最大D. 2019年3月全国居民消费价格环比变化最快 【答案】 C【考点】频率分布折线图、密度曲线11.一个袋子中有红、黄、蓝、绿四个小球,有放回地从中任取一个小球,将“三次抽取后,红色小球,黄色小球都取到”记为事件M ,用随机模拟的方法估计事件M 发生的概率.利用电脑随机产生整数0,1,2,3四个随机数,分别代表红、黄、蓝、绿四个小球,以每三个随机数为一组,表示取小球三次的结果,经随机模拟产生了以下18组随机数:由此可以估计事件M 发生的概率为( )A. 29 B. 13 C. 518D. 23【答案】 B【考点】频率分布折线图、密度曲线12.一个频率分布表(样本容量为 50 )不小心被损坏了一部分,只记得样本中数据在 [20,60) 上的频率为 0.6 ,则估计样本在 [40,60) 内的数据个数为( )A. 10B. 13C. 14D. 15 【答案】 D【考点】频率分布表二、填空题(共5题;共5分)13.如图所示的茎叶图记录了甲乙两位射箭运动员的5次比赛成绩(单位:环),若两位运动员平均成绩相同,则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.【答案】2【考点】茎叶图,极差、方差与标准差14.一个总体容量为60,其中的个体编号为00,01,02,…,59.现需从中抽取一个容量为7的样本,请从随机数表的倒数第5行(下表为随机数表的最后5行)第11~12列的18开始,依次向下,到最后一行后向右,直到取足样本,则抽取样本的号码是________.95 33 95 22 00 18 74 72 00 18 46 40 62 98 80 54 97 20 56 9538 79 58 69 32 81 76 80 26 92 15 74 80 08 32 16 46 70 50 8082 80 84 25 39 90 84 60 79 80 67 72 16 42 79 71 59 73 05 5024 36 59 87 38 82 07 53 89 35 08 22 23 71 77 91 01 93 20 4996 35 23 79 18 05 98 90 07 35 82 96 59 26 94 66 39 67 98 60【答案】18,05,07,35,59,26,39.【考点】简单随机抽样15.某地甲乙丙三所学校举行高三联考,三所学校参加联考的人数分别为200、300、400。
2020版高考数学大二轮文科通用版 教师课件:专题五 第1讲 统计与统计案例
2.(2019江苏,5)已知一组数据6,7,8,8,9,10,则该组数据的方差
是
.
解析:由题知,该组数据平均值为6+7+8+8+9+10=8,所以该数据方差为
6
16[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=53.
答案:53
3.(2019全国Ⅰ,文17)某商场为提高服务质量,随机调查了50名男顾
s2=1010
5
∑ ni(yi-y)2
������=1
= 1 [(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6,
100
s= 0.029 6=0.02× 74≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为
30%,17%.
81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85 06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49
A.12 B.33 C.06 D.16
度.
(5)方差:
s2=���1���[(x1-������)2+(x2-������)2+…+(xn-������)2],反映了样本数据的离散程度.
三、统计案例
1.线性回归方程
方程���^��� = b^ x+���^���称为线性回归方程,其中
������
2020届高考数学(文)课标版二轮课件:专题四第1讲 统计与统计案例
n 235
2.(2019福建漳州第二次教学质量监测)某工厂利用随机数表对生产的600个 零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600, 从中抽取60个个体,如下提供随机数表的第4行到第6行: 3221 1834 2978 6454 0732 5242 0644 3812 2343 5677 3578 9056 42(第4行) 8442 1253 3134 5786 0736 2530 0732 8623 4578 8907 2368 9608 04(第5行) 3256 7808 4367 8953 5577 3489 9483 7522 5355 7832 4577 8923 45(第6行) 若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个个体编号为
础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的 附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势, 利用2010年至2016年的数据建立的线性模型 yˆ =99+17.5t可以较好地描述201 0年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值 更可靠. (ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得 到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比 较合理,说明利用模型②得到的预测值更可靠. 以上给出了2种理由,答出其中任意一种或其他合理理由均可.
答案 A 由题图得,网易与搜狗的访问量所占比例分别为15%和3%,总和为 18%,不超过21%,满足题意.故选A.
2.(2018江西新余二模,18)“一带一路”是“丝绸之路经济带”和“21世纪 海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不 同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90 分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[2 0,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45),得到如图 所示的频率分布直方图,已知第一组有6人.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)该家庭未使用节水龙头50天日用水量的平均数为
x
1=
1 50
×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)
=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为 x 2=510×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35. 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6)
频数
1
5
13
10
16
5
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,向一 组中的数据以这组数据所在区间中点的值作代表)
甲离子残留百分比直方图
பைடு நூலகம்
乙离子残留百分比直方图
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C) 的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值; (2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点 值为代表).
解:(1)由已知得0.70=a+0.20+0.15,故a=0.35. b=1-0.05-0.15-0.70=0.10. (2)甲离子残留百分比的平均值的估计值为 2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为 3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.
=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, ∴s= 0.029 6=0.02× 74≈0.17. ∴这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
析考情
1.统计与统计案例部分,其中抽样方法考查较少,且考查时题目较简单;回归 分析与独立性检验在客观题中单独考查较少;随机抽样、用样本估计总体以及变量 的相关性是命题热点,难度较低.
5.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调
查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数
分布表.
y的分组 [-0.20,0)
[0,0.20)
[0.20,0.40) [0.40,0.60) [0.60,0.80)
企业数
2
24
53
14
7
设 x 表示理财产品最满意度的百分比,y 为该理财产品的总销售量(单位:万元).这 些数据的散点图如图所示.
(1)在5份A款型理财产品的客户满意度调查资料中只有一份是最满意的,从这5 份资料中任取2份,求含有最满意客户资料的概率;
(2)我们约定:相关系数的绝对值在0.3以下是无线性相关,在0.3以上(含0.3)至 0.75是一般线性相关,在0.75以上(含0.75)是较强线性相关,y与x是否达到较强线性相 关?若达到,请求出线性回归方程;若没有达到较强线性相关,则采取“末位”剔 除制度(即总销售量最少的那一款型产品退出理财销售),请求出在剔除“末位”款型 后的线性回归方程(系数精确到0.1).
[思路点拨] 第(1)问 求什么想
作频率分布直方图,想到频率分布直方图的画法. 什么 给什么用 给出了频数分布表,计算各组的频率,结合每组的组距,计算频率与组 什么 距的比值.
第(2)问 求什么想什么 求概率,想到利用频率来估计概率. 给什么用什么 给出了数据,计算对应的频率,然后利用频率估计概率. 第(3)问 求什么想什么 求一年来节省多少水,想到一天能省多少水. 给什么用什么 给出50天的日用水量数据,可计算日用水量的平均数.
3.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收 集并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)的数据,绘制 了下面的折线图:
根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平 稳
[题后悟道] 从频率分布直方图中得出有关数据的方法
频率
频率
频率
频率分布直方图中横轴表示组数,纵轴表示组距,频率=组距×组距
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就 频率比
是频率比
众数 最高小长方形底边中点的横坐标
中位数 平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业
比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区
间的中点值为代表).(精确到0.01)
附: 74≈8.602.
解:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于 40%的企业频率为141+ 007=0.21.
A.各月的平均最低气温都在0 ℃以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于20 ℃的月份有5个
解析:选D 根据雷达图可知,全年最低气温都在0 ℃以上,A正确;一月平均 最高气温6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低 气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月 的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均 最高气温高于20 ℃的有七月和八月,D不正确.
解析:选A 设建设前经济收入为a,则建设后经济收入为2a,A项,种植收入 37%×2a-60%a=14%a>0,故建设后,种植收入增加,故错误;B项,建设后,其 他收入为5%×2a=10%a,建设前,其他收入为4%a,故10%÷4%a=2.5>2,故正 确;C项,建设后,养殖收入为30%×2a=60%a,建设前,养殖收入为30%a,故 60%a÷30%a=2,故正确;D项,建设后,养殖收入与第三产业收入总和为(30%+ 28%)×2a=58%×2a,经济收入为2a,故(58%×2a)÷2a=58%>50%,故正确.
位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) [0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍, 实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设 前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( ) A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
x 乙=15×(77+77+78+86+92)=82,所以 x 甲> x 乙.
因为s2甲=15×[(-12)2+(-4)2+22+52+92]=54,
s
2
乙
=
1 5
×[(-5)2+(-5)2+(-4)2+42+102]=36.4,所以s
2
甲
>s
2
乙
,故乙比甲稳
定.故选A.
3.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试 验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段 时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得 到如下直方图:
2.甲、乙两名学生在5次数学考试中的成绩统计如茎叶图所示,若 x 甲、 x 乙分别 表示甲、乙两人的平均成绩,则下列结论正确的是( )
A. x 甲> x 乙,乙比甲稳定 B. x 甲> x 乙,甲比乙稳定 C. x 甲< x 乙,乙比甲稳定 D. x 甲< x 乙,甲比乙稳定
解析:选A 因为 x 甲=15×(74+82+88+91+95)=86,
产值负增长的企业频率为1200=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为 21%,产值负增长的企业比例为2%.
(2) y =1010×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
∵s2=1100i=51ni(yi- y )2
数据参考计算值:
附:线性相关系数r=
n
xiyi-n x y
i=1
,回归直线方程 ^y = a^ + b^ x的
n
xi2-n x 2
n
yi2-n y 2
i=1
i=1
n
xiyi-n x y
斜率和截距的最小二乘法估计分别为b^=i=1
,a^= y -b^ x .
n
x2i -n x 2
i=1
考点二 回归分析
|析典例|
【例】 某部门经统计,客户对不同款型理财产品的最满意度百分比和对应的
理财总销售量(单位:万元)如下表(最满意度百分比越高时总销售量越高):