数学(理)二轮能力训练:专题六第二讲 统计与统计案例
高考数学二轮复习专题突破—统计与统计案例(含解析)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
2018届高考理科数学二轮专题复习讲义。统计与统计案例
2018届高考理科数学二轮专题复习讲义。
统计与统计案例本文介绍了统计与统计案例中的一些考点和热点分类,以及一些跟踪演练题目的解析。
在考试中,会以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等。
同时,在概率与统计的交汇处命题,难度适中。
抽样方法有三种:简单随机抽样、系统抽样和分层抽样。
简单随机抽样适用于总体中个体数较少的情况,而系统抽样适用于个体数较多的情况。
分层抽样适用于总体由差异明显的几部分组成的情况。
对于一些具体的题目,我们可以根据题意和抽样比例计算出样本中产品的最小编号或者应该抽取的学生人数。
在随机抽样的各种方法中,每个个体被抽到的概率都是相等的。
系统抽样又称为“等距”抽样,被抽到的各个号码间隔相同。
分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例。
最后,我们来看一道跟踪演练题目。
题目要求从福利彩票“双色球”中选取红色球的6个号码,选取方法是从第1行、第9列和第10列的数字开始从左到右依次选取两个数字。
根据题意和随机数表,我们可以计算出第四个被选中的红色球号码为06.解析:1) 样本编号题目,根据系统抽样的方法,计算出样本组距为9,然后根据已知编号推算出样本中还有一个学生的编号为14,故选B。
2) 该部分内容排版混乱,需要重新排版。
频率分布直方图中,横坐标表示组距,纵坐标表示频率,频率等于组距乘以组距。
各小长方形的面积之和为1.在频率分布直方图中,最高的小长方形底边中点的横坐标即为众数。
中位数左边和右边的小长方形的面积和相等。
平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和。
3) 根据题目可以列出方程,设未知数为x,平均数为a,中位数为b,众数为c,则有:(10+2+5+2+4+2+x)/7=a,中位数为2或5,众数为2,根据众数的定义可得c=2,因此有:b-a=c-b,代入已知数据可得b=3a-4,根据平均数的定义可得:(10+2+5+2+4+2+x)/7=a,解出a=5,代入b=3a-4可得b=11,因此中位数为11,根据中位数的定义可得:(10+2+5+2+4+2+x)/7=11,解出x=3,所以所有可能值之和为25+3=28,因此答案为B。
数学二轮复习专题限时集训2统计与统计案例随机事件的概率古典概型几何概型含解析文
专题限时集训(二) 统计与统计案例随机事件的概率、古典概型、几何概型1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数B[评估这种农作物亩产量稳定程度的指标是标准差或方差,故选B.]2.(2019·全国卷Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0。
5 B.0。
6 C.0.7 D.0。
8C[由题意得,阅读过《西游记》的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7.故选C.]3.(2018·全国卷Ⅲ)若某群体中的成员只用现金支付的概率为0.45,既用现金支付也用非现金支付的概率为0.15,则不用现金支付的概率为()A.0.3 B.0。
4 C.0.6 D.0.7B[设“只用现金支付”为事件A,“既用现金支付也用非现金支付”为事件B,“不用现金支付”为事件C,则P(C)=1-P(A)-P(B)=1-0.45-0。
15=0。
4。
故选B.]4.(2016·全国卷Ⅱ)某路口人行横道的信号灯为红灯和绿灯交替出现,红灯持续时间为40秒.若一名行人来到该路口遇到红灯,则至少需要等待15秒才出现绿灯的概率为() A.错误!B.错误!C.错误!D.错误!B[如图,若该行人在时间段AB的某一时刻来到该路口,则该行人至少等待15秒才出现绿灯.AB长度为40-15=25,由几何概型的概率公式知,至少需要等待15秒才出现绿灯的概率为错误!=错误!,故选B.]5.(2020·全国卷Ⅲ)设一组样本数据x1,x2,…,x n的方差为0。
2020版高考数学二轮复习专题限时集训6统计与统计案例理 (2)
专题限时集训(六) 统计与统计案例[专题通关练] (建议用时:20分钟)1.下列说法中正确的是( )A .先把高三年级的2 000名学生编号:1到2 000.再从编号为1到50的50名学生中随机抽取1名学生.其编号为m .然后抽取编号为m +50.m +100.m +150.…的学生.这样的抽样方法是分层抽样法B .线性回归直线y ^=b ^x +a ^不一定过样本中心点(x .y )C .若两个随机变量的线性相关性越强.则相关系数r 的值越接近于1D .若一组数据1.a,3的平均数是2.则该组数据的方差是23D [对于A .先把高三年级的2 000名学生编号:1到2 000.再从编号为1到50的50名学生中随机抽取1名学生.其编号为m .然后抽取编号为m +50.m +100.m +150.…的学生.这样的抽样方法是系统抽样.故A 项错误;对于 B.线性回归直线y ^=b ^x +a ^一定过样本中心点(x .y ).故B 项错误;对于C.若两个随机变量的线性相关性越强.则相关系数r 的绝对值越接近于1.故C 项错误;对于D.若一组数据1.a,3的平均数是2.则a =2.则该组数据的方差是13×[]1-22+2-22+3-22=23.故D 项正确.故选D.]2.[重视题](20xx·青岛一模)调查机构对某高科技行业进行调查统计.得到该行业从业者学历分布饼状图、从事该行业岗位分布条形图.如图所示.给出下列三种说法:①该高科技行业从业人员中学历为博士的占一半以上;②该高科技(1)试估计该市市民的平均购房面积m ;(2)从该市20xx 年1月至20xx 年1月期间所有购买二手房的市民中任取3人.用频率估计概率.记这3人购房面积不低于100平方米的人数为X .求X 的分布列与数学期望;(3)根据散点图选择y ^=a ^+b ^x 和y ^=c ^+d ^ln x 两个模型进行拟合.经过数据处理得到两个回归方程.分别为y ^=0.936 9+0.028 5x 和y ^=0.955 4+0.030 6ln x .并得到一些统计量的值.如表所示:y ^=0.936 9 +0.028 5x y ^=0.955 4+ 0.030 6ln x ∑13i =1(y i -y ^i )2 0.000 5910.000 164∑13i =1(y i -y )2 0.006 050请利用相关指数R 2判断哪个模型的拟合效果更好.并用拟合效果更好的模型预测2020年6月份的二手房购房均价(精确到0.001).参考数据:ln 2≈0.69.ln 3≈1.10.ln 10≈2.30.ln 19≈2.94.2≈1.41.3≈1.73.10≈3.16.19≈4.36.参考公式:R 2=1-∑n i =1 yi -y ^i 2∑ni =1yi -y 2. [解](1)m =65×0.05+75×0.1+85×0.2+95×0.25+105×0.2+115×0.15+125×0.05=96.的特点【押题】高铁、网购、移动支付和共享单车被誉为中国的“新四大发明”.彰显出中国式创新的强劲活力.某移动支付公司从我市移动支付用户中随机抽取100名进行调查.得到如下数据:每周移动支付次数123456及其以上男10873215女5464630合计1512137845(1)把每周使用移动支付超过3次的用户称为“移动支付活跃用户”.请完成下列2×2列联表.并判断能否在犯错误的概率不超过0.005的前提下.认为是否为“移动支付活跃用户”与性别有关?非移动支付活跃用户移动支付活跃用户合计男女合计(2)把每周使用移动支付6次及6次以上的用户称为“移动支付达人”.视频率为概率.在我市所有“移动支付达人”中随机抽取4名用户.①求抽取的4名用户中.既有男“移动支付达人”.又有女“移动支付达人”的概率;②为了鼓励男性用户使用移动支付.对抽出的男“移动支付达人”每人奖励300元.记奖励总金额为X.求X的分布列及数学期望.附公式及表如下:K2=n ad-bc2a+b c+d a+c b+d.P(K2≥k)0.150.100.050.0250.0100.0050.001 k 2.072 2.706 3.841 5.024 6.6357.87910.828 [解](1)由表格数据可得2×2列联表如下:非移动支付活跃用户移动支付活跃用户合计男252045女154055合计4060100将列联表中的数据代入公式计算得K2=n ad-bc2a+b c+d a+c b+d=100×25×40-15×20240×60×55×45=2 450297≈8.249>7.879.所以在犯错误的概率不超过0.005的前提下.能认为是否为“移动支付活跃用户”与性。
二轮复习--统计与统计案例
教学过程一、课堂导入高考考情分析1.以客观题形式考查抽样方法,样本的数字特征和回归分析,独立性检验的基本思路、方法及相关计算与推断.2.本部分较少命制大题,若在大题中考查多在概率与统计、算法框图等知识交汇处命题,重点考查抽样方法,频率分布直方图和回归分析或独立性检验,注意加强抽样后绘制频率分布直方图,然后作统计分析或求概率的综合练习.二、复习预习复习整合知识点:抽样方法;统计图表;样本的数字特征;变量间的相关关系;回归分析;独立检验三、知识讲解考点1四、例题精析考点一抽样方法例1某高校共有450名学生参加环保知识测试,其中男生250名,女生200名,已知所有学生的成绩均大于60且小于等于100,现按性别用分层抽样的方法从中抽取45名学生的成绩,从男生和女生中抽查的结果分别如表1和表2:表1(1)求m,n的值,(2)记表2中分组在(60,70]中的2名女生为A、B,(90,100]中的4名女生为C、D、E、F,现从表2中(60,70]的女生中抽取1人,从(90,100]的女生中抽取2人做专题发言,求(60,70]中的女生A和(90,100]中的女生C同时被抽到的概率是多少?【规范解答】(1)由抽样方法知抽取的男生人数为:45×250450=25人,抽取的女生人数为:45×200450=20.所以m=25-(3+8+6)=8,n=20-(2+5+4)=9,故m=8,n=9.(2)满足题意的所有抽法共有12种,情况如下:(A,C,D),(A,C,E),(A,C,F),(A,D,E),(A,D,F),(A,E,F),(B,C,D),(B,C,E),(B,C,F),(B,D,E),(B,D,F),(B,E,F).其中A和C同时被抽中的情况有3种如下所示:(A,C,D),(A,C,E),(A,C,F).所以A和C同时被抽中的概率为P=312=14.【总结与反思】1.观察茎叶图重点看数据的集中程度.2.求中位数、平均数、方差主要依据公式进行计算.3.在频率分布直方图中,平均数的估计值等于每个小矩形的面积乘以小矩形底边中点横坐标之和;在中位数的估计值两侧直方图的面积相等;最高小矩形中点对应数据为这组数据的众数.4.方差越大,数据的波动程度越大,越不稳定.5.准确理解给出图表及已知条件中数据的含义是解决统计问题的关键.考点二 回归分析及其应用例2 班主任为了对本班学生的考试成绩进行分析,决定从全班25位女同学,24位男同学中随机抽取一个容量为8的(1)画出样本的散点图,并说明物理分数y 与数学分数x 之间是正相关还是负相关;(2)求y 与x 的线性回归直线方程(系数精确到0.01),并指出某学生数学83分,物理约为多少分(精确到1分)?参考公式:回归直线的方程是:y ^=b ^x +a ^,其中b^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y --b ^x -.参考数据:x -=77.5,y -≈85,∑i =18(x i -x -)2=1050,∑i =18(x i -x -)(y i -y -)≈688.【规范解答】(1) 画样本散点图如下:由图可知:物理分数y 与数学分数x 之间是正相关关系.(2)从散点图中可以看出,这些点分布在一条直线附近,因此以用公式计算得,b^=∑i =18(x i -x -)(y i -y -)∑i =18(x i -x -)2=6881050≈0.66,由x -=77.5,y -≈85,得a ^=y --b ^x -=85-0.66×77.5≈33.85.所以回归直线方程为y ^=0.66x +33.85.当x =83时,y ^=0.66×83+33.85=88.63≈89. 因此某学生数学83分时,物理约为89分. 【总结与反思】求线性回归方程关键是熟练运用b ^的计算公式和a ^=y --b ^x -.考点三独立性检验及其应用例3 某校举办安全法规知识竞赛,从参赛的高一、高二学生中各抽出100人的成绩作为样本.对高一年级的100名学生的成绩进行统计,并按[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]分组,得到成绩分布的频率分布直方图(如图).(1)若规定60分以上(包括60分)为合格,计算高一年级这次知识竞赛的合格率;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此,估计高一年级参加这次知识竞赛的学生的平均成绩;(3)若高二年级这次知识竞赛的合格率为60%,由以上统计数据填写下面2×2列联表,并问是否有99%的把握认为“这次知识竞赛的成绩与年级有关系”.附:K2=(a+b)(c+d)(a+c)(b+d)【规范解答】(1)高一年级的合格率为0.02×10+0.03×10+0.02×10+0.01×10=0.8=80%.(2)高一年级样本的平均数为45×10100+55×10100+65×20100+75×30100+85×20100+95×10100=72,据此,可以估计高一年级这次知识竞赛的学生的平均成绩为72分.(3)K2=200(80×40-20×60)100×100×140×60≈9.5>6.635,所以有99%的把握认为“这次知识竞赛的成绩与年级有关系”.【总结与反思】理解独立性检验的思想方法,会用K2公式计算,并与给出的数据比较作出判断,是解决这类问题的关键.考点四统计与其他知识的交汇例4 某市共有100万居民的月收入是通过“工资薪金所得”得到的,如图是抽样调查后得到的工资薪金所得x的频率分布直方图.工资薪金个人所得税税率表如表所示.表中“全月应纳税所得额”是指“工资薪金所得”减去3500元所超出的部分(3500元为个税起征点,不到3500元不交税)工资个税的计算公式为:“应纳税额”=“全月应纳税所得额”乘以“适用税率”减去“速算扣除数”.某人某月“工资薪金所得”为5500元,则“全月应纳税所得额”为5500-3500=2000元,应纳税额为2000×10%-105=95(元).在直方图的工资薪金所得分组中,以各组的区间中点值代表该组的各个值,工资薪金所得落入该区间的频率x作为取该区间中点值的概率.(2)设该市居民每月从工资薪金交完税后,剩余的为其月可支配额y(元),试求该市居民月可支配额y的数学期望.【规范解答】(1)工资薪金所得的5组区间的中点值依次为3000、5000、7000、9000、11000,x取这些值的概率依次为0.15、0.3、0.4、0.1、0.05,算得与其相对应的”全月应纳税所得额”依次为0,1500,3500,5500,7500(元),按工资个税的计算公式,相应的工资个税分别为:0(元),1500×3%-0=45(元),3500×10%-105=245(元),5500×20%-555=545(元),7500×20%-555=945(元);∴该市居民每月在工资薪金个人所得税上缴的总税款为(45×0.3+245×0.4+545×0.1+945×0.05)×106=2.1325×108(元);(2)这5组居民月可支配额y取的值分别是y1,y2,y3,y4,y5,y1=3000(元);y2=5000-45=4955(元);y3=7000-245=6755(元);y4=9000-545=8455(元);y5=11000-945=10055(元);E(y)=3000×0.15+4955×0.3+6755×0.4+8455×0.1+10055×0.05=5986.75(元)课程小结1.当总体数N不能被样本容量整除,用系统抽样法剔除多余个体时,必须随机抽样.2.注意中位数与平均数的区别,中位数可能不在样本数据中.。
2024届高考数学二轮复习专题2统计案例课件
7
(xi--x )2=9+4+1+0+1+4+9=28,
i=1
微专题2 统计案例
7
(x i--x )(yi--y )
b^乙=i=1
7
(x i--x )2
=7238.4≈2.621,
i=1
a^乙=-y 乙-b^乙-x =73.1-2.621×4≈62.62; 所以乙地 y 关于 x 的线性回归方程为^y乙=2.62x+62.62, x=8(即 2023 年)时,b^乙=2.62×8+62.62=83.58; 所以^y甲-^y乙=83.58-77.28=6.3, 利用统计模型估计该产业 2023 年乙地收入会比甲地收入多 6.3 亿元.
绩排在年级前 50%以内(含 50%)的为“数学成绩达标”.
(1)求该中学高三年级本次月考数学成绩的 65%分位数;
(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用该组
区间的中点值作代表);
微专题2 统计案例
(3)请根据已知数据完成下列联表,并根据小概率值α=0.001 的独立性检验,
=
n
(x i--x )2
n
x 2i -n-x 2
i=1
i=1
微专题2 统计案例
1 326095-.2-5×5×6.46×.4243=-17.5, 于是a^=-y -b^-x =43-(-17.5)×6.4=155, 故经验回归方程为^y=-17.5x+155. (2)依题意,η 可能的取值为 0,1,2,3,4,5,6,7,8,
微专题2 统计案例
χ2=1 000×5(503×504×503×005-002×005×00150)2≈90.91>10.828=x0.001, 根据小概率值 x0.001 的独立性检验,我们推断 H0 不成立, 即认为“数学成绩达标”与“运动达标”有关联.
第2讲统计与统计案例
第2讲统计与统计案例【选题明细表】知识点、方法题号抽样方法1、2、7 统计图表与数字特征的计算3、6、8、9、10 回归分析与独立性检验4、5统计中的综合问题11、12、13、14重点把关1.(2014高考四川卷)在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( A )(A)总体 (B)个体(C)样本的容量(D)从总体中抽取的一个样本解析:5000名居民的阅读时间的全体是总体,每名居民的阅读时间是个体,200名居民的阅读时间是样本,故选A.2.(2014潍坊市三模)高三某班有学生56人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、33号、47号学生在样本中,则样本中还有一个学生的编号为( C )(A)13 (B)17 (C)19 (D)21解析:因为47-33=14,由系统抽样的定义可知样本中的另一个学生的编号为5+14=19.故选C.3.(2013高考四川卷)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( A )解析:[0,5)有1个,[5,10)有1个,频数相等,故也相等,比较选项知A正确,故选A.4.(2014深圳市一模)相关变量x、y的样本数据如下表:x 1 2 3 4 5y 2 2 3 5 6经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为=1.1x+,则等于( C )(A)0.1 (B)0.2 (C)0.3 (D)0.4解析:∵回归直线经过样本中心点(,),且由题意得(,)为(3,3.6),∴3.6=1.1×3+,∴=0.3.故选C.5.(2014高考江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( D )表1成绩不及格及格总计性别男 6 14 20女10 22 32总计16 36 52表2视力好差总计性别男 4 16 20女12 20 32总计16 36 52表3智商偏高正常总计性别男8 12 20女8 24 32总计16 36 52表4阅读量丰富不丰富总计性别男14 6 20女 2 30 32总计16 36 52 (A)成绩 (B)视力(C)智商(D)阅读量解析:因为==,==,==,==,则>>>,所以阅读量与性别有关联的可能性最大.故选D.6. 甲、乙两名选手参加歌手大赛时,5名评委打的分数用茎叶图表示如图所示,s1,s2分别表示甲、乙选手分数的标准差,则s1与s2的关系是( C )(A)s1>s2(B)s1=s2(C)s1<s2(D)不确定解析:由茎叶图可得==84,==84,所以==22,==62,显然有s1<s2.故选C.7.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取名学生.解析:因为高二年级学生人数占总数的,样本容量为50,所以50×=15.答案:158.(2014济南模拟)某学校举行课外综合知识比赛,随机抽取400名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成五组.第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……;第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则400名同学中成绩优秀(大于等于80分)的学生有名.解析:成绩优秀的频率为1-(0.005+0.025+0.045)×10=0.25,所以成绩优秀的学生有0.25×400=100(名).答案:1009.(2014武汉调研)为了普及环保知识,增强环保意识,某高中随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m,众数为n,平均数为,则这三个数的大小关系为< < .解析:由题图可知,得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分、9分、10分的各有2人,所以其中位数应为=5.5,即m=5.5.众数为5,即n=5,平均数=(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)≈5.967,所以n<m<.答案:n m10.(2013高考湖北卷)某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4,则(1)平均命中环数为;(2)命中环数的标准差为.解析:(1)平均命中的环数为=7;(2)由平均命中的环数为7,可知命中环数的标准差为=2.答案:(1)7 (2)211.(2014高考北京卷)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数1 [0,2) 62 [2,4) 83 [4,6) 174 [6,8) 225 [8,10) 256 [10,12) 127 [12,14) 68 [14,16) 29 [16,18) 2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;(2)求频率分布直方图中的a,b的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)解:(1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少于12小时的频率是1-=0.9.从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)的有17人,频率为0.17,所以a===0.085.课外阅读时间落在组[8,10)的有25人,频率为0.25,所以b===0.125.(3)样本中的100名学生课外阅读时间的平均数在第4组.能力拔高12. (2014南昌一模)在一次演讲比赛中,6位评委对一名选手打分的茎叶图如图所示,若去掉一个最高分和一个最低分,得到一组数据x i(1≤i≤4),在如图所示的程序框图中,是这4个数据的平均数,则输出的v的值为.解析:根据题意得到的数据为78,80,82,84,则=81.程序框图的功能是求以上数据的方差,故输出的v的值为=5.答案:513. (2014肇庆一模)已知某山区小学有100名四年级学生,将全体四年级学生随机按00~99编号,并且按编号顺序平均分成10组.现要从中抽取10名学生,各组内抽取的编号按依次增加10进行系统抽样.(1)若抽出的一个号码为22,则此号码所在的组数是多少?据此写出所有被抽出学生的号码;(2)分别统计这10名学生的数学成绩,获得成绩数据的茎叶图如图所示,求该样本的方差;(3)在(2)的条件下,从这10名学生中随机抽取两名成绩不低于73分的学生,求被抽取到的两名学生的成绩之和不小于154分的概率. 解:(1)由题意,得抽出号码为22的组数为3.因为2+10×(3-1)=22,所以第1组抽出的号码应该为02,抽出的10名学生的号码依次分别为02,12,22,32,42,52,62,72,82,92.(2)这10名学生的平均成绩为=×(81+70+73+76+78+79+62+65+67+59)=71,故样本方差为s2=×(102+12+22+52+72+82+92+62+42+122)=52.(3)从这10名学生中随机抽取两名成绩不低于73分的学生,共有如下10种不同的取法:(73,76),(73,78),(73,79),(73,81),(76,78),(76,79),(76,81), (78,79),(78,81),(79,81).其中成绩之和不小于154分的有如下7种:(73,81),(76,78), (76,79),(76,81),(78,79),(78,81),(79,81).故被抽取到的两名学生的成绩之和不小于154分的概率为P=. 14.(2014哈师大附中、东北师大附中、辽宁实验中学一模)某城市随机抽取一年(365天)内100天的空气质量指数AQI的监测数据,结果统计如下:AQI [0,50](50,100] (100,150](150,200](200,250](250,300]>300空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数 4 13 18 30 9 11 15 (1)若某企业每天由空气污染造成的经济损失S(单位:元)与空气质量指数AQI(记为w)的关系式为S=试估计在本年内随机抽取一天,该天经济损失S大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?非重度污染重度污染合计供暖季非供暖季合计100 附:** ** ** ** ** ** ** ** P(K2≥k0)** ** ** ** ** ** ** ** k0K2=解:(1)设“在本年内随机抽取一天,该天经济损失S大于200元且不超过600元”为事件A,由200<S≤600,得150<w≤250,频数为39,P(A)=.(2)根据题中数据得到如下列联表:非重度污染重度污染合计供暖季22 8 30 非供暖季63 7 70 合计85 15 100K2=≈4.575>3.841,所以有95%的把握认为该市本年空气重度污染与供暖有关.。
教辅-高考数学大二轮专题复习:概率与统计之统计、统计案例
核心知识回顾
热点考向探究
真题VS押题
专题作业
2.某公司生产 A,B,C 三种不同型号的轿车,产量之比依次为 2∶3∶
4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为 n 的样本,
若样本中 A 种型号的轿车比 B 种型号的轿车少 8 辆,则 n=( )
A.96
B.72
C.48
D.36
答案 B 解析 由题意,得29n-39n=-8,∴n=72.选 B.
中位数为 2 =630(分钟),所以这 8 个月的月平均通话时间的中位数大 小的取值区间为[540,630].故选 D.
核心知识回顾
热点考向探究
真题VS押题
专题作业
3.(2020·山东省泰安市四模)某药厂选取若干名志愿者进行临床试验,
所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,
核心知识回顾热点考向探究真题vs押题专题作业42020天津市河北区二模某班同学进行社会实践对2555岁的人群随机抽取n人进行了生活习惯是否符合低碳观念的调查若生活习惯符合低碳观念的称为低碳族否则称为非低碳族得到如下统计表和各年龄段人数频率分布直方图则图表中的pa的值分别为核心知识回顾热点考向探究真题vs押题专题作业组数分组低碳族的人数占本组的频率第一组253012006第二组3035195p第三组354010005第四组4045a04第五组45503003第六组50551503核心知识回顾热点考向探究真题vs押题专题作业a07920b019540c06560d097580答案c核心知识回顾热点考向探究真题vs押题专题作业解析由题意得n1200600451000a100000350460
核心知识回顾
热点考向探究
高考数学二轮复习 统计与统计案例
统计与统计案例1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本【解析】 5 000名居民的阅读时间的全体为总体,故选A.【答案】 A2.(2014·重庆高考)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250【解析】 样本抽取比例为703 500=150,该校总人数为1 500+3 500=5 000,则n 5 000=150,故n =100,选A. 【答案】 A3x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为y =bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0【解析】 回归直线方程过中心点(5.5,1.5),即1.5=5.5b +a ,由题意,两个变量负相关,b <0,∴a >0,故选B.【答案】 B4.(2014·广东高考)某车间20名工人年龄数据如下表:年龄(岁) 工人数(人)19 128 329 330 531 432 340 1合计 20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.【解】 (1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=12020i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.从近三年高考来看,该部分高考命题的热点考向为:1.随机抽样①随机抽样问题与实际生活紧密相连,是高考考查的热点之一.主要考查系统抽样中号码的确定和分层抽样中各层人数的确定.②多以选择题和填空题的形式呈现,属容易题.2.用样本估计总体①该考向重点考查样本特征数的计算,样本频率分布直方图和茎叶图等知识.特别是茎叶图是新课标中的新增内容,与实际生活联系密切,可方便处理数据,是高考中新的热点.②多以选择题、填空题的形式考查,有时也出现在解答题中,属容易题.3.线性回归分析①线性回归分析是新增内容,在现实生活中有着广泛的应用,应引起重视.②多以选择题、填空题的形式考查,有时也出现在解答题中,属中、低档题目.4.独立性检验①独立性检验也是新增内容,在现实生活中有着广泛的应用,近几年许多省的高考题涉及本考向,应引起关注.②既可以以选择题、填空题的形式考查,也可以以解答题的形式呈现,属中、低档题目.随机抽样【例1】 (1)(2014·天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.(2)(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本 ,则分段的间隔为( )A .50B .40C .25D .20【解析】 (1)由题意知应抽取人数为300×44+5+5+6=60. (2)由1 00040=25,可得分段的间隔为25.故选C. 【答案】 (1)60 (2)C【规律方法】解答与抽样方法有关的问题时应注意:(1)要深刻理解各种抽样方法的特点和实施步骤.(2)熟练掌握系统抽样中被抽个体号码的确定方法.(3)熟练掌握分层抽样中各层人数的计算方法.注意:抽样方法常和概率、频率分布直方图等知识结合在一起考查.[创新预测]1.(1)(2013·湖南高考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9 B.10 C.12 D.13(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01【解析】(1)根据分层抽样的特点,用比例法求解.依题意得360=n120+80+60,故n=13.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.【答案】(1)D (2)D用样本估计总体【例2】(2014·北京高考)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数1[0,2) 62[2,4)83[4,6)174[6,8)225[8,10)256[10,12)127[12,14) 68[14,16) 29[16,18) 2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;(2)求频率分布直方图中的a ,b 的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)【解】 (1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少于12小时的频率是1-10100=0.9. 从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)的有17人,频率为0.17,所以a =频率组距=0.172=0.085. 课外阅读时间落在组[8,10)的有25人,频率为0.25,所以b =频率组距=0.252=0.125. (3)样本中的100名学生课外阅读时间的平均数在第4组.【规律方法】 1.用样本估计总体时应注意的问题:(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想.(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图.要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数.2.样本数字特征及茎叶图:(1)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据所计算出的样本数据的均值和方差对实际问题作出解释.(2)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.[创新预测]2.(1)(2013·福建高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120(2)(2013·山东高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 79 4 0 1 0 x 9 1则7A.1169 B.367 C .36 D.677【解析】 (1)先求出频率,再求样本容量.不少于60分的学生的频率为(0.030+0.025+0.015+0.010)×10=0.8,∴该模块测试成绩不少于60分的学生人数应为600×0.8=480.故选B.(2)利用平均数为91,求出x 的值,利用方差的定义,计算方差.根据茎叶图,去掉1个最低分87,1个最高分99,则17[87+94+90+91+90+(90+x )+91]=91, ∴x = 4.∴s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367. 【答案】 (1)B (2)B线性回归分析【例3】 (2014·全国新课标Ⅱ高考)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013年份代号t 1 2 3 4 5 6 7人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n t i -t-y i -y -∑i =1n t i -t-2,a ^=y --b ^t -. 【解】 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 ∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17 t i -t-y i -y -∑i =17 t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(Ⅰ)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.【规律方法】 进行线性回归分析时应注意的问题(1)正确理解计算b ,a 的公式和准确的计算,是求回归直线方程的关键.(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3)在散点图中,若所有点大部分都集中在斜向上(自左向右看)的直线的附近,则为正相关;若大部分都集中在斜向下(自左向右看)的直线的附近,则为负相关.[创新预测]3.(2013·重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ;(2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1n x i y i -n x y ∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值.线性回归方程也可写为y ^=b ^x +a ^.【解】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8, y =1n ∑i =1n y i =2010=2, 又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3,a =y -b x =2-0.3×8=-0.4, 故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 独立性检验【例4】 (2014·辽宁高考)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生 喜欢甜品 不喜欢甜品 合计南方学生 60 20 80北方学生 10 10 20合计 70 30 100(1)惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,P (χ2≥k ) 0.100 0.050 0.010k 2.706 3.841 6.635【解】 (1)将2×2列联表中的数据代入公式计算,得χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2=100×60×10-20×10270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710. 【规律方法】 1.独立性检验的关键是准确计算K 2(χ2),而计算k 2(χ2)时,要正确绘制2×2列联表.2.两个变量的独立性检验,在统计学中有着广泛的应用,学习时一定要结合实际问题,从现实中寻找例子,增强学习数学的动力.[创新预测]4.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n ad -bc 2a ++++ P (K 2≥k 0) 0.10 0.05 0.010 0.005k 0 2.706 3.841 6.635 7.879【解】 (1)300×15 000=90,所以应收集90位女生的样本数据. (2)由题中频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表 男生 女生 总计每周平均体育运动时间不超过4小时45 30 75 每周平均体育运动时间超过4小时165 60 225 总计 210 90 300结合列联表可算得K 2=300× 2 250275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.[总结提升]失分盲点(1)混淆简单随机抽样、系统抽样、分层抽样的区别,不能正确地选择抽样方法.(2)不能正确地从频率分布直方图中提取相关的信息,混淆了频数与频率的差异.答题指导(1)看到抽样问题,想到三种抽样的定义以及适用范围和三者的区别.(2)看到频率分布直方图,想到频数与频率的区别以及计算方法.方法规律(1)分层抽样:①抽样原则:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取n =n ·N N(i =1,2,…,k )个个体:②分层原则:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)利用统计量K 2进行独立性检验的步骤:①根据数据列出2×2列联表.②根据公式计算K 2的观测值k .③比较观测值k 与临界值表中相应的检验水平,作出统计判断.通过数据分析事物蕴含的规律1.数据的作用是为了说明实际问题中存在的问题,通过对数据的处理(如计算样本数据的均值、方差、极差、中位数、众数等),看出实际问题中蕴含的某种规律,根据规律的利弊确定未来的发展方向,这是数据处理的一个主要方面.2.在统计中通过对抽取的样本数据进行处理,根据样本估计总体的思想,可以对总体作出估计,从而对总体作出评价,给出令人信服的结论,这就是用数据说话.【典例】 (2014·全国新课标Ⅱ高考)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.【解】(1)由题中所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由题中所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由题中所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由题中茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)【规律感悟】样本数据的均值体现了一种整体的态势,样本数据的方差则说明了整体态势的稳定性,整体态势(均值)及其稳定性(方差)是样本数据的两个重要特征数.。
(全国通用)高考数学二轮复习 专题六 第2讲 统计与统计案例名师课件 文
[微题型2] 对独立性检验的考查 【例 2-2】 某新闻媒体为了了解观众对央视《开门大吉》节目的
喜爱与性别是否有关系,随机调查了观看该节目的观众 110 名, 得到如下的列联表:
喜爱 不喜爱
总计
女
男
总计
40
20
60
20
30
50
60
50
110
试根据样本估计总体的思想,估计约有________的把握认为“喜 爱该节目与否和性别有关”. 参考附表:
中,青年教师有 320 人,则该样本的老年教师人数为( )
类别
老年教师 中年教师 青年教师
合计
人数
900 1 800 1 600 4 300
A.90 B.100 C.180 D.300
解析 由题意抽样比为1362000=15,∴该样本的老年教师人数为 900×15=180(人). 答案 C 探究提高 系统抽样又称“等距”抽样,被抽到的各个号码间 隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总 体容量中的比例.
(3)在月平均用电量为[220,240),[240,260),[260,280),[280, 300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均 用电量在[220,240)的用户中应抽取多少户? 解 (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20 =1 得:x=0.007 5,所以直方图中 x 的值是 0.007 5. (2)月平均用电量的众数是220+2 240=230. 因为(0.002+0.009 5+0.011)×20=0.45<0.5,所以月平均用电量的中 位数在[220,240)内,设中位数为 a,由(0.002+0.009 5+0.011)×20 +0.012 5×(a-220)=0.5 得:a=224,所以月平均用电量的中位数 是 224.
名师伴你行届高考理科数学二轮复习专题突破题能专训第讲统计与统计案例公开课一等奖优质课大赛微课获奖课件
y2 b d b+d
总计 a+b c+d a+b+c+d
热点盘点
[二轮备考讲义] 第二部分 专题五 第2讲第11页 第11页
基础记忆
名师伴你行 ·高考二轮复习 ·数学(理)
构造一个随机变量 K2=a+bcn+add-ab+cc2b+d,其中 n=a
+b+c+d.
P(K2≥k) 0.100 0.050 0.025 0.010 0.001
名师伴你行 ·高考二轮复习 ·数学(理)
专项五 概率与统计
[二轮备考讲义] 第二部分 专题五 第2讲第3页 第3页
热点盘点
基础记忆
提能专训
名师伴你行 ·高考二轮复习 ·数学(理)
第二讲 统计与统计案例
[二轮备考讲义] 第二部分 专题五 第2讲第4页 第4页
热点盘点
基础记忆
提能专训
名师伴你行 ·高考二轮复习 ·数学(理)
基础记忆
名师伴你行 ·高考二轮复习 ·数学(理)
分组
频数 频率
(40,45]
n1
f1
(45,50]
n2
f2
(1)确定样本频率分布表中 n1,n2,f1 和 f2 的值;
(2)根据上述频率分布表,画出样本频率分布直方图;
提能专训
热点盘点
[二轮备考讲义] 第二部分 专题五 第2讲第18页 第18页
基础记忆
[二轮备考讲义] 第二部分 专题五 第2讲第10页 第10页
热点盘点
基础记忆
提能专训
名师伴你行 ·高考二轮复习 ·数学(理)
3.独立性检验
假设有两个分类变量 X 和 Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称 2×2 列联表)为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、选择题1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A .73B .78C .77D .76解析:样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.答案:B2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示:用电量/度 120 140 160 180 200 户数23582则这20A .180,170 B .160,180 C .160,170D .180,160解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.答案:A3.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( ) A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.新农村建设前后,各项收入的对比如下表:新农村建设前新农村建设后新农村建设后变化情况结论种植收入60%a 37%×2a=74%a 增加A错其他收入4%a 5%×2a=10%a 增加一倍以上B对养殖收入30%a 30%×2a=60%a 增加了一倍C对养殖收入+第三产业收入(30%+6%)a=36%a(30%+28%)×2a=116%a超过经济收入2a的一半D对答案:A4.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.答案:A5.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为()A .5B .7C .10D .50解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.答案:D6.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y304050m70根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^=6.5x +17.5,则表中m 的值为( )A .45B .50C .55D .60解析:∵x =2+4+5+6+85=5,y =30+40+50+m +705=190+m5,∴当x =5时,y =6.5×5+17.5=50, ∴190+m5=50,解得m =60. 答案:D 二、填空题7.(2018·惠州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表):零件数x /个 10 20 30 40 50 加工时间y /分钟6268758189由最小二乘法求得回归方程y =0.67x +a ,则a 的值为________. 解析:因为x =10+20+30+40+505=30,y =62+68+75+81+895=75,所以回归直线一定过样本点的中心(30,75), 则由y ^=0.67x +a ^可得75=30×0.67+a ^, 求得a ^=54.9. 答案:54.98.(2018·高考全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.答案:分层抽样9.(2018·郑州二检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值mn=________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有14(20+n +32+34+38)=33,所以n =8,所以m n =38.答案:3810.如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m 为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a 1,a 2,则它们的大小关系是________(用“>”表示).解析:由题意知去掉一个最高分和一个最低分后,可以求得甲和乙两名选手得分的平均数分别为a1=1+4+5×35+80=84,a2=4×3+6+75+80=85,所以a2>a1.答案:a2>a1三、解答题11.某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):x/吨234568911y/天12334568(1)根据上表数据在图中的网格中绘制散点图:(2)根据上表提供的数据,求出y关于x的线性回归方程y^=b^x+a^;(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.参考公式和数据:b^=∑i=1nx i y i-n x·y∑i=1nx2i-n x2,a^=y-b^x;∑i=18x2i=356,∑i=18x i y i=241.解析:(1)散点图如图所示.(2)依题意,得x=18×(2+3+4+5+6+8+9+11)=6,y=18×(1+2+3+3+4+5+6+8)=4,又∑i=18x2i=356,∑i=18x i y i=241,所以b ^=∑i =18x i y i -8x ·y∑i =18x 2i -8x2=241-8×6×4356-8×62=4968,a ^=4-4968×6=-1134,故线性回归方程为y ^=4968x -1134.(3)由(2)知,当x =24时,y ^=4968×24-1134≈17,故若该商店一次性进货24吨,则预计需要销售17天.12.(2018·郑州模拟)为了考察高中学生的身体素质情况,现抽取了某校1 000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到如下统计表:男生测试情况:(1)2名学生恰好是一男一女的概率;(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关?”临界值表:附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.解析:(1)按分层抽样的知识知男生应抽取80名,女生应抽取20名, ∴x =80-(5+10+15+47)=3,y =20-(2+3+10+2)=3.抽取的100名且测试等级为“优秀”的3名男生分别记为A ,B ,C,2名女生分别记为a ,b .从5名学生中任选2名,总的基本事件有(A ,B ),(A ,C ),(A ,a ),(A ,b ),(B ,C ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b ),共10个.设“选出的2名学生恰好是一男一女”为事件M ,则事件M 包含的基本事件有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),共6个,∴P (A )=610=35.(2)2×2列联表如下:则K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )=100×(50×15-30×5)80×20×55×45≈9.091.∵9.091>6.635且P (K 2≥6.635)=0.010,∴能在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关.”。