[推荐学习]高考数学二轮复习 限时训练23 统计、统计案例 文
2021年高考数学二轮复习 统计、统计案例训练题 理
2021年高考数学二轮复习 统计、统计案例训练题 理1.(xx·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.(xx·石家庄模拟)设随机变量ξ服从正态分布N(1,σ2),若P(ξ<2)=0.8,则P(0<ξ<1)的值为( )A .0.2B .0.3C .0.4D .0.63.(xx·福建高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .1204.(xx·湖北高考)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④5.(xx·湖南五市十校联考)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由K 2=n ad -bc 2a +b c +d a +c b +d 算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表: P(K 2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”6.某实验中学共有职工150人,其中高级职称的职工15人,中级职称的职工45人,一般职员90人,现采用分层抽样抽取容量为30的样本,则抽取的高级职称、中级职称、一般职员的人数分别为( )A .5、10、15B .3、9、18C .3、10、17D .5、9、167.(xx·山东滨州模拟)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组 书画组 乐器组高一 45 30 a高二 15 10 20从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________.8.以下四个命题,其中正确的是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在回归直线方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2(χ2)的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.9.(xx·湖北八校联考)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:(1)[25,30)年龄组对应小矩形的高度为________;(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.10.(xx·成都诊断性检测)某校高三(1)班的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如下:试根据图表中的信息解答下列问题:(1)求全班的学生人数及分数在[70,80)之间的频数;(2)为快速了解学生的答题情况,老师按分层抽样的方法从位于[70,80),[80,90)和[90,100]分数段的试卷中抽取8份进行分析,再从中任选3人进行交流,求交流的学生中,成绩位于[70,80)分数段的人数X的分布列和数学期望.11.(xx·湖北高考)假设每天从甲地去乙地的旅客人数X是服从正态分布N(800,502)的随机变量.记一天中从甲地去乙地的旅客人数不超过900的概率为p0.(1)求p0的值;(参考数据:若X~N(μ,σ2),有P(μ-σ<X≤μ+σ)=0.682 6,P(μ-2σ<X≤μ+2σ)=0.954 4,P(μ-3σ<X≤μ+3σ)=0.997 4)(2)某客运公司用A、B两种型号的车辆承担甲、乙两地间的长途客运业务,每车每天往返一次.A、B两种车辆的载客量分别为36人和60人,从甲地去乙地的营运成本分别为1 600元/辆和2 400元/辆.公司拟组建一个不超过21辆车的客运车队,并要求B型车不多于A 型车7辆.若每天要以不小于p0的概率运完从甲地去乙地的旅客,且使公司从甲地去乙地的营运成本最小,那么应配备A型车、B型车各多少辆?12.(xx·石家庄模拟)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查.得到了如下的统计结果:上网时间(分钟) [30,40) [40,50) [50,60) [60,70) [70,80] 人数 5 25 30 25 15上网时间(分钟) [30,40) [40,50) [50,60) [60,70) [70,80] 人数10 20 40 20 10(2)完成下面的2×2列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”?上网时间少于60分钟上网时间不少于60分钟合计男生女生合计附:K2=P(K2≥k0) 0.100 0.050 0.025 0.010 0.005 k0 2.706 3.841 5.024 6.635 7.8791.选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A ;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B 和D.2.选B P(ξ<2)=0.8,∴P(ξ>2)=0.2,又P(ξ<0)=P(ξ>2)=0.2.∴P(0<ξ<2)=1-P(ξ<0)-P(ξ>2)=0.6.∴P(0<ξ<1)=12(0<ξ<2)=0.3. 3.选B 由频率分布直方图可得,该模块测试成绩不少于60分的学生人数为600-(0.005+0.015)×10×600=480.4.选D ①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确.5.选A 因为6.635<7.8<10.828,所以有99%以上的把握认为“爱好该项运动与性别有关”,故选A.6.选B 在150人中抽取30人,分层抽样时应按1∶5的比例抽取, 故抽取的高级职称、中级职称、一般职员的人数分别为3、9、18.7.解析:由题意知1245+15=30120+a,解得a =30. 答案:308.解析:①是系统抽样;对于④,随机变量K 2(χ2)的观测值k 越小,说明两个变量有关系的把握程度越小.答案:②③9.解析:(1)设[25,30)年龄组对应小矩形的高度为h ,则5(0.01+h +0.07+0.06+0.02)=1,h =0.04.(2)志愿者年龄在[25,35)的频率为5(0.04+0.07)=0.55,故志愿者年龄在[25,35)的人数约为0.55×800=440.答案:(1)0.04 (2)44010.解:(1)由茎叶图可知,分数在[50,60)上的频数为4,频率为0.008×10=0.08,故全班的学生人数为40.08=50. 分数在[70,80)之间的频数等于50-(4+14+8+4)=20.(2)按分层抽样原理,三个分数段抽样数之比等于相应人数之比.又[70,80),[80,90)和[90,100]分数段人数之比等于5∶2∶1,由此可得抽出的样本中分数在[70,80)之间的有5人,分数在[80,90)之间的有2人,分数在[90,100]之间的有1人.从中任取3人,共有C 38=56种不同的结果.被抽中的成绩位于[70,80)分数段的学生人数X 的所有取值为0,1,2,3.它们的概率分别是:P(X =0)=C 3356=156, P(X =1)=C 15C 2356=1556, P(X =2)=C 25C 1356=3056=1528, P(X =3)=C 3556=1056=528. ∴X 的分布列为∴X 的数学期望为E(X)=0×156+1×1556+2×1528+3×528=10556=158. 11.解:(1)由于随机变量X 服从正态分布N(800,502),故有μ=800,σ=50,P(700<X≤900)=0.954 4.由正态分布的对称性,可得p 0=P(X≤900)=P(X≤800)+P(800<X≤900)=12+12P(700<X≤900)=0.977 2. (2)设A 型、B 型车辆的数量分别为x ,y 辆,则相应的营运成本为1 600x +2 400y. 依题意,x ,y 还需满足x +y≤21,y≤x+7,P(X≤36x+60y)≥p 0.由(1)知,p 0=P(X≤900),故P(X≤36x+60y)≥p 0等价于36x +60y≥900. 于是原问题等价于求满足约束条件⎩⎪⎨⎪⎧ x +y≤21,y≤x+7,36x +60y≥900,x ,y≥0,x ,y ∈N ,且使目标函数z =1 600x +2 400y 达到最小的x ,y.作可行域如图所示,可行域的三个顶点坐标分别为P(5,12),Q(7,14),R(15,6).由图可知,当直线z =1 600x +2 400y 经过可行域的点P 时,直线z =1 600x +2 400y 在y 轴上截距z 2 400最小,即z 取得最小值.故应配备A 型车5辆、B 型车12辆.12.解:(1)由男生上网时间与频数分布表可知100名男生中,上网时间少于60分钟的有60人,不少于60分钟的有40人,故从其中任选3人,恰有1人上网的时间少于60分钟的概率为C 160C 240C 3100=156539. 上网时间少于60分钟 上网时间不少于60分钟 合计男生 60 40 100女生 70 30 100合计 130 70 200K 2=2100×100×130×70=91≈2.20, ∵K 2≈2.20<2.706.∴没有90%的把握认为“大学生上网时间与性别有关”.J26580 67D4 柔39166 98FE 飾33893 8465 葥4r 28812 708C 炌\Zs 440421 9DE5 鷥。
高考数学二轮复习统计与统计案例专题训练(含解析)
高考数学二轮复习统计与统计事例专题训练(含分析)一、选择题1.(2014 ·四川卷 ) 在“世界念书日”前夜,为了认识某地 5 000 名居民某天的阅读时间,从中抽取了 200 名居民的阅读时间进行统计剖析.在这个问题中, 5 000名居民的阅读时间的全体是() A.整体B.个体C.样本的容量D.从整体中抽取的一个样本分析由题目条件知 5 000 名居民的阅读时间的全体是整体;此中 1 名居民的阅读时间是个体;从 5 000 名居民某天的阅读时间中抽取的 200 名居民的阅读时间是从整体中抽取的一个样本,样本容量是 200.答案A2.(2014 ·重庆卷 ) 某中学有高中生 3 500 人,初中生 1 500 人.为认识学生的学习状况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70 人,则 n 为()A.100B.150. 200. 250C D70n分析由分层抽样的特色可知 3 500 =3 500 + 1 500,解之得n=100.答案A3.(2014 ·广东卷 ) 为认识 1 000 名学生的学习状况,采纳系统抽样的方法,从中抽取容量为40 的样本,则分段的间隔为 (). 50. 40A BC.25D.201 000故答案为 C.分析由系统抽样的定义知,分段间隔为40=25.答案C4.为了认识某校高三学生的视力状况,随机抽查了该校100 名高三学生的视力状况,获取频次散布直方图,以下图,因为不慎将部分数据丢掉,但知道前 4 组的频数成等比数列,后 6 组的频数成等差数列,设最大频次为 a,视力在 4.6到 5.0 之间的学生人数为 b,则 a,b 的值分别为 ()A . 0.27,78B . 0.27,83C . 2.7,84D . 2.7,83分析前 4 组的频数成等比数列,由图知:第一组的频次是0.01 ,故第一组有 1 名学生;第二组的频次为0.03 ,故第二组有3 名;所以第三组有 9 名,第四组有 27 名.所此后 6 组共 87 名学生,27+ x2- 2727设最后一组人数为x ,则2×6= 87,解得 x =2,故公差 d =5=- 5,所以 a = 100= 0.27 ,倒数第二组人数为7,则 b = 87-2- 7= 78. 应选 A .答案 A5.关于以下表格所示的五个散点,已知求得的线性回归直线方程为^y = 0.8x -155.x 196 197 200 203 204y 1367m则实数 m 的值为 ()A . 8B . 8.2C . 8.4D . 8.5- 1分析此题主要考察统计的有关知识,意在考察考生的运算求解能力. 依题意得 x = 5(196 + 197- 117+ m- - + 200+203+ 204) = 200, y =5(1 + 3+ 6+ 7+ m)= 5 ,回归直线必经过样本中心点( x , y ) ,于是有 17+ m =0.8 ×200- 155,由此解得 m = 8,选 A .5答案A6.经过随机咨询110 名性别不一样 的大学生能否喜好某项运动,获取以下的列联表:男 女 总计 喜好 40 20 60不喜好203050总计6050110n ad- bc 2由 K2=算得,a+ b c+ d a+ c b+ dK2=110×40×30-20×202≈7.8.60×50×60×50附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,获取的正确结论是()A.在出错误的概率不超出0.1%的前提下,以为“喜好该项运动与性别有关”B.在出错误的概率不超出0.1%的前提下,以为“喜好该项运动与性别没关”.有 99%以上的掌握以为“喜好该项运动与性别有关”CD.有99%以上的掌握以为“喜好该项运动与性别没关”分析依据独立性查验的思想方法,正确选项为C.答案C二、填空题7.从编号为 0,1,2 ,, 79 的 80件产品中,采纳系统抽样的方法抽取容量是 5 的样本,若编号为 28 的产品在样本中,则该样本中产品的最大编号为________.分析依据系统抽样的特色,共有80 个产品,抽取 5 个样品,则可得组距为80=16,又此中有51 个为 28,则与之相邻的为 12 和 44,故所取 5 个挨次为12,28,44,60,76 ,即最大的为 76.答案768.某中学为认识学生数学课程的学习状况,在 3 000 名学生中随机抽取 200 名,并统计这 200名学生的某次数学考试成绩,获取了样本的频次散布直方图( 如图 ) .依据频次散布直方图推断,这3 000 名学生在该次数学考试中成绩小于60 分的学生人数是 ________.40200分析因为 (0.002+0.006 +0.012) ×10×200= 40,x=3 000,所以 x= 600.故在该次数学考试中成绩小于60 分的学生人数是600.答案6009.已知某单位有40 名员工,现要从中抽取 5 名员工,将全体员工随机按1~40 编号,并按编号顺序均匀分红 5 组.按系统抽样方法在各组内抽取一个号码.(1) 若第 1 组抽出的号码为2,则所有被抽出员工的号码为________;(2)分别统计这 5 名员工的体重 ( 单位:公斤 ) ,获取体重数据的茎叶图以下图,则该样本的方差为 ________.分析(1) 由题意知被抽出员工的号码为2,10,18,26,34.(2)由茎叶图知 5 名员工体重的均匀数-59+ 62+ 70+73+ 81= 69,x=52122222则该样本的方差s=5[(59- 69)+ (62- 69)+ (70-69)+ (73-69)+ (81- 69)] =62.答案(1)2,10,18,26,34(2)62三、解答题10.(2014 ·课标全国卷Ⅱ ) 某市为了查核甲、乙两部门的工作状况,随机接见了50 位市民.根据这 50 位市民对这两部门的评分( 评分越高表示市民的评论越高) ,绘制茎叶图以下:(1)分别预计该市的市民对甲、乙两部门评分的中位数;(2)分别预计该市的市民对甲、乙两部门的评分高于90 的概率;(3)依据茎叶图剖析该市的市民对甲、乙两部门的评论.解(1) 由所给茎叶图知, 50 位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部分评分的中位数的预计值是75.50 位市民对乙部门的评66+ 6825,26 位的是 66,68 ,故样本中位数为= 67,所以该市的市民对乙 2部门评分的中位数的预计值是67.58(2)由所给茎叶图知, 50 位市民对甲、乙部门的评分高于90 的比率分别为50=0.1 ,50= 0.16 ,故该市的市民对甲、乙部门的评分高于90 的概率的预计值分别为 0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,并且由茎叶图能够大概看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评论较高、评论较为一致,对乙部门的评论较低、评论差别较大.11.(2014 ·课标全国卷Ⅰ ) 从某公司生产的某种产品中抽取100 件,丈量这些产品的一项质量指标值,由丈量结果得以下频数散布表:质量指标值[75,85)[85,95)[95,105)[105,115)[115,125)分组频数62638228(1)在下表中作出这些数据的频次散布直方图;(2)预计这类产质量量指标值的均匀数及方差( 同一组中的数据用该组区间的中点值作代表) ;(3)依据以上抽样检查数据,可否定为该公司生产的这类产品切合“质量指标值不低于95 的产品起码要占所有产品80%”的规定?解 (1)(2)质量指标值的样本均匀数为-=80×0.06 +90×0.26 +100×0.38 +110×0.22 +120×0.08 = 100.x质量指标值的样本方差为s2= ( - 20) 2×0.06 + ( - 10) 2×0.26 +0×0.38 + 102×0.22 + 202×0.08 = 104.所以这类产质量量指标值的均匀数的预计值为100,方差的预计值为104.(3)质量指标值不低于 95 的产品所占比率的预计值为0. 38+ 0.22 + 0.08 = 0.68.因为该预计值小于0.8 ,故不可以以为该公司生产的这类产品切合“质量指标值不低于95 的产品起码要占所有产品的80%”的规定.B级——能力提升组1.(2014 ·郑州一模) PM2.5是指大气中直径小于或等于 2.5微米的颗粒物,也称为可入肺颗粒物.如图是依据某地某日早7 点至晚 8 点甲、乙两个PM2.5监测点统计的数据( 单位:毫克 / 立方米 )列出的茎叶图,则甲、乙两地浓度的方差较小的是()A.甲B.乙C.甲、乙相等D.没法确立分析从茎叶图上能够察看到:甲监测点的样本数据比乙监测点的样本数据更为集中,所以甲地浓度的方差较小.答案A2.( 理)(2014 ·贵州六校联考) 某校学习小组展开“学生语文成绩与外语成绩的关系”的课题研究,对该校高二年级800 名学生上学期期末语文和外语成绩,按优异和不优异分类得结果:语文和外语都优异的有60 人,语文成绩优异但外语不优异的有140 人,外语成绩优异但语文不优异的有100人.(1)可否在出错概率不超出 0.001 的前提下以为该校学生的语文成绩与外语成绩有关系?(2) 将上述检查所得的频次视为概率,从该校高二年级学生成绩中,有放回地随机抽取 3 名学生的成绩,记抽取的 3 个成绩中语文、外语两科成绩起码有一科优异的个数为X,求X的散布列和期望 E(X) .解(1) 由题意得列联表:语文优异语文不优异总计 外语优异 60 100 160 外语不优异140 500 640 总计2006008002因为K 2= 800× 60×500-100×140≈16.667>10.828 ,160×640×200×600所以能在出错概率不超出0.001 的前提下以为该校学生的语文成绩与外语成绩有关系.3 3(2) 由已知数据,语文、外语两科成绩起码一科为优异的频次是8. 则 X ~B 3,8 ,k3 k53- k,k = 0,1,2,3.P(X = k) = C8 83X 的散布列为X 0 1 2 3P125 225 135 275125125125123 9E(X) =3× = .882.( 文)(2014 ·东北三校联考) 某城市随机抽取一年 (365 天 ) 内 100 天的空气质量指数API 的监测数据,结果统计以下:API[0,50](50,100](100,150](150,200](200,250](250,300] >300空气质重度污优良稍微污染轻度污染中度污染中重度污染量染天数413 1830 911 15(1) 若某公司每日由空气污染造成的经济损失S( 单位:元 ) 与空气质量指数 API ( 记为 w)的关系0,0≤w ≤100,式为 S = 4w -400, 100<w ≤300,试预计在今年度内随机抽取一天,该天经济损失 S 大于 2002 000 , w>300,元且不超出 600 元的概率;(2) 若本次抽取的样本数占有 30 天是在供暖季, 此中有 8 天为重度污染. 达成下边 2×2列联表,并判断可否有 95%的掌握以为该市今年空气重度污染与供暖有关?附:20.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 P(K ≥k )k 0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解(1) 设“在今年内随机抽取一天,该天经济损失S 大于 200 元且不超出 600 元”为事件 A ,39由 200<S ≤600,得 150<w ≤250,频数为 39,所以 P(A) =100.(2) 依据以上数据获取以以下联表:非重度污染重度污染共计 供暖季 22 8 30 非供暖季63 7 70共计85151002K 2的观察值为100×63×8-22×7≈4.575>3.841. 所以有 95%的掌握以为空气重度污染与 85×15×30×70供暖有关.。
高考数学二轮复习学案统计与统计案例 含解析
统计与统计案例2讲第年份A.12卷别考查内容及考题位置命题分析抽样方法(基础型)]系统抽样N总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).nN 若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n nN-1).n分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[考法全练]1.福利彩票“双色球”中红色球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 8506 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49D.C.0616解析:选C.被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为()A.73 B.78D.77.76C80解析:选B.样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-163)×5=78.故选B.3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢1 6004 8007 2006 400电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为()A.25,25,25,25 B.48,72,64,16D.30,1024,36,32,820C.,40,1100,解析:选D.法一:因为抽样比为=20020 000所以每类人中应抽选出的人数分别为11118.×=故选D.,×7 200=36,6 400×=321 600=4 800×24,200200200200∶82,∶∶7 200一般、法二:最喜爱、喜爱、不喜欢的比例为4 800∶∶6 4001 600=69∶96,所以每类人中应抽选出的人数分别为,×100=24×10036=29+8++28+69++682×100=32,×100=8,故选D.6+9+8+26+9+8+2“双图”“五数”估计总体(基础型)统计中的5个数据特征众数:在样本数据中,出现次数最多的那个数据.(1).中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为(2) 偶数,就取中间两个数据的平均数作为中位数.1-).+x+…+x(3)平均数:样本数据的算术平均数,即x=(x n12n (4)方差与标准差:1---2222;x)]+…+(x-sx=[(x-x)(+x-x)n21n1---222]. )x--x)x-[(xx)+…+(+(sx=n12n 从频率分布直方图中得出有关数据的技巧频率频率,频率=组距×频率:频率分布直方图中横轴表示组数,纵轴表示. (1)组距组距(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.(3)众数:最高小长方形底边中点的横坐标.(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[考法全练]1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:用电量/度120 140 160 180 200户数25823则这20户家庭该月用电量的众数和中位数分别是()A.180,170B.160,180D.180,C.160170,160解析:选A.用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.(2018·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、) (分的学生人数是100~80,则成绩在40第四、第五小组,已知第二小组的频数是A.15 B.18D.20.25C解析:选A.根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,40所以样本容量是100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成0.4绩在80~100分的学生人数是100×0.15=15.故选A.3.(2018·武汉调研)某选手的7个得分去掉1个最高分,去掉1个最低分,剩余5个得分的平均数为91,如图,该选手的7个得分的茎叶图有一个数据模糊,无法辨认,在图中用x表示,则剩余5个得分的方差为()36116B. A.79D6.30C.1解析:选C.由茎叶图知,最低分为87分,最高分为99分.依题意得,×(87+93+9051222+(9091)+(93=×[(87-91)-=x×10++91)=91,解得x4.则剩余5个得分的方差s9+51222]=×(16+4+1+91)(91+-91)9)=6.故选C.91)--+(9454.“中国人均读书4.3本(包括网络文学和教科书),比韩国的11本、法国的20本、日本的40本、犹太人的64本少得多,是世界上人均读书最少的国家.”这个论断被各种媒体反复引用.出现这样的统计结果无疑是令人尴尬的.某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并进一定量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:[20,30),[30,40),[40,50),[50,60),[60,后得到如图所示的频率分布直方图.80],[70,70).(1)求在这40名读书者中年龄分布在[40,70)的人数;(2)求这40名读书者的年龄的平均数和中位数.解:(1)由频率分布直方图知年龄在[40,70)的频率为(0.020+0.030+0.025)×10=0.75,故这40名读书者中年龄分布在[40,70)的人数为40×0.75=30.(2)这40名读书者年龄的平均数为25×0.05+35×0.10+45×0.20+55×0.30+65×0.25+75×0.10=54.设中位数为x,则0.005×10+0.010×10+0.020×10+0.030×(x-50)=0.5,解得x=55,故这40名读书者年龄的中位数为55.回归分析(综合型)[典型例题]命题角度一线性回归分析(2018·广州模拟)某地1~10岁男童年龄x(单位:岁)与身高的中位数y(单位:cm)(i ii=1,2,…,10)如下表:对上表的数据作初步处理,得到下面的散点图及一些统计量的值.(1)求y关于x的线性回归方程(线性回归方程系数精确到0.01);2的回归方程类型,他求得的回归方程x关于y更适宜作为r+qx+px=y某同学认为(2).^2+10.17x+68.07.经调查,该地11岁男童身高的中位数为y=-0.30x145.3 cm.与(1)中的线是性回归方程比较,哪个回归方程的拟合效果更好?^^^^附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为:b=n--)-y-x)(y ∑(x ii^-^-1i=,a=y-bx.n-2)∑-x (x i1i=10--∑(x-x)(y-y)566.85ii^i1=【解】(1)b==≈6.871≈6.87,1082.50-2)xx-(∑ii1=^-^-a=y-bx=112.45-6.871×5.5≈74.66,^所以y关于x的线性回归方程为y=6.87x+74.66.^^(2)若回归方程为y=6.87x+74.66,当x=11时,y=150.23.^2+10.17x+68.07,当x=11时,yy若回归方程为=-0.30x=143.64.|143.64-145.3|=1.66<|150.23-145.3|=4.93,^2+10.17x+68.07对该地11y所以回归方程=-0.30x岁男童身高中位数的拟合效果更好.求回归直线方程的关键及实际应用^^(1)关键:正确理解计算b,a的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二非线性回归分析(2018·潍坊模拟)某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.811-表中u=,u=∑u.ii8x1i=i d(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费xy(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)^^^附:对于一组数据(w,v),(w,v),…,(w,v),其回归直线v=α+βw的斜率和n2121nn--∑)-vw)(v (w-ii^^-^1i=,α==v-βw.截距的最小二乘估计分别为βn-2∑)w-w(i1i=d【解】(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷x数量x(单位:千册)的回归方程.1(2)令u=,先建立y关于u的线性回归方程,x8--)-y-u)(y∑(u7.049ii^1i=8.96,≈8.957≈由于d==80.787-2)u(u-∑i1i=^-^-所以c =y-d·u=3.63-8.957×0.269≈1.22,^所以y关于u的线性回归方程为y=1.22+8.96u,8.96^所以y关于x的回归方程为y=1.22+.x8.96??+1.22x≥78.840,10(3)假设印刷x 千册,依题意得x-??x所以x≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.求非线性回归方程的步骤确定变量,作出散点图.(1) (2)根据散点图,选择恰当的拟合函数.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归(3)方程.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(4) 根据相应的变换,写出非线性回归方程.(5)命题角度三回归分析与正态分布的综合问题单位:天当中某商品的销售量y(兰州模拟)某地一商场记录了12月份某5 (2018·单位:℃)的相关数据,如下表:kg)与该地当日最高气温x(2 9 8 5 x 11128710y 8^^^ +a;的回归方程y=bx(1)试求y与x试用所6 ℃,x之间是正相关还是负相关;若该地12月某日的最高气温是y(2)判断与求回归方程预测这天该商品的销售量;-22近σ,其中μ近似取样本平均数xX~N(μ,σ,)12(3)假定该地月份的日最高气温2 <13.4).,试求P(3.8<似取样本方差sX 附:参考公式和有关数据nn----?∑∑)yx)(ynxy-(x-xy-iiii?^1ii1===b=?222∑∑)-x (x-nxx ,ii11ii==??-^^nn---x=yb-a2),则P(μ-σ<X<μ+σ)=0.682 7,且P((3.210≈3.2,≈1.8,若X~Nμ,σμ-2σ<X<μ+2σ)=0.954 5.n----【解】(1)由题意,x=7,y=9,∑xy-nxy=287-5×7×9=-28,iii1=n28-^^^--222=12.92.0.56)×7-y-bx=9(-a=-=-n∑x-x=2955×750,b=-0.56,=i501i=^ 12.92.x+y所以所求回归直线方程为=-0.56^代入回归方程可得,x=6x0.56<0(2)由b=-知,y与负相关.将^9.56=,12.9260.56y=-×+.kg9.56 即可预测当日该商品的销售量为1-2σ≈3.2,所以P(3.8<X<13.4)=P(μ-σ<7,X≈s<μ+2σ)=P(μ-知(3)由(1)μ≈x=21σ<X<μ+σ)+P(μ-2σ<X<μ+2σ)=0.818 6.22σ的意义情况下,记清正态分布的密度曲线,解决与正态分布有关的问题,在理解μ是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:^y=-30.4+13.5 t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立^模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.^解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为^y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(以下2种理由,任选其一)(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资^额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t得到的预②年以后的环境基础设施投资额的变化趋势,因此利用模型2010可以较好地描述.测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.统计案例(综合型)[典型例题](2018·福州模拟)某学校八年级共有学生400人,现对该校八年级学生随机抽取50名进行实践操作能力测试,实践操作能力测试结果分为四个等级水平,一、二等级水平的学生实践操作能力较弱,三、四等级水平的学生实践操作能力较强,测试结果统计如下表:等级水平一水平二水平三水平四/名男生6 8 4 12女生/名2864(1)根据表中统计的数据填写下面2×2列联表,并判断是否有95%的把握认为学生实践操作能力强弱与性别有关?实践操作能力较弱实践操作能力较强总计男生/名名女生/总计(2)现从测试结果为水平一的学生中随机抽取4名进行学习力测试,记抽到水平一的男生的人数为ξ,求ξ的分布列和数学期望.下面的临界值表供参考:2)bcad-n(2参考公式:K=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)【解】(1)2×2列联表如下:实践操作能力较弱实践操作能力较强总计30 12 /男生名18/女生名20614 总计26 24 502)1814×(6×12-502252所以K==≈4.327>3.841.5230×20×26×24所以有95%的把握认为学生实践操作能力强弱与性别有关.(2)ξ的取值为0,1,2,3,4.32141234CC3CCC1C8C6664464P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,P(ξ4444C14C21C7C351010101041C4=4)==.4C21010所以ξ的分布列为183418所以E(ξ)=0×+1×+2×+3×+4×==1.6.14217352105独立性检验的关键2,若2×2列联表没有列出来,要先列出此表.×2列联表准确计算K根据(1)22的观测值k越大,对应假设事件H成立的概率越小,H不成立的概率越大.(2)K 00[对点训练] (2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式的把握认为两种生产方式的效率有差异?99%中的列联表,能否有(2)根据(3).2)-bcn(ad2=,附:K)b+dd)(a+c)(b(a+)(c+2≥kK) P(0.050 0.010 0.00110.8286.6353.841 k解:(1)第二种生产方式的效率更高.理由如下:(以下4种理由,任选其一)(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.79+81(2)由茎叶图知m==80.2列联表如下:超过m 不超过m第一种生产方式515第二种生产方式1552)5-5×1540×(×152(3)由于K==10>6.635,所以有99%的把握认为两种生产方20×20×20×20式的效率有差异.一、选择题1.某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将60个同学按01,6列的数开始向右读,则选出的第5行第9进行编号,然后从随机数表第60,…,03,02.个个体是()(注:下表为随机数表的第8行和第9行)6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54A.07B.25D.52C.42解析:选D.依题意得,依次选出的个体分别是12,34,29,56,07,52,…因此选出的第6个个体是52.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.3.(2018·昆明模拟)AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,从一级优(0~50);二级良(51~100);三级轻度污染(101~150);四级中度污染(151~200);直至五级重度污染(201~300);六级严重污染(大于300).如图是昆明市2017年4月份随机抽取10天的AQI茎叶图,利用该样本估计)(月份空气质量优的天数为4年2018昆明市.A.3 B.4D.C.12214解析:选C.从茎叶图知10天中有4天空气质量为优,所以空气质量为优的频率为=1022,所以估计昆明市2018年4月份空气质量为优的天数为30×=12,故选C. 554.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为()A.5 B.7D.50C.10解析:选D.根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.5.(2018·桂林、白色、梧州、崇左、北海五市联考)如图是2017年第一季度五省GDP情况图,则下列陈述正确的是()①2017年第一季度GDP总量和增速均居同一位的省只有1个;②与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长;③去年同期的GDP总量前三位是D省、B省、A省;④2016年同期A省的GDP总量也是第三位..②③④B .①②A.C.②④D.①③④解析:选B.①2017年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2016年同期五省的GDP 总量,可知前三位为D省、B省、A省,故③正确;由③知2016年同期A省的GDP总量是第三位,故④正确.故选B.6.(一题多解)(2018·石家庄质量检测(二))某学校A、B两个班的数学兴趣小组在一次数学对抗赛中的成绩绘制茎叶图如下,通过茎叶图比较两个班数学兴趣小组成绩的平均值及标准差.①A班数学兴趣小组的平均成绩高于B班的平均成绩;②B班数学兴趣小组的平均成绩高于A班的平均成绩;③A班数学兴趣小组成绩的标准差大于B班成绩的标准差;④B班数学兴趣小组成绩的标准差大于A班成绩的标准差.其中正确结论的编号为()A.①③B.①④D.②④C.②③-:由于x=解析:选B.法一A11-=x92+82++95)=78,78+76+74++78+76+81+85+86+8862(53++64B1515--所66,所以x>x,++73+7374+70+83+82+91)=++(45+4851+53+56+6264+65BA以①正确.12222222278)++(74-78)(78+(78-s78)=-[(5378)-+(62-78)+(64-78)78)+(76-A152222222+(95-+(92-(88-78)+(82-+(76-78)78)+(81-78)+(85-78)(86+-78)78)+2]=121.678),12222222266)-++(62-66)-66)+(53-66)-+(5666)(64s=-[(4566)(48+-66)+(51B152222222+(9166)66)-+(82-66)+(73-66)+(74--+(7066)(83+-66)(73-+(6566)+-2]=175.2.66)22故s>s,B班的方差大,则B班的标准差也大,④正确,故选B.AB班的数学成绩较A班;B 班数学兴趣小组的平均成绩明显高于A由茎叶图可知,法二:B.班的方差、标准差较大,故选B班的数学成绩较分散,显然B稳定,大多在70~90分,二、填空题.给出下列四个命题:7名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量52①某班级一共有;46号同学在样本中,那么样本中另一位同学的编号为234的样本,已知7号、33号、为的平均数、众数、中位数都相同;4,5,3,3,②一组数据1,2 ;1,则其标准差为2,2,3的平均数为③若一组数据a,0,1^^^其中,bx④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y=a+^-^-1.=,则b1,y=3a=2,x=.填序号)其中真命题有________(,故抽取的样本的编号分别134=在①中,由系统抽样知抽样的分段间隔为52÷解析:的平均数,5,3,4,①是假命题;在②中,数据1,23为7号、20号、33号、46号,故1中,因是真命题;在③,众数为3,都相同,故②4+5)=3,中位数为33为(1+2++3+6121)-[(-15,解得a=-1,故样本的方差为3为样本的平均数为1,所以a+0+1+2+=52222,标准差为2,故③是假命题;在]=2-1)④+(2-1)-+(31)(0+-1)中,回归直+(1^^--^^-^线方程为y=bx+2,又回归直线过点(x,y),把(1,3)代入回归直线方程y=bx+2,得b=1,故④是真命题.答案:②④8.(2018·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:购买食品的年 2.09 2.15 2.50 2.84 2.92x/万元支出费用购买水果和牛奶的1.25 1.30 1.50 1.70 1.75/万元年支出费用y^^^^^-^-根据上表可得回归直线方程y=bx+a,其中b=0.59,a=y-bx,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为________万元.2.09+2.15+2.50+2.84+2.92-解析:x==2.50(万元),51.25+1.30+1.50+1.70+1.75-y==1.50(万元),5.^^-^-^其中b=0.59,a=y-bx=0.025,y=0.59x+0.025,故年支出费用为3.00万元的家庭^购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=1.795万元.答案:1.7959.某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公1222222]=30.8.-8)+(9-8)=[(0-8)-+(48)++(11-8)(16式可得s5答案:30.8三、解答题10.某校为了解高一学生周末的“阅读时间”,从高一年级中随机抽取了100名学生进行调查,获得了每人的周末“阅读时间”(单位:小时),按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示:(1)求图中a的值;(2)估计该校高一学生周末“阅读时间”的中位数;(3)用样本频率代替概率.现从全校高一年级随机抽取20名学生,其中有k名学生“阅读时间”在[1,2.5)内的概率为P(X=k),其中k=0,1,2,…,20.当P(X=k)最大时,求k的值.解:(1)由频率分布直方图可知,周末“阅读时间”在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,所以1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a+0.5a,解得a=0.30.(2)设该校高一学生周末“阅读时间”的中位数为m小时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5,,0.47<0.5=0.20+0.15+0.08+0.04组的频率之和为4而前所以2≤m<2.5.由0.5×(m-2)=0.5-0.47,解得m=2.06.故可估计该校高一学生周末“阅读时间”的中位数为2.06小时.(3)设在取出的20名学生中,周末“阅读时间”在[1,2.5)内的有X人,则X服从二项分布,即X~B(20,0.6),所以恰好有k名学生周末“阅读时间”在[1,2.5)内的概率为P(X k20kk-(0.4)C(0.6),=k)=20其中k=0,1,2, (20)k20kk-)(0.4(0.6)3(21-kXP(=k)C)20=…,20.,,k=1,2设t==kk1k121---k2)0.40.6)-1()C(P(X=k20若t>1,则k<12.6,P(X=k-1)<P(X=k);若t<1,则k>12.6,P(X=k-1)>P(X=k).P(X=13)3×(21-13)12=又=<1,1313×)X=122P(所以当k=12时,P(X=k)最大.所以k的值为12.11.(2018·石家庄质量检测(二))随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月促销费用(单位:万元)和产品销量(单位:万件)的具体数据.月份 1 2 3 4 5 6 7 8x 促销费用18 2 133 61521104.541 3.5 1 3 5y产品销量2^^^(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程y=bx+a(系数精确到0.01);(2)已知6月份该购物网站为庆祝成立1周年,特制定奖励制度:以z(单位:件)表示日销量,z ∈[1 800,2 000),则每位员工每日奖励100元;z∈[2 000,2 100),则每位员工每日奖励150元;z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量z服从正态分布N(0.2,0.000 1),请你计算某位员工当月奖励金额总数大约多少元.(当月奖励金额总数精确到百分位).参考数据:882,=1y分别为第i个月的促销费用和产品销量,ix,∑∑xy=338.5x=1 308,其中,iiiii1ii1==2),则P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ,(服从正态分布若随机变量…,32,,8.zNμσ<z<μ+2σ)=0.954 5.--,3=y,11=x由题可知(1)解:n--yx-n∑xy338.5-8×11×374.5ii^^1i=得b==≈将数据代入b=0.219≈0.22.n3401218-×1 308-22∑x-ny i1i=^-^-a=y-bx=3-0.219×11≈0.59,^所以y关于x的回归方程为y=0.22x+0.59.(2)由6月份日销量z服从正态分布N(0.2,0.000 1),得0.954 5日销量在[1 800,2 000)的概率为=0.477 25,20.682 7日销量在[2 000,2 100)的概率为=0.341 35,21-0.682 7日销量在[2 100,+∞)的概率为=0.158 65,2所以每位员工当月的奖励金额大约为(100×0.477 25+150×0.341 35+200×0.158 65)×30=3 919.725≈3 919.73(元).12.(2018·南京模拟)某校为了推动数学教学方法的改革,学校将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革.经过一年的教学实验,将甲、乙两个班学生一年来的数学成绩取平均数,两个班学生的平均成绩均在[50,100],按照区间[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,绘制成如下频率分布直方图,规定不低于80分(百分制)为优秀.(1)完成表格,并判断是否有90%以上的把握认为“数学成绩优秀与教学改革有关”;甲班乙班总计大于等于80分的人数分的人数小于80总计(2)从乙班[70,80),[80,90),[90,100]分数段中,按分层抽样随机抽取7名学生座谈,从中选3名学生发言,记来自[80,90)发言的人数为随机变量X,求X的分布列和数学期望.参数数据和公式:2≥k0.0250.05(PK 0.10 )0.k 2.706 3.841 5.024 02)bcad-n(2K=(a+b)(c+d)(a+c)(b+d)解:(1)补全表格如下:甲班乙班总计分的人数大于等于8032 2012 分的人数小于8048 28 2080 40 40总计2)×2020-2880×(12×2依题意得K=≈3.333>2.706,40×40×32×48故有90%以上的把握认为“数学成绩优秀与教学改革有关”.(2)从乙班[70,80),[80,90),[90,100]分数段中抽取的人数分别为2,3,2,依题意随机变量X的所有可能取值为0,1,2,3,1232131CCCCC124C18343344P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,3333C35C35C35C357777其分布列如下表:418121459所以E(X)=0×+1×+2×+3×==.35353535357。
2021高考数学二轮复习专题限时集训《统计与统计案例》
专题限时集训(六)统计与统计案例[专题通关练](建议用时:20分钟)1.[新题型:多选题]下列说法中正确的是()A.先把高三年级的2 000名学生编号:1到2 000,再从编号为1到50的50名学生中随机抽取1名学生,其编号为m,然后抽取编号为m+50,m+100,m+150,…的学生,这样的抽样方法是系统抽样法B.线性回归直线y^=b^x+a^不一定过样本中心点(x,y)C.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1D.若一组数据1,a,3的平均数是2,则该组数据的方差是2 3AD[对于A,先把高三年级的2 000名学生编号:1到2 000,再从编号为1到50的50名学生中随机抽取1名学生,其编号为m,然后抽取编号为m+50,m+100,m+150,…的学生,这样的抽样方法是系统抽样,故A项正确;对于B,线性回归直线y^=b^x+a^一定过样本中心点(x,y),故B项错误;对于C,若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故C项错误;对于D,若一组数据1,a,3的平均数是2,则a=2,则该组数据的方差是1 3×[](1-2)2+(2-2)2+(3-2)2=23,故D项正确,故选AD.]2.[重视题](2019·青岛一模)调查机构对某高科技行业进行调查统计,得到该行业从业者学历分布饼状图、从事该行业岗位分布条形图,如图所示.给出下列三种说法:①该高科技行业从业人员中学历为博士的占一半以上;②该高科技行业中从事技术岗位的人数超过总人数的30%;③该高科技行业中从事运营岗位的人员主要是本科生,其中正确的个数为( )A .0个B .1个C .2个D .3个C [在①中,由该行业从业者学历分布饼状图得到:该高科技行业从业人员中学历为博士的占一半以上,故①正确;在②中,由从事该行业岗位分布条形图得到:该高科技行业中从事技术岗位的人数超过总人数的30%,故②正确;在③中,由该行业从业者学历分布饼状图、从事该行业岗位分布条形图,无法得到该高科技行业中从事运营岗位的人员主要是本科生,故③错误.故选C.]3.(2019·郑州二模)将甲、乙两个篮球队5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是( )A .甲队平均得分高于乙队的平均得分B .甲队得分的中位数大于乙队得分的中位数C .甲队得分的方差大于乙队得分的方差D .甲乙两队得分的极差相等C [对于A ,甲的平均数为15(29+28+26+31+31)=29,乙的平均数为15(28+29+30+31+32)=30,故A 错误.对于B ,甲队得分的中位数是29,乙队得分的中位数是30,故B 错误; 对于C ,甲成绩的方差为:s 2=15×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=185.乙成绩的方差为:s 2=15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2.可得甲队得分的方差大于乙队得分的方差,故C 正确;对于D ,甲的极差是31-26=5,乙的极差是32-28=4,两者不相等,故D 错误.故选C.]4.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴线性回归方程为y^=4x +70. 将x =24代入上式,得y^=4×24+70=166.故选C.]5.(2019·新余模拟)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是27,则男运动员应抽取 ( )A .18人B .16人C .14人D .12人B [∵田径队共有运动员98人,其中女运动员有42人,∴男运动员有56人,∵每名运动员被抽到的概率都是27,∴男运动员应抽取56×27=16(人),故选B.]6.(2018·聊城市一模)某工厂从生产的一批产品中随机抽出一部分,对这些产品的一项质量指标进行了检测,整理检测结果得到如下频率分布表:144[由题意得这批产品的此项质量指标的平均数为20×0.1+40×0.6+60×0.3=44,故方差为(20-44)2×0.1+(40-44)2×0.6+(60-44)2×0.3=144.][能力提升练](建议用时:15分钟)7.某球迷为了解A,B两支篮球队的攻击能力,从某赛季常规赛中随机调查了20场与这两支篮球队有关的比赛.两队所得分数分别如下.A篮球队:122110105105109101107129115100114 118118104931209610210583B篮球队:11411411010810311793124751069181 10711210710110612010779(1)根据两组数据完成两队所得分数的茎叶图,并通过茎叶图比较两支篮球队所得分数的平均值及分散程度(不要求计算出具体值,得出结论即可);(2)根据篮球队所得分数,将篮球队的攻击能力从低到高分为三个等级,如下表所示.设两支篮球队的攻击能力相互独立,根据所给数据,视事件发生的频率为相应事件发生的概率,求事件C发生的概率.[解](1)两队所得分数的茎叶图如图.通过茎叶图可以看出,A篮球队所得分数的平均值高于B篮球队所得分数的平均值;A篮球队所得分数比较集中,B篮球队所得分数比较分散.(2)记C A1表示事件:“A篮球队的攻击能力等级为较强”.C A2表示事件:“A篮球队的攻击能力等级为很强”.C B1表示事件:“B篮球队的攻击能力等级为较弱”.C B2表示事件:“B篮球队的攻击能力等级为较弱或较强”.则C A1与C B1为相互独立事件,C A2与C B2为相互独立事件,C A1与C A2为互斥事件,C=(C A1C B1)∪(C A2C B2).P(C)=P(C A1C B1)+P(C A2C B2)=P(C A1)P(C B1)+P(C A2)P(C B2).由所给数据得C A1,C A2,C B1,C B2发生的频率分别为710,320,14,910,故P(C A1)=710,P(C A2)=320,P(C B1)=14,P(C B2)=910,P(C)=710×14+320×910=0.31.8.[重视题]某市房管局为了了解该市市民2018年1月至2019年1月期间购买二手房情况,首先随机抽样其中200名购房者,并对其购房面积m(单位:平方米,60≤m≤130)进行了一次调查统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年1月至2019年1月期间当月在售二手房均价y(单位:万元/平方米),制成了如图2所示的散点图(图中月份代码1至13分别对应2018年1月至2019年1月)(1)试估计该市市民的平均购房面积m ;(2)从该市2018年1月至2019年1月期间所有购买二手房的市民中任取3人,用频率估计概率,记这3人购房面积不低于100平方米的人数为X ,求X 的分布列与数学期望;(3)根据散点图选择y ^=a ^+b ^x 和y ^=c ^+d ^ln x 两个模型进行拟合,经过数据处理得到两个回归方程,分别为y ^=0.936 9+0.028 5x 和y ^=0.955 4+0.030 6ln x ,并得到一些统计量的值,如表所示:y^=0.936 9 +0.028 5x y^=0.955 4+ 0.030 6ln x ∑13i =1(y i -y ^i )20.000 5910.000 164∑13i =1(y i -y )2 0.006 050型预测2020年6月份的二手房购房均价(精确到0.001).参考数据:ln 2≈0.69,ln 3≈1.10,ln 10≈2.30,ln 19≈2.94,2≈1.41,3≈1.73,10≈3.16,19≈4.36.参考公式:R 2=1-∑ni =1(y i -y ^i )2∑ni =1(y i -y )2.[解] (1)m =65×0.05+75×0.1+85×0.2+95×0.25+105×0.2+115×0.15+125×0.05=96.(2)每一位市民购房面积不低于100平方米的概率为0.20+0.15+0.05=0.4, ∴X ~B (3,0.4),∴P (X =k )=C k 3×0.4k ×0.63-k ,(k =0,1,2,3), P (X =0)=0.63=0.216,P (X =1)=C 13×0.4×0.62=0.432, P (X =2)=C 23×0.42×0.6=0.288,P (X =3)=0.43=0.064, ∴X 的分布列为:∴E (X )=3×0.4=1.2.(3)设模型y^=0.936 9+0.028 5x 和y ^=0.955 4+0.030 6ln x 的相关指数分别为R 21,R 22,则R 21=1-0.000 5910.006 05,R 22=1-0.000 1640.00 605,∴R 21<R 22,∴模型y^=0.955 4+0.030 6ln x 的拟合效果更好, 2020年6月份对应的x =30,∴y ^=0.955 4+0.030 6ln 30=0.955 4+0.030 6(ln 3+ln 10)≈1.059万元/平方米.内容押题依据独立性检验、离散型随机变量的期望、概率的计算以图表的形式呈现数据,符合高考的命题模式,与期望、概率交汇命题体现了高考命题的特点彰显出中国式创新的强劲活力.某移动支付公司从我市移动支付用户中随机抽取100名进行调查,得到如下数据:每周移动支付次数123456及其以上男10873215女5464630合计1512137845成下列2×2列联表,并判断能否在犯错误的概率不超过0.005的前提下,认为是否为“移动支付活跃用户”与性别有关?非移动支付活跃用户移动支付活跃用户合计男女合计频率为概率,在我市所有“移动支付达人”中随机抽取4名用户.①求抽取的4名用户中,既有男“移动支付达人”,又有女“移动支付达人”的概率;②为了鼓励男性用户使用移动支付,对抽出的男“移动支付达人”每人奖励300元,记奖励总金额为X,求X的分布列及数学期望.附公式及表如下:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解] (1)由表格数据可得2×2列联表如下: K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(25×40-15×20)240×60×55×45=2 450297≈8.249>7.879.所以在犯错误的概率不超过0.005的前提下,能认为是否为“移动支付活跃用户”与性别有关.(2)视频率为概率,在我市“移动支付达人”中随机抽取1名用户,该用户为男“移动支付达人”的概率为13,女“移动支付达人”的概率为23.①抽取的4名用户中,既有男“移动支付达人”,又有女“移动支付达人”的概率为P =1-⎝ ⎛⎭⎪⎫134-⎝ ⎛⎭⎪⎫234=6481.②记抽出的男“移动支付达人”人数为Y ,则X =300Y .由题意得Y ~B ⎝ ⎛⎭⎪⎫4,13,P (Y =0)=C 04⎝ ⎛⎭⎪⎫130⎝ ⎛⎭⎪⎫234=1681; P (Y =1)=C 14⎝ ⎛⎭⎪⎫131⎝ ⎛⎭⎪⎫233=3281;P (Y =2)=C 24⎝ ⎛⎭⎪⎫132⎝ ⎛⎭⎪⎫232=2481; P (Y =3)=C 34⎝⎛⎭⎪⎫133⎝ ⎛⎭⎪⎫231=881; P (Y =4)=C 44⎝ ⎛⎭⎪⎫134⎝ ⎛⎭⎪⎫230=181. 所以Y 的分布列为所以由E (Y )=4×13=43,得X 的数学期望E (X )=300E (Y )=400.。
高考数学二轮复习专题突破—统计与统计案例(含解析)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
(典型题)高考数学二轮复习知识点总结统计与统计案例.docx
统计与统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等; 有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题, 都属于屮低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成儿层,分层进行抽取,适用范围:总体由差异明显的儿部分组成.2.常用的统计图表(1)频率分布直方图、频率①小长方形的面积=组距X 忒=频率;②各小长方形的面积之和等于1;—频率1③小长方形的高=猛,所有小长方形的高的和为丽.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好.3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数一一一(2)方差:『=_[(/]—X )2+(A2—x )2------ (乙一x}2}.n标准崔X\— X 2+ X2— X 2 F X n — X 2]. 4. 变量的相关性与最小二乘法(1) 相关关系的概念、正相关和负相关、相关系数.(2) 最小二乘法:对于给定的一组样本数据(xi, yi ),(丸,乃),…,(尢,%),通过求0=工(yi —a —bx )'最小时,得到线性回归方程尸=加+日的方法叫做最小二乘法. /=15. 独立性检验对于取值分别是3,屈和5, y 』的分类变量尤和『,其样本频数列联表是:71Y2 总计ab a+b X2C d c+d 总计a+cb+dn则心宀 U+c W (•其中心++十为样本容量)•考点一抽样方法.例1. (2012・山东)采用系统抽样方法从960人屮抽取32人做问卷调查,为此将他们随机 编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到 的32人中,编号落入区间[1,450]的人做问卷编号落入区间[451, 750]的人做问卷B, 英余的人做问卷C 则抽到的人中,做问卷〃的人数为()9,39,69, 939.落入区间[451,750]的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有刀项,显然有729 = 459+(/7—1)X30,解得刀=10.所以做 问卷〃的有10人.I 冋=f ■在系统抽样的过程屮,要注意分段间隔,需要抽取儿个个体,样本就需要分 成儿个组,则分段间隔即点N 为样本容量),首先确定在第一组中抽取的个体的号码 n数,再从后面的每组屮按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样 方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的, 都等于样本容量和总体容量的比值.A. 7B. 9 答案CC. 10D. 15解析由系统抽样的特点知:抽取号码的间隔为96032= 30,抽取的号码依次为因(1) (2013 •江西)总体由编号为01,02, 19,20的20个个体组成,利用下而的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A. 08(2)某单位200名职工的年龄分布悄况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1〜200编号,并按编号顺序平均分为40组仃〜5号,6〜10号,196〜200号).若第5组抽出的号码为22,则第8组抽出的号码应是.若用分层抽样方法,则40岁以下年龄段应抽収人.答案(1)D (2)37 20解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08, 02, 14,07,01,所以第5个个体编号为01.(2)由分组可「知,抽号的间隔为5,又因为第5组抽出的号码为22,即第〃组抽取的号码为5/7—3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200X0. 5 = 100,40则应抽取的人数为丽X 100 = 20人.考点二用样本估计总体.例2. (1) (2013・四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为「5将数据分组成[0, 5), [5, 10),…,[30, 35), [35, 40] 时,所作的频率分布直方图是()(2) (2013 •江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:坏),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为_________ .答案(1)A (2)2解析(1)由于频率分布直方图的组距为5,去掉C、D,又[0, 5), [5,10)两组各一人,去掉B,应选A.— 1(2) 一卩==(87 + 91+90 + 89+93)=90,□—— 1x乙==(89 + 90 + 91+88 + 92) =90,b品=占[(87 — 90)?+(91-90)1 2+ (90-90)2+ (89-90)2+ (93-.90)2] =4,5s2=g[(89 —90尸+ (90-90)2+ (91-90)2+ (88-90)2+ (92-90)2] =2.5(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小, 高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:(2, 4), (2, 5), (2, 6), (3, 4), (3,5), (3, 6), (4, 5), (4, 6), (5, 6),共15 个,其中至少有一个在1 求参赛总人数和频率分布直方图中[80, 90)之间的矩形的高,并完成直方图;2 若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90, 100]之间的概率.解(1)由茎叶图知,分数在[50, 60)之间的频数为2.由频率分布直方图知,分数在[50, 60)之间的频率为0. 008X10 = 0.0&2所以参赛总人数为両=25 (人).分数在[80, 90)之间的人数为25 — 2 — 7—10 — 2=4(人),4分数在[80,90)Z间的频率为亦=0・16,得频率分布直方图中[80, 90)间矩形的高为晋=0. 016.完成直方图,如图.(2)将[80, 90)之间的4个分数编号为1, 2, 3,4;[90, 100]之间的2个分数编号为5和6.则在[80,100]之间任取两份的基本事件为(1,2), (1,3), (1,4), (1,5), (1,6), (2, 3),[90,100]之间的基本事件为(1,5), (1,6), (2,5), (2, 6), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6),共9 个.9 3故至少有一份分数在[90, 100] Z间的概率考点三统计案例.例3. (2013 •重庆)从某居民区随机抽取10个家庭,获得第,个家庭的月收入农(单位:千10 10 10 10元)与月储蓄匕(单位:千元)的数据资料,算得为上=80,为y,=20,为乂匕=1.84,为¥ /=1 /=12=1 2=1 7=720.(1)求家庭的月储蓄y对月收入/的线性回归方程y=bx+a,(2)判断变量龙与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.n _ _^XiYi—n x yi= I _ _____ _______ ___ 附:线性回归方程y= bx+ a中,b= ----------------- , a= y ~b x ,其中x , y为n __匸2 22^x~n x7=1样本平均值,线性回归方程也可写为y=bx+a.__ | n80解⑴由题意知〃=io, / =-yx=—=8, 刀「10又人=工£一〃^ 2=720-10X82 = 80,2 = 1厶》・=1>必一刀x y =184-10X8X2 = 24, /=i由此得力3,a=~-b T=2-0. 3X8=-0. 4,故所求线性回归方程为y=0. 3^-0. 4.(2)由于变量y的值随x值的增加而增加(方=0. 3>0),故/与F 之间是正相关.(3)将x=l 代入回归方程可以预测该家庭的月储蓄为y=0. 3X7-0. 4 = 1. 7(千元). (1)对具有线性相关关系的两个变量.可以用最小二乘法求线性回归方程,求方是关键,X XL X //— y ^Xiy —n x y■ /=1 J=1 其中b= ----------------------- = ---------------n __ n _ V 1 2 P 2 2 , Xi — x 2^Xi —n x /= i /= i⑵在利用统计•变量航进行独立性检验时,应该注意数值的准确代入和正确汁算, 最后把计算的结杲与有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性別有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”⑵已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y=0. 95^+a,则日等于()A. 1.30B. 1.45C. 1.65 0. 1.80EX60X50X60X50〜7.&答案(1)C (2)B解析(1)根据独立性检验的定义,由斤(塔)~7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.—1(2)依题意得,x =^*X (0+1+4 + 5 + 6+8) =4,6—— 1y =-(1. 3 + 1. 8+5. 6 + 6. 1+7. 4 + 9. 3) =5. 25;又直线y=0.95/+自必过样本点中心(匸,~),即点(4, 5. 25),于是有5. 25 = 0. 95X4+日,由此解得曰=1.45.1.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、屮位数及平均数的异同众数、屮位数及平均数都是描述一组数据集屮趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.—1 “①总体期望的估计,计算样本平均值X②总体方差(标准差)的估计:方差=2若](尢一% )2,标准差=7方差,方差(标准差)较小者较稳定.2.线性回归方程y =b x+a过样本点中心(匚,丁),这为求线性回归方程带来很多方便.3.独立性检验⑴作出2X2列联表.(2)计算随机变量#(疋)的值.(3)查临界值,检验作答.1.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学屮有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ()A. 6B. 18C. 30D. 54答案C解析 由题意设全班学生为/人,持“喜欢”、“不喜欢”和“一般”态度的学生分别 占全班人数的害、*、所以%(|-|)=12,解得%=54,所以全班持“喜欢”态度的人 数为54X :=30.故选C.2. 某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数) 分成六段[40,50), [50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频 率分布直方图中的信息,估计出本次考试数学成绩的平均分为 _______________ .答案71解析 由频率分布直方图得每一组的频率依次为0. 1, 0. 15, 0. 15, 0. 3, 0. 25, 0. 05,又由 频率分布直方图,得每一组数据的中点值依次为45, 55, 65, 75, 85, 95.所以本次考试数学成绩的平均分为匚=45X0. 1 +55X0. 15 + 65X0. 15 + 75X0.3 +85X0. 25+95X0. 05 = 71.故填71.随机抽取某川学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.(1) 根据茎叶图判断哪个班的平均身高较高; (2) 计算甲班的样本方差;(3) 现从乙班这10名同学中随机抽取两名身高不低于173 cm的同学,求身高为176 cm 的同学被抽屮的概率.解(1)由茎叶图可知:甲班身高集中于160 cm 〜179 cm 之间,而乙班身高集中于170cm 〜180 cm 之间,因此乙班平均身高高于甲班,其中 — 158+162 + 163+168+168+170+171 + 179+179+182 x 甲== 170, —159+162 + 165+168 + 170+173 + 176+178+179+18110= 171. 1.(2)甲班的样本方差为±[(158 — 170)2+(]62_i70)2+ (163- 170)2+ (168~170)2 + (168-170)2+ (170-170)2+(171-170)2+ (179-170)2+ (179-170)2+ (182-170)2]甲班2 18 9 9 10 17 8 83 216 815 3. 10 乙班10 3 6 8 9 2 5 8 9= 57. 2.(3)设身高为176 cm 的同学被抽中的事件为/L从乙班10名同学中抽取两名身高不低于173 cm 的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178, 173)、(178,176)、 (176,173),共10个基本事件,而事件含有4个基本事件,(推荐时间:60分钟)一、选择题1. 要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取L 000根火腿肠进行“瘦 肉精”检测;②从某屮学的15名艺术特长生屮选出3人调查学习负担情况.适合采用 的抽样方法依次为()A. ①用分层抽样,②用简单随机抽样B. ①用系统抽样,②用简单随机抽样C. ①②都用系统抽样D. ①②都用简单随机抽样答案B解析 ①屮总体容量较大,且火腿肠Z 间没有明显差异,故适合采用系统抽样;②屮总 体容量偏小,故适合采用简单随机抽样.2. (2012・四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况, 对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为M 其屮 甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为 12, 21,25, 43,则这四个社区驾驶员的总人数艸为()A. 101B. 808C. 1 212D. 2 012答案B12解析由题意知抽样比为花,而四个社区一共抽取的驾驶员人数为12 + 21+25+43 = 101,故有||=¥,解得/V=808.3. (2013 •福建)某校从高一年级学生中随机抽取部分学生.,将他们的模块测试成绩分成6 组:[40,50), [50, 60), [60,70), [70, 80), [80, 90), [90,100]加以统计,得到如图 所示的频率分布直・・・P(A)=£2方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A. 588B. 480C. 450D. 120答案B解析少于60分的学生人数600X (0. 05 + 0. 15) = 120(人),・・・不少于60分的学生人数为480人.4.甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为匚甲,匚乙,则下列判断正确的是()A.匚甲>7乙;甲比乙成绩稳定甲〉匚乙;乙比甲成绩稳定C. "7甲<7乙;甲比乙成绩稳定乙比甲成绩稳定答案D解析由茎叶图可知—17+16 + 28 + 30 + 34*,1,= 5 斗5,—15 + 28+26 + 28 + 33x乙= z =26,oX甲〈X乙.又昴=g[「(17—25尸+ (16-25)2+ (28-25)2+ (30-25)2+ (34-25)2] =52,s:=£[(15-26)2+ (28-26)2+ (26~26)2+ (28-26)2+ (33-26)2] =35. 6,・・・乙比甲成绩稳定.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{/},若心=8,且越,彷成等比数列,则此样本的平均数和中位数分别是( )A. 13, 12B. 13, 13C. 12, 13D. 13, 14答案B解析设等差数列{/}的公差为〃(件0), $3=8,血戲=£=64, (8 — 2小(8+4小=64, (4 — / (2 +小=& 2〃一扌=0 ,又,故d = 2 ,故样本数据为+ 12 + 14 4,6, & 10, 12, 14, 16, 18,20,22,样本的平均数为------- ----- =13,中位数为一= 13,故选B.6.2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设弘:“这种试剂不能起到检测出塑化剂的作用”,并计算出635)=0. 01.对此,四名同学做出了以下的判断:P:有99%的把握认为“这种试剂能起到检测出塑化的作用”;q:随意抽出一组食品,它有99%的可能性添加了塑化剂;z、:这种试剂能检测出塑化剂的有效率为99%;s:这种试剂能检测出塑化剂的有效率为1%.则下列命题中为真命题的是()A. p/\qB.絲pf\qC.(綁门/\繍g)/\ (八/s)D・(pV 1^) A (^J s)答案D解析提出假设拄“这种试剂不能起到检测出塑化剂的作用”,并计算出戶(於26. 635)=0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题刀,厂为真命题,q, s为假命题,依据复合命题的真值表可知D 为真命题.二、填空题7.(2013 •湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1) ________________________ 直方图屮x的值为;(2) ___________________________________________________ 在这些用户中,用电量落在区间[100, 250)内的户数为__________________________________ .答案(1)0.004 4 (2) 70解析(1)(0.002 4+0. 003 6 + 0. 006 0+x+0. 002 4 + 0. 001 2) X50 = l,・・」= 0.004 4.(2)(0. 003 6 + 0. 004 4+0. 006 0)X50X100=70.8.下表提供了某厂节能减排技术改造后在生产/产品过程屮记录的,产量*吨)与相应的生产能耗y(吨)的几组对应数据:根据上表提供的数据,求出F 关于x 的线性回归方程为y=0.7%+0.35,那么表中广的 值为 . 答案3解析二•样本点屮心为(4.5,耳勺, ・・・斗二=0. 7X4. 5+0. 35,解得 t='3.9. 某校高三考生参加某高校自主招生面试时,五位评委给分如下:9. 0 9. 18.9 9.2 8.8则五位评委给分的方差为 ________ . 答案0.02解析评委给分的平均数为|x (9. 0 + 9. 1 + & 9 + 9. 2 + & 8) =9. 0, □方差为[(9. 0-9. 0)2+ (9. 1 -9. 0)2+ (8. 9-9. 0)2+(9. 2-9. 0)2+ (8. 8-9. 0)2]=50. 1匕~=0. 02. 510. 某校开展“爱我海西、爱我家乡•”摄影比赛,9位评委为参赛作品 A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分 后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中 的x)无法看清,若 记分员计算无误,则数字x 应该是 __________ . 答案1"4, •严+ 刖 + 92 + 9吁92 + 9++90 = 9], •I /=1・三、解答题11. (2013 •陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:(1)为了调查评委对7位歌手的支持情况,现用分层抽样方法从各组中抽取若干评委, 其中从〃组中抽取了 6人.请将其余各组抽取的人数填入下表.解析 当心时,叭叭吗畀92 + 91 + 9、字切,(2)在(1)中,若力,〃两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委屮分别任选1人,求这2人都支持1号歌手的概率.解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:b\,厶}屮各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的冇Si b\,日厶,,观厶4 9共4种,故所求概率7°=—=^.12.(2012 •辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时I'可的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷” 有10名女性.(1)根据己知条件完成下面的2X2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.0. 050.01 k3. 8416. 635解 ⑴由频率分布直方图可知,在抽収的100人中「体育迷”有25人,从而完成2X2 列联表如下:非体育迷体育迷 合计男 30 15 45 女 45 10 55 合计7525100将2X2列联表中的数据代入公式计算,得100=33 心3. 030.因为3. 030<3. 841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本 事件空间为 Q={@1,戲),仙,3:i) ,(0,辺3),(0,方J , (21, &) , (^2, bl),(臼2, &),(日3, b\),(臼3,Z>2), (bi, &)},其中么表不男性,7 = 1, 2, 3,伤表不女性,j — 1, 2. Q 由10个基本事件组成,而且这些基本事件的出现是等可能的.用ZI 表示“任选2人中,至少有1人是女性”这一事件,则A= {(<<?], Z?l) , (&, bz),(日2, 5),(日2,血),@3, bl) , (t?3, bz) , (Z?l, bl)},事件/7rti 7个基本事件组成,因而P (A )=—附:75X25X45X55。
新高考数学(理)二轮复习专题专练:专题七_第三讲统计、统计案例(含答案解析)
专题七概率与统计、推理与证明、算法初步、框图、复数第三讲统计、统计事例一、选择题1.以下说法:①一组数据不行能有两个众数;②一组数据的方差一定是正数;③一组数据中的每个数据都加上或减去同一常数后,方差恒不变;④在频次散布直方图中,每个小长方形的面积等于相应小组的频次.此中错误的个数是()A.0 个B.1 个C.2 个D.3 个分析:①②错误,一组数据中能够有多个众数,故①错误;一组数据的方差能够为零,故②错误.答案:C2.某班 50 名学生在一次百米测试中,成绩所有介于13 秒与 18 秒之间,将测试结果分红五组:每一组 [13 ,14);第二组 [14 ,15),,第五组 [17 ,18].以下图是按上述分组方法获得的频次散布直方图,若成绩大于或等于 14 秒且小于 16 秒认为优秀,则该班在此次百米测试中成绩优秀的人数是()A .25B.26C.27D. 28答案: C3.在研究某种新药对鸡瘟的防治成效问题时,获得了以下数据:活鸡数死亡数共计新药13218150比较11535150共计24753300以下结论中正确的一项为哪一项 ()A .有 95%的掌握认为新药对防治鸡瘟有效B .有 99%的掌握认为新药对防治鸡瘟有效C.有 99.9%的掌握认为新药对防治鸡瘟有效D.没有充足凭证显示新药对防治鸡瘟有效分析: K22300 ×(132 ×35-115 ×18)2(χ≈ 6.623.)=247× 53×150× 150由于 6.623> 3.841,因此有95%的掌握认为新药防治鸡瘟有效.答案: A4. (2014 重·庆卷 )已知变量 x 与 y 正有关,且由观察数据算得样本均匀数--=x= 3, y3.5,则由该观察的数据算得的线性回归方程可能是()^= 0.4x+ 2.3^= 2x-2.4A.yB.y^=- 2x+ 9.5^+ 4.4C.yD.y =- 0.3x分析:由于变量x 与 y 正有关,因此清除选项C、 D,又由于回归直线必过样本中心点 (3, 3.5),代入查验知,只有直线 y= 0.4x+ 2.3 过点 (3 ,3.5).应选 A.答案: A5.以下图表示甲、乙两名篮球运动员每场竞赛得分状况的茎叶图,则甲和乙得分的中位数的和是 ()A .56 分B.57 分C.58 分D.59 分分析:由茎叶图知甲的中位数是32,乙的中位数是25,故甲,乙得分的中位数的和是 57.答案: B6.在样本的频次散布直方图中,一共有m(m≥ 3)个小矩形,第3 个小矩形的面积等于其他m- 1 个小矩形面积之和的14,且样本容量为100,则第 3 组的频数是()A .0.2B.25C. 20 D .以上都不正确分析:第 3 组的频次是15,样本容量为100,1∴第 3 组的频数为100×= 20.5答案: C二、填空题7.某校甲、乙两个班级各有 5 名编号为1, 2, 3, 4,5 的学生进行投篮练习,每人投 10 次,投中的次数见下表:学生 1 号 2 号 3 号 4 号 5 号甲班67787乙班67679则以上两组数据的方差中较小的一个为s2= ________.分析:考察统计中的均匀值与方差的运算.甲班的方差较小,数据的均匀值为7,2( 6-7)2+ 02+ 02+( 8- 7)2+ 022故方差 s == .55 2答案:58.以下是某厂 1~ 4 月份用水量 (单位:百吨 )的一组数据:月份 x1234用水量 y 4.543 2.5由其散点图知,用水量 y 与月份 x 之间有较好的线性有关关系,其线性回归方程是^ y=-0.7x + a,则 a=________.分析: x=2.5, y=3.5,-∴ a= y- b x = 3.5- (- 0.7) ×2.5= 5.25.答案: 5.25三、解答题9.某班主任对全班50 名学生学习踊跃性和对待班级工作的态度进行了检查,统计数据以下表所示:踊跃参加班不太主动参加班级工共计级工作作学习踊跃性高18725学习踊跃性一般61925共计242650(1)假如随机抽查这个班的一名学生,那么抽到踊跃参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习踊跃性一般的学生的概率是多少?(2)试运用独立性查验的思想方法剖析:学生的学习踊跃性与对待班级工作的态度能否有关系?并说明原因.( 参照下表 )22χP[K () ≥k 0.500.400.250.150.100.050.025 0.010 0.005 0.001]k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.63510.82 7.8798分析: (1)踊跃参加班级工作的学生有24 人,总人数为50 人,概率为24=12;不太主5025动参加班级工作且学习踊跃性一般的学生有19 人,概率为19 50 .2250×(18×19- 6×7)2≈11.5,∵ K 22(χ= 150(χ的掌握认为(2)K)=25×25× 24×2613)> 6.635,∴有 99%学习踊跃性与对待班级工作的态度有关系.10.某良种培养基地正在培养一种小麦新品种 A ,将其与原有的一个优秀品种 B 进行比较试验,两种小麦各样植了25 亩,所得亩产数据(单位:千克 )以下: .品种 A :357, 359, 367, 368, 375, 388, 392, 399, 400, 405, 412, 414, 415,421, 423,423, 427, 430, 430, 434, 443, 445, 445, 451, 454.品种 B : 363, 371, 374, 383, 385, 386, 391, 392, 394, 394, 395, 397, 397,400, 401,401, 403, 406, 407, 410, 412, 415, 416, 422, 430.(1)画出茎叶图.(2)用茎叶图办理现有的数据,有什么长处?(3)察看茎叶图,对品种 A 与 B 的亩产量及其稳固性进行比较,写出统计结论.分析: (1)茎叶图以以下图所示:(2) 用茎叶图办理现有的数据不单能够看出数据的散布状况,并且能够看出每组中的具体数据.(3)经过察看茎叶图,能够发现品种 A 的均匀每亩产量为 411.1 千克,品种 B 的均匀亩产量为397.8 千克.由此可知,品种 A 的均匀亩产量比品种 B 的均匀亩产量高.但品种A 的亩产量不够稳固,而品种 B 的亩产量比较集中在均匀产量邻近.。
高考数学二轮复习 统计与统计案例专题训练(含解析)
【状元之路】2015版高考数学二轮复习 统计与统计案例专题训练(含解析)一、选择题1.(2014·四川卷)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本解析 由题目条件知5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.答案 A2.(2014·重庆卷)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250解析 由分层抽样的特点可知703 500=n3 500+1 500,解之得n =100. 答案 A3.(2014·广东卷)为了解 1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20解析 由系统抽样的定义知,分段间隔为1 00040=25.故答案为C .答案 C4.为了了解某校高三学生的视力情况,随机抽查了该校100名高三学生的视力情况,得到频率分布直方图,如图所示,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a ,视力在4.6到5.0之间的学生人数为b ,则a ,b 的值分别为( )A .0.27,78B .0.27,83C .2.7,84D .2.7,83解析 前4组的频数成等比数列,由图知:第一组的频率是0.01,故第一组有1名学生;第二组的频率为0.03,故第二组有3名;所以第三组有9名,第四组有27名.所以后6组共87名学生,设最后一组人数为x ,则27+x 2×6=87,解得x =2,故公差d =2-275=-5,所以a =27100=0.27,倒数第二组人数为7,则b =87-2-7=78.故选A .答案 A5.对于下列表格所示的五个散点,已知求得的线性回归直线方程为y ^=0.8x -155.x 196 197 200 203 204 y1367m则实数m 的值为( A .8 B .8.2 C .8.4D .8.5解析 本题主要考查统计的相关知识,意在考查考生的运算求解能力.依题意得x -=15(196+197+200+203+204)=200,y -=15(1+3+6+7+m)=17+m 5,回归直线必经过样本中心点(x -,y -),于是有17+m5=0.8×200-155,由此解得m =8,选A .答案 A6.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc 2a +bc +d a +cb +d算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的思想方法,正确选项为C . 答案 C 二、填空题7.从编号为0,1,2,…,79的80件产品中,采用系统抽样的方法抽取容量是5的样本,若编号为28的产品在样本中,则该样本中产品的最大编号为________.解析 根据系统抽样的特点,共有80个产品,抽取5个样品,则可得组距为805=16,又其中有1个为28,则与之相邻的为12和44,故所取5个依次为12,28,44,60,76,即最大的为76.答案 768.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生人数是________.解析 因为(0.002+0.006+0.012)×10×200=40,40x =2003 000,所以x =600.故在该次数学考试中成绩小于60分的学生人数是600.答案 600 9.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.(1)若第1组抽出的号码为2,则所有被抽出职工的号码为________;(2)分别统计这5名职工的体重(单位:公斤),获得体重数据的茎叶图如图所示,则该样本的方差为________.解析 (1)由题意知被抽出职工的号码为2,10,18,26,34. (2)由茎叶图知5名职工体重的平均数x -=59+62+70+73+815=69,则该样本的方差s 2=15[(59-69)2+(62-69)2+(70-69)2+(73-69)2+(81-69)2]=62.答案 (1)2,10,18,26,34 (2)62 三、解答题10.(2014·课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数; (2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部分评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.11.(2014·课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解 (1)(2)质量指标值的样本平均数为x -=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.B级——能力提高组1.(2014·郑州一模)PM2.5是指大气中直径小于或等于 2.5微米的颗粒物,也称为可入肺颗粒物.如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( )A.甲B.乙C.甲、乙相等D.无法确定解析从茎叶图上可以观察到:甲监测点的样本数据比乙监测点的样本数据更加集中,因此甲地浓度的方差较小.答案A2.(理)(2014·贵州六校联考)某校学习小组开展“学生语文成绩与外语成绩的关系”的课题研究,对该校高二年级800名学生上学期期末语文和外语成绩,按优秀和不优秀分类得结果:语文和外语都优秀的有60人,语文成绩优秀但外语不优秀的有140人,外语成绩优秀但语文不优秀的有100人.(1)能否在犯错概率不超过0.001的前提下认为该校学生的语文成绩与外语成绩有关系?(2)将上述调查所得的频率视为概率,从该校高二年级学生成绩中,有放回地随机抽取3名学生的成绩,记抽取的3个成绩中语文、外语两科成绩至少有一科优秀的个数为X,求X的分布列和期望E(X).解 (1)由题意得列联表:语文优秀 语文不优秀总计 外语优秀 60 100 160 外语不优秀140 500 640 总计200600800因为K 2=800×60×500-100×1402160×640×200×600≈16.667>10.828,所以能在犯错概率不超过0.001的前提下认为该校学生的语文成绩与外语成绩有关系. (2)由已知数据,语文、外语两科成绩至少一科为优秀的频率是38.则X ~B ⎝ ⎛⎭⎪⎫3,38, P(X =k)=C k 3⎝ ⎛⎭⎪⎫38k ⎝ ⎛⎭⎪⎫583-k,k =0,1,2,3.X 的分布列为X 0 1 2 3 P12551222551213551227512E(X)=3×38=98.2.(文)(2014·东北三校联考)某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下:API[0,50] (50,100] (100,150] (150,200] (200,250] (250,300] >300 空气质量 优 良 轻微污染 轻度污染 中度污染中重度污染重度污染 天数413183091115式为S =⎩⎪⎨⎪⎧0,0≤w≤100,4w -400,100<w≤300,2 000,w>300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?附:P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828由200<S≤600,得150<w≤250,频数为39,所以P(A)=39100.(2)根据以上数据得到如下列联表:非重度污染重度污染合计供暖季22 8 30非供暖季63 7 70合计85 15 100K2的观测值为285×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。
2024届高考数学二轮复习专题2统计案例课件
7
(xi--x )2=9+4+1+0+1+4+9=28,
i=1
微专题2 统计案例
7
(x i--x )(yi--y )
b^乙=i=1
7
(x i--x )2
=7238.4≈2.621,
i=1
a^乙=-y 乙-b^乙-x =73.1-2.621×4≈62.62; 所以乙地 y 关于 x 的线性回归方程为^y乙=2.62x+62.62, x=8(即 2023 年)时,b^乙=2.62×8+62.62=83.58; 所以^y甲-^y乙=83.58-77.28=6.3, 利用统计模型估计该产业 2023 年乙地收入会比甲地收入多 6.3 亿元.
绩排在年级前 50%以内(含 50%)的为“数学成绩达标”.
(1)求该中学高三年级本次月考数学成绩的 65%分位数;
(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用该组
区间的中点值作代表);
微专题2 统计案例
(3)请根据已知数据完成下列联表,并根据小概率值α=0.001 的独立性检验,
=
n
(x i--x )2
n
x 2i -n-x 2
i=1
i=1
微专题2 统计案例
1 326095-.2-5×5×6.46×.4243=-17.5, 于是a^=-y -b^-x =43-(-17.5)×6.4=155, 故经验回归方程为^y=-17.5x+155. (2)依题意,η 可能的取值为 0,1,2,3,4,5,6,7,8,
微专题2 统计案例
χ2=1 000×5(503×504×503×005-002×005×00150)2≈90.91>10.828=x0.001, 根据小概率值 x0.001 的独立性检验,我们推断 H0 不成立, 即认为“数学成绩达标”与“运动达标”有关联.
[高考总复习资料]数学二轮复习 限时训练23 统计、统计案例 文
【高考领航】2016届高考数学二轮复习限时训练23 统计、统计案例文(建议用时45分钟)1.从某校高三年级学生中抽取40名学生,将他们高中学业水平考试的数学成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100]后得到如图的频率分布直方图.(1)若该校高三年级有640人,试估计这次学业水平考试的数学成绩不低于60分的人数及相应的平均分(平均分保留到百分位);(2)若从[40,50)与[90,100]这两个分数段内的学生中随机选取2名学生,求这2名学生成绩之差的绝对值不大于10的概率.解:(1)由于图中所有小矩形的面积之和等于1,所以10×(0.005+0.01+0.02+a+0.025+0.01)=1,解得a=0.03.根据频率分布直方图,成绩不低于60分的频率为1-10×(0.005+0.01)=0.85.由于高三年级共有学生640人,可估计该校高三年级数学成绩不低于60分的人数为640×0.85=544.可估计不低于60分的学生数学成绩的平均分为:+0.3×75+0.25×85+544≈77.94.(2)成绩在[40,50)分数段内的人数为40×0.05=2,成绩在[90,100]分数段内的人数为40×0.1=4,若从这6名学生中随机抽取2人,则总的取法有15种,如果2名学生的数学成绩都在[40,50)分数段内或都在[90,100]分数段内,那么这2名学生的数学成绩之差的绝对值一定不大于10.如果一个成绩在[40,50)分数段内,另一个成绩在[90,100]分数段内,那么这2名学生的数学成绩之差的绝对值一定大于10.则所取2名学生的数学成绩之差的绝对值不大于10的取法为7种,所以所求概率P=715 .2.(2015·邢台市摸底)某校学生参加了“铅球”和“立定跳远”两个科目的体能测试,每个科目的成绩分为A ,B ,C ,D ,E 五个等级,该校某班学生两科目测试成绩的数据统计如图所示,其中“铅球”科目的成绩为E 的学生有8人.(1)求该班学生中“立定跳远”科目中成绩为A 的人数;(2)已知该班学生中恰有2人的两科成绩等级均为A ,在至少有一科成绩等级为A 的学生中,随机抽取2人进行访谈,求这2人的两科成绩等级均为A 的概率.解:(1)因为“铅球”科目中成绩等级为E 的学生有8人,所以该班有8÷0.2=40(人),所以该班学生中“立定跳远”科目中成绩等级为A 的人数为40×(1-0.375-0.375-0.15-0.025)=40×0.075=3.(2)由题意可知,至少有一科成绩等级为A 的有4人,其中恰有2人的两科成绩等级均为A ,另2人只有一个科目成绩等级为A .设这4人为甲、乙、丙、丁,其中甲、乙是两科成绩等级都是A 的同学,则在至少有一科成绩等级为A 的学生中,随机抽取2人进行访谈,基本事件空间为Ω={(甲,乙),(甲,丙),(甲,丁),(乙,丙),(乙,丁),(丙,丁)},一共有6个基本事件.设“随机抽取2人进行访谈,这2人的两科成绩等级均为A ”为事件M ,所以事件M 中包含的基本事件有1个,为(甲,乙),则P (M )=16.3.某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t -.解:(1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3, 所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b =0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.4.(2014·高考新课标卷Ⅱ)(本小题满分12分)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.(2分)(分析)50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(4分)(分析)(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(8分)(计算) (3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(12分)(分析)。
高三数学二轮复习 课时作业19 统计、统计案例 文
高三数学二轮复习 课时作业19 统计、统计案例 文统计、统计案例时间:45分钟 分值:100分一、选择题(每小题6分,共计36分)1.(1)某学校为了了解2010年高考数学科的考试成绩,在高考后对1200名学生进行抽样调查,其中文科400名考生,理科600名考生,艺术和体育类考生共200名,从中抽取120名考生作为样本.(2)从10名家长中抽取3名参加座谈会.Ⅰ.简单随机抽样法 Ⅱ.系统抽样法 Ⅲ.分层抽样法.问题与方法配对正确的是( )A .(1)Ⅲ,(2)ⅠB .(1)Ⅰ,(2)ⅡC .(1)Ⅱ,(2)ⅢD .(1)Ⅲ,(2)Ⅱ解析:通过分析可知,对于(1),应采用分层抽样法,对于(2),应采用简单随机抽样法. 答案:A图12.如图1是根据某校10位高一同学的身高(单位:cm)画出的茎叶图,其中左边的数字从左到右分别表示学生身高的百位数字和十位数字,右边的数字表示学生身高的个位数字,从图中可以得到这10位同学身高的中位数是( )A .161 cmB .162 cmC .163 cmD .164 cm解析:由给定的茎叶图可知,这10位同学身高的中位数为161+1632=162(cm). 答案:B3.某工厂对一批产品进行了抽样检测,如图2是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )图2A .90B .75C .60D .45解析:产品净重小于100克的频率为(0.050+0.100)×2=0.300,设样本容量为n ,则36n=0.300,所以n =120,净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,所以样本中净重大于或等于98克并且小于104克的产品的个数是120×0.75=90.答案:A4.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=bx +a ,则“(x 0,y 0)”满足线性回归方程y ^=bx +a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( ) A .充分不必要条件 B .必要不充分条件C .充要条件D .既不充分也不必要条件解析:x 0,y 0为这10组数据的平均值,又因为线性回归方程y ^=bx +a 必过样本中心(x ,y ),因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点.答案:B5.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A .100个吸烟者中至少有99人患有肺癌B .1个人吸烟,那么这人有99%的概率患有肺癌C .在100个吸烟者中一定有患肺癌的人D .在100个吸烟者中可能一个患肺癌的人也没有解析:统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.答案:D6.(2011·江西高考)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:由散点图可以得出结论:变量X 与Y 正相关;变量U 与V 负相关.故r 1>0,r 2<0.因此选C.答案:C二、填空题(每小题8分,共计24分)7.(2011·江苏高考)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s 2=________.解析:∵x =10+6+8+5+65=7, ∴s 2=10-72+6-72+8-72+5-72+6-725=165. 答案:1658.(2011·辽宁高考)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加____________万元.解析:家庭收入每增加1万元,对应回归直线方程中的x 增加1,相应的y ^的值增加0.254,即年饮食支出平均增加0.254万元.答案:0.2549.(2011·广东高考)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.解析:由题意父亲身高xx 173 170 176y 170 176 182则x =173+170+1763=173, y =170+176+1823=176, ∑i =13 (x i -x )(y i -y )=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)×(182-176)=18,∑i =13(x i -x )2=(173-173)2+(170-173)2+(176-173)2=18.∴b ^=1818=1.∴a ^=y -b ^x =176-173=3. ∴线性回归直线方程y ^=b ^x +a ^=x +3.∴可估计孙子身高为182+3=185(cm).答案:185三、解答题(共计40分)10.(10分)某中学的高二(1)班男同学有45名,女同学有15名,老师按照分层抽样的方法组建了一个4人的课外兴趣小组.(1)求某同学被抽到的概率及课外兴趣小组中男、女同学的人数;(2)经过一个月的学习、讨论,这个兴趣小组决定选出两名同学做某项试验,方法是先从小组里选出1名同学做试验,该同学做完后,再从小组内剩下的同学中选一名同学做试验,求选出的两名同学中恰有一名女同学的概率;(3)试验结束后,第一次做试验的同学得到的试验数据为68,70,71,72,74,第二次做试验的同学得到的试验数据为69,70,70,72,74,请问哪位同学的试验更稳定?并说明理由.解:(1)P =n m =460=115,∴某同学被抽到的概率为115. 设有x 名男同学,则4560=x 4,∴x =3. ∴男、女同学的人数分别为3,1.(2)把3名男同学和1名女同学记为a 1,a 2,a 3,b ,则选取两名同学的基本事件有(a 1,a 2),(a 1,a 3),(a 1,b ),(a 2,a 1),(a 2,a 3),(a 2,b ),(a 3,a 1),(a 3,a 2),(a 3,b ),(b ,a 1),(b ,a 2),(b ,a 3)共12种,其中有一名女同学的有6种,∴选出的两名同学中恰有一名女同学的概率为P =612=12. (3)x 1=68+70+71+72+745=71, x 2=69+70+70+72+745=71, s 21=68-712+…+74-7125=4, s 22=69-712+…+74-7125=3.2. 第二位同学的试验更稳定.11.(15分)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品. 从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂: 分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14) 频数 12 63 86 182 92 61 4乙厂分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14) 频数 29 71 85 159 76 62 18(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂 乙厂 合计优质品非优质品合计附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2, P (χ2≥k ) 0.05 0.01k3.841 6.635解:(1)为360500=72%; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)甲厂 乙厂 合计优质品 360 320 680非优质品 140 180 320合计 500 500 1000χ2=1000×2500×500×680×320≈7.35>6.635, 所以有99%的把握认为“两个分厂生产的零件的质量有差异”.12.(15分)汽车是碳排放量比较大的行业之一,欧盟规定,从2012年开始,将对CO 2排放量超过130 g/km 的M 1型新车进行惩罚(视为排放量超标),某检测单位对甲、乙两类M 1型车抽取5辆进行CO 2甲 80 110 120 140 150乙 100 120 x y 1602乙(1)从被检测的5辆甲类品牌中任取2辆,则至少有一辆CO 2排放量超标的概率是多少?(2)若乙类品牌的车比甲类品牌的CO 2的排放量的稳定性要好,求x 的取值范围. 解:(1)从被检测的5辆甲类品牌中任取2辆,共有10种不同的CO 2排放量结果: (80,110);(80,120);(80,140);(80,150);(110,120);(110,140);(110,150);(120,140);(120,150);(140,150).设“至少有一辆不符合CO 2排放量”为事件A ,则A 包含以下7种结果,(80,140);(80,150);(110,140);(110,150);(120,140);(120,150);(140,150).∴P (A )=710=0.7. (2)x 甲=80+120+110+140+1505=120.∴x甲=x乙=120,x+y=220.5s2甲=(80-120)2+(110-120)2+(120-120)2+(140-120)2+(150-120)2=3000,5s2乙=(100-120)2+(120-120)2+(x-120)2+(y-120)2+(160-120)2=2000+(x-120)2+(y-120)2.∵x+y=220,∴5s2乙=2000+(x-120)2+(x-100)2.由乙类品牌的车CO2的排放量稳定性比甲类品牌的车CO2的排放量的稳定性好,得5s2乙<5s2甲,即2000+(x-120)2+(x-100)2<3000.∴x2-220x+11700<0.解得90<x<130.即x的取值范围为{x|90<x<130}.。
2020版高考数学二轮复习专题限时集训统计与统计案例文
(1)求图中a的值;(2)估计该次考试的平均分x(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功晋级失败合计男16女50合计参考公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+dP(K2≥k)0.400.250.150.100.050.025 k 0.708 1.323 2.072 2.706 3.841 5.024 [解](1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功晋级失败合计男163450 女94150 合计2575100K2=n ad-bc2a+b c+d a+c b+d=100×16×41-34×9225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.题号内容押题依据1饼状图、分布图以统计图表为背景的统计考题是近几年高考中的高频考点,本题考查利用饼状图、分布图进行信息分析,意在考查学生的逻辑推理、数据分析、数学运算核心素养,符合全国卷命题特点2茎叶图、平均数、方差从茎叶图中提取数字特征(如平均数、众数、中位数、方差等)与统计案例综合考查的试题,但它是高考的重要考点,本题考查对茎叶图中的样本数据进行分析,再运用独立性检验方法得出相关数据解决生产中的实际问题,考查学生的逻辑推理、数据分析和数学运算的核心素养【押题1】为了了解现在互联网行业的就业情况,某高校教授组织学生对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图(如图1)和90后从事互联网该产品的质量评价标准规定:鉴定成绩在[90,100)内的产品,质量等级为优秀;鉴定成绩在[80,90)内的产品,质量等级为良好;鉴定成绩在[60,80)内的产品,质量等级为合格.将频率视为概率.(1)完成下面2×2列联表,以产品质量等级是否达到良好以上(含良好)为判断依据,判断能不能在误差不超过0.05的情况下,认为产品等级是否达到良好以上(含良好)与生产产品的机器有关;A机器生产的产品B机器生产的产品合计良好以上(含良好)合格合计(2)已知质量等级为优秀的产品的售价为12元/件,质量等级为良好的产品的售价为10元/件,质量等级为合格的产品的售价为5元/件,A机器每生产10万件的成本为20万元,B 机器每生产10万件的成本为30万元.该工厂决定,按样本数据测算,两种机器分别生产10万件产品,若收益之差达到5万元以上,则淘汰收益低的机器,若收益之差不超过5万元,则保留原来的两台机器.你认为该工厂会怎么做?附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.250.150.100.050.010 k 1.323 2.072 2.706 3.841 6.635 [解](1)完成2×2列联表如下.A机器生产的产品B机器生产的产品合计11 / 11 良好以上(含良好)6 12 18 合格14 8 22 合计 20 20 40结合列联表中的数据,可得K 2的观测值k =40×6×8-12×14220×20×18×22=4011≈3.636<3.841.故在误差不超过0.05的情况下,不能认为产品等级是否达到良好以上(含良好)与生产产品的机器有关.(2)由题意得,A 机器每生产10万件产品的利润为10×(12×0.1+10×0.2+5×0.7)-20=47(万元),B 机器每生产10万件产品的利润为10×(12×0.15+10×0.45+5×0.4)-30=53(万元),因为53-47=6(万元),6>5,所以该工厂应该会卖掉A 机器,同时购买一台B 机器.。
教辅-高考数学大二轮专题复习:概率与统计之统计、统计案例
核心知识回顾
热点考向探究
真题VS押题
专题作业
2.某公司生产 A,B,C 三种不同型号的轿车,产量之比依次为 2∶3∶
4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为 n 的样本,
若样本中 A 种型号的轿车比 B 种型号的轿车少 8 辆,则 n=( )
A.96
B.72
C.48
D.36
答案 B 解析 由题意,得29n-39n=-8,∴n=72.选 B.
中位数为 2 =630(分钟),所以这 8 个月的月平均通话时间的中位数大 小的取值区间为[540,630].故选 D.
核心知识回顾
热点考向探究
真题VS押题
专题作业
3.(2020·山东省泰安市四模)某药厂选取若干名志愿者进行临床试验,
所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,
核心知识回顾热点考向探究真题vs押题专题作业42020天津市河北区二模某班同学进行社会实践对2555岁的人群随机抽取n人进行了生活习惯是否符合低碳观念的调查若生活习惯符合低碳观念的称为低碳族否则称为非低碳族得到如下统计表和各年龄段人数频率分布直方图则图表中的pa的值分别为核心知识回顾热点考向探究真题vs押题专题作业组数分组低碳族的人数占本组的频率第一组253012006第二组3035195p第三组354010005第四组4045a04第五组45503003第六组50551503核心知识回顾热点考向探究真题vs押题专题作业a07920b019540c06560d097580答案c核心知识回顾热点考向探究真题vs押题专题作业解析由题意得n1200600451000a100000350460
核心知识回顾
热点考向探究
高考数学二轮复习 统计与统计案例
统计与统计案例1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本【解析】 5 000名居民的阅读时间的全体为总体,故选A.【答案】 A2.(2014·重庆高考)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250【解析】 样本抽取比例为703 500=150,该校总人数为1 500+3 500=5 000,则n 5 000=150,故n =100,选A. 【答案】 A3x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为y =bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0【解析】 回归直线方程过中心点(5.5,1.5),即1.5=5.5b +a ,由题意,两个变量负相关,b <0,∴a >0,故选B.【答案】 B4.(2014·广东高考)某车间20名工人年龄数据如下表:年龄(岁) 工人数(人)19 128 329 330 531 432 340 1合计 20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.【解】 (1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=12020i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.从近三年高考来看,该部分高考命题的热点考向为:1.随机抽样①随机抽样问题与实际生活紧密相连,是高考考查的热点之一.主要考查系统抽样中号码的确定和分层抽样中各层人数的确定.②多以选择题和填空题的形式呈现,属容易题.2.用样本估计总体①该考向重点考查样本特征数的计算,样本频率分布直方图和茎叶图等知识.特别是茎叶图是新课标中的新增内容,与实际生活联系密切,可方便处理数据,是高考中新的热点.②多以选择题、填空题的形式考查,有时也出现在解答题中,属容易题.3.线性回归分析①线性回归分析是新增内容,在现实生活中有着广泛的应用,应引起重视.②多以选择题、填空题的形式考查,有时也出现在解答题中,属中、低档题目.4.独立性检验①独立性检验也是新增内容,在现实生活中有着广泛的应用,近几年许多省的高考题涉及本考向,应引起关注.②既可以以选择题、填空题的形式考查,也可以以解答题的形式呈现,属中、低档题目.随机抽样【例1】 (1)(2014·天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.(2)(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本 ,则分段的间隔为( )A .50B .40C .25D .20【解析】 (1)由题意知应抽取人数为300×44+5+5+6=60. (2)由1 00040=25,可得分段的间隔为25.故选C. 【答案】 (1)60 (2)C【规律方法】解答与抽样方法有关的问题时应注意:(1)要深刻理解各种抽样方法的特点和实施步骤.(2)熟练掌握系统抽样中被抽个体号码的确定方法.(3)熟练掌握分层抽样中各层人数的计算方法.注意:抽样方法常和概率、频率分布直方图等知识结合在一起考查.[创新预测]1.(1)(2013·湖南高考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9 B.10 C.12 D.13(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01【解析】(1)根据分层抽样的特点,用比例法求解.依题意得360=n120+80+60,故n=13.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.【答案】(1)D (2)D用样本估计总体【例2】(2014·北京高考)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数1[0,2) 62[2,4)83[4,6)174[6,8)225[8,10)256[10,12)127[12,14) 68[14,16) 29[16,18) 2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;(2)求频率分布直方图中的a ,b 的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)【解】 (1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少于12小时的频率是1-10100=0.9. 从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)的有17人,频率为0.17,所以a =频率组距=0.172=0.085. 课外阅读时间落在组[8,10)的有25人,频率为0.25,所以b =频率组距=0.252=0.125. (3)样本中的100名学生课外阅读时间的平均数在第4组.【规律方法】 1.用样本估计总体时应注意的问题:(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想.(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图.要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数.2.样本数字特征及茎叶图:(1)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据所计算出的样本数据的均值和方差对实际问题作出解释.(2)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.[创新预测]2.(1)(2013·福建高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120(2)(2013·山东高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 79 4 0 1 0 x 9 1则7A.1169 B.367 C .36 D.677【解析】 (1)先求出频率,再求样本容量.不少于60分的学生的频率为(0.030+0.025+0.015+0.010)×10=0.8,∴该模块测试成绩不少于60分的学生人数应为600×0.8=480.故选B.(2)利用平均数为91,求出x 的值,利用方差的定义,计算方差.根据茎叶图,去掉1个最低分87,1个最高分99,则17[87+94+90+91+90+(90+x )+91]=91, ∴x = 4.∴s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367. 【答案】 (1)B (2)B线性回归分析【例3】 (2014·全国新课标Ⅱ高考)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013年份代号t 1 2 3 4 5 6 7人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n t i -t-y i -y -∑i =1n t i -t-2,a ^=y --b ^t -. 【解】 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 ∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17 t i -t-y i -y -∑i =17 t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(Ⅰ)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.【规律方法】 进行线性回归分析时应注意的问题(1)正确理解计算b ,a 的公式和准确的计算,是求回归直线方程的关键.(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3)在散点图中,若所有点大部分都集中在斜向上(自左向右看)的直线的附近,则为正相关;若大部分都集中在斜向下(自左向右看)的直线的附近,则为负相关.[创新预测]3.(2013·重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ;(2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1n x i y i -n x y ∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值.线性回归方程也可写为y ^=b ^x +a ^.【解】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8, y =1n ∑i =1n y i =2010=2, 又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3,a =y -b x =2-0.3×8=-0.4, 故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 独立性检验【例4】 (2014·辽宁高考)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生 喜欢甜品 不喜欢甜品 合计南方学生 60 20 80北方学生 10 10 20合计 70 30 100(1)惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,P (χ2≥k ) 0.100 0.050 0.010k 2.706 3.841 6.635【解】 (1)将2×2列联表中的数据代入公式计算,得χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2=100×60×10-20×10270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710. 【规律方法】 1.独立性检验的关键是准确计算K 2(χ2),而计算k 2(χ2)时,要正确绘制2×2列联表.2.两个变量的独立性检验,在统计学中有着广泛的应用,学习时一定要结合实际问题,从现实中寻找例子,增强学习数学的动力.[创新预测]4.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n ad -bc 2a ++++ P (K 2≥k 0) 0.10 0.05 0.010 0.005k 0 2.706 3.841 6.635 7.879【解】 (1)300×15 000=90,所以应收集90位女生的样本数据. (2)由题中频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表 男生 女生 总计每周平均体育运动时间不超过4小时45 30 75 每周平均体育运动时间超过4小时165 60 225 总计 210 90 300结合列联表可算得K 2=300× 2 250275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.[总结提升]失分盲点(1)混淆简单随机抽样、系统抽样、分层抽样的区别,不能正确地选择抽样方法.(2)不能正确地从频率分布直方图中提取相关的信息,混淆了频数与频率的差异.答题指导(1)看到抽样问题,想到三种抽样的定义以及适用范围和三者的区别.(2)看到频率分布直方图,想到频数与频率的区别以及计算方法.方法规律(1)分层抽样:①抽样原则:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取n =n ·N N(i =1,2,…,k )个个体:②分层原则:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)利用统计量K 2进行独立性检验的步骤:①根据数据列出2×2列联表.②根据公式计算K 2的观测值k .③比较观测值k 与临界值表中相应的检验水平,作出统计判断.通过数据分析事物蕴含的规律1.数据的作用是为了说明实际问题中存在的问题,通过对数据的处理(如计算样本数据的均值、方差、极差、中位数、众数等),看出实际问题中蕴含的某种规律,根据规律的利弊确定未来的发展方向,这是数据处理的一个主要方面.2.在统计中通过对抽取的样本数据进行处理,根据样本估计总体的思想,可以对总体作出估计,从而对总体作出评价,给出令人信服的结论,这就是用数据说话.【典例】 (2014·全国新课标Ⅱ高考)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.【解】(1)由题中所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由题中所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由题中所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由题中茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)【规律感悟】样本数据的均值体现了一种整体的态势,样本数据的方差则说明了整体态势的稳定性,整体态势(均值)及其稳定性(方差)是样本数据的两个重要特征数.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【高考领航】2016届高考数学二轮复习限时训练23 统计、统计案
例文
(建议用时45分钟)
1.从某校高三年级学生中抽取40名学生,将他们高中学业水平考试的数学成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),…,[90,100]后得到如图的频率分布直方图.
(1)若该校高三年级有640人,试估计这次学业水平考试的数学成绩不低于60分的人数及相应的平均分(平均分保留到百分位);
(2)若从[40,50)与[90,100]这两个分数段内的学生中随机选取2名学生,求这2名学生成绩之差的绝对值不大于10的概率.
解:(1)由于图中所有小矩形的面积之和等于1,
所以10×(0.005+0.01+0.02+a+0.025+0.01)=1,
解得a=0.03.
根据频率分布直方图,成绩不低于60分的频率为1-10×(0.005+0.01)=0.85.
由于高三年级共有学生640人,可估计该校高三年级数学成绩不低于60分的人数为640×0.85=544.
可估计不低于60分的学生数学成绩的平均分为:
+0.3×75+0.25×85+
544
≈77.94.
(2)成绩在[40,50)分数段内的人数为40×0.05=2,
成绩在[90,100]分数段内的人数为40×0.1=4,
若从这6名学生中随机抽取2人,则总的取法有15种,
如果2名学生的数学成绩都在[40,50)分数段内或都在[90,100]分数段内,那么这2名学生的数学成绩之差的绝对值一定不大于10.如果一个成绩在[40,50)分数段内,另一个成绩在[90,100]分数段内,那么这2名学生的数学成绩之差的绝对值一定大于10.
则所取2名学生的数学成绩之差的绝对值不大于10的取法为7种,
所以所求概率P=7
15 .
2.(2015·邢台市摸底)某校学生参加了“铅球”和“立定跳远”两个科目的体能测试,每个科目的成绩分为A ,B ,C ,D ,E 五个等级,该校某班学生两科目测试成绩的数据统计如图所示,其中“铅球”科目的成绩为E 的学生有8人.
(1)求该班学生中“立定跳远”科目中成绩为A 的人数;
(2)已知该班学生中恰有2人的两科成绩等级均为A ,在至少有一科成绩等级为A 的学生中,随机抽取2人进行访谈,求这2人的两科成绩等级均为A 的概率.
解:(1)因为“铅球”科目中成绩等级为E 的学生有8人,所以该班有8÷0.2=40(人),所以该班学生中“立定跳远”科目中成绩等级为A 的人数为40×(1-0.375-0.375-0.15-0.025)=40×0.075=3.
(2)由题意可知,至少有一科成绩等级为A 的有4人,其中恰有2人的两科成绩等级均为A ,另2人只有一个科目成绩等级为A .
设这4人为甲、乙、丙、丁,其中甲、乙是两科成绩等级都是A 的同学,则在至少有一科成绩等级为A 的学生中,随机抽取2人进行访谈,基本事件空间为Ω={(甲,乙),(甲,丙),(甲,丁),(乙,丙),(乙,丁),(丙,丁)},一共有6个基本事件.
设“随机抽取2人进行访谈,这2人的两科成绩等级均为A ”为事件M ,所以事件M 中包含的基本事件有1个,为(甲,乙),则P (M )=16
.
3.某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:
(1)(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:
b ^
=
∑i =1
n
t i -
t
y i -
y
∑i =1
n
t i -t
2
,a ^=y -b ^t -.
解:(1)由所给数据计算得t =1
7
(1+2+3+4+5+6+7)=4,
y =17
(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑i =17
(t i -t )2=9+4+1+0+1+4+9=28,
∑i =1
7
(t i -t
)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+
1×0.5+2×0.9+3×1.6=14,
b ^
=
∑i =1
7
t i -
t
y i -
y
∑i =1
7
t i -t
2
=14
28
=0.5, a ^
=y -b ^
t =4.3-0.5×4=2.3, 所求回归方程为y ^
=0.5t +2.3.
(2)由(1)知,b =0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得y ^
=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
4.(2014·高考新课标卷Ⅱ)(本小题满分12分)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.(2分)(分析)
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为
66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(4分)(分析)
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,8
50=0.16,
故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(8分)(计算) (3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(12分)(分析)。