2019高中数学专题复习统计、统计案例

合集下载

高中数学新教材必修第二册专题9.3 统计案例(解析版)

高中数学新教材必修第二册专题9.3 统计案例(解析版)

9.3 统计案例【例1】(2019·山东高考模拟(文))甲、乙两人参加一个射击的中奖游戏比赛,在相同条件下各打靶50次,统计每次打靶所得环数,得下列频数分布表.比赛中规定所得环数为1,2,3,4时获奖一元,所得环数为5,6,7时获奖二元,所得环数为8,9时获奖三元,所得环数为10时获奖四元,没命中则无奖.(1)根据上表,在答题卡给定的坐标系内画出甲射击50次获奖金额(单位:元)的条形图;(2)估计甲射击1次所获奖至少为三元的概率;(3)要从甲、乙两人中选拔一人参加射击比赛,请你根据甲、乙两人所获奖金额的平均数和方差作出选择.【答案】(1)见解析;(2) 1225; (3)派甲参赛比较好.【解析】(1)依题意知甲50次获奖金额(单位:元)的频数分布为其获奖金额的条形图如下图所示(2)甲射击一次所获奖金至少为三元,即打靶所得环数至少为8,因为甲所得环数至少 为8的有166224++=(次)所以估计甲射击一次所获奖金至少为三元的概率为24125025=. (3)甲50次获奖金的平均数为15(1122532242)502⨯⨯+⨯+⨯+⨯=, 乙50次获奖金的平均数为15(1322132442)502⨯+⨯+⨯+⨯=, 甲50次获奖金额的方差为2222155551122532242502222⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫⨯-⨯+-⨯+-⨯+-⨯⎢⎥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎢⎥⎣⎦137********=⨯=. 乙50次获奖金额的方差为2222155551322132442502222⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫-⨯+-⨯+-⨯+-⨯⎢⎥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎢⎥⎣⎦145950220=⨯=. 甲、乙的平均数相等.甲的方差小,故派甲参赛比较好. 【点睛】本题主要考查条形图的应用,古典概型概率公式的应用以及平均数与方差的实际意义,属于中档题. 样本数据的算术平均数12n 1(++...+)x x xx n =,样本方差2222121[()()...()]n s x x x x x x n=-+-++-,标准差s =【举一反三】1.(2020·四川高三期末(文))某次高三年级模拟考试中,数学试卷有一道满分10分的选做题,学生可以从A ,B 两道题目中任选一题作答.某校有900名高三学生参加了本次考试,为了了解该校学生解答该选做题的得分情况,作为下一步教学的参考依据,计划从900名考生的选做题成绩中随机抽取一个容量为10的样本,为此将900名考生选做题的成绩按照随机顺序依次编号为001~900.(1)若采用系统抽样法抽样,从编号为001~090的成绩中用简单随机抽样确定的成绩编号为025,求样本中所有成绩编号之和;(2)若采用分层抽样,按照学生选择A 题目或B 题目,将成绩分为两层.已知该校高三学生有540人选做A 题目,有360人选做B 题目,选取的样本中,A 题目的成绩平均数为5,方差为2,B 题目的成绩平均数为5.5,方差为0.25.(i )用样本估计该校这900名考生选做题得分的平均数与方差;(ii )本选做题阅卷分值都为整数,且选取的样本中,A 题目成绩的中位数和B 题目成绩的中位数都是5.5.从样本中随机选取两个大于样本平均值的数据做进一步调查,求取到的两个成绩来自不同题目的概率. 【答案】(1)4300;(2) (i )平均数为5.2,方差为1.36.(ii )35【解析】(1)由题易知,若按照系统抽样的方法,抽出的编号可以组成以25为首项,以90为公差的等差数列,故样本编号之和即为该数列的前10项之和, 所以1010910259043002S ⨯=⨯+⨯=. (2)(i )由题易知,若按照分层抽样的方法,抽出的样本中A 题目的成绩有6个,按分值降序分别记为1x ,2x ,…,6x ;B 题目的成绩有4个,按分值降序分别记为1y ,2y ,3y ,4y .记样本的平均数为x ,样本的方差为2s .由题意可知,()()126123410x x x y y y y x ++⋅⋅⋅+++++=56 5.545.210⨯+⨯==()()()()22225.250.2520.250.2i i i i x x x x -=--=--⨯-+⎡⎤⎣⎦,1,2,,6i =⋅⋅⋅ ()()()()22225.2 5.50.3 5.520.3 5.50.3i i i i y y y y -=-+=-+⨯-+⎡⎤⎣⎦,1,2,,4i =⋅⋅⋅()()()()()22222126142 5.2 5.2 5.2 5.2 5.210x x x y y s -+-+⋅⋅⋅+-+-+⋅⋅⋅+-=222600.260.25400.3413.6 1.361010⨯-+⨯+⨯++⨯===所以,估计该校900名考生选做题得分的平均数为5.2,方差为1.36.(ii )本选做题阅卷分值都为整数,且选取的样本中,A 题目成绩的中位数和B 题目成绩的中位数都是5.5,易知样本中A 题目的成绩大于样本平均值的成绩有3个,分别为1x ,2x ,3x ,B 题目的成绩大于样本平均值的成绩有2个,分别为1y ,2y .从样本中随机选取两个大于样本平均值的数据共有种10方法,为:()12,x x ,()13,x x ,()23,x x ,()12,y y ,()11,x y ,()21,x y ,()31,x y ,()12,x y ,()22,x y ,()32,x y ,其中取到的两个成绩来自不同题目的取法共有6种,为:()11,x y ,()21,x y ,()31,x y ,()12,x y ,()22,x y ,()32,x y ,记“从样本中随机选取两个大于样本平均值的数据,取到的两个成绩来自不同题目”为事件A , 所以()63105P A ==. 2.(2019·河北高二期中)(2014·长春模拟)对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下表:(1)画出茎叶图.(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、方差,并判断选谁参加比赛更合适? 【答案】【解析】(1)画茎叶图如图所示,中间数为数据的十位数.(2)由茎叶图把甲、乙两名选手的6次成绩按从小到大的顺序依次排列为甲:27,30,31,35,37,38; 乙:28,29,33,34,36,38.所以x ̅甲=16×(27+30+31+35+37+38)=33,x ̅乙=16×(28+29+33+34+36+38)=33.s 甲2=16×[(-6)2+(-3)2+(-2)2+22+42+52]=473,s 乙2=16×[(-5)2+(-4)2+0+12+32+52]=383.因为x ̅甲=x ̅乙,s 甲2>s 乙2.所以乙的成绩更稳定,故乙参加比赛更合适.1.(2019·安徽省舒城中学高二月考(文))有关部门要了解甲型H1N1流感预防知识在学校的普及情况,命制了一份有10道题的问卷到各学校做问卷调查.某中学A 、B 两个班各被随机抽取5名学生接受问卷调查,A 班5名学生得分为:5、8、9、9、9,B 班5名学生得分为:6、7、8、9、10.(1)请你判断A 、B 两个班中哪个班的问卷得分要稳定一些,并说明你的理由;(2)求如果把B 班5名学生的得分看成一个总体,并用简单随机抽样方法从中抽取样本容量为2的样本,求样本平均数与总体平均数之差的绝对值不小于1的概率. 【答案】(1)B 班的问卷得分要稳定,见解析;(2)2()5P M = 【解析】(1)B 班的问卷得分要稳定一些,理由如下:589996789108,855A B x x ++++++++====222222(58)(88)(98)(98)(98) 2.45AS -+-+-+-+-∴==222222(68)(78)(88)(98)(108)25BS -+-+-+-+-==,22,A B A B x x S S =>,B ∴班的问卷得分要稳定;(2)记“样本平均数与总体平均数之差的绝对值不小于1”为事件M所有的基本事件分别为:(6,7)、(6,8)、(6,9)、(6,10)、(7,8)、(7,9)、(7,10)、(8,9)、(8,10)、(9,10),(6,7),(6,8),(6,9),(6,10),(7,8),(7,9),(7,10),(8,9),(8,10),(9,10)共10个.事件M 包含的基本事件分别为:(6,7),(6,8),(8,10),(9,10),共4个 由于事件M 符合古典概型,则42()105P M == 2.(2019·兰州市第二十七中学高一期末)某校为了了解甲、乙两班的数学学习情况,从两班各抽出10名学生进行数学水平测试,成绩如下(单位:分): 甲班:82 84 85 89 79 80 91 89 79 74 乙班:90 76 86 81 84 87 86 82 85 83 (1)求两个样本的平均数; (2)求两个样本的方差和标准差; (3)试分析比较两个班的学习情况.【答案】(1)=83.2x 甲,=84x 乙;(2)22=26.36=13.2S S 甲乙,,=5.13S 甲,=3.63S 乙;(3)乙班的总体学习情况比甲班好 【解析】(1)x 甲=110×(82+84+85+89+79+80+91+89+79+74)=83. 2, x 乙=110×(90+76+86+81+84+87+86+82+85+83)=84. (2)2S 甲=110×[(82-83. 2)2+(84-83. 2)2+(85-83. 2)2+(89-83. 2)2+(79-83. 2)2+(80-83. 2)2+(91-83. 2)2+(89-83. 2)2+(79-83. 2)2+(74-83. 2)2]=26. 36,2S 甲=110[(90-84)2+(76-84)2+(86-84)2+(81-84)2+(84-84)2+(87-84)2+(86-84)2+(82-84)2+(85-84)2+(83-84)2]=13. 2,则s 甲 5. 13,s 乙≈3. 63.(3)由于x x <乙甲,则甲班比乙班平均水平低.由于S S >甲乙,则甲班没有乙班稳定. 所以乙班的总体学习情况比甲班好3.(2019·平遥县第二中学高一月考)某技校开展技能大赛,甲、乙两班各选取5名学生加工某种零件,在4个小时内每名学生加工的合格零件数的统计数据的茎叶图如图所示,已知甲班学生在4个小时内加工的合格零件数的平均数为21,乙班学生在4个小时内加工的合格零件数的平均数不低于甲班的平均数.(1)求,m n 的值;(2)分别求出甲、乙两班学生在4个小时内加工的合格零件数的方差2S 甲和2S 乙,并由此比较两班学生的加工水平的稳定性.【答案】(1)8,9m n ==;(2)22=16.8=16.4S S 甲乙,,乙班学生加工水平比甲班稳定.【解析】(1)甲班学生在4个小时内加工的合格零件数的平均数为21, 即()11618212220215x m =+++++=甲,解得m =8. 乙班学生在4个小时内加工的合格零件数的平均数不低于甲班的平均数,即()11014232425215x n =+++++≥乙,又0n 9≤≤,解得n =9. (2)甲班的方差为()()()()()22222211621182121212221282116.85S ⎡⎤=-+-+-+-+-=⎣⎦甲,由(1)可得21x =乙, ∴乙班的方差为()()()()()22222211421192123212421252116.45S ⎡⎤=-+-+-+-+-=⎣⎦乙. ∵方差22S S 甲乙>,∴两班加工的合格零件数的平均数相同,乙班更稳定些.4.(2019·安徽高二期中(文))大城市往往人口密集,城市绿化在健康人民群众肺方面发挥着非常重要的作用,历史留给我们城市里的大山拥有品种繁多的绿色植物更是无价之宝.改革开放以来,有的地方领导片面追求政绩,对森林资源野蛮开发受到严肃查处事件时有发生.2019年的春节后,广西某市林业管理部门在“绿水青山就是金山银山”理论的不断指引下,积极从外地引进甲、乙两种树苗,并对甲、乙两种树苗各抽测了10株树苗的高度(单位:厘米),数据如下面的茎叶图:(1)据茎叶图求甲、乙两种树苗的平均高度;(2)据茎叶图,运用统计学知识分析比较甲、乙两种树苗高度整齐情况.【答案】(1)27(厘米),30(厘米);(2)甲种树苗长的比较整齐,乙种树苗长的参差不齐【解析】(1)甲种树苗的平均高度为192120292325373132332710+++++++++=(厘米).乙种树苗的平均高度为101410272630474644463010+++++++++=(厘米). (2)甲种树苗的方差为:()164364941641001625363810+++++++++=,乙种树苗的方差为:()1400256400169160289256196256223.810+++++++++=,故甲种树苗长的比较整齐,乙种树苗长的参差不齐.5.(2019·福建厦门外国语学校高二期中)某中学的高二(1)班男同学有45名,女同学有15名,老师按照分层抽样的方法组建了一个4人的课外兴趣小组. (1)求课外兴趣小组中男、女同学的人数;(2)经过一个月的学习、讨论,这个兴趣小组决定选出两名同学做某项实验,方法是先从小组里选出1名同学做实验,该同学做完后,再从小组内剩下的同学中选一名同学做实验,求选出的两名同学中恰有一名女同学的概率;(3)试验结束后,第一次做试验的同学得到的试验数据为68,70,71,72,74,第二次做试验的同学得到的试验数据为69,70,70,72,74 ,请问哪位同学的实验更稳定?并说明理由. 【答案】(1) 男、女同学的人数分别为3人,1人;(2) 12;(3) 第二位同学的实验更稳定,理由见解析 【解析】(1)设有x 名男同学,则45604x=,∴3x =,∴男、女同学的人数分别为3人,1人 (2)把3名男同学和1名女同学记为123,,,a a a b ,则选取两名同学的基本事件有12(,)a a ,13(,)a a ,1(,)a b ,21(,)a a ,23(,)a a ,2(,)a b ,31(,)a a ,32(,)a a ,3(,)a b ,1(,)b a ,2(,)b a ,3(,)b a 共12种,其中恰有一名女同学的有6种,∴选出的两名同学中恰有一名女同学的概率为61122P == (3)16870717274715x ++++==,26970707274715x ++++== 2222221(6871)(7071)(7171)(7271)(7471)45s -+-+-+-+-==,2222222(6971)(7071)(7071)(7271)(7471) 3.25s -+-+-+-+-==因2212s s >,所以第二位同学的实验更稳定.6.(2019·陕西高一期末)为选派一名学生参加全市实践活动技能竟赛,A 、B 两位同学在学校的学习基地现场进行加工直径为20mm 的零件测试,他俩各加工的10个零件直径的相关数据如图所示(单位:mm )A 、B 两位同学各加工的10个零件直径的平均数与方差列于下表;根据测试得到的有关数据,试解答下列问题:(Ⅰ)计算s 2B ,考虑平均数与方差,说明谁的成绩好些;(Ⅱ)考虑图中折线走势情况,你认为派谁去参赛较合适?请说明你的理由. 【答案】(Ⅰ)0.008,B 的成绩好些(Ⅱ)派A 去参赛较合适 【解析】(Ⅰ)由题意,根据表中的数据,利用方差的计算公式,可得S 2B 22221[5(2020)3(19.920)1(120)1(20.220)]0.00810=⨯-+⨯-+⨯-+⨯-= ∴S 2A >S 2B ,∴在平均数相同的情况下,B 的波动较小, ∴B 的成绩好些.(Ⅱ)从图中折线趋势可知:尽管A 的成绩前面起伏大,但后来逐渐稳定,误差小,预测A 的潜力大, ∴派A 去参赛较合适.7.(2019·沙雅县第二中学高二期末)某车间20名工人年龄数据如表所示: (1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.【答案】(1)众数为30,极差为21;(2)见解析;(3)方差,12.6 【解析】(1)这20名工人年龄的众数为30,极差为401921-=; (2)茎叶图如下:(3)年龄的平均数为19283293305314323403020+⨯+⨯+⨯+⨯+⨯+=,故这20名工人年龄的方差为()()()222222211132315041321020⎡⎤-+⨯-+⨯-+⨯+⨯+⨯+⎣⎦ ()1112112341210025212.62020=+++++=⨯=. 8.(2020·北京高一期末)根据以往的成绩记录,甲、乙两名队员射击中靶环数(环数为整数)的频率分布情况如图所示.假设每名队员每次射击相互独立.(Ⅰ)求图中a的值;(Ⅱ)队员甲进行2次射击.用频率估计概率,求甲恰有1次中靶环数大于7的概率;(Ⅲ)在队员甲、乙中,哪一名队员的射击成绩更稳定?(结论无需证明)【答案】(Ⅰ)0.06;(Ⅱ)38;(Ⅲ)甲【解析】(I)由题意1(0.190.450.290.01)0.06a=-+++=;(II)记事件A为甲中射击一次中靶环数大于7,则()0.450.290.010.75P A=++=,甲射击2次,恰有1次中靶数大于7的概率为:()()()()()() P P AA P AA P A P A P A P A =+=+3 0.750.250.250.758 =⨯+⨯=;(III)甲稳定.9.(2019·永济市涑北中学校高一月考)甲、乙两名技工在相同的条件下生产某种零件,连续6天中,他们日加工的合格零件数的统计数据的茎叶图,如图所示(1)写出甲、乙的中位数和众数;(2)计算甲、乙的平均数与方差,并依此说明甲、乙两名技工哪名更为优秀.【答案】(1)见解析(2)甲更为优秀.【解析】解:(1)甲的中位数为2020202+=,众数为20;乙的中位数为192019.52+=,众数为23.(2)181920202122206x+++++==甲,()()()()()()2222222182019202020202021202220563S -+-+-+-+-+-==甲, 171819202323206x +++++==乙,()()()()()()22222221720182019202020232023201663S -+-+-+-+-+-==乙,由于x x =甲乙,且22S S <甲乙,所以甲更为优秀.10.(2019·四川高三期中(文))根据幼儿身心发展的特征,幼儿园通常着重在健康、科学、社会、语言、艺术五大领域对幼儿展开全方位的教育和培养.经调查发现,一个幼儿除了在幼儿园进行五大领域的系统学习之外,还会报一些课外兴趣班.而家长朋友们对于是否额外报这些课外兴趣班的态度也是不一样的.某调查机构对某幼儿园的100名幼儿家长就孩子是否报课外兴趣班的赞同程度进行调查统计,得到家长对幼儿报课外兴趣班赞同度y 的频数分布表:(1)分别计算对幼儿报兴趣班的赞同度不低于60%的家长比例和对幼儿报兴趣班的赞同度低于20%的家长比例;(2)求家长对幼儿报兴趣班的赞同度的平均数与方差的估计值.(同一组中的数据用该组区间的中点值代替)【答案】(1)0.72,0.02; (2)0.70,0.0496.【解析】(1)根据家长对幼儿报课外兴趣班赞同度y 的频数分布表, 对幼儿报兴趣班的赞同度不低于60%的家长比例为28440.72100+==; 对幼儿报兴趣班的赞同度低于20%的家长比例为20.02100=. (2)由题意,家长对幼儿报兴趣班的赞同度的平均数为()10.1020.30120.50140.70280.9044100y =⨯+⨯+⨯+⨯+⨯0.70=, 其方差为()()()22222210.6020.40120.20140280.2044100s ⎡⎤=-⨯+-⨯+-⨯+⨯+⨯⎣⎦0.0496=,所以家长对幼儿报兴趣班的赞同度的平均数与方差的估计值分别为0.70和0.0496.11.(2020·江西高二月考(理))某学校需要从甲、乙两名学生中选一人参加数学竞赛,抽取了近期两人5次数学考试的成绩,统计结果如下表:(1)若从甲、乙两人中选出一人参加数学竞赛,你认为选谁合适?请说明理由. (2)若数学竞赛分初赛和复赛,在初赛中有两种答题方案:方案一:每人从5道备选题中任意抽出1道,若答对,则可参加复赛,否则被淘汰.方案二:每人从5道备选题中任意抽出3道,若至少答对其中2道,则可参加复赛,否则被润汰. 已知学生甲、乙都只会5道备选题中的3道,那么你推荐的选手选择哪种答题方条进人复赛的可能性更大?并说明理由.【答案】(1)见解析;(2)选方案二【解析】(1)解法一:甲的平均成绩为180********835x ++++==;乙的平均成绩为29076759282835x ++++==, 甲的成绩方差()25211150.85i i s x x==-=∑;乙的成绩方差为()25221148.85i i s x x==-=∑;由于12x x =,2212s s >,乙的成绩较稳定,派乙参赛比较合适,故选乙合适. 解法二、派甲参赛比较合适,理由如下:从统计的角度看,甲获得85以上(含85分)的概率135P =,乙获得85分以上(含85分)的概率225P = 因为12P P >故派甲参赛比较合适,(2)5道备选题中学生乙会的3道分别记为a ,b ,c ,不会的2道分别记为E ,F .方案一:学生乙从5道备选题中任意抽出1道的结果有:a ,b ,c ,E ,F 共5种,抽中会的备选题的结果有a ,b ,c ,共3种. 所以学生乙可参加复赛的概率135P =. 方案二:学生甲从5道备选题中任意抽出3道的结果有(),,a b c ,(),,a b E ,(),,a b F ,(),,a c E ,(),,a c F ,(),,a E F ,(),,b c E ,(),,b c F ,(),,b E F ,(),,c E F ,共10种,抽中至少2道会的备选题的结果有:(),,a b c ,(),,a b E ,(),,a b F ,(),,a c E ,(),,a c F ,(),,b c E ,(),,b c F 共7种,所以学生乙可参加复赛的概率2710P =因为12P P <,所以学生乙选方案二进入复赛的可能性更大.12.(2020·陕西高二期末(文))某赛季,甲、乙两名篮球运动员都参加了7场比赛,他们所有比赛得分的情况如下:甲:15,17,14,23,22,24,32; 乙:12,13,11,23,27,31,30 .(1)求甲、乙两名运动员得分的中位数.(2)分别求甲、乙两名运动员得分的平均数、方差,你认为哪位运动员的成绩更稳定? 【答案】(1) 甲中位数是22,乙中位数是23;(2)21x =甲,21x =乙,22367S =甲,24667S =乙,甲运动员的成绩更稳定.【解析】(1)将甲运动员得分的数据由大到小排列:32,24,23,22,17,15,14. 将乙运动员得分的数据由大到小排列:31,30,27,23,13,12,11.∴甲运动员得分的中位数是22,乙运动员得分的中位数是23.(2)1(15171423222432)217x ==甲++++++, 1(12131123273130)217x ==乙++++++, 22221236[(2115)(2117)(2132)]77S =⋯=甲-+-++-,22221466[(2112)(2113)(2130)]77S =⋯=乙-+-+-,∴22S S <甲乙,∴甲运动员的成绩更稳定.13.(2019·广东执信中学高二期中(理))某超市从2014年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,整理得到数据分组及频率分布表和频率分布直方图:(1)写出频率分布直方图中a 的值,并做出甲种酸奶日销售量的频率分布直方图;(2)记甲种酸奶与乙种酸奶日销售量(单位:箱)的方差分别为2212,s s 。

2019届高三数学(理)二轮专题复习课件:专题四 第1讲 统计与统计案例 .pdf

2019届高三数学(理)二轮专题复习课件:专题四 第1讲 统计与统计案例 .pdf

第1讲 统计与统计案例高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2016年,2017年和2018年在解答题中均有考查.1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.答案 A2.(2018·全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析 因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.答案 分层抽样3.(2018·全国Ⅱ卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.(2)利用模型②得到的预测值更可靠.理由如下:考 点 整 合1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.2.统计中的四个数据特征3.直方图的两个结论4.回归分析与独立性检验y1Y2总计x1a b a+b x2c d c+d 总计a+c b+d n热点一 抽样方法【例1】 (1)(2018·合肥模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n=( )A.860B.720C.1 020D.1 040(2)(2018·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.答案 (1)D (2)4【训练1】 (1)(2018·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A.13B.19C.20D.51(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.∴样本中还有一位同学的编号为20号.答案 (1)C (2)18热点二 用样本估计总体考法1 数字特征与茎叶图的应用【例2-1】(2018·北京东城区质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( )A.①②③B.②③④C.①②④D.①③④。

2019届高考数学复习统计与统计案例10.1抽样方法学案文北师大版

2019届高考数学复习统计与统计案例10.1抽样方法学案文北师大版

§10.1随机抽样1.抽样调查(1)抽样调查通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.(2)总体和样本调查对象的全体称为总体,被抽取的一部分称为样本.(3)抽样调查与普查相比有很多优点,最突出的有两点:①迅速、及时;②节约人力、物力和财力.2.简单随机抽样(1)简单随机抽样时,要保证每个个体被抽到的概率相同.(2)通常采用的简单随机抽样的方法:抽签法和随机数法.3.分层抽样(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.系统抽样系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按分组的间隔(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样是一种不放回抽样.( √)(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( ×)(3)抽签法中,先抽的人抽中的可能性大.( ×)(4)系统抽样在第1段抽样时采用简单随机抽样.( √)(5)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( ×)(6)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( ×)题组二教材改编2.在“世界读书日”前夕,为了了解某地 5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( ) A.总体B.个体C.样本的容量D.从总体中抽取的一个样本答案 A解析由题目条件知,5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.3.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20答案 B解析因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19.4.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是( )A.10 B.11C.12 D.16答案 D解析从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.题组三易错自纠5.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ) A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32答案 B解析间隔距离为10,故可能的编号是3,13,23,33,43.6.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取的男生人数为________.答案30解析因为男生与女生的比例为180∶120=3∶2,所以应该抽取的男生人数为50×33+2=30.题型一简单随机抽样1.某班级有男生20人,女生30人,从中抽取10人作为样本,其中一次抽样结果是:抽到了4名男生,6名女生,则下列命题正确的是( )A.这次抽样中可能采用的是简单随机抽样B.这次抽样一定没有采用系统抽样C.这次抽样中每个女生被抽到的概率大于每个男生被抽到的概率D.这次抽样中每个女生被抽到的概率小于每个男生被抽到的概率答案 A解析利用排除法求解.这次抽样可能采用的是简单随机抽样,A正确;这次抽样可能采用系统抽样,男生编号为1~20,女生编号为21~50,间隔为5,依次抽取1号,6号,…,46号便可,B错误;这次抽样中每个女生被抽到的概率等于每个男生被抽到的概率,C和D均错误,故选A.2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 B.07 C.02 D.01答案 D解析由题意知前5个个体的编号为08,02,14,07,01.3.下列抽取样本的方式不属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③从20件玩具中一次性抽取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1 C.2 D.3答案 A解析①不是简单随机抽样.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.思维升华应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.题型二 系统抽样典例 (1)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:13 0 0 3 4 5 6 6 8 8 8 9 14 1 1 1 2 2 2 3 3 4 4 5 5 5 6 6 7 8 15 0 122333若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A .3 B .4 C .5 D .6 答案 B解析 由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]内的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14 答案 B解析 由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. 引申探究1.若本例(2)中条件不变,若号码“5”被抽到,那么号码“55”________被抽到.(填“能”或“不能”) 答案 不能解析 若55被抽到,则55=5+20n ,n =2.5,n 不是整数.故不能被抽到.2.若本例(2)中条件不变,若在编号为[481,720]中抽取8人,则样本容量为________. 答案 28解析 因为在编号[481,720]中共有720-480=240人,又在[481,720]中抽取8人, 所以抽样比应为240∶8=30∶1,又因为单位职工共有840人,所以应抽取的样本容量为84030=28.思维升华 (1)系统抽样适用的条件是总体容量较大,样本容量也较大.(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.跟踪训练 将参加夏令营的600名学生按001,002,…,600进行编号.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分别住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,则三个营区被抽中的人数依次为( ) A .26,16,8 B .25,17,8 C .25,16,9 D .24,17,9答案 B解析 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N +)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17;第Ⅲ营区被抽中的人数为50-25-17=8.题型三 分层抽样命题点1 求总体或样本容量典例 (1)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n 等于( ) A .9 B .10 C .12 D .13 答案 D解析 ∵360=n 120+80+60,∴n =13.(2)某市电视台为调查节目收视率,想从全市3个区按人口数用分层抽样的方法抽取一个容量为n 的样本.已知3个区人口数之比为2∶3∶5,如果最多的一个区抽出的个体数是60,那么这个样本的容量为( ) A .96 B .120 C .180 D .240 答案 B解析 设样本容量为n ,则52+3+5=60n,解得n =120.命题点2 求某层入样的个体数典例 (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师的人数为( )A.90 B .100 C .180 D .300 答案 C解析 由题意得抽样比为3201 600=15,∴该样本中的老年教师的人数为900×15=180.(2)(2017·重庆一诊)我国古代数学专著《九章算术》中有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( ) A .104人 B .108人 C .112人 D .120人答案 B解析 由题意可知,这是一个分层抽样的问题,其中北乡可抽取的人数为300×8 1008 100+7 488+6 912=300×8 10022 500=108,故选B.思维升华 分层抽样问题类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算. (3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.跟踪训练 (1)(2017·南昌一模)某校为了了解学生学习的情况,采用分层抽样的方法从高一1 000人,高二1 200人,高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n 等于( ) A .860 B .720 C .1 020 D .1 040 答案 D解析 分层抽样是按比例抽样的,所以81× 1 2001 000+1 200+n=30,解得n =1 040.(2)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.答案200,20解析该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20.五审图表找规律典例 (12分)某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:(1)若要抽取40人调查身体状况,则应怎样抽样?(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?(3)若要抽20人调查对天津全运会举办情况的了解,则应怎样抽样?抽取40人调查身体状况↓(观察图表中的人数分类统计情况)样本人群应受年龄影响↓(表中老、中、青分类清楚,人数确定)要以老、中、青分层,用分层抽样↓要开一个25人的座谈会↓(讨论单位发展与薪金调整)样本人群应受管理、技术开发、营销、生产方面的影响↓(表中管理、技术开发、营销、生产分类清楚,人数确定) 要以管理、技术开发、营销、生产人员分层,用分层抽样 ↓要抽20人调查对天津全运会举办情况的了解↓可认为全运会是大众体育盛会,一个单位人员对情况了解相当 将单位人员看作一个整体 ↓(从表中数据看总人数为2 000) 人员较多,可采用系统抽样 规范解答解 (1)按老年、中年、青年分层用分层抽样法抽取,[1分] 抽取比例为402 000=150.[2分]故老年人、中年人、青年人各抽取4人,12人,24人.[4分] (2)按管理、技术开发、营销、生产分层用分层抽样法抽取,[5分] 抽取比例为252 000=180,[6分]故管理、技术开发、营销、生产各部门分别抽取2人,4人,6人,13人.[8分] (3)用系统抽样,对全部2 000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用简单随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1 900,共20人组成一个样本.[12分]1.某工厂平均每天生产某种机器零件10 000件,要求产品检验员每天抽取50件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为0000,0001,0002,…,9999,若抽取的第一组中的号码为0010,则第三组抽取的号码为( ) A .0210 B .0410 C .0610 D .0810 答案 B解析 将零件分成50段,分段间隔为200,因此,第三组抽取的号码为0010+2×200=0410,故选B.2.(2017·榆林月考)打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌后,开始按次序搬牌,对任何一家来说,都是从52张总体中抽取一个13张的样本,则这种抽样方法是( )A .系统抽样B .分层抽样C .简单随机抽样D .非以上三种抽样方法答案 A解析 符合系统抽样的特点,故选A.3.用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本,其中某一个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( ) A.110,110 B.310,15 C.15,310 D.310,310答案 A解析 在抽样过程中,个体a 每一次被抽中的概率是相等的,因为总体容量为10,故个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性均为110,故选A.4.(2017·长沙一中测试)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250 答案 A解析 方法一 由题意可得70n -70=3 5001 500,解得n =100. 方法二 由题意,得抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n =5 000×150=100.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ) A .7 B .9 C .10 D .15 答案 C解析 由系统抽样的特点知,抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 6.福利彩票“双色球”中红色球的号码由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )A.23 B .09 C .02 D .17答案 C解析 从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02. 7.(2017·雅礼中学月考)某中学教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1000进行编号,求得间隔数k =20,即分50组每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( ) A .177 B .157 C .417 D .367 答案 B解析 根据系统抽样的特点可知,抽取出的编号成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.8.将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是______________. 答案 16,28,40,52解析 编号组数为5,间隔为605=12,因为在第一组抽得04号,所以4+12=16,16+12=28,28+12=40,40+12=52, 所以其余4个号码依次为16,28,40,52.9.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件. 答案 18解析 ∵样本容量总体个数=60200+400+300+100=350,∴应从丙种型号的产品中抽取350×300=18(件).10.(2017·潍坊模拟)某高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山的比赛活动.每人都参与而且只能参与其中一项比赛,各年级参与比赛的人数情况如下表:其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的5.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取的人数为________. 答案 36解析 根据题意可知,样本中参与跑步的人数为200×35=120,所以从高二年级参与跑步的学生中应抽取的人数为120×32+3+5=36.11.200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号,分为40组,分别为1~5,6~10,…,196~200,若第5组抽取号码为22,则第8组抽取号码为________.若采用分层抽样,40岁以下年龄段应抽取________人.答案 37 20解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件得,200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x 人,则40200=x100,解得x =20.12.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,…,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组中随机抽取的号码为m ,那么在第k 组中抽取的号码的个位数字与m +k 的个位数字相同.若m =6,则在第7组中抽取的号码是________.答案 63解析 m =6,则在第7组中抽取的号码的个位数字与13的个位数字相同,而第7组中数字编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.13.(2017·宁夏中卫二模)某市教育主管部门为了全面了解2017届高三学生的学习情况,决定对该市参加2017年高三第一次全省统一考试(后称统考)的32所学校进行抽样调查.将参加统考的32所学校进行编号,依次为1到32,现用系统抽样法抽取8所学校进行调查,若抽到的最大编号为31,则最小编号是( ) A .3 B .1 C .4 D .2 答案 A解析 根据系统抽样的特点可知,总体分成8组,组距为328=4,若抽到的最大编号为31,则最小编号是3.14.为调查德克士各分店的经营状况,某统计机构用分层抽样的方法,从A ,B ,C 三个城市中抽取若干家德克士分店组成样本进行深入研究,有关数据见下表:(单位:个)则样本容量为________. 答案 6解析 设所求的样本容量为n ,由题意得 n26+13+39=226,解得n =6.15.(2018·泉州质检)某公司员工对户外运动分别持“喜欢”“不喜欢”和“一般”三种态度,其中持“一般”态度的比持“不喜欢”态度的多12人,按分层抽样方法从该公司全体员工中选出部分员工座谈户外运动,如果选出的人有6人对户外运动持“喜欢”态度,有1人对户外运动持“不喜欢”态度,有3人对户外运动持“一般”态度,那么这个公司全体员工中对户外运动持“喜欢”态度的有( ) A .36人 B .30人 C .24人 D .18人答案 A解析 设持“喜欢”“不喜欢”“一般”态度的人数分别为6x ,x,3x ,由题意可得3x -x =12,x =6,∴持“喜欢”态度的有6x =36(人).16.(2017·开封模拟)某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n 个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1人,则在采用系统抽样时,需要在总体中先剔除1个个体,求n .解 总体容量为6+12+18=36.当样本容量为n 时,由题意知,系统抽样的间隔为36n,分层抽样的比例是n 36,抽取的工程师人数为n 36×6=n 6,技术员人数为n 36×12=n3,技工人数为n 36×18=n2,所以n 应是6的倍数,36的约数,即n =6,12,18. 当样本容量为(n +1)时,总体容量剔除以后是35人, 系统抽样的间隔为35n +1,因为35n +1必须是整数, 所以n 只能取6,即样本容量n =6.。

2019精品年高考数学文专题复习第单元统计与统计案例北师大版文档

2019精品年高考数学文专题复习第单元统计与统计案例北师大版文档

第59讲 │ 要点探究
①7,34,61,90,115,142,169,196,223,250 ②5,9,100,107,111,121,180,195,200,265 ③11,38,65,92,119,146,173,200,227,254 ④30,57,84,111,138,165,192,219,246,270 关于上述样本的下列结论中,正确的是( ) A.②、③都不能为系统抽样 B.②、④都不能为分层抽样 C.①、④都不能为系统抽样 D.②、④都不能为系统抽样
2.高考对本单元内容的要求较低,多以选择题或填空题的方 式进行考查,考查抽样方法,平均数、方差等数据特征;在解答 题中一般要通过统计图表,通过分析数据的数字特征,结合概率 等知识解决实际问题中或回答实际问题中的含义.
从陕西、安徽等省 2010 年的高考来看,均有一大一小两道 题,要求并不高,易得分,所以预测 2012 年仍然顺应这种高考 命题的趋势,在高考试卷中这部分继续考查统计的基础知识和基 本方法,在解答题中和概率统计等其他知识一起进行综合考查.
第十二单元 │ 使用建议
2.教学指导 在复习过程中,要注意以下三个方面: (1)强化概念的教学,本单元概念较多,引导学生结合具 体题目,仔细体会概念的含义,通过适当练习,学会如何使 用概念解题. (2)统计图表是统计中的主要工具,教学中要使学生学会 从图表中提取有关的数据信息、进行统计推断的方法. (3)加强运算能力的培养,统计的数字计算较繁,要求学 生培养良好的运算习惯,通过统计的复习提高运算能力. 3.课时安排 本单元包括3讲和1个单元能力训练卷,第61讲分两个课 时使用,另两讲和单元能力训练卷各用1课时,共需5课时.
第十二单元 │ 使用建议
使用建议
1.编写意图 本单元内容将教材中必修3第二章《统计》和选 修2-3第三章《统计案例》整合在一起.本单元内 容与生产生活实际相结合,数据多,公式多,要求 考生有较强的数据处理能力,公式一般不需要记 忆,考试时会给出公式.根据考试说明和高考对本 单元考查的实际情况,本单元在编写时注意到以下 几点:一是注意了基础知识的全面性和系统性;二 是注意了统计方法的讲解,编写中把各种统计方法 的使用放在首位;三是注意了高考的发展趋势,加 强了对统计案例的复习力度.

2019年高考数学文科复习§10.2 统计及统计案例

2019年高考数学文科复习§10.2 统计及统计案例

3.相关指数:R2=1- i n1 模型的拟合效果越差.
( y y )
i 1 i
( yi y i ) 2
2
n
^
.R2越大,模型的拟合效果越好;R2越小,
4.相关系数r.|r|→1,表示两个变量的线性相关性越强. |r|→0,表明两个变量之间几乎不存在线性相关性. 通常|r|≥0.75时,认为两个变量有很强的线性相关性.
2
样本容量.
3.独立性检验 利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类
变量有关系”的方法称为两个分类变量的独立性检验.
两个分类变量X和Y是否有关系的判断标准: 统计学研究表明:当K2≤3.841时,认为X与Y无关; 当K2>3.841时,有95%的把握说X与Y有关; 当K2>6.635时,有99%的把握说X与Y有关; 当K2>10.828时,有99.9%的把握说X与Y有关.
考点五 独立性检验 1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的 变量称为分类变量. 2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变 量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2列联表)如下:
n(ad bc) 2 可构造一个随机变量K = ,其中n=a+b+c+d为 (a b)(c d )(a c)(b d )
4.系统抽样的步骤
N N 当 是整数时 ,(1) 先将总体中每一个个体编号 .(2) 确定分段间隔 k = ,对 n n
编号进行分段.(3)在第一段用抽签法确定第一个个体编号t(t≤k).(4)按 照一定的规则抽取样本,通常是抽取t,t+k,t+2k,……,t+(n-1)· k. 当 不是整数时,先随机地从总体中剔除余数个个体,然后按上述步骤 进行.

2019高考数学二轮复习专题七概率与统计2.7.3正态分布、统计与统计案例课件理

2019高考数学二轮复习专题七概率与统计2.7.3正态分布、统计与统计案例课件理

2.正态分布 X~N(μ,σ2)的三个常用数据 (1)P(μ-σ<X≤μ+σ)=0.6826; (2)P(μ-2σ<X≤μ+2σ)=0.9544; (3)P(μ-3σ<X≤μ+3σ)=0.9974.
[解题指导]
[解]
(1)抽取的一个零件的尺寸在(μ-3σ, μ+3σ)之内的概率
为 0.9974, 从而零件的尺寸在(μ-3σ, μ+3σ)之外的概率为 0.0026, 故 X~B(16,0.0026). 因此 P(X≥1)=1-P(X=0)=1-0.997416≈0.0408. X 的数学期望为 E(X)=16×0.0026=0.0416.
[对点训练]
2 1.(2018· 兰州检测)设 X~N(μ1,σ2 1),Y~N(μ2,σ2),这两个
正态分布密度曲线如图所示,下列结论中正确的是(
)
A. P(Y≥μ2)≥P(Y≥μ1) B.P(X≤σ2)≤P(X≤σ1) C.对任意正数 t,P(X≥t)≥P(Y≥t) D.对任意正数 t,P(X≤t)≥P(Y≤t)
3.方差公式 1 - - - s = [(x1- x )2+(x2- x )2+…+(xn- x )2] n
2
[对点训练] 1.(2018· 安徽皖南八校联考)某校为了解 1000 名高一新生的 健康状况, 用系统抽样法(按等距的规则)抽取 40 名同学进行检查, 将学生从 1~1000 进行编号,现已知第 18 组抽取的号码为 443, 则第一组用简单随机抽样抽取的号码为( A.16 B.17 C.18 D.19 )
[答案]
C
2. 某校组织了“2017 年第 15 届希望杯数学竞赛(第一试)”, 已知此次选拔赛的数学成绩 X 服从正态分布 N(72,121)(单位: 分), 此次考生共有 500 人,估计数学成绩在 72 分到 83 分之间的人数 约为(参数数据:P(μ-σ<X<μ+σ)=0.6826,P(μ-2σ<X<μ+2σ)= 0.9544.)( A.238 ) B.170 C.340 D.477

2019届高考数学总复习6.3.1统计与统计案例课件理

2019届高考数学总复习6.3.1统计与统计案例课件理

-3-
卷 解题思想 设问特点 涉及知识点 题目类型 别 方法 据散点图选函数 全 整体代 模型拟合,求回 散点图、回归方 国 回归分析 换、 换元 归方程,求预报 程 Ⅰ 法 值 2015 用茎叶图比较平 茎叶图、平均值、 全 均值及分散程 求独立事件 独立事件、互斥 分析、 抽 国 度,求独立事件 及互斥事件 事件、频率、概 象、 概括 Ⅱ 及互斥事件的概 的概率 率 率 年份
(xi,yi)(i=1,2,…,n),则回归方程为������ = b x+������,其中������ = ������ − ������ ������.
^
^
^
^
^
������ =1 ������
∑ ������ ������ ������ ������ -������������ ������
-6-
卷 年份 设问特点 涉及知识点 题目类型 别 求二项分布的概 全 二项分布的概 率、最大值、二 国 率、极值、二项 二项分布 项分布的数学期 Ⅰ 分布的数学期望 望并做出决策 全 由回归模型求预 2018 国 测值,判断回归 回归分析 回归分析 Ⅱ 模型的可靠性
解题思想 方法 函数思 想、 处理 数据 分析、 处 理数据
附:������ =
^
������ =1
∑ (������ ������ -������ )(������ ������ -������ )
������ =1
������
∑ (������ ������ -������ )
������
2
=
������ =1 ������
∑ ������ ������ ������ ������ -������������ ������

2019高中数学 第三章 统计案例 阶段复习课 第3课 统计案例学案 新人教A版选修2-3

2019高中数学 第三章 统计案例 阶段复习课 第3课 统计案例学案 新人教A版选修2-3

第三课 统计案例[核心速填] (建议用时4分钟)1.分析判断两个变量相关关系常用的方法(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析.(2)相关指数法:利用相关指数R 2进行检验,在确认具有相关关系后,再求线性回归方程.2.求线性回归方程的步骤(1)画散点图:从直观上观察两个变量是否线性相关. (2)计算:利用公式求回归方程的系数的值.b ^=∑i =1nx i -x-yi -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.(3)写出方程:依据y ^=a ^+b ^x ,写出回归直线方程. 3.两种特殊可线性化回归模型的转化(1)将幂型函数y =ax m(a 为正的常数,x ,y 取正值)化为线性函数.如果将y =ax m两边同取以10为底的对数,则有lg y =m lg x +lg a .令u =lg y ,v =lg x ,lg a =b ,代入上式,得u =mv +b ,其中m ,b 是常数.这是u ,v 的线性函数.如果以u 为纵坐标,v 为横坐标,则u =mv +b 的图象就是一直线.(2)将指数型函数y =ca x(a >0且a ≠1,c >0且为常数)化为线性函数.将y =ca x两边同取以10为底的对数,有lg y =x lg a +lg c ,令lg y =u ,lg a =k ,lg c =b ,得u =kx +b ,其中,k 和b 是常数,与幂型函数不同的是x 依然保持原来的,只是用y 的对数lg y 代替了y .4.在实际问题中常用的三个数值(1)当K 2>6.635时,表示有99%的把握认为“事件A 与B 有关系”. (2)当K 2>3.841时,表示有95%的把握认为“事件A 与B 有关系”. (3)当K 2≤3.841时,认为事件A 与B 是无关的.[体系构建][题型探究]一组观测值,可以画出散点图或利用相关系数r ,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.利用公式求回归直线方程时应注意以下几点:(1)求b ^时,利用公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x -y-ni =1x 2i -n x -2,先求出x =1n (x 1+x 2+x 3+…+x n ),y =1n (y 1+y 2+y 3+…+y n ).再由a ^=y -b ^ x 求a ^的值,并写出回归直线方程.(2)回归直线一定经过样本点的中心(x -,y -).(3)回归直线方程中的截距a ^和斜率b ^都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.(4)回归直线方程y ^=a ^+b ^x 中的b ^表示x 每增加1个单位时预报变量y 的平均变化量,而a ^表示预报变量y 不随x 的变化而变化的部分.以下是某地收集到的新房屋的销售价格y 和房屋的面积x 的数据:(2)若线性相关,求线性回归方程;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格.【导学号:95032252】[解] (1)数据对应的散点图如图所示.(2)由散点图知y 与x 具有线性相关关系.由表中数据知x -=15∑i =15x i =109,y -=15∑i =15y i =23.2,∑i =15x 2i =60 975,∑i =15x i y i =12 952.设所求回归直线方程为y ^=b ^x +a ^,则b ^=5i =1x i y i -5x -y -∑i =15x 2i -5x -2≈0.196 2,a ^=y --b ^x -≈1.814 2,故所求回归直线方程为y ^=0.196 2x +1.814 2.(3)根据(2),当x =150时,销售价格的估计值为y ^=0.1962×150+1.814 2=31.244 2(万元).1.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:(2)根据如下的参考公式与参考数据,求利润额y 与销售额x 之间的线性回归方程; (3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.(参考公式:b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.其中,∑i =15x i y i =112,∑i =15x 2i =200)[解] (1)散点图.(2)由已知数据计算得n =5,x -=305=6,y -=175=3.4,b ^=112-5×6×3.4200-5×6×6=0.5,a ^=3.4-0.5×6=0.4.则线性回归方程为y ^=0.5x +0.4.(3)将x =10代入线性回归方程中得到y ^=0.5×10+0.4=5.4(千万元). 即估计该零售店的利润额约为5.4千万元.决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R 2(相关系数r ).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.在研究弹簧伸长长度y (cm)与拉力x (N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:若依据散点图及最小二乘法求出的回归直线方程为y =0.18x +6.34,求R 2,并结合残差说明拟合效果.【导学号:95032253】[解] 列表求值如下:x -=17.5,y -≈9.49,∑i =16x i y i =1 076.2,∑i =16x 2i =2 275,∑i =16(y i -y ^i )2=0.017 4,∑i =16(y i-y -)2=14.678 4.∴R 2=1-0.017 414.678 4≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.2.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b =6.5, (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由. [解] (1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^.x -=2+4+5+6+85=5,y -=30+40+60+50+705=50,∴y ^=6.5x +a ^经过(x -,y -), ∴50=6.5×5+a ^,∴a ^=17.5,∴y 与x 的线性回归方程为y ^=6.5x +17.5.(2)由(1)的线性模型得y i -y ^i 与y i -y -的关系如下表:所以∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.所以R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845.由于R 21=0.845,R 2=0.82知R 21>R 2, 所以(1)的线性模型拟合效果比较好.是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.(1)根据以上数据列出2×2列联表;(2)判断40岁以上的人患胃病与生活规律是否有关.【导学号:95032254】[思路探究] (1)解决本题关键是首先弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.(2)利用2×2列联表计算K 2的观测值,再结合临界值表来分析相关性的大小. [解] (1)由已知可列2×2列联表如下:k =-280×460×220×320≈9.638.因为9.638>7.879,因此,我们在犯错误的概率不超过0.005的前提下认为40岁以上的人患胃病和生活规律有关.3.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行问卷调查得到了如下的列联表:(1)请将上面的列联表补充完整(不用写计算过程);(2)能否有99%的把握认为喜爱打篮球与性别有关?说明你的理由. (参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d )[解] (1)依题意可知喜爱打篮球的学生的人数为50×0.6=30. 列联表补充如下:(2)因为k =5020×15-5×1025×25×30×20≈8.333>6.635,所以,有99%的把握认为喜爱打篮球与性别有关.。

2019版高考数学二轮复习 专题六 统计 专题突破练18 统计与统计案例 文

2019版高考数学二轮复习 专题六 统计 专题突破练18 统计与统计案例 文

专题突破练18 统计与统计案例1.甲、乙两人参加某体育项目训练,近期的五次测试成绩得分情况如图所示.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.2.(2018全国卷2,文18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.(2018河北唐山一模,文18)某水产品经销商销售某种鲜鱼,售价为每千克20元,成本为每千克15元.销售宗旨是当天进货当天销售.如果当天卖不出去,未售出的全部降价处理完,平均每千克损失3元.根据以往的销售情况,按[0,100),[100,200),[200,300),[300,400),[400,500]进行分组,得到如图所示的频率分布直方图.(1)根据频率分布直方图计算该种鲜鱼日需求量的平均数(同一组中的数据用该组区间中点值代表);(2)该经销商某天购进了300千克这种鲜鱼,假设当天的需求量为x千克(0≤x≤500),利润为Y元.求Y关于x的函数关系式,并结合频率分布直方图估计利润Y不小于700元的概率.4.某单位N名员工参加“我爱阅读”活动,他们的年龄在25岁至50岁之间,按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.(1)求正整数a,b,N的值;(2)现要从年龄低于40岁的员工中用分层抽样的方法抽取42人,则年龄在第1,2,3组的员工人数分别抽取多少?(3)为了估计该单位员工的阅读倾向,现对该单位所有员工中按性别比例抽查的40人是否喜欢阅读国学类书籍进行了调查,调查结果如下所示:(单位:人)下面是年龄的分布表:根据表中数据,我们能否有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系?附:K2=,其中n=a+b+c+d.5.(2018百校联盟四月联考,文18)每年的寒冷天气都会带热“御寒经济”,以餐饮业为例,当外面太冷时,不少人都会选择叫外卖上门,外卖商家的订单就会增加,下表是某餐饮店从外卖数据中抽取的5天的日平均气温与外卖订单数(1)经过数据分析,一天内平均气温x(℃)与该店外卖订单数y(份)成线性相关关系,试建立y 关于x的回归方程,并预测气温为-12 ℃时该店的外卖订单数(结果四舍五入保留整数); (2)天气预报预测未来一周内(七天),有3天日平均气温不高于-10 ℃,若把这7天的预测数据当成真实数据,则从这7天任意选取2天,求恰有1天外卖订单数不低于160份的概率.附注:回归方程x+中斜率和截距的最小二乘估计公式分别为:.6.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:,K2=.7.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的成绩平均分(同一组数据用该组区间中点值作代表),从计算结果看,判断数学成绩与性别是否有关;(2)K2=,其中8.(2018全国百强校最后一卷,文19)下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份-2 013.(1)已知y与x具有线性相关关系,求y关于x的线性回归方程,并预测2018年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:,K2=,n=a+b+c+d.参考答案专题突破练18统计与统计案例1.解 (1)由图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.=13,=13,×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由,可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.2.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)3.解(1)=50×0.001 0×100+150×0.002 0×100+250×0.003 0×100+350×0.0025×100+450×0.001 5×100=265.(2)当日需求量不低于300千克时,利润Y=(20-15)×300=1 500(元);当日需求量不足300千克时,利润Y=(20-15)x-(300-x)×3=8x-900(元);故Y=由Y≥700得,200≤x≤500,所以P(Y≥700)=P(200≤x≤500)=0.003 0×100+0.002 5×100+0.001 5×100=0.7.4.解(1)总人数N==280,a=28,第3组的频率是1-5×(0.02+0.02+0.06+0.02)=0.4,所以b=280×0.4=112.(2)因为年龄低于40岁的员工在第1,2,3组,共有28+28+112=168(人),利用分层抽样在168人中抽取42人,每组抽取的人数分别为:第1组抽取的人数为28×=7(人),第2组抽取的人数为28×=7(人),第3组抽取的人数为112×=28(人),所以第1,2,3组分别抽7人、7人、28人.(3)假设H0:“是否喜欢阅读国学类书籍和性别无关”,根据表中数据,求得K2的观测值k=≈6.860 5>6.635,查表得P(K2≥6.635)=0.01,从而能有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系.5.解 (1)由题意可知=-6,=110,(x i-)2=42+22+02+(-2)2+(-4)2=40,(x i-)(y i-)=4×(-60)+2×(-25)+0×5+(-2)×30+(-4)×50=-550, 所以=-13.75,=110+13.75×(-6)=27.5,所以y关于x的回归方程为=-13.75x+27.5,当x=-12时,=-13.75x+27.5=-13.75×(-12)+27.5=192.5≈193.所以可预测当平均气温为-12 ℃时,该店的外卖订单数为193份.(2)外卖订单数不低于160份的概率就是日平均气温不高于-10 ℃的概率,由题意,设日平均气温不高于-10 ℃的3天分别记作A,B,C,另外4天记作a,b,c,d, 从这7天中任取2天结果有:(A,B),(A,C),(A,a),(A,b),(A,c),(A,d),(B,C),(B,a),(B,b),(B,c),(B,d),(C,a),(C,b ),(C,c),(C,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d)共21种,恰有1天平均气温不高于-10 ℃的结果有:(A,a),(A,b),(A,c),(A,d),(B,a),(B,b),(B,c),(B,d),(C,a),(C,b),(C,c),(C,d)共12种,所以所求概率P=.6.解 (1)旧养殖法的箱产量低于50 kg的频率为=≈15由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值到55 7.解 (1)=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5.=45×0.15+55×0.10+65×0.125+75×0.25+85×0.325+95×0.05=71.5.从男、女生各自的成绩平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K2=≈1.79.∵1.79<2.706,∴在犯错误的概率不超过0.1的前提下不能认为“数学成绩与性别有关”.8.解(1)由题意得=2.5,=200,=30,x i y i=2 355,所以=71,所以=200-71×2.5=22.5,所以y关于x的线性回归方程为=71x+22.5.由于2 018-2 013=5,所以当x=5时,=71×5+22.5=377.5,所以预测2018年该百货零售企业的线下销售额为377.5万元.故K2的观测值K2=≈6.109,由于6.109>5.024,所以可以在犯错误的概率不超过0.025 的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.11。

高考数学总复习第九章算法初步、统计、统计案例课时作业62理

高考数学总复习第九章算法初步、统计、统计案例课时作业62理

课时作业62 变量间的相关关系与统计案例1.(2019·辽宁丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K 2=6.705,则所得到的统计学结论是:有 的把握认为“学生性别与支持该活动没有关系”.( C )附:C .1%D .0.1%解析:因为6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.2.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( B )A.116 B .18 C.14D .12解析:依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.4.为考察A 、B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法正确的是( C ) A .药物A 、B 对该疾病均没有预防效果 B .药物A 、B 对该疾病均有显著的预防效果 C .药物A 的预防效果优于药物B 的预防效果 D .药物B 的预防效果优于药物A 的预防效果解析:根据两个等高条形图知,药物A 实验显示不服药与服药时患病的差异较药物B 实验显示明显大,∴药物A 的预防效果优于药物B 的预防效果.故选C.5.(2019·河南焦作一模)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y =b x -0.25,据此可以预测当x =8时,y ^=( C ) A .6.4 B .6.25 C .6.55D .6.45解析:由题意知x =3+4+5+6+75=5,y =2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25, 所以当x =8时,y ^=0.85×8-0.25=6.55,故选C.6.(2019·南昌模拟)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.附表:由K 2=a +bc +d a +cb +d算得,K 2=258×42×35×65≈9.616,参照附表,得到的正确结论是( C )A .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”C .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”D .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关” 解析:由题意K 2的观测值≈9.616>6.635,所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.77x +52.9.解析:由已知可计算求出x =30,而线性回归方程必过点(x ,y ),则y =0.77×30+52.9=76,设模糊数字为a ,则a +62+75+80+905=76,计算得a =73.8.(2019·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)过 0.025 .附表:解析:由列联表计算K 2的观测值k =30×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有解析:由2×2列联表可知,K 2=-240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.10.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n = 10 .解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n 5,回归直线一定经过样本点中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.11.(2019·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=a +bc +d a +cb +d,n =a +b +c +d .解:(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =-2++++=163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.12.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t -.解:(1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.10, a ^=y -b ^ t -=1.331-0.10×4≈0.93. 所以y 关于t 的回归方程为 y ^=0.93+0.10t .将2016年对应的t =9代入回归方程得:y ^=0.93+0.10×9=1.83. 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.13.(2019·湖南张家界一模)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误的是( C )A.变量x ,B .可以预测,当x =20时,y ^=-3.7 C .m =4D .该回归直线必过点(9,4)解析:由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x =14×(6+8+10+12)=9,y =14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y =6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C.14.(2019·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( C )A.b ^>b ′,a ^>a ′ B .b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D .b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6 x·y∑i =16x 2i -6 x 2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.15.(2019·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有 12 人.则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2019·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量;(3)请用数据说明回归方程预报的效果.参考数据:y -=54,∑i =17(t i -t -)(y i -y -)=21,14≈3.74,∑i =17(y i -y ^i )2=94. 参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,线性回归方程y ^=a ^+b ^t ,b ^=∑i =1nt i -ty i -y∑i =1n t i -t2,a ^=y -b ^t -.反映回归效果的公式为:R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2,其中R 2越接近于1,表示回归的效果越好.解:(1)由折线图中的数据得,t =4,∑i =17(t i -t -)2=28,∑i =17(y i -y -)2=18,所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y -=54,b ^=∑i =17t i -ty i -y∑i =17t i -t2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^=34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑i =17y i -y ^i2∑i =17y i -y2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。

2019届全国卷高三数学艺体生、学困生补习资料,专题复习资料:专题(18)统计与统计案例(基础篇-含答案)

2019届全国卷高三数学艺体生、学困生补习资料,专题复习资料:专题(18)统计与统计案例(基础篇-含答案)

抽样方法【背一背基础知识】1. 简单随机抽样:一般地,从元素个数为N 的总体中逐个不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.最常用的简单随机抽样的方法:抽签法和随机数法.简单随机抽样适用范围是:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小。

2.系统抽样:假设要从容量为N 的总体中抽取容量为n 的样本,第一步,先将总体的N 个个体编号;第二步,确定分隔间距k ,对编号进行分段,当Nn (n 是样本容量)是整数时,取k =N n ;当N n (n 是样本容量)不是整数时,先用简单随机抽样剔除N n -[N n ]个个体,取k =[Nn ];第三步,在第1段用简单随机抽样确定第一个个体编号l (l ≤k );第四步,按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号l k +,再加k 得到第3个个体编号2l k +,依次进行下去,直到获取整个样本.系统抽样的适用范围是:元素个数很多且均衡的总体;各个个体被抽到的机会均等。

3.分层抽样:当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,常采用分层抽样,将总体中各个个体按某种特征分成若干个互不交叉的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.分层抽样的应用范围是:总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.【讲一讲提高技能】1必备技能:在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为Nn(N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值. 2典型例题:例1. 某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为_______.【答案】25【解析】由题意得抽样比例为45190020=,故应抽取的男生人数为15002520⨯=.【考点】分层抽样.【名师点睛】本题考查抽样方法,要搞清楚三种抽样方法的区别和联系,其中分层抽样是按比例抽样;系统抽样是等距离抽样,属于基础题.例2. 某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本的老年教师人数为()A.90 B.100 C.180 D.300【答案】C【考点定位】分层抽样.【名师点晴】本题主要考查的是分层抽样,属于容易题.解题时一定要清楚“320”是指抽取前的人数还是指抽取后的人数,否则容易出现错误.解本题需要掌握的知识点是分层抽样,即抽取比例=样本容量总体容量.【练一练提升能力】1.为了了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为()A.50B.40C.25D .20 【答案】C【解析】由题意知,分段间隔为10002540=,故选C . 2.从3001名学生中选取50名组成参观团,现采用下面的方法选取:先用简单随机抽样从 3001人中剔除1人,剩下的3000人再按系统抽样的方法进行,则每个人被选到的机会( )A .不全相等B 。

2019年高考数学二轮复习专题六第1讲统计与统计案例案文.doc

2019年高考数学二轮复习专题六第1讲统计与统计案例案文.doc

2019年高考数学二轮复习专题六第1讲统计与统计案例案文高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2015年,2016年和2017年在解答题中均有考查.真题感悟1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数解析刻画评估这种农作物亩产量稳定程度的指标是标准差.答案 B2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D项不正确.答案 D3.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166D.170解析 由已知得x -=22.5,y -=160,∵回归直线方程过样本点中心(x -,y -),且b ^=4,∴160=4×22.5+a ^,解得a ^=70.∴回归直线方程为y ^=4x +70,当x =24时,y ^=166. 答案 C4.(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)由频率分布直方图知,旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,则事件A 的概率估计值为0.62. (2)列联表如下:∴K 2=100×100×104×96≈15.705>6.635,∴有99%的把握认为箱产量与养殖方法有关.(3)由箱产量的频率分布直方图可知,旧养殖法的箱产量平均值(或中位数)约在45~50 kg 之间,新养殖法的箱产量平均值(或中位数)约在50~55 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法分布集中程度高,可知新养殖法的箱产量高且稳定,从而新养殖法优于旧养殖法.考 点 整 合1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的四个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即x -=1n(x 1+x 2+…+x n ).(4)方差与标准差.s 2=1n[(x 1-x - )2+(x 2-x - )2+…+(x n -x -)2],s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^ =b ^ x +a ^ 经过样本点的中心点(x - ,y -),若x 取某一个值代入回归直线方程y ^ =b ^ x +a ^ 中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:则K 2=n (ad -(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 抽样方法【例1】 (1)(2015·北京卷)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 C.180D.300(2)(2017·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.解析 (1)设该样本中的老年教师人数为x ,由题意及分层抽样的特点得x 900=3201 600,故x =180.(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人. 答案 (1)C (2)4探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值. 2.在系统抽样的过程中,要注意分段间隔,需要抽取n 个个体,样本就需要分成n 个组,则分段间隔即为N n(N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.【训练1】 (1)(2017·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A.13 B.19 C.20D.51(2)(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13, 7+13×2,7+13×3,即7号,20号,33号,46号. ∴样本中还有一位同学的编号为20号.(2)因为样本容量n =60,样本总体N =200+400+300+100=1 000,所以抽取比例为n N =601000=350. 因此应从丙种型号的产品中抽取300×350=18(件).答案 (1)C (2)18 热点二 用样本估计总体命题角度1 数字特征与茎叶图的应用【例2-1】 (2017·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的. ①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大; ②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( ) A.①②③ B.②③④ C.①②④D.①③④解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P 1=510=12,女生平均每天锻炼时间超过65分钟的概率P 2=410=25,P 1>P 2,因此④正确.设男生、女生两组数据的平均数分别为x -甲,x -乙,标准差分别为s 甲,s 乙. 易求x - 甲=65.2,x - 乙=61.8,知x - 甲>x -乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散, ∴s 甲<s 乙,③错误,因此符合茎叶图所给数据的结论是①②④. 答案 C命题角度2 用样本的频率分布估计总体分布【例2-2】 (2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.解(1)由频率分布直方图可知,月均用水量在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12. 由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.2.在本例2-2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0. 9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 热点三 回归分析与独立性检验【例3】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:参考附表:(参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )(2)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.①由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; ②建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:(1)解析 分析列联表中数据,可得K 2的一个观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”. 答案 99%(2)解 ①由折线图中的数据和附注中参考数据得t -=4,因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.a ^=y - -b ^t -≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得:y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解计算b ^,a ^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表.(2)K 2的观测值k 越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练3】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K 2的观测值k ≈3.918. 附表:A.95%B.5%C.97.5%D.2.5%(2)(2017·唐山一模)某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:②用对数回归模型拟合y 与x 的关系,可得回归方程y ^=12ln x +22,经计算得出线性回归模型和对数模型的R 2分别约为0.75和0.97,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.(1)解析 ∵k ≈3.918>3.841,且P (K 2≥k 0=3.841)=0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过5%. 答案 B因此a ^=y - -b ^x -=42-1.7×8=28.4.所以,y 关于x 的线性回归方程是y ^=1.7x +28.4. ②∵0.75<0.97,∴对数回归模型更合适.当x =8时,y ^=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元. ∴广告费支出8万元时,预测A 超市销售额为47.2万元.1.用样本估计总体是统计的基本思想.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小. 注意:频率分布直方图的纵轴刻度是频率组距,而不是频率,每个小直方图的面积才是相应区间的频率.4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.一、选择题1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ) A.7 B.9 C.10D.15解析 抽取号码的间隔为96032=30,从而区间[451,750]包含的段数为75030-45030=10,则编号落入区间[451,750]的人数为10人,即做问卷B 的人数为10. 答案 C2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 解析 由题图可知,2014年8月到9月的月接待游客量在减少,则A 选项错误. 答案 A3.(2017·山东卷)如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5B.5,5C.3,7D.5,7解析 由茎叶图知甲组数据中位数为65,所以y =5,此时乙组平均值为66.56+65+62+74+70+x 5=66,解得x =3.答案 A4.(2017·汉中模拟)已知两个随机变量x ,y 之间的相关关系如表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析 作出散点图,画出回归直线直观判定b ^>0,a ^<0. 答案 C5.(2017·济南调研)2016年济南地铁正式开工建设,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:附:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关” 解析 由2×2列联表,可求K 2的观测值,k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20)≈5.288>3.841. 由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A 二、填空题6.(2017·石家庄质检)为比较甲、乙两地14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论: ①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号正确的是________.解析 x - 甲=26+28+29+31+315=29,x - 乙=28+29+30+31+325=30,则x - 甲<x - 乙,①正确. 由茎叶图知,乙地的气温相对比较集中,甲地的气温相对比较离散. 所以甲地该月的标准差大于乙地该月的标准差,④正确. 答案 ①④7.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x (吨)与生产能耗y (吨)的对应数据如表:根据最小二乘法求得回归方程为y =0.65x +a ,当产量为80吨时,预计需要生产能耗为________吨.解析 由题意,x -=45,y -=36.25,代入y ^=0.65x +a ^,得a ^=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59. 答案 598.(2016·山东卷改编)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.解析 设所求的人数为n ,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n =0.7×200=140. 答案 140 三、解答题9.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;(2)设六月份一天销售这种酸奶的利润为Y (单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y 的所有可能值,并估计Y 大于零的概率.解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为2+16+3690=0.6.所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6. (2)当这种酸奶一天的进货量为450瓶时,若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100;若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300;若最高气温不低于25,则Y=450×(6-4)=900,所以,利润Y的所有可能值为-100,300,900.Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为36+25+7+490=0.8.因此Y大于零的概率的估计值为0.8.10.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?解(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.由题设条件得列联表∴K2=n(ad(a+b)(c+d)(a+c)(b+d)=100(38×20-30×12)250×50×68×32≈2.941>2.706.所以有90%的把握认为“微信控”与“性别”有关.11.(2017·全国Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尽寸:(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x --3s ,x -+3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x - -3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)解 (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x - =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外. 因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为 115(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.i =116x 2i ≈16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115(1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.。

通用版2019版高考数学(文)二轮复习讲义:重点增分专题十一 统计、统计案例(含解析)

通用版2019版高考数学(文)二轮复习讲义:重点增分专题十一 统计、统计案例(含解析)

重点增分专题十一 统计、统计案例[全国卷3年考情分析](1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在2~4题的位置.(2)统计与统计案例在解答题中多出现在第18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.考点一 抽样方法 保分考点·练后讲评 1.[简单随机抽样]福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为( )A .12B .33C .06D .16解析:选C 被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.[分层抽样]某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D 因为抽样比为10020 000=1200, 所以每类人中应抽选的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D. 3.[系统抽样]某班共有学生56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,将56人按学号从小到大分成4组,则分段间隔为14,所以抽取的学号依次为2,16,30,44,故还有一位同学的学号为16.答案:16[解题方略] 系统抽样和分层抽样中的计算 (1)系统抽样①总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组Nn 个(有零头时要先去掉). ②若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +Nn ,…, k +(n -1)Nn .(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.考点二 用样本估计总体 保分考点·练后讲评 [大稳定——常规角度考双基]1.[频数分布表中的数字特征]某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:则这20户家庭该月用电量的众数和中位数分别是( ) A .180,170 B .160,180 C .160,170D .180,160解析:选A 用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.[茎叶图中的数字特征]甲、乙两名同学在7次数学测试中的成绩如茎叶图所示,其中甲同学成绩的众数是85,乙同学成绩的中位数是83,则成绩较稳定的是________.解析:根据众数及中位数的概念易得x =5,y =3,故甲同学成绩的平均数为78+79+80+85+85+92+967=85,乙同学成绩的平均数为72+81+81+83+91+91+967=85,故甲同学成绩的方差为17×(49+36+25+49+121)=40,乙同学成绩的方差为17×(169+16+16+4+36+36+121)=3987>40,故成绩较稳定的是甲. 答案:甲3.[频率分布直方图中的数字特征]为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.(1)求图中a 的值;(2)估计这种植物果实重量的平均数x 和方差s 2(同一组中的数据用该组区间的中点值作代表).解:(1)由5×(0.020+0.040+0.075+a +0.015)=1,得a =0.050. (2)各组中点值和相应的频率依次为x =30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40, s 2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75. [解题方略]1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算. (2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大. 2.从频率分布直方图中得出有关数据的方法[小创新——变换角度考迁移]1.[统计中的创新]空气质量指数AQI 是检测空气质量的重要参数,其数值越大说明空气污染状况越严重,空气质量越差.某地环保部门统计了该地区12月1日至12月24日连续24天的空气质量指数AQI ,根据得到的数据绘制出如图所示的折线图.则下列说法错误的是( )A .该地区在12月2日空气质量最好B .该地区在12月24日空气质量最差C .该地区从12月7日到12月12日AQI 持续增大D .该地区的空气质量指数AQI 与这段日期成负相关解析:选D 12月2日空气质量指数最低,所以空气质量最好,A 正确;12月24日空气质量指数最高,所以空气质量最差,B 正确;12月7日到12月12日AQI 在持续增大,所以C 正确;在该地区统计这段时间内,空气质量指数AQI 整体呈上升趋势,所以空气质量指数与这段日期成正相关,D 错误.2.[与基本不等式交汇]为保障食品安全,某市质量监督局对某超市进行食品安全检查,如图所示是某品牌食品中某元素含量数据的茎叶图,已知该组数据的平均数为11.75,则4a +1b的最小值为( )A .9 B.92 C .3D.73解析:选C 根据茎叶图中的数据得,该组数据的平均数x =14(a +11+13+20+b )=11.75,∴a +b =3,∴4a +1b =13⎝⎛⎭⎫4a +1b (a +b )=13⎝⎛⎭⎫5+4b a +a b ≥13⎝⎛⎭⎫5+24b a ·a b =13(5+4)=3.当且仅当a =2b ,即a =2,b =1时取“=”.∴4a +1b的最小值为3.故选C.3.[借助数学文化考查]《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问:各几何?”其意为:今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱,则丙应出________钱(所得结果四舍五入,保留整数).解析:甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,丙应出100×180560+350+180=1656109≈17(钱).答案:17考点三 统计案例 增分考点·广度拓展 [分点研究]题型一 回归分析在实际问题中的应用[例1] 某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x 为该商品的进货量,y 为销售天数):(1)根据上表数据在如图所示的网格中绘制散点图;(2)根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)根据(2)中的计算结果,若该商店准备一次性进货该商品24吨,预测需要销售的天数.参考公式和数据:b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .∑i =18x 2i =356,∑i =18x i y i =241. [解] (1)散点图如图所示:(2)依题意,得x =18×(2+3+4+5+6+8+9+11)=6,y =18×(1+2+3+3+4+5+6+8)=4,又∑i =18x 2i =356,∑i =18x i y i =241, 所以b ^=∑i =18x i y i -8x y ∑i =18x 2i -8x2=241-8×6×4356-8×62=4968,a ^=4-4968×6=-1134,故线性回归方程为y ^=4968x -1134.(3)由(2)知,当x =24时,y ^=4968×24-1134≈17,故若该商店一次性进货24吨,则预计需要销售17天.[解题方略] 求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线y ^=b ^x +a ^必经过样本点的中心(x ,y )快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二独立性检验在实际问题中的应用[例2](2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),[解](1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80min ;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分) (2)由茎叶图知m =79+812=80.列联表如下:(3)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题方略] 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d )计算出K 2的观测值;(3)比较K 2的观测值与临界值的大小,作出统计推断.[多练强化]1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^= -30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)2.(2019届高三·湖北五校联考)通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下2×2列联表:(1)将题中的2×2列联表补充完整;(2)能否有99%的把握认为是否爱好该项运动与性别有关?请说明理由.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)题中的2×2列联表补充如下:(2)由(1)表中数据得K2=100×(40×25-20×15)255×45×60×40≈8.25>6.635,所以有99%的把握认为是否爱好该项运动与性别有关.数学建模——回归分析问题的求解[典例](2018·汕头模拟)二手车经销商小王对其所经营的A型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据:下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明.(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(b ^,a ^小数点后保留两位有效数字).(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2.参考数据:∑i =16x i y i =187.4,∑i =16x i z i =47.64,∑i =16x 2i =139,∑i =16(x i -x )2≈4.18,∑i =16(y i -y )2≈13.96,∑i =16(z i -z )2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.[解] (1)因为x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2,且 ∑i =16x i z i =47.64,∑i =16(x i -x )2≈4.18,∑i =16(z i -z )2≈1.53,所以r =∑i =16(x i -x )(z i -z )∑i =16(x i -x )2∑i =16(z i -z )2≈47.64-6×4.5×24.18×1.53≈-0.99,所以z 与x 的相关系数大约为0.99,说明z 与x 的线性相关程度很高.(2)由已知,得b ^=∑i =16x i z i -6 x z∑i =16x 2i -6x2=47.64-6×4.5×2139-6×4.52≈-0.36,所以a ^=z -b ^x =2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62. 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,得y ^=e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元. (3)当y ^≥0.711 8时,e -0.36x +3.62≥0.711 8=e ln 0.711 8=e -0.34, 所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年. [素养通路]本题是典型的回归分析问题,在实际问题中收集数据,画散点图,可以用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.[专题过关检测]A 组——“6+3+3”考点落实练一、选择题1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A .73B .78C .77D .76解析:选B 样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.2.(2019届高三·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A .100,20B .200,20C .200,10D .100,10解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.3.从某地高中男生中随机抽取100名同学,将他们的体重(单位:kg)数据绘制成频率分布直方图(如图),由直方图可知( )A .估计体重的众数为50或60B .a =0.03C .学生体重在[50,60)有35人D .从这100名男生中随机抽取一人,体重在[60,80)的概率为13解析:选C 根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,所以估计众数为55,A 错误;根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005,B 错误;体重在[50,60)内的频率是0.35,估计体重在[50,60)内的学生有100×0.35=35人,C 正确;体重在[60,80)内的频率为0.3+0.2=0.5,用频率估计概率,知这100名男生中随机抽取一人,体重在[60,80)的概率为12,D 错误.4.如图是民航部门统计的2018年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A .深圳的变化幅度最小,北京的平均价格最高B .深圳和厦门的春运期间往返机票价格同去年相比有所下降C .平均价格从高到低居于前三位的城市为北京、深圳、广州D .平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误,选D.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是( )A .13,12B .13,13C .12,13D .13,14解析:选B 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,即2d -d 2=0,又d ≠0,故d =2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为(4+22)×510=13,中位数为12+142=13.6.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知∑i =110x i =225,∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170解析:选C 由题意可知y ^=4x +a ^, 又x =22.5,y =160,因此160=22.5×4+a ^,解得a ^=70, 所以y ^=4x +70.当x =24时,y ^=4×24+70=166. 二、填空题7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________.解析:把10场比赛的所得分数按顺序排列:5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为14+162=15.答案:158.已知一组数据x 1,x 2,…,x n 的方差为2,若数据ax 1+b ,ax 2+b ,…,ax n +b (a >0)的方差为8,则a 的值为________.解析:根据方差的性质可知,a 2×2=8,故a =2. 答案:29.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:⎝ ⎛⎭⎪⎫参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 解析:分析列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99% 三、解答题10.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?解:(1)由频率分布直方图可知,(0.010+0.015+0.015+a+0.025+0.005)×10=1,所以a=0.03.所以参加高中数学竞赛的考生的成绩的平均数为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,成绩的众数为75.设参加高中数学竞赛的考生的成绩的中位数为x,则0.1+0.15+0.15+(x-70)×0.03=0.5,解得x≈73.3,所以中位数为73.3.(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为2060=13,所以各分数段抽取人数依次为2,3,3,6,5,1.11.(2018·长春质量检测)某种植园在芒果临近成熟时,随机从一些芒果树上摘下100个芒果,其质量分别在[100,150),[150,200),[200,250),[250,300),[300,350),[350,400](单位:克)中,经统计得频率分布直方图如图所示.(1)经计算估计这组数据的中位数;(2)某经销商来收购芒果,以各组数据的中间数代表这组数据的平均值,用样本估计总体,该种植园中还未摘下的芒果大约还有10 000个,经销商提出如下两种收购方案:A方案是所有芒果以10元/千克收购;B方案是对质量低于250克的芒果以2元/个收购,高于或等于250克的芒果以3元/个收购.通过计算确定该种植园选择哪种方案获利更多.解:(1)这组数据的中位数是250+0.5-(0.002×2+0.003)×500.008=268.75.(2)A方案可获利:(125×0.002+175×0.002+225×0.003+275×0.008+325×0.004+375×0.001)×50×10 000×10×0.001=25 750(元).B方案可获利:(0.002+0.002+0.003)×50×10 000×2+(0.008+0.004+0.001)×50×10 000×3=26 500(元).由于25 750<26 500,因此该种植园选择B方案获利更多.12.(2018·广东七校联考)某淘宝店经过对“十一”七天假期的消费情况进行统计,发现在金额不超过1 000元的消费者中男女之比约为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:女性消费情况:男性消费情况:若消费金额不低于600元的消费者称为“网购达人”、低于600元的消费者称为“非网购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据以上统计数据填写如下2×2列联表,并回答能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)女性消费的平均数为180×(100×5+300×10+500×15+700×47+900×3)=582.5(元).男性消费的平均数为120×(100×2+300×3+500×10+700×3+900×2)=500(元).虽然女性消费者的平均消费水平较高,但“女网购达人”的平均消费水平(为712元)低于“男网购达人”的平均消费水平(为780元),所以平均消费水平高的一方“网购达人”出手不一定更阔绰.(2)2×2列联表如下表:K 2=100×(50×15-30×5)255×45×80×20≈9.091,因为9.091>7.879,所以在犯错误的概率不超过0.005的前提下可以认为“是否为‘网购达人’与性别有关”.B 组——大题专攻补短练1.2017年8月22日金乡县首届“诚信文艺奖”评选暨2017“百姓大舞台”第一季大型才艺大赛决赛在红星美凯龙举行.在比赛现场,12名专业人士和12名观众代表分别组成评判小组A ,B ,给参赛选手打分,如图是两个评判组对同一选手打分的茎叶图.(1)求A 组数据的众数和极差,B 组数据的中位数;(2)对每一组计算用于衡量相似性的数值,回答:小组A 与小组B 哪一个更像是由专业人士组成的?并说明理由.解:(1)由茎叶图可得:A 组数据的众数为47,极差为55-42=13; B 组数据的中位数为55+582=56.5.(2)小组A 更像是由专业人士组成的.理由如下: 小组A ,B 数据的平均数分别为x A=112×(42+42+44+45+46+47+47+47+49+50+50+55)=47,x B=112×(36+42+46+47+49+55+58+62+66+68+70+73)=56,所以小组A,B数据的方差分别为s2A=112×[(42-47)2+(42-47)2+…+(55-47)2]=112×(25+25+9+4+1+4+9+9+64)=12.5,s2B=112×[(36-56)2+(42-56)2+…+(73-56)2]=112×(400+196+100+81+49+1+4+36+100+144+196+289)=133.因为s2A<s2B,所以小组A的成员的相似程度高.由于专业裁判给分更符合专业规则,相似程度应该更高,因此小组A更像是由专业人士组成的.2.(2019届高三·武汉部分学校调研)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)估计旧养殖法的箱产量低于50 kg的概率并估计新养殖法的箱产量的平均值;(2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50 kg 的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.(2)根据箱产量的频率分布直方图得2×2列联表如下:由表中数据得K 2=200×(62×66-34×38)2100×100×96×104≈15.705,由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.3.(2018·广州高中综合测试)某地1~10岁男童年龄x i (单位:岁)与身高的中位数y i (单位:cm)(i =1,2,…,10)如下表:对上表的数据作初步处理,得到下面的散点图及一些统计量的值.(1)求y 关于x 的线性回归方程(回归方程系数精确到0.01);(2)某同学认为y =px 2+qx +r 更适宜作为y 关于x 的回归方程模型,他求得的回归方程是y ^=-0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计分别为b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .解:(1)由所给数据得b ^=∑i =110(x i -x )(y i -y )∑i =110(x i -x )2=566.8582.5≈6.87, a ^=y-b ^x =112.45-6.87×5.5≈74.67, 所以y 关于x 的线性回归方程为y ^=6.87x +74.67.(2)若回归方程为y ^=6.87x +74.67,则当x =11时,y ^=150.24. 若回归方程为y ^=-0.30x 2+10.17x +68.07,则当x =11时,y ^=143.64. |143.64-145.3|=1.66<|150.24-145.3|=4.94,所以回归方程y ^=-0.30x 2+10.17x +68.07的拟合效果更好.4.(2018·潍坊统一考试)某机构为研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.表中u i =1x i,u =18∑i =18u i .(1)根据散点图判断:y =a +bx 与y =c +dx 哪一个模型更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01).(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其回归直线v ^=α^+β^ω的斜率和截距的最小二乘估计分别为β^=∑i =1n(ωi -ω)(v i -v )∑i =1n(ωi -ω)2,α^=v -β^ω.解:(1)由散点图判断,y =c +dx 更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程.(2)令u =1x,先建立y 关于u 的线性回归方程,由于d ^=∑i =18(u i -u )(y i -y )∑i =18(u i -u )2=7.0490.787≈8.957≈8.96, ∴c ^=y -d ^·u =3.63-8.957×0.269≈1.22, ∴y 关于u 的线性回归方程为y ^=1.22+8.96u , ∴y 关于x 的回归方程为y ^=1.22+8.96x .(3)假设印刷x 千册,依题意得10x -⎝⎛⎭⎫1.22+8.96x x ≥78.840,∴x ≥10, ∴至少印刷10 000册才能使销售利润不低于78 840元.。

第九章 统计(复习课件)-高一数学同步备课系列(人教A版2019必修第二册)

第九章 统计(复习课件)-高一数学同步备课系列(人教A版2019必修第二册)
=

(.

+ . + . + . + . + . +
. + . + . + . + .
+. + . + . + . + . + . +
2019 年 内 人 均 食 品 , 烟 酒 消 费 占 居 民 人 均 消 费 支 出 的
28.2%,比重最大,居住条件上的消费占人均消费支出的
23.4%,远远小于人均消费支出的一半,用于文化娱乐的
比重大于衣着消费,用于医疗保健的消费支出占人均消费
支出的28.3%,不超过10%.
故选:B.
解题技巧
【解答】解:(Ⅰ)由题意,得(. + . +
. + + . + . + + . +
. ) × = ,解得 = . ;
(Ⅱ)由频率分布直方图,得样本中,分数大于或等于
120分的频率为(. + . + . ) × =
频数= × . = .
(2). ~. 一组的频率最大,人数最多,则众数为
74.5,
设 中 位 数 为 , 则 有 频 率 分 布 直 方 图 可 , . +
−.


. = . ,解得 = . ,则中位数为72.8,
平 均 分 为 : . × . + . × . + . × . +
. + . + . + . + . + . +
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(十八) 统计、统计案例(注意命题点的区分度)一、选择题1.(2017·福州质检)在检测一批相同规格共500 kg 航空用耐热垫片的品质时,随机抽取了280片,检测到有5片非优质品,则这批航空用耐热垫片中非优质品约为( )A .2.8 kgB .8.9 kgC .10 kgD .28 kg解析:选B 由题意可知,抽到非优质品的概率为5280,所以这批航空用耐热垫片中非优质品约为500×5280=12514≈8.9 kg.2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 解析:选A 根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确.3.一次数学考试后,某老师从自己所带的两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图.已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x -y 的值为( )A .2B .-2C .3D .-3解析:选D 由题意得,72+77+80+x +86+905=81,解得x =0,易知y =3,∴x -y=-3.4.采用系统抽样方法从 1 000人中抽取50人做问卷调查,为此将他们随机编号为1,2,…,1 000,适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.抽到的50人中,编号落入区间[1,400]的人做问卷A ,编号落入区间[401,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷C 的人数为( )A .12B .13C .14D .15解析:选A 由题意组距为1 00050=20,故抽到的号码构成以8为首项,以20为公差的等差数列,且此等差数列的通项公式为a n =8+(n -1)×20=20n -12.由751≤20n -12≤1 000,解得38.15≤n ≤50.6.再由n ∈N *,可得39≤n ≤50,故做问卷C 的人数为50-39+1=12.5.已知x ,y 的取值如下表所示:x 2 3 4 y645若y 与x 呈线性相关,且线性回归方程为y ^=b ^x +132,则b ^=( )A.12 B .-12 C .2 D .-2解析:选B 由表中数据得x =3,y =5,线性回归方程一定过样本中心点(x ,y ),所以5=3b ^+132,解得b ^=-12.6.(2017·广州模拟)为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是( )A .35B .48C .60D .75解析:选C 设被抽查的美术生的人数为n ,因为后2个小组的频率之和为(0.037 5+0.012 5)×5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n =5+15+250.75=60.7.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,计算得K 2的观测值k =8.01,若推断“喜欢乡村音乐与性别有关系”,则这种推断犯错误的概率不超过( )P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828A .0.01B .0.025C .0.005D .0.001解析:选C 由K 2的观测值k =8.01,观测值同临界值进行比较可知,这种推断犯错误的概率不超过0.005.8.在某次测量中得到的A 样本数据如下:42,43,46,52,42,50,若B 样本数据恰好是A 样本数据每个都减5后所得数据,则A ,B 两样本的下列数字特征对应相同的是( )A .平均数B .标准差C .众数D .中位数解析:选B A 样本数据的平均数x =2756,B 样本数据的平均数x ′=x -5.A 样本数据的方差s 2=16[(42-x )2+(43-x )2+…+(50-x )2],B 样本数据的方差s ′2=16[(42-x )2+(43-x )2+…+(50-x )2],所以A ,B 两样本的标准差相同.9.某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是( )A .100B .110C .115D .120解析:选C 众数是一组数据中出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是115.10.以模型y =c e kx去拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程z =0.3x +4,则c =( )A .0.3B .e 0.3C .4D .e 4解析:选D 因为z =ln y =ln(c e kx)=ln c +kx ,又z =0.3x +4,所以ln c =4,c =e 4.11.在样本的频率分布直方图中,共有4个小长方形,这4个小长方形的面积由小到大依次构成等比数列{a n },已知a 2=2a 1,且样本容量为300,则对应小长方形面积最小的一组的频数为( )A .20B .40C .30D .无法确定解析:选A 在等比数列{a n }中,a 2=2a 1,则q =2,由题意S 4=a 11-241-2=15a 1=1,a 1=115,即小长方形面积最小的一组的面积为115,所以频数为300×115=20,故选A.12.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为( )A .9B .10C .11D .12解析:选B 不妨设样本数据为x 1,x 2,x 3,x 4,x 5,且x 1<x 2<x 3<x 4<x 5,则由样本方差为4,知(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20.若5个整数的平方和为20,则这5个整数的平方只能在0,1,4,9,16中选取(每个数最多出现2次),当这5个整数的平方中最大的数为16时,分析可知,总不满足和为20;当这5个整数的平方中最大的数为9时,0,1,1,9,9这组数满足要求,此时对应的样本数据为x 1=4,x 2=6,x 3=7,x 4=8,x 5=10;当这5个整数的平方中最大的数不超过4时,总不满足和为20,因此不存在满足条件的另一组数据.故选B.二、填空题13.具有线性相关关系的变量x ,y 满足如下表所示的一组数据.若y 与x 的线性回归方程为y ^=3x -32,则m 的值是________.x 0 1 2 3 y-11m8解析:由已知得x =14×(0+1+2+3)=2,y =4×(-1+1+m +8)=m4+2,又点(x ,y )在线性回归直线上,所以m 4+2=3×32-32,解得m =4.答案:414.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析:应从丙种型号的产品中抽取 60×300200+400+300+100=18(件).答案:1815.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.已知家庭的月储蓄y 关于月收入x 的线性回归方程为y ^=b ^x +a ^,则变量x 与y ________(填“正相关”或“负相关”);若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是________千元.解析:由题意知n =10,x =110∑i =110x i =8,y =110∑i =110y i =2,∴b ^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4,∴y ^=0.3x -0.4,∵0.3>0,∴变量x 与y 正相关. 当x =7时,y ^=0.3×7-0.4=1.7(千元). 答案:正相关 1.716.(2017·石家庄质检)设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为________.解析:设样本数据的平均数为x , 则y i =2x i -1的平均数为2x -1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x +1)2+(2x 2-1-2x +1)2+…+(2x 2017-1-2x +1)2]=4×12 017[(x 1-x )2+(x 2-x )2+…+(x 2 017-x )2]=4×4=16. 答案:16 三、解答题17.对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下表.甲273830373531乙332938342836(1)画出茎叶图,由茎叶图判断哪位选手的成绩较稳定;(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、中位数、标准差,并判断选谁参加比赛更合适.解:(1)茎叶图如图所示:由茎叶图可知,乙的成绩较稳定.(2)因为v甲=16(27+38+30+37+35+31)=33,v乙=16(33+29+38+34+28+36)=33. 甲的中位数:33,乙的中位数:33.5.s2甲=16[]-62+52+-32+42+22+-22=473,s2乙=16[]02+-42+52+12+-52+32=383,故s甲=1413,s乙=1143,所以选乙参赛更合适.18.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?愿意选修英语口语课程不愿意选修英语口语课程总计男生25女生总计35附:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d. P(K2≥k0)0.1000.0500.0250.0100.005 k0 2.706 3.841 5.024 6.6357.879解:(1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:愿意选修英语口语课程不愿意选修英语口语课程总计男生252550 女生301040 总计553590由K2=n ad-bc2a+b c+d a+c b+d,代入数据得K2=90×25×10-25×30250×40×55×35=45077≈5.844>5.024.所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.19.(2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9, 故样本中分数小于50的频率为0.1,故分数在区间[40,50)内的人数为100×0.1-5=5. 所以总体中分数在区间[40,50)内的人数估计为 400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60, 女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.20.下表是高三某位文科生连续5次月考的历史、政治的成绩,结果统计如下:月份 9 10 11 12 1 历史(x 分) 79 81 83 85 87 政治(y 分)7779798283(1)求该生5次月考历史成绩的平均分和政治成绩的方差;(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数据,求两个变量x ,y 的线性回归方程y ^ =b ^x +a ^.(附:b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )解:(1)x =15×(79+81+83+85+87)=83,∵y =15×(77+79+79+82+83)=80,∴s 2y =15× [(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.(2)由(1)知x =83,y =80,则∑i =15(x i -x )(y i -y )=(-4)×(-3)+(-2)×(-1)+0×(-1)+2×2+4×3=30,∑i =15(x i -x )2=(-4)2+(-2)2+02+22+42=40,∴b ^=3040=0.75,a ^=80-0.75×83=17.75.故所求的线性回归方程为y ^=0.75x +17.75.。

相关文档
最新文档