第58讲 统计初步(解析版)2021届新课改地区高三数学一轮专题复习
高考数学复习第十一单元第58讲统计案例课件理aa高三全册数学课件
33
,
48
3 1 3
1
,则 = × +a,解得a= .
8 3 4
8
课前双基巩固
4.[教材改编] 在一项关于打鼾与患心脏
病是否有关的调查中,共调查了 1671 人,
12/11/2021
经过计算 K 的观测值 k=27.63,根据这一
[答案] 有关
[解析] 将观测值 k=27.63 与临界值比较,因为
分析
(huíguī)
例 2 [2018·
琼海模拟] 《中华人民共和国道路交通安全法》第 47 条规定:机动车行经人
12/11/2021
行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”.
第 90 条规定:对不礼让行人的驾驶员处以扣 3 分,罚款 50 元的处罚.下表是某市一主干
散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线 y=-3x+1 上,则这组样本数据的样本
相关系数为 (
A.-3
B.0
)
C.-1
D.1
第十六页,共五十页。
课堂考点探究
[答案] (1)C
(2)C
[解析] (1)由散点图知,③中的点都分布在一条直线附近,④中的点都分布在一条曲线附
12/11/2021
判断即可;(2)根据 X 与 Y,U 与
为 7.5,9.5 和 16.6.用 r1 表示变量 X 与 Y 之间的线性相关系数,
V 之间的相关关系,可得相关
用 r2 表示变量 U 与 V 之间的线性相关系数,则下列说法正确的
系数 r1,r2 之间的关系.
是 (
)
A.r1=r2
C.0<r1<r2
高考第一轮复习数学:12.3 统 计 高考数学第一轮复习教案集 新课标 人教版 高考数学第一轮复习教
分析:由于在一次试验中ξ落在区间(μ-3σ,μ+3σ)内的概率为0.997,故ξμ=30,σ=0.8代入,算出区间(μ-3σ,μ+3σ (27.6,32.4).∴据此认为这批砖不合格.
【例3】已知测量误差ξ~N(2,100)(cm),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8 cm的频率大于0.9?
解:对第一个方案,有x~N(8,32),于是P(x>5)=1-P(x≤5)=1-F(5)=1-Φ( )=1-Φ(-1)=1-[1-Φ(1)]=Φ(1)=0.8413.
对第二个方案,有x~N(6,22),于是P(x>5)=1-P(x≤5)=1-F(5)=1-Φ( )=1-Φ(-0.5)=Φ(0.5)=0.6915.
(3)在这个累积频率分布图上,
横坐标为22,
落在21~24的区间内,
折线图在这段区间上的线段所在的直线方程是y-0.3= (x-21),
即yx-1.17.
当x=22时,y=1.54-0.17=0.37.
因此,总体中小于22的数据大约占37%.
●思悟小结
类别
共同点
相互联系
适用X围
各自特点
简单随机抽样
抽样过程中每个个体被抽到的概率相等
(2)画出频率分布直方图和累积频率分布图;
(3)根据累积频率分布图,总体中小于22的样本数据大约占多大的百分比?
解:(1)
分组
频数
频率
累积频率
[12,15)
6
[15,18)
8
[18,21)
16
[21,24)
21
[24,27)
18
[27,30)
2024中考数学一轮复习核心知识点精讲—统计
2024中考数学一轮复习核心知识点精讲—统计1.能通过实际问题,辨认总体、个体、样本等基本概念.2.掌握三种统计图的画法,明确它们的优缺点及相互关系.特别是扇形统计图与条形统计图结合应用.3.会求一组数据的样本平均数、方差、标准差、中位数、众数等.能根据统计结果作出合理的判断和预测,体会统计对决策的作用,能比较清晰地表达自己的观念。
考点1:全面调查与抽样调查1.有关概念1)全面调查:为一特定目的而对所有考察对象进行的全面调查叫做全面调查.2)抽样调查:为一特定目的而对部分考察对象进行的调查叫做抽样调查.2.调查的选取:当受客观条件限制,无法对所有个体进行全面调查时,往往采用抽样调查.3.抽样调查样本的选取:1)抽样调查的样本要有代表性;2)抽样调查的样本数目要足够大.总体、个体、样本及样本容量总体:所要考察对象的全体叫做总体.个体:总体中的每一个考察对象叫做个体.样本:从总体中抽取的部分个体叫做样本.样本容量:样本中个体的数目叫做样本容量。
考点2:几种常见的统计图表1.条形统计图:条形统计图就是用长方形的高来表示数据的图形.特点:(1)能够显示每组中的具体数据;(2)易于比较数据之间的差别.2.折线统计图:用几条线段连成的折线来表示数据的图形.特点:易于显示数据的变化趋势.3.扇形统计图:用一个圆代表总体,圆中的各个扇形分别代表总体中的不同部分,扇形的大小反映部分在总体中所占百分比的大小,这样的统计图叫扇形统计图.百分比的意义:在扇形统计图中,每部分占总体的百分比等于该部分所对扇形的圆心角的度数与360°的比.扇形的圆心角=360°×百分比.4.频数分布直方图1)每个对象出现的次数叫频数.2)每个对象出现的次数与总次数的比(或者百分比)叫频率,频数和频率都能够反映每个对象出现的频繁程度.3)频数分布表、频数分布直方图和频数折线图都能直观、清楚地反映数据在各个小范围内的分布情况.4)频数分布直方图的绘制步骤:①计算最大值与最小值的差;②决定组距与组数;③确定分点,常使分点比数据多一位小数,并且把第一组的起点稍微减小一点;④列频数分布表;⑤画频数分布直方图:用横轴表示各分段数据,纵轴反映各分段数据的频数,小长方形的高表示频数,绘制频数分布直方图.考点3:众数、中位数、平均数、方差1.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.2.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.3.平均数1)平均数:一般地,如果有n 个数1x ,2x ,…,n x ,那么,121()n x x x x n=+++…叫做这n 个数的平均数,x 读作“x 拔”.2)加权平均数:如果n 个数中,1x 出现f 1次,x 2出现f 2次,…,x k 出现f k 次(这里12k f f f n +++=…),那么,根据平均数的定义,这n 个数的平均数可以表示为1122k kx f x f x f x n+++=…,这样求得的平均数x叫做加权平均数,其中f 1,f 2,…,f k 叫做权.4.方差.通常用“2s ”表示,即2222121[()()()]n s x x x x x x n=-+-++-….在一组数据1x ,2x ,…,n x 中,各数据与它们的平均数x 的差的平方的平均数,叫做这组数【题型1:数据的收集方式】【典例1】(2020•贵阳)2020年为阻击新冠疫情,某社区要了解每一栋楼的居民年龄情况,以便有针对性进行防疫,一志愿者得到某栋楼60岁以上人的年龄(单位:岁)数据如下:62,63,75,79,68,85,82,69,70.获得这组数据的方法是()A .直接观察B .实验C .调查D .测量【答案】C【解答】解:一志愿者得到某栋楼60岁以上人的年龄(单位:岁)数据如下:62,63,75,79,68,85,82,69,70.获得这组数据的方法是:调查.故选:C .【变式1-1】(2020•扬州)某班级组织活动,为了解同学们喜爱的体育运动项目,设计了如图尚不完整的调查问卷:准备在“①室外体育运动,②篮球,③足球,④游泳,⑤球类运动”中选取三个作为该调查问卷问题的备选项目,选取合理的是()A .①②③B .①③⑤C .②③④D .②④⑤【答案】C【解答】解:根据体育项目的隶属包含关系,选择“篮球”“足球”“游泳”比较合理,故选:C.【题型2:与统计有关的概念】【变式1-2】(2023•辽宁)下列调查中,适宜采用全面调查方式的是()A.了解某种灯泡的使用寿命B.了解一批冷饮的质量是否合格C.了解全国八年级学生的视力情况D.了解某班同学中哪个月份出生的人数最多【答案】D【解答】解:A、了解某种灯泡的使用寿命,适宜采用抽样调查方式,故此选项不符合题意;B、了解一批冷饮的质量是否合格,适宜采用抽样调查方式,故此选项不符合题意;C、了解全国八年级学生的视力情况,适宜采用抽样调查方式,故此选项不符合题意;D、了解某班同学中哪个月份出生的人数最多,适宜采用全面调查方式,故此选项符合题意;故选:D.【变式1-3】(2023•郴州)下列问题适合全面调查的是()A.调查市场上某品牌灯泡的使用寿命B.了解全市人民对湖南省第二届旅发大会的关注情况C.了解郴江河的水质情况D.神舟十六号飞船发射前对飞船仪器设备的检查【答案】D【解答】解:A.调查市场上某品牌灯泡的使用寿命,适合抽样调查,故选项不符合题意;B.了解全市人民对湖南省第二届旅发大会的关注情况,适合抽样调查,故选项不符合题意;C.了解郴江河的水质情况,适合抽样调查,故选项不符合题意;D.神舟十六号飞船发射前对飞船仪器设备的检查,适合全面调查,故选项符合题意;故选:D.【变式1-4】(2023•聊城)4月15日是全民国家安全教育日.某校为了摸清该校1500名师生的国家安全知识掌握情况,从中随机抽取了150名师生进行问卷调查.这项调查中的样本是()A.1500名师生的国家安全知识掌握情况B.150C.从中抽取的150名师生的国家安全知识掌握情况D.从中抽取的150名师生【答案】C【解答】解:样本是所抽取的150名师生的国家安全知识掌握情况.故选:C.【题型3:用各种统计图描述数据】【典例3】(2023•成都)文明是一座城市的名片,更是一座城市的底蕴.成都市某学校于细微处着眼,于贴心处落地,积极组织师生参加“创建全国文明典范城市志愿者服务”活动,其服务项目有“清洁卫生”“敬老服务”“文明宣传”“交通劝导”,每名参加志愿者服务的师生只参加其中一项.为了解各项目参与情况,该校随机调查了参加志愿者服务的部分师生,将调查结果绘制成如下两幅不完整的统计图.根据统计图信息,解答下列问题:(1)本次调查的师生共有300人,请补全条形统计图;(2)在扇形统计图中,求“敬老服务”对应的圆心角度数;(3)该校共有1500名师生,若有80%的师生参加志愿者服务,请你估计参加“文明宣传”项目的师生人数.【答案】(1)300,补全条形统计图见解答;(2)144°;(3)360名.【解答】解:(1)本次调查的师生共有:60÷20%=300(人),“文明宣传”的人数为:300﹣60﹣120﹣30=90(人),补全条形统计图如下:故答案为:300;(2)在扇形统计图中,“敬老服务”对应的圆心角度数为:360°×=144°;(3)1500×80%×=360(名),答:估计参加“文明宣传”项目的师生人数大约为360名.【变式3-1】(2023•扬州)空气的成分(除去水汽、杂质等)是:氮气约占78%,氧气约占21%,其他微量气体约占1%.要反映上述信息,宜采用的统计图是()A.条形统计图B.折线统计图C.扇形统计图D.频数分布直方图【答案】C【解答】解:氮气约占78%,氧气约占21%,其他微量气体约占1%.要反映上述信息,宜采用的统计图是扇形统计图.故选:C.【变式3-2】(2022•福建)2021年福建省的环境空气质量达标天数位居全国前列.如图是福建省10个地区环境空气质量综合指数统计图.综合指数越小,表示环境空气质量越好.依据综合指数,从图中可知环境空气质量最好的地区是()A.F1B.F6C.F7D.F10【答案】D【解答】解:根据题意可得,F10地区环境空气质量综合指数约为1.9,是10个地区中最小值.故选:D.【变式3-3】(2023•大连)2023年5月18日,《大连日报》公布《下一站,去博物馆!》问卷调查结果.本次调查共收回3666份有效问卷,其中将“您去博物馆最喜欢看什么?”这一问题的调查数据制成扇形统计图,如图所示.下列说法错误的是()A.最喜欢看“文物展品”的人数最多B.最喜欢看“文创产品”的人数占被调查人数的14.3%C.最喜欢看“布展设计”的人数超过500人D.统计图中“特效体验及其他”对应的圆心角是23.76°【答案】C【解答】解:由题意得:A.最喜欢看“文物展品”的人数最多,占58.25%,说法正确,故本选项不符合题意;B.最喜欢看“文创产品”的人数占被调查人数的14.3%,说法正确,故本选项不符合题意;C.最喜欢看“布展设计”的人数为:3666×9.82%≈360(人),原说法错误,故本选项符合题意;D.统计图中“特效体验及其他”对应的圆心角是:360°×6.6%=23.76°,说法正确,故本选项不符合题意.故选:C.【题型4:平均数】【典例4】(2023•湖州)某住宅小区6月1日~6月5日每天用水量情况如图所示,那么这5天平均每天的用水量是()A.25立方米B.30立方米C.32立方米D.35立方米【答案】B【解答】解:由折线图可知,该小区五天的用水量分别是:30、40、20、30、30.所以5天的平均用水量为:=30(立方米).故选:B.【变式4-1】(2023•镇江)一组数据:2、3、3、4、a,它们的平均数为3,则a为3.【答案】3.【解答】解:由题意(2+3+3+4+a)=3,∴a=3.故答案为:3.【变式4-2】(2023•长沙)睡眠管理作为“五项管理”中重要的内容之一,也是学校教育重点关注的内容.某老师了解到班上某位学生的5天睡眠时间(单位:小时)如下:10,9,10,8,8,则该学生这5天的平均睡眠时间是9小时.【答案】见试题解答内容【解答】解:(10+9+10+8+8)÷5=9(小时).即该学生这5天的平均睡眠时间是9小时.故答案为:9.【变式4-3】(2023•湘潭)某校组织青年教师教学竞赛活动,包含教学设计和现场教学展示两个方面.其中教学设计占20%,现场展示占80%.某参赛教师的教学设计90分,现场展示95分,则她的最后得分为()A.95分B.94分C.92.5分D.91分【答案】B【解答】解:由题意可得,90×20%+95×80%=94(分),即她的最后得分为94分,故选:B.【题型5:中位数与众数的计算】【典例5】(2023•甘孜州)在一次中学生田径运动会上,参加男子跳高的15名运动员的成绩如表所示.成绩/米 1.50 1.60 1.65 1.70 1.75人数23541这些运动员成绩的众数和中位数分别为()A.1.65米,1.65米B.1.65米,1.70米C.1.75米,1.65米D.1.50米,1.60米【答案】A【解答】解:由表可知1.65m出现次数最多,有5次,所以众数为1.65m,这15个数据最中间的数据是第8个,即1.65m,所以中位数为1.65m,故选:A.【变式5-1】(2023•达州)一组数据2,3,5,2,4,则这组数据的众数和中位数分别为()A.3和5B.2和5C.2和3D.3和2【答案】C【解答】解:数据从小到大排列为:2,2,3,4,5,所以中位数为3;数据2出现了2次,最多,所以这组数据的众数为2.故选:C.【变式5-2】(2023•黄石)我市某中学开展“经典诵读”比赛活动,810班在此次比赛中的得分分别是:9.1,9.8,9.1,9.2,9.9,9.1,9.9,9.1,这组数据的众数和中位数分别是()A.9.1,9.1B.9.1,9.15C.9.1,9.2D.9.9,9.2【答案】B【解答】解:将数据9.1,9.8,9.1,9.2,9.9,9.1,9.9,9.1按照从小到大排列是:9.1,9.1,9.1,9.1,9.2,9.8,9.9,9.9,则这组数据的众数是9.1,中位数是(9.1+9.2)÷2=9.15,故选:B.【变式5-3】(2023•黑龙江)已知一组数据1,0,﹣3,5,x,2,﹣3的平均数是1,则这组数据的众数是()A.﹣3B.5C.﹣3和5D.1和3【答案】C【解答】解:∵数据1,0,﹣3,5,x,2,﹣3的平均数是1,∴1+0﹣3+5+x+2﹣3=7×1,解得x=5,则这组数据为1,0,﹣3,5,5,2,﹣3,∴这组数据的众数为﹣3和5,故选:C.【变式5-4】(2023•盘锦)为了解全市中学生的视力情况,随机抽取某校50名学生的视力情况作为其中一个样本,整理样本数据如图.则这50名学生视力情况的中位数和众数分别是()A.4.8,4.8B.13,13C.4.7,13D.13,4.8【答案】A【解答】解:把这50名学生视力情况从小到大排列,排在中间的两个数分别是4.8、4.8,故中位数为=4.8;在这50名学生视力情况中,4.8出现的次数最多,故众数为4.8.故选:A.【题型6:方差】【典例6】(2023•广西)甲、乙、丙、丁四名同学参加立定跳远训练,他们成绩的平均数相同,方差如下:S甲2=2.1,S乙2=3.5,S丙2=9,S丁2=0.7,则成绩最稳定的是()A.甲B.乙C.丙D.丁【答案】D【解答】解:∵,,,,∴丁的方差最小,∴成绩最稳定的是丁,故选:D.【变式6-1】(2023•眉山)已知一组数据为2,3,4,5,6,则该组数据的方差为()A.2B.4C.6D.10【答案】A【解答】解:=×(2+3+4+5+6)=4,s2=×[(2﹣4)2+(3﹣4)2+(4﹣4)2+(5﹣4)2+(6﹣4)2]=2.故选:A.【变式6-2】(2023•朝阳)某校在甲、乙、丙、丁四名同学中选中一人参加今年5月份举办的教育系统文艺展演独唱大赛,经过三轮初赛,他们的平均成绩都是88.5分,方差分别是s甲2=1.5,s乙2=2.6,s丙2=1.7,s丁2=2.8,则这四名同学独唱成绩最稳定的是甲.【答案】甲.【解答】解:∵S甲2=1.5,S乙2=2.6,S丙2=1.7,S丁2=2.8,∴S甲2<S丙2<S乙2<S丁2,∴在平均成绩相等的情况下,这四名同学独唱成绩最稳定的是甲.故答案为:甲.【变式6-3】(2023•凉山州)若一组数据x1,x2,x3,…,x n的方差为2,则数据x1+3,x2+3,x3+3,…,x n+3的方差是()A.2B.5C.6D.11【答案】A【解答】解:设一组数据x1,x2,x3,…,x n的平均数为,则方差为[...+]=2,∴数据x1+3,x2+3,x3+3,…,x n+3的平均数为(+3),方差为[+...+]=[...+]=2.故选:A.一.选择题(共9小题)1.为了了解2015年我县九年级学生学业水平考试的数学成绩,从中随机抽取了1000名学生的数学成绩,下列说法正确的是()A.2015年我县九年级学生是总体B.样本容量是1000C.1000名九年级学生是总体的一个样本D.每一名九年级学生是个体【答案】B【解答】解:A、2015年我县九年级学生是总体,说法错误,应为2015年我县九年级学生学业水平考试的数学成绩是总体,故此选项错误;B、样本容量是1000,说法正确,故此选项正确;C、1000名九年级学生是总体的一个样本,说法错误,应为1000名九年级学生学业水平考试的数学成绩是总体的一个样本,故此选项错误;D、每一名九年级学生是个体,说法错误,应为每一名九年级学生学业水平考试的数学成绩是个体,故此选项错误;故选:B.2.从全市5000份数学试卷中随机抽取400份试卷,其中360份成绩合格,那么可以估计全市数学成绩合格的学生大约有多少人?()A.4500B.4000C.3600D.4800【答案】A【解答】解:5000×=4500(人).故选:A.3.小东5分钟内共投篮60次,共进球15个,则小东进球的频率是()A.0.25B.60C.0.26D.15【答案】A【解答】解:∵小东5分钟内共投篮60次,共进球15个,∴小东进球的频率是:=0.25.故选:A.4.学校食堂午餐供应6元、8元和10元三种价格的盒饭,如图是食堂某月销售三种午餐盒饭数量的统计图,则该月食堂销售午餐盒饭的平均价格为()A.7.9元B.8元C.8.9元D.9.2元【答案】C【解答】解:10×60%+8×25%+6×15%=6+2+0.9=8.9(元).故该月食堂销售午餐盒饭的平均价格为8.9元.故选:C.5.下列调查中,最适合采用全面调查(普查)的是()A.调查全国中小学生对第二次太空授课的满意度B.调查全国人民,掌握新冠防疫知识情况C.了解某类型医用口罩的质量D.检查神舟飞船十三号的各零部件【答案】D【解答】解:A.调查全国中小学生对第二次太空授课的满意度,适合抽样调查,故本选项不符合题意;B.调查全国人民,掌握新冠防疫知识情况,适合抽样调查,故本选项不符合题意;C.了解某类型医用口罩的质量,适合抽样调查,故本选项不符合题意;D.检查神舟飞船十三号的各零部件,事件重大,适合全面调查,故本选项符合题意.故选:D.6.一组数据2,1,4,x,6的平均值是4,则x的值为()A.3B.5C.6D.7【答案】D【解答】解:∵一组数据2,1,4,x,6的平均值是4,∴(2+1+4+x+6)÷5=4,解得x=7,故选:D.7.小雨同学参加了学校举办的“抗击疫情,你我同行”主题演讲比赛,她的演讲内容、语言表达和形象风度三项得分分别为80分,90分,85分,若这三项依次按照50%,30%,20%的百分比确定成绩,则她的成绩是()A.82分B.83分C.84分D.85分【答案】C【解答】解:根据题意得:80×50%+90×30%+85×20%=40+27+17=84(分).故选:C.8.某车间20名工人日加工零件数如表所示:日加工零件数45678人数26543这些工人日加工零件数的众数、中位数分别是()A.5、6B.5、5C.6、5D.6、6【答案】A【解答】解:因为5出现的次数最多,所以众数是5,将这组数据按从小到大进行排序后,第9个数和第10个数的平均数即为中位数,所以中位数是,故选:A.9.某鞋店在做市场调查时,为了提高销售量,商家最应关注鞋子型号的()A.众数B.平均数C.中位数D.极差【答案】A【解答】解:由于众数是数据中出现最多的数,故鞋业销售商最关注的是销售量最多的鞋号即众数.故选:A.二.填空题(共6小题)10.要统计某城市2021年1﹣12月的天气变化情况,选择折线统计图较好.【答案】折线.【解答】解:要统计某城市2021年1﹣12月的天气变化情况,选择折线统计图较好.故答案为:折线.11.有60个数据,共分成4组,第1、2组的频数分别为25,19,第4组的频率是0.15,则第3组的频数是7.【答案】7.【解答】解:∵有60个数据,共分成4组,第4组的频率是0.15,∴第4组的频数是:60×0.15=9,故第3组的频数是:60﹣25﹣19﹣9=7.故答案为:7.12.如图是某同学6次数学测验成绩的折线统计图,则该同学这6次成绩的最低分是60分.【答案】60.【解答】解:由折线统计图得,该同学这6次成绩的最低分是60分.故答案为:60.13.跳高训练时,甲、乙两名同学在相同条件下各跳了10次,统计他们的平均成绩都是1.36米,且方差为S2甲=0.4,S2乙=0.3,则成绩较为稳定的是乙(填“甲”或“乙”).【答案】见试题解答内容【解答】解:∵S2甲=0.4,S2乙=0.3,∴S2甲>,S2乙,∴乙同学的成绩较为稳定.故答案为乙.14.某班学生参加学校组织的“垃圾分类”知识竞赛,将学生成绩制成如图所示的频数分布直方图(每组数据包括左端值不包括右端值),其中成绩为“优良”(80分及80分以上)的学生有26人.【答案】见试题解答内容【解答】解:由图象可得,成绩为“优良”(80分及80分以上)的学生有:14+12=26(人),故答案为:26.15.一个容量为100的样本,最大值为142,最小值是60,取组距为10,则可以分为9组.【答案】9.【解答】解:(142﹣60)÷10=8余2,所以分成9组,故答案为:9.三.解答题(共2小题)16.为落实“双减”政策,某校利用课后服务开展了“书香校园”的读书活动,活动中,为了解学生对书籍种类(A:艺术类,B:科技类,C:文学类,D:体育类)的喜欢情况,在全校范围内随机抽取若干名学生,进行问卷调查(每个被调查的学生必须选择而且只能在这四种类型中选择一项)将数据进行整理并绘制成两幅不完整的统计图.(1)这次调查中,一共调查了200名学生;(2)在扇形统计图中,“D”部分所对应的圆心角的度数为54度;并补全条形统计图.(3)若全校有4800名学生,请估计喜欢B(科技类)的学生有多少名?【答案】(1)200名;(2)54°;补全条形统计图见解答;(3)1680名.【解答】解:(1)40÷20%=200(名),故答案为:200;(2)D所占百分比为×100%=15%,扇形统计图中“D”所在扇形的圆心角的度数为:360°×15%=54°,C的人数是:200×30%=60(名),补图如下:故答案为:54;(3)4800×=1680(名),答:估计喜欢B(科技类)的学生有1680名.17.某地旅游部门为了促进本地生态特色城镇和新农村建设,将甲、乙,丙三家民宿的相关资料放到某网络平台上进行推广宣传.该平台邀请部分曾在这三家民宿体验过的游客参与调查,得到了这三家民宿的“综合满意度”评分,评分越高表明游客体验越好,现从这三家民宿“综合满意度”的评分中各随机抽取10个评分数据,并对所得数据进行整理、描述和分析,下面给出了部分信息.a.甲、乙两家民宿“综合满意度”评分的折线图:b.丙家民宿“综合满意度”评分:2.6,4.7,4.5,5.0,4.5,4.8,4.5,3.8,4.5,3.1c.甲、乙、丙三家民宿“综合满意度”评分的平均数、中位数:甲乙丙平均数m 4.5 4.2中位数 4.5 4.7n根据以上信息,回答下列问题:(1)表中m的值是 4.5,n的值是 4.5;(2)设甲、乙、丙三家民宿“综合满意度”评分的方差分别是s甲2,s乙2,s丙2,直接写出s甲2,s乙2,s丙2之间的大小关系;(3)根据“综合满意度”的评分情况,该平台打算将甲、乙、丙三家民宿中的一家置顶推荐,你认为该平台会将这三家民宿中的哪家置顶推荐?说明理由(至少从两个方面说明).【答案】(1)4.5,4.5;(2)<;(3)推荐乙,理由:乙的方差最小,数据稳定,平均分比丙高.【解答】解:(1)甲家民宿“综合满意度”评分:3.2,4.2,5.0,4.5,5.0,4.9,4.5,4.2,5.0,4.5,∴m=(3.2+4.2+5.0+4.5+5.0+4.9+4.5+4.2+5.0+4.5)=4.5,丙家民宿“综合满意度”评分:2.6,4.7,4.5,5.0,4.5,4.8,4.5,3.8,4.5,3.1,从小到大排列为:2.6.3.1.3.8.4.5.4.5.4.5.4.5.4.7.4.8.5.∴中位数n==4.5,故答案为:4.5,4.5;(2)根据折线统计图可知,乙的评分数据在4分与5分之间波动,甲的数据在3.2分和5分之间波动,根据丙的数据可以在2.6至5分之间波动,∴<;(3)推荐乙,理由:乙的方差最小,数据稳定,平均分比丙高,答案不唯一,合理即可.一.选择题(共11小题)1.今年3月份某校举行学雷锋志愿服务活动,为了解全校学生一周学雷锋志愿服务的次数,随机抽取了50名学生进行调查,依据调查结果绘制了如图所示的折线统计图,下列关于该校学生一周学雷峰志愿服务次数说法正确的是()A.众数是5B.中位数是7C.中位数是9D.众数是13【答案】A【解答】解:因为5出现了13次,出现的次数最多,所以该校一周学雷峰志愿服务次数的众数是5;该校一周学雷峰志愿服务次数最中间的两个数字都为6,所以该组数据的中位数为6;故选项A正确,符合题意.故选:A.2.如图是甲、乙两名射击运动员10次射击成绩的折线统计图,记甲10次成绩的方差为S,乙10次成绩的方差为S,根据折线图判断下列结论中正确的是()A.S>S B.S<SC.S=S D.无法判断【答案】A【解答】解:由折线统计图得乙运动员的成绩波动较大,所以S>S.故选:A.3.某次数学测试,抽取部分同学的成绩(得分为整数),整理制成如图所示的频数分布直方图,根据图示信息,下列对这次数学测试描述不正确的是()A.本次抽查了50名学生的成绩B.估计测试及格率(60分以上为及格)为92%C.抽取学生的成绩的中位数落在第三组D.抽取学生的成绩的众数是第三组的数【答案】D【解答】解:本次抽取的学生人数为4+10+18+12+6=50(人),则选项A正确,不符合题意;估计测试及格率(6(0分)以上为及格)为,则选项B正确,不符合题意;将抽取学生的成绩从小到大进行排序后,第25个数和第26个数的平均数即为中位数,∵4+10=14<25,4+10+18=32>26,∴抽取学生的成绩的中位数落在第三组,选项C正确,不符合题意;因为不能确定出现次数最多的数在哪一组,所以抽取学生的成绩的众数不一定是第三组的数,选项D不正确,不符合题意;故选:D.4.如图,是九(1)班45名同学每周课外阅读时间的频数分布直方图(每组含前一个边界值,不含后一个边界值),由图可知,每周课外阅读时间不小于6小时的人数是()A.6人B.8人C.14人D.36人【答案】C【解答】解:由频数分布直方图知,每周课外阅读时间不小于6小时的人数是8+6=14(人),故选:C.5.为了解某市九年级男生的身高情况,随机抽取了该市100名九年级男生,他们的身高x(cm)统计如下:组别(cm)x≤160160<x≤170170<x≤180x>180人数1542385根据以上结果,全市约有3万名男生,估计全市男生的身高不高于180cm的人数是()A.28500B.17100C.10800D.1500【答案】A【解答】解:估计全市男生的身高不高于180cm 的人数是30000×=28500(名),故选:A .6.一个不透明的盒子中装有10个小球(白色或黑色),它们除了颜色外其余都相同,每次摸球试验前,都将盒子中的小球摇匀,随机摸出一个球记下颜色后再放回盒中,如表是一组统计数据:摸球次数(n )50100150200250300500摸到白球的次数(m )286078104123152251摸到白球的频率(m /n )0.560.600.520.520.490.510.50由表可以推算出盒子白色小球的个数是()A .4个B .5个C .6个D .7个【答案】B【解答】解:∵通过大量重复试验后发现,摸到白球的频率稳定于0.5,∴10×0.5=5,即白色小球的个数是5个.故选:B .7.一组数据:3,4,4,5,如果再添加一个数据4,那么会发生变化的统计量是()A .平均数B .中位数C .众数D .方差【答案】D【解答】解:原数据的3,4,5,4的平均数为=4,中位数为4,众数为4,方差为×[(3﹣4)2+(4﹣4)2×2+(5﹣4)2]=0.5;新数据3,4,4,4,5的平均数为=4,中位数为4,众数为4,方差为×[(3﹣4)2+(4﹣4)2×3+(5﹣4)2]=0.4;故选:D.8.如图,在“经典诵读”比赛活动中,某校10名学生参赛成绩如图所示,对于这10名学生的参赛成绩,下列说法错误的是()A.众数是90分B.方差是10C.平均数是91分D.中位数是90分【答案】B【解答】解:∵90出现了5次,出现的次数最多,∴众数是90;故A正确;∵共有10个数,∴中位数是第5、6个数的平均数,∴中位数是(90+90)÷2=90;故D正确;∵平均数是(85×2+100×1+90×5+95×2)÷10=91;故C正确;方差是:×(90﹣91)2+(100﹣91)2]=19≠10;故B错误.综上所述,B选项符合题意,故选:B.9.已知5个正数a1,a2,a3,a4,a5的平均数是a,且a1>a2>a3>a4>a5,则数据:a1,a2,a3,0,a4,a5的平均数和中位数是()A.a,a3B.a,C.,D.,【答案】D【解答】解:由平均数定义可知:,因为a1,a2,a3,a4,a5是5个正数,且a1>a2>a3>a4>a5,所以将这组数据按从小到大排列为0,a5,a4,a3,a2,a1,由于有偶数个数,取最中间两个数的平均数,∴其中位数为,故选:D.10.超市里五种型号的书包价格分别为50,60,80,90,110(单位:元),降价促销后,每种型号书包价格都降了10元.降价前的五个数据与降价后的五个数据相比,不变的是()A.众数B.中位数C.方差D.平均数【答案】C【解答】解:降价前书包价格分别为50,60,80,90,110,中位数是80,平均数是=78,方差是×[(78﹣50)2+(78﹣60)2+(78﹣80)2+(78﹣90)2+(78﹣110)2]=456,没有众数,降价后书包价格分别为40,50,70,80,100,中位数是70,。
北师大版版高考数学一轮复习算法初步统计与统计案例统计图表用样本估计总体教学案理解析版
[考纲传真] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.常用统计图表(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=错误!;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示错误!,每个小矩形的面积表示样本落在该组内的频率.(3)频率分布折线图和总体密度曲线1频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(4)茎叶图的画法:第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将各个数据的茎按大小次序排成一列;第三步:将各个数据的叶依次写在其茎的右(左)侧.2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把错误!=错误!称为x1,x2,…,x n这n个数的平均数.(4)标准差与方差:设一组数据x1,x2,x3,…,x n的平均数为错误!,则这组数据的标准差和方差分别是s=错误!;s2=错误![(x1—错误!)2+(x2—错误!)2+…+(x n—错误!)2].错误!1.频率分布直方图中各小矩形的面积之和为1.2.频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.3.若数据x1,x2,…,x n的平均数为错误!,方差为s2,则数据mx1+a,mx2+a,mx3+a,…,mx n+a的平均数是m错误!+a,方差为m2s2.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.(2)一组数据的方差越大,说明这组数据越集中. ()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()[答案] (1)√(2)×(3)√(4)×2.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数B[标准差反映样本数据的离散波动大小,故选B.]3.数据1,3,4,8的平均数与方差分别是()A.2,2.5B.2,10.5C.4,2D.4,6.5D[平均数为错误!=4,方差为错误!=6.5.]4.某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为()A.117 B.118C.118.5D.119.5B[22次考试中,所得分数最高的为98,最低的为56,所以极差为98—56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试分数的极差与中位数之和为42+76=118.]5.(教材改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.48 [由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人). ]样本的数字特征的计算与应用1.在某次测量中,得到的A样本数据为81,82,82,84,84,85,86,86,86,若B样本数据恰好是A样本数据分别加2后所得的数据,则A,B两个样本的下列数字特征对应相同的是()A.众数B.平均数C.标准差D.中位数C[由题意可得A,B两组数据的众数分别是86和88,排除A;B组数据的平均数比A组数据的平均数大2,排除B;B组数据的中位数比A组数据的中位数大2,排除D;A,B两组数据的标准差相同,C正确,故选C.]2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则()甲乙A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差C[根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.错误!甲=错误!(4+5+6+7+8)=6,错误!乙=错误!(5×3+6+9)=6,甲的成绩的方差为错误!=2,乙的成绩的方差为错误!=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.]3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x—y|的值为()A.1B.2C.3D.4D[由题意可知错误!∴错误!∴(x+y)2=x2+y2+2xy,即208+2xy=400,∴xy=96.∴(x—y)2=x2+y2—2xy=16,∴|x—y|=4,故选D.][规律方法] 众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s2=错误![(x错误!+x错误!+…+x错误!)—n错误!2],或写成s2=错误!(x错误!+x错误!+…+x错误!)—错误!2,即方差等于原数据平方的平均数减去平均数的平方.【例1】某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出品种A与B亩产量数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解] (1)画出茎叶图如图所示.(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.(3)通过观察茎叶图可以看出:1品种A的亩产量的平均数(或均值)比品种B高;2品种A的亩产量的标准差(或方差)比品种B大,故品种A的亩产量的稳定性较差.[规律方法] 茎叶图中的两个关注点(1)重复出现的数据要重复记录,不能遗漏.(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.易错警示:茎叶图中数字大小排列不一定从小到大排列,一定要看清楚.气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________.(该年为365天)(2)如图所示的茎叶图是甲、乙两位选手在某次比赛中的比赛得分,则下列说法正确的是()A.甲的平均数大于乙的平均数B.甲的中位数大于乙的中位数C.甲的方差大于乙的方差D.甲的平均数等于乙的中位数(1)146 (2)C[(1)该样本中AQI大于100的频数是4,频率为错误!,由此估计该地全年AQI大于100的频率为错误!,估计此地该年AQI大于100的天数约为365×错误!=146.(2)由茎叶图可知,错误!甲=错误!×(59+45+32+38+24+26+11+12+14)=29,错误!乙=错误!×(51+43+30+34+20+25+27+28+12)=30,s错误!=错误!×(302+162+32+92+52+32+182+172+152)≈235.3,s错误!=错误!×(212+132+02+42+102+52+32+22+182)≈120.9,甲的中位数为26,乙的中位数为28.所以甲的方差大于乙的方差.故选C.]频率分布直方图【例2】某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值.(2)求月平均用电量的众数和中位数.(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240]的用户中应抽取多少户?[解] (1)(0.002+0.009 5+0.011+0.0125+x+0.005+0.0025)×20=1,解得x=0.007 5.即直方图中x的值为0.007 5.(2)月平均用电量的众数是错误!=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.0125)×20=0.7>0.5,∴月平均用电量的中位数在[220,240)内.设中位数为a,则0.45+0.0125×(a—220)=0.5,解得a=224,即中位数为224.(3)月平均用电量在[220,240]的用户有0.0125×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为错误!=错误!.∴月平均用电量在[220,240)的用户中应抽取25×错误!=5(户).[规律方法] 频率、频数、样本容量的计算方法(1)错误!×组距=频率.(2)错误!=频率,错误!=样本容量,样本容量×频率=频数.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125]频数62638228(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?[解] (1)如图所示:(2)质量指标值的样本平均数为错误!=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(—20)2×0.06+(—10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了1月至12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]。
山东2021新高考数学一轮复习第九章统计统计案例课时作业58用样本估计总体含解析.doc
课时作业58 用样本估计总体一、选择题1.容量为20的样本数据,分组后的频数如下表:分组[10,20)[20,30)[30,40)[40,50)[50,60)[60,70) 频数23454 2A.0.35 B.0.45C.0.55 D.0.65解析:求得该频数为2+3+4=9,样本容量是20,所以频率为920=0.45.2.已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为(B)A.95,94 B.92,86C.99,86 D.95,91解析:由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.3.在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是(A)A.15 B.18C.20 D.25解析:根据频率分布直方图,得第二小组的频率是0.04×10=0.4,∵频数是40,∴样本容量是400.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,∴成绩在80~100分的学生人数是100×0.15=15.故选A.4.某学校对100间学生公寓的卫生情况进行综合评比,依考核分数分为A,B,C,D 四个等级,其中分数在[60,70)为D等级;分数在[70,80)为C等级;分数在[80,90)为B等级;分数在[90,100]为A等级,考核评估后,得其频率分布折线图如图所示,估计这100间学生公寓评估得分的平均数是(C)A.80.25 B.80.45C.80.5 D.80.65解析:所求平均分为(65×0.015+75×0.040+85×0.020+95×0.025)×10=80.5.故选C.5.下表是某电器销售公司2018年度各类电器营业收入占比和净利润占比统计表:空调类冰箱类小家电类其他类营业收入占比90.10% 4.98% 3.82% 1.10%净利润占比95.80%-0.48% 3.82%0.86%A.该公司2018年度冰箱类电器营销亏损B.该公司2018年度小家电类电器营业收入和净利润相同C.该公司2018年度净利润主要由空调类电器销售提供D.剔除冰箱类电器销售数据后,该公司2018年度空调类电器销售净利润占比将会降低解析:对于选项A,由统计表知,冰箱类净利润占比为-0.48%,所以冰箱类电器营销亏损,所以选项A正确;对于选项B,由统计表知,小家电类电器营业收入占比和净利润占比均为3.82%,但在总的营业收入和总的净利润未知的情况下,无法得到营业收入和净利润相同,所以选项B不正确;对于选项C,由统计表知,空调类的净利润占比为95.80%,所以该电器销售公司的净利润主要由空调类电器销售提供,所以选项C正确;对于选项D,剔除冰箱类销售数据后,总的净利润增加了,而空调类销售总利润没有变,所以空调类电器销售净利润占比将会降低,选项D正确.综上可知,选B.6.“科技引领,布局未来”,科技研发是企业发展的驱动力量.2007年至2018年,某企业连续12年累计研发投入达4 100亿元.我们将研发投入与经营收入的比值记为研发投入占营收比.这12年间的研发投入(单位:十亿元)用如图所示的条形图表示,研发投入占营收比用图中的折线图表示,根据折线图和条形图,下列结论错误的是(D)A.2012年至2013年研发投入占营收比增量相比2017年至2018年增量大B.2013年至2014年研发投入增量相比2015年至2016年增量小C.该企业连续12年研发投入逐年增加D.该企业连续12年来研发投入占营收比逐年增加解析:对于A,2012年至2013年研发投入占营收比增量为13.5%-11.5%=2%,2017年至2018年研发投入占营收比增量为14.9%-14.6%=0.3%,正确;对于B,2013年至2014年研发投入增量为32-30=2(十亿元),2015年至2016年研发投入增量为60-41=19(十亿元),正确;对于C,由图易知该企业连续12年研发投入逐年增加,正确;对于D,由图知2008年至2009年研发投入占营收比是减少的,错误,故选D.7.已知a1,a2,a3,a4,a5成等差数列,且公差是5,则这组数据的标准差为(B) A.50 B.5 2C.100 D.10解析:∵a1,a2,a3,a4,a5成等差数列,且公差是5,∴设这5个数依次为a ,a +5,a +10,a +15,a +20,则这5个数的平均数为[a +(a +5)+(a +10)+(a +15)+(a +20)]÷5=a +10, ∴这组数据的标准差为15×[(-10)2+(-5)2+52+102]=5 2.故选B. 8.(多选题)某赛季甲乙两名篮球运动员各6场比赛得分情况如下表:场次 1 2 3 4 5 6 甲得分 31 16 24 34 18 9 乙得分232132113510A .甲运动员得分的极差小于乙运动员得分的极差B .甲运动员得分的中位数小于乙运动员得分的中位数C .甲运动员得分的平均值大于乙运动员得分的平均值D .甲运动员的成绩比乙运动员的成绩稳定解析:由题意甲的极差为34-9=25,中位数是21,均值为22,方差为s 2=75,同样乙的极差为35-10=25,中位数是22,均值为22,方差为s 2乙=8913.比较知BD 都正确,故答案为BD.9.(多选题)在某次高中学科知识竞赛中,对4 000名考生的参赛成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],60分以下视为不及格,若同一组中数据用该组区间中间值作代表值,则下列说法中正确的是( ABC )A .成绩在[70,80)的考生人数最多B .不及格的考生人数为1 000C .考生竞赛成绩的平均分约为70.5分D .考生竞赛成绩的中位数为75分解析:由频率分布直方图可得,成绩在[70,80)的频率最高,因此考生人数最多,故A 正确;成绩在[40,60)的频率为0.01×10+0.015×10=0.25,因此,不及格的人数为4 000×0.25=1 000,故B 正确;考生竞赛成绩的平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C 正确;因为成绩在[40,70)的频率为0.45,在[70,80)的频率为0.3,所以中位数为70+10×0.050.3≈71.67,故D 错误.故选ABC.10.(多选题)乐乐家共有七人,已知今年这七人年龄的众数为35,平均数为44,中位数为55,标准差为19,则5年后,下列说法中正确的是( ABC )A .这七人岁数的众数变为40B .这七人岁数的平均数变为49C .这七人岁数的中位数变为60D .这七人岁数的标准差变为24解析:根据众数、平均数、中位数的概念得5年后,每人的年龄相应增加5,而标准差不变,所以这七人年龄的众数变为40;平均数变为49;中位数变为60;标准差不变,为19.故选ABC.二、填空题11.(2019·江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是53.解析:数据6,7,8,8,9,10的平均数是6+7+8+8+9+106=8,则方差是4+1+0+0+1+46=53. 12.(多填题)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:(1)[25,30)年龄组对应小矩形的高度为0.04;(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为440.解析:设[25,30)年龄组对应小矩形的高度为h ,则5×(0.01+h +0.07+0.06+0.02)=1,解得h =0.04.则志愿者年龄在[25,35)年龄组的频率为5×(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×800=440.13.设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为16.解析:设样本数据的平均数为x ,则y i =2x i -1的平均数为2x -1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x +1)2+(2x 2-1-2x +1)2+…+(2x 2 017-1-2x +1)2]=4×12 017[(x 1-x )2+(x 2-x )2+…+(x 2 017-x )2]=4×4=16. 三、解答题14.某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差. (2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.15.下面规定一个学生数学成绩优秀的标志为连续5次数学考试成绩(满分150分)均不低于120分.现有甲、乙、丙三位学生连续5次数学考试成绩的记录数据(记录数据都是正整数)情况:①甲学生:5个数据的中位数为127,众数为120; ②乙学生:5个数据的中位数为125,总体均值为127;③丙学生:5个数据中有一个数据是135,总体均值为128,总体方差为19.8. 则可以断定数学成绩优秀的学生为( A ) A .甲、丙 B .乙、丙 C .甲、乙D .甲、乙、丙解析:因为甲学生的5个数据的中位数为127,所以5个数据中有2个数据大于127,又5个数据的众数是120,所以至少有2个数据为120,所以甲学生的5个数据均不小于120,所以甲学生数学成绩优秀;丙学生的5个数据中的一个数据为135,设另外4个数据分别是a,b,c,d,因为5个数据的总体均值为128,总体方差为19.8,所以(a-128)2+(b-128)2+(c-128)2+(d-128)2+(135-128)25=19.8,所以(a-128)2+(b-128)2+(c-128)2+(d-128)2=50①,假设a,b,c,d中存在小于120的数据,不妨设a<120,则(a-128)2>64,显然①式不成立,所以假设错误,即a,b,c,d均不小于120,所以丙学生的5个数据均不小于120,所以丙学生数学成绩优秀.故选A.16.十九大提出:坚决打赢脱贫攻坚战,做到精准扶贫.我省某帮扶单位为帮助定点扶贫村真正脱贫,坚持扶贫同扶智相结合,帮助贫困村种植脐橙,并利用互联网电商进行销售,为了更好销售,现从该村的脐橙树上随机摘下100个脐橙进行测重,其质量分布在区间[200,500](单位:克),根据统计质量的数据作出频率分布直方图如图所示:(1)按分层抽样的方法从质量落在[350,400),[400,450)的脐橙中随机抽取5个,再从这5个脐橙中随机抽2个,求这2个脐橙质量至少有一个不小于400克的概率;(2)以各组数据的中间数值代表这组数据的平均水平,以频率代表概率,已知该村的脐橙种植地上大约还有100 000个脐橙待出售,某电商提出两种收购方案:A.所有脐橙均以7元/千克收购;B.低于350克的脐橙以2元/个收购,其余的以3元/个收购.请你通过计算为该村选择收益较好的方案.(参考数据:225×0.05+275×0.16+325×0.24+375×0.3+425×0.2+475×0.05=354.5)解:(1)由题意得脐橙质量在[350,400)和[400,450)的比为32,∴应分别在质量为[350,400)和[400,450)的脐橙中各抽取3个和2个.记抽取质量在[350,400)的脐橙为A1,A2,A3,质量在[400,450)的脐橙为B1,B2.则从这5个脐橙中随机抽取2个的情况共有以下10种:A1A2,A1A3,A2A3,A1B1,A2B1,A3B1,A1B2,A2B2,A3B2,B1B2,其中质量至少有一个不小于400克的情况有7种,故所求概率为710.(2)方案B好,理由如下:由频率分布直方图可知,脐橙质量在[200,250)的频率为50×0.001=0.05,同理,质量在[250,300),[300,350),[350,400),[400,450),[450,500]的频率依次为0.16,0.24,0.3,0.2,0.05,若按方案B收购:∵脐橙质量低于350克的个数为(0.05+0.16+0.24)×100 000=45 000,脐橙质量不低于350克的个数为55 000,∴收益为45 000×2+55 000×3=255 000(元),若按方案A收购:根据题意各段脐橙个数依次为5 000,16 000,24 000,30 000,20 000,5 000.于是总收益为(225×5 000+275×16 000+325×24 000+375×30 000+425×20 000+475×5 000)÷1 000×7=248 150(元),∴方案B的收益比方案A的收益高,故应该选择方案B.。
2021版新高考数学一轮复习课件:第10章 统计、统计案例(共3个课时)
可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合
适的抽样方法是____________.
分层抽样
• [解析] 因为不同年龄段客户对其服务的评价有较大差异,所以根据三 种抽样方法的特点可知最合适的抽样方法是分层抽样.
• 5.(2019·课标全国Ⅰ)某学校为了解1 000名新生的身体素质,将这些
• 知识点四 分层抽样
• 一般地,在抽样时将总体分成互不交叉的层,然后按一照定的比例 ______________,从各层独立地抽取一定数量的个体,将各层取出的 个体合在一起作为样本,这种抽样方法叫做分层抽样.
• 分层抽样的应用范围:当总体是由______________________组成时,
往往选用分层抽样的方法.
第十章 统计、统计案例
第一讲 随机抽样
1 知识梳理 • 双基自测 2 考点突破 • 互动探究 3 名师讲坛 • 素养提升
知识梳理 • 双基自测
• 知识点一 总体、个体、样本、样本容量的概念
• 统计中所考察对象的全体构成的集合看做总体,构成总体的每个元素 作样为本个 中体 个, 体从 的总___体__中_一_抽_部叫取分做的个样_体_本___容_量___._____所组成的集合叫做样本,
()
• A.33,34,33 B.25,56,19
B
• C.30,40,30 D.30,50,20
• [解析] 因为125 280 95=25 56 19,所以抽取人数分别为 25,56,19.
• 3取.一(P个59容T2)量某为班4共的有样5本2人,,已现知根3号据,学2生9号的,学4号2号,学用生系在统样抽本样中的,方那法么,样抽
本中还有一个学生的学号是
()
专题10.1 统计 新高考数学一轮复习讲练测(讲)解析版
专题10.1 统计【考纲解读与核心素养】1.抽样(1)简单随机抽样通过实例,了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法和随机数法.会计算样本均值和样本方差,了解样本与总体的关系.(2)分层随机抽样通过实例,了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.结合具体实例,掌握分层随机抽样的样本均值和样本方差.(3)抽样方法的选择在简单的实际情境中,能根据实际问题的特点,设计恰当的抽样方法解决问题.2.统计图表能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.3.用样本估计总体(1)结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.(2)结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.(3)结合实例,能用样本估计总体的取值规律.4.成对数据的统计相关性(1)结合实例,了解样本相关系数的统计含义.(2)结合实例,会通过相关系数比较多组成对数据的相关性.5.一元线性回归模型(1)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.(2)针对实际问题,会用一元线性回归模型进行预测.6.2×2列联表(1)通过实例,理解2×2列联表的统计意义.(2)通过实例,了解2×2列联表独立性检验及其应用.7.本节涉及所有的数学核心素养:数学抽象、逻辑推理、数学建模、直观想象、数学运算、数据分析等.8.高考预测: (1)统计图表;(2)频率分布图、表及其应用; (3)回归分析; (4)独立性检验的应用 9.备考重点: (1)抽样方法;(2)频率分布图、表的应用; (3)线性回归方程及其应用; (4)独立性检验.【知识清单】知识点一.随机抽样与用样本估计总体 1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法. 2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. (2)分层抽样的应用范围当总体是由差异明显的几个部分组成时,往往选用分层抽样. 3.频率分布直方图(1)纵轴表示频率组距,即小长方形的高=频率组距;(2)小长方形的面积=组距×频率组距=频率; (3)各个小方形的面积总和等于1. 4.频率分布表的画法第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表.5.条形图、折线图及扇形图(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.6.中位数、众数、平均数的定义(1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数.(3)平均数一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,x n的平均数x=1n(x1+x2+…+x n).7.样本的数字特征如果有n个数据x1,x2,…,x n,那么这n个数的(1)标准差.(2)方差.[常用结论]1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据x1,x2,…,x n的平均数为x,则mx1+a,mx2+a,mx3+a,…,mx n+a的平均数是m x+a.(2)若数据x1,x2,…,x n的方差为s2,则数据ax1+b,ax2+b,…,ax n+b的方差为a2s2.知识点二.变量间的相关关系与统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y^=b^x+a^,其中()()()1122211ˆn ni i i ii in ni ii ix x y y x y nxybx x x nx====---==--∑∑∑∑,ˆˆa y bx=-(3)通过求Q=∑i=1ny i-bx i-a2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值22()()()()()n ad bc K a b c d a c b d -=++++ (其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断. [常用结论]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ). 2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大. 3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.【典例剖析】高频考点一 抽样方法【典例1】(2019·山东省泰安实验中学高一开学考试)总体由编号为01,02,⋯,29,30的30个个体组成,现从中9抽取一个容量为6的样本,请以随机数表第1行第3列开始,向右读取,则选出来的第6个个体的编号为( )70 29 17 12 13 40 33 12 38 26 13 89 51 03 56 62 18 37 35 96 83 50 87 75 97 12 55 93 A .12 B .13 C .03 D .40【答案】C 【解析】从随机数表第1行第3列开始由左到右依次选取两个数字中小于30的编号依次为29,17,12,13,26,03, 则第6个个体的编号为26. 故选C .【典例2】(2020·横峰中学高三其他(理))某中学高二年级共有学生2400人,为了解他们的身体状况,用分层抽样的方法从中抽取一个容量为80的样本,若样本中共有男生42人,则该校高二年级共有女生( ) A .1260 B .1230 C .1200 D .1140【答案】D 【解析】设女生总人数为:x 人,由分层抽样的方法可得: 抽取女生人数为:804238-=人,所以80382400x=,解得:1140x=故选:D【总结提升】1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.2.分层抽样的前提和遵循的两条原则(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.(2)遵循的两条原则:①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;②分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.3. 两种抽样方法的特点、联系及适用范围【变式探究】1.(2019·绥德中学高二月考(文))高二年级有男生560人,女生420人,为了解学生职业规划,现用分层抽样的方法从该年级全体学生中抽取一个容量为280人的样本,则此样本中男生人数为( )A.120 B.160 C.280 D.400【答案】B【解析】有男生560人,女生420人,∴年级共有560420980+=,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,∴每个个体被抽到的概率是28029807=,∴要从男生中抽取25601607⨯=,故选:B .2.下列抽取样本的方式属于简单随机抽样的个数为( ) ①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛. A .0 B .1 C .2 D .3 【答案】A 【解析】①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样.因为它是有放回抽样;③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样.因为不是等可能抽样.故选A . 【易错提醒】1.应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去. 2.分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. (3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”. 高频考点二 频率分布直方图的应用【典例3】(2019·全国高考真题(理))为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成,A B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到()P C 的估计值为0.70. (1)求乙离子残留百分比直方图中,a b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表). 【答案】(1) 0.35a =,0.10b =;(2) 4.05,6. 【解析】(1)由题得0.200.150.70a ++=,解得0.35a =,由0.050.151()10.70b P C ++=-=-,解得0.10b =. (2)由甲离子的直方图可得,甲离子残留百分比的平均值为0.1520.2030.3040.2050.1060.057 4.05⨯+⨯+⨯+⨯+⨯+⨯=,乙离子残留百分比的平均值为0.0530.1040.1550.3560.2070.1586⨯+⨯+⨯+⨯+⨯+⨯=【例4】(2016高考四川文科)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5), [0.5,1),……[4,4.5]分成9组,制成了如图所示的频率分布直方图.0.500.42(I)求直方图中的a值;(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(Ⅲ)估计居民月均用水量的中位数.a ;(Ⅱ)36000;(Ⅲ)2.04.【答案】(Ⅰ)0.30【解析】(Ⅰ)由频率分布直方图,可知:月用水量在[0,0.5]的频率为0.08×0.5=0.04.同理,在[0.5,1),(1.5,2],[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1–(0.04+0.08+0.21+.025+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(Ⅱ)由(Ⅰ),100位居民月均水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.13=36000.(Ⅲ)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5所以2≤x<2.5.由0.50×(x–2)=0.5–0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.【规律方法】(1)在频率分布直方图中,各小长方形的面积表示相应各组的频率,所有小长方形的面积的和等于1;(2)频率组距×组距=频率; (3)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数 【变式探究】1. 11.(2020·海南高三期中)为了评估某家快递公司的服务质量,某评估小组进行了客户满意度调查,从该公司参与调查的客户中随机抽取500名客户的评分,评分均在区间[]50,100上,分组为[)50,60,[)60,70,[)70,80,[)80,90,[]90,100,其频率分布直方图如图所示.规定评分在60分以下表示对该公司的服务质量不满意,则这500名客户中对该公司的服务质量不满意的客户的人数为( )A .15B .16C .17D .18【答案】A 【解析】由频率分布直方图可知,评分在区间[)50,60上的频率为1(0.0070.020.030.04)100.03-+++⨯=,所以评分在区间[)50,60上的客户有0.0350015⨯=(人), 即对该公司的服务质量不满意的客户有15人. 故选:A2. (2017北京,文17)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),┄,[80,90],并整理得到如下频率分布直方图:(Ⅰ)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(Ⅱ)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(Ⅲ)已知样本中有一半男生的分数学.科网不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.【答案】(Ⅰ)0.4;(Ⅱ)5人;(Ⅲ)3 2 .【解析】(Ⅰ)根据频率分布直方图可知,样本中分数不小于70的频率为(0.020.04)100.6+⨯=,所以样本中分数小于70的频率为10.60.4-=.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(Ⅱ)根据题意,样本中分数不小于50的频率为(0.010.020.040.02)100.9+++⨯=,分数在区间[40,50)内的人数为1001000.955-⨯-=.学科%网所以总体中分数在区间[40,50)内的人数估计为5 40020100⨯=.【易错提醒】频率分布直方图的纵坐标是频率组距,而不是频率高频考点三用样本的数字特征估计总体的数字特征【典例5】(2019·全国高考真题(理))演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是 A .中位数 B .平均数 C .方差 D .极差【答案】A 【解析】设9位评委评分按从小到大排列为123489x x x x x x ≤≤≤≤≤.则①原始中位数为5x ,去掉最低分1x ,最高分9x ,后剩余2348x x x x ≤≤≤,中位数仍为5x ,∴A 正确. ②原始平均数1234891()9x x x x x x x =+++++,后来平均数234817x x x x x '=+++()平均数受极端值影响较大,∴x 与x '不一定相同,B 不正确 ③()()()222219119S x x x x x x ⎡⎤=-+-++-⎣⎦ ()()()222223817s x x x x x x ⎡⎤'=-'+-'++-'⎢⎥⎣⎦由②易知,C 不正确.④原极差91=x -x ,后来极差82=x -x 可能相等可能变小,D 不正确.【典例6】(2019年高考全国Ⅱ卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602≈.【答案】(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%;(2)这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 【解析】(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为1470.21100+=. 产值负增长的企业频率为20.02100=. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%. (2)1(0.1020.10240.30530.50140.707)0.30100y =-⨯+⨯+⨯+⨯+⨯=, ()52211100i ii s n y y ==-∑ 222221(0.40)2(0.20)240530.20140.407100⎡⎤=-⨯+-⨯+⨯+⨯+⨯⎣⎦ =0.0296,0.02960.02740.17s ==≈,所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 【总结提升】(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 【变式探究】1.(2017课标1,文2)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg )分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( ) A .x 1,x 2,…,x n 的平均数 B .x 1,x 2,…,x n 的标准差 C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数【答案】B 【解析】刻画评估这种农作物亩产量稳定程度的指标是标准差,故选B2.(2020·全国高考真题(文))设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A .0.01 B .0.1 C .1 D .10【答案】C【解析】因为数据(1,2,,)i ax b i n +=,的方差是数据(1,2,,)i x i n =,的方差的2a 倍,所以所求数据方差为2100.01=1⨯ 故选:C 【总结提升】1.众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s 2=1n [(x 21+x 22+…+x 2n )-n x 2]或写成s 2=1n(x 21+x 22+…+x 2n )-x 2,即方差等于原数据平方的平均数减去平均数的平方. 2.主要命题角度:(1)样本的数字特征与频率分布直方图交汇 (2)样本的数字特征与茎叶图交汇①在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.②茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等. (3)样本的数字特征与优化决策问题交汇:利用样本的数字特征解决优化决策问题的依据①平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. ②用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 高频考点四 相关关系的判断【典例7】对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关【答案】C【解析】由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.【总结提升】判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.【变式探究】(2019·郑州市第一次质量预测)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份12345 6人均销售额658347利润率(%)12.610.418.5 3.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系【答案】A【解析】画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系,故选A.高频考点五线性回归方程、回归分析【典例8】(2020·河南郑州一中高三期中(文))新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数. 日期代码x 12345678累计确诊人数y .481631517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:①2ˆybx a =+,②ˆy dx c =+对变量x 和y 的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差ˆˆi i i ey y =-):经过计算得()()81728i i i x x y y =--=∑,()82142i i x x =-=∑,()()816868i i i z z y y =--=∑,()8213570i i z z =-=∑,其中2i iz x =,8118i i z z ==∑.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少? 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()81821ˆiii i i x x y y bx x ==--=-∑∑,ˆˆay bx =- 【答案】(1)选择模型①,理由见解析;(2)2ˆ 1.92 1.04y x =+;(3)157人.【解析】(1)选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好(2)由(1),知y 关于x 的回归方程为2ˆybx a =+,令2 z x =,则ˆy bz a =+. 由所给数据得:1(1491625364964)25.58z =+++++++=, 1(481631517197122)508y =+++++++=()()()818216868ˆ 1.923570iii ii z z y y bz z ==--==≈-∑∑. ˆˆ50 1.9225.5 1.04ay bz =-≈-⨯=, ∴y 关于x 的回归方程为2ˆ 1.92 1.04yx =+ (3)将9x =代入上式,得2ˆ 1.929 1.04156.56157y=⨯+=≈(人) 所以预测该地区第9天新型冠状病毒感染确诊的累计人数为157人.【典例9】(2020·全国高考真题(理))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160i ix==∑,2011200i i y ==∑,2021)80i i x x =-=∑(,2021)9000i iy y =-=∑(,201))800i i i x y x y =--=∑((.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =12211))))ni iiiin ni i x y x x y y y x ===----∑∑∑((((,≈1.414.【答案】(1)12000;(2)0.94;(3)详见解析 【解析】(1)样区野生动物平均数为201111200602020i i y ==⨯=∑, 地块数为200,该地区这种野生动物的估计值为2006012000⨯= (2)样本(,)i i x y (i =1,2,…,20)的相关系数为20120202211()()220.94809000()()iii iii i x x y y r x x y y ===--===≈⨯--∑∑∑(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性, 由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大, 采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性, 从而可以获得该地区这种野生动物数量更准确的估计. 【总结提升】一、线性回归分析问题的类型及解题方法 1.求线性回归方程(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点的中心求系数.2.利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. 3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^. 二、模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好.。
高三数学一轮复习统计与统计案例知识点知识点突破训练含答案解析
第十章⎪⎪⎪统计与统计案例 第一节 统 计突破点(一) 随机抽样基础联通 抓主干知识的“源”与“流”1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较 类别 共同点各自特点 相互联系 适用范围 简单随机抽样均为不放回抽样,且抽样过程中每个个体被抽取的机会相等 从总体中逐个抽取 是后两种方法的基础总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分中抽取在起始部分抽样时采用简单随机抽样 元素个数很多且均衡的总体抽样分层抽样将总体分成几层,分层按比例进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.考点贯通抓高考命题的“形”与“神”简单随机抽样1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C 不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D(2)D系统抽样系统抽样的步骤(1)先将总体的N 个个体编号;(2)确定分段间隔k (k ∈N *),对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第1个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10. [答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎡⎦⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3](1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()类别人数老年教师900中年教师 1 800青年教师 1 600合计 4 300A.90 B.100C.180 D.300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90C.45 D.126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组书画组乐器组高一4530a高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.[解析](1)设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.(2)依题意得33+5+7×n=18,解得n=90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a+20,解得a=30.[答案](1)C(2)B(3)30[方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通 抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( ) A .②③④ B .③④ C .②③D .①②解析:选C 根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A ,B ,C 三所中学抽取60名教师进行调查,已知A ,B ,C 三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为( )A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A .10B .11C .12D .16解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A 、B 、C 三所学校,共有高三文科学生1 500人,且A 、B 、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B 校学生中抽取________人.解析:设A 、B 、C 三所学校高三文科学生人数分别为x ,y ,z ,由题知x ,y ,z 成等差数列,所以x +z =2y ,又x +y +z =1 500,所以y =500,用分层抽样方法抽取B 校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体基础联通抓主干知识的“源”与“流”1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数数字特征定义与求法优点与缺点众数一组数据中重复出现次数最多的数众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,…,xn ,那么这n个数的平均数x=x1+x2+…+x nn 平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n[(x1-x)2+(x2-x)2+…+(x n-x)2].②方差:标准差的平方s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x i(i=1,2,3,…,n)是样本数据,n 是样本容量,x是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x1,x2,…,x n的平均数为x,方差为s2,则数据mx1+a,mx2+a,…,mx n +a的平均数为m x+a,方差为m2s2.考点贯通抓高考命题的“形”与“神”频率分布直方图[例1](1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析] (1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案] (1)D (2)15 [方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1.茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2] 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,4 15,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A 的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征1.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27] 频率0.10.150.20.250.150.050.050.05 根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二)与茎叶图交汇命题[例4](1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x,y的值分别为()甲组乙组9099y6166x629A.7,8 B.5,7 C.8,5 D.7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:8 7 7 941x91则7个剩余分数的方差为________.[解析] (1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为3×10+20+(9+6+6+x +9)5=17.4,解得x =7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三) 与优化决策问题交汇[例5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲 乙 丙 丁 平均环数x 8.3 8.8 8.8 8.7 方差s 23.53.62.25.4从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( ) A .甲 B .乙 C .丙D .丁[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C [方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通 抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16. 2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.018解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018. 4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )7 9 8 4 4 6 4 793A .84,4.84B .84,1.6C .85,1.6D .85,4 解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲 10 8 9 9 9 乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25, s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定. 答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x (吨),一位居民的月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a +0.20+0.26+0.5×a +0.06+0.04+0.02=1,解得a =0.30. (2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x <3.由0.30×(x -2.5)=0.85-0.73,解得x =2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 7.[考点三·考法(二)]某车间20名工人年龄数据如下表: 年龄(岁) 工人数(人)19 1 28 3 29 3 30 5 31 4 32 3 40 1 合计20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21. (2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20 i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律] 1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:选D由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;故D错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125) 频数62638228(1)作出这些数据的频率分布直方图(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A 药B 药 0. 1. 2.3.解:(1)设A 药观测数据的平均数为x -,B 药观测数据的平均数为y -.由观测结果可得 x -=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y -=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x ->y -,因此可看出A 药的疗效更好. (2)由观测结果可绘制如下茎叶图:A 药B 药 6 0. 5 5 6 8 9 8 5 5 2 2 1. 1 2 2 3 4 6 7 8 9 9 8 7 7 6 5 4 3 3 22.1 4 5 6 7。
2021版《高考调研》大一轮复习(新课标,数学理)题组训练第十一章算法初步与统计题组71
题组层级快练(七十一)1.商场在2021年国庆黄金周的促销活动中,对10月2日9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为 ( )A .6万元B .8万元C .10万元D .12万元答案 C解析 由0.40.1=x2.5,得10万元,故选C.2.如图是2021年某高校自主招生面试环节中,七位评委为某考生打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的平均数和众数依次为( )7 98 4 4 6 4 7 9 3A.85,84 B .84,85 C .86,84 D .84,86答案 A解析 由图可知去掉一最高分和一个最低分后,所剩数据为84,84,86,84,87,则平均数为85,众数为84.3.为调查同学身高的状况,随机抽测了高三两个班120名同学的身高(单位:cm),所得数据均在区间[140,190]上,其频率分布直方图如图所示,则在抽测的120名同学中,身高位于区间[160,180)上的人数为( )A .70B .71C .72D .73答案 C解析 依据频率分布直方图,得同学的身高位于区间[160,180)上的频率为(0.040+0.020)×10=0.6,∴对应的人数为120×0.6=72.故选C.4.(2022·山东理)为了争辩某药品的疗效,选取若干名志愿者进行临床试验.全部志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的挨次分别编号为第一组,其次组,……,第五组.如图是依据试验数据制成的频率分布直方图.已知第一组与其次组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为 ( ) A .6 B .8 C .12 D .18答案 C解析 第一组和其次组的频率之和为0.4,故样本容量为200.4=50,第三组的频率为0.36,故第三组的人数为50×0.36=18,故第三组中有疗效的人数为18-6=12.5.(2022·荆州市质检)已知一组数据按从小到大的挨次排列,得到-1,0,4,x ,7,14,中位数为5,则这组数据的平均数和方差分别为( ) A .5,2423B .5,2413C .4,2513D .4,2523答案 A6.如图所示,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为x -A 和x -B ,样本标准差分别为S A 和S B ,则( )A.x -A >x -B ,S A >S BB.x -A <x -B ,S A >S BC.x -A >x -B ,S A <S B D.x -A <x -B ,S A <S B答案 B解析 由图可知A 组的6个数为2.5,10,5,7.5,2.5,10, B 组的6个数为15,10,12.5,10,12.5,10, 所以x -A =2.5+10+5+7.5+2.5+106=37.56,x -B =15+10+12.5+10+12.5+106=706.明显x -A <x -B ,又由图形可知,B 组的数据分布比A 均匀,变化幅度不大,故B 组数据比较稳定,方差较小,从而标准差较小,所以S A >S B ,故选B.7.(2021·四川文)某学校随机抽取20个班,调查各班中有网上购物经受的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案 A解析 由茎叶图知,各组频数统计如下表:分组 区间 [0,5)[5,10)[10,15) [15,20) [20,25) [25,30) [30,35) [35,40]频数 统计11424332上表对应的频率分布直方图为A ,故选A.8.(2021·山东文)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中依据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③ D .②④答案 B解析 由茎叶图中的数据通过计算求得 x -甲=26+28+29+31+315=29,s 甲=15[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=3105; x -乙=28+29+30+31+325=30,s 乙=15[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]= 2. ∴x -甲<x -乙,s 甲>s 乙,故①④正确.选B.9.(2021·江苏)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.答案 6解析 由平均数公式可得这组数据的平均数为4+6+5+8+7+66=6.10.下面茎叶图是甲、乙两人在5次综合测评中成果的茎叶图,其中一个数字被污损,则甲的平均成果超过乙的平均成果的概率为________.答案 45解析 设被污损的数字为a(0≤a ≤9且a ∈N ),则由甲的平均成果超过乙的平均成果得88+89+90+91+92>83+83+87+99+90+a ,解得8>a ,即得0≤a ≤7且a ∈N ,∴甲的平均成果超过乙的平均成果的概率为P。
2024年高考数学一轮复习(新高考版)《统计与统计分析》课件ppt
i=1
7
xiyi-7
i=1
所以b^ =
7
x
·y
=452-7×42×8 70+7m+n,
x2i -7 x 2
i=1
123456
^
即 m+n=43-7b,
①
因为经验回归直线恒过点( x , y ),
所以70+7m+n=4b^ +4,
^
即 m+n=28b-42,
②
由①②,得b^ =177,m+n=26,
123456
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归
^^
^
^
方程v=βu+α的斜率和截距的最小二乘估计公式分别为β=
n
n
ui- u vi- v uivi-n u ·v
i=1
n
u
i-
u
2
i=1
i=1
^
^
=
,α= v -β u .
n
u2i -n u 2
月劳动时间(单位:小时),并建立了人均月劳动时间y关于月份x的经验回
^^
归方程 y=bx+4,y与x的原始数据如表所示:
月份x
123 4 5 6 7
人均月劳动时间y 8 9 m 12 n 19 22
7
由于某些原因导致部分数据丢失,但已知 xiyi=452.
i=1
123456
(1)求m,n的值;
n
xiyi-n x ·y
x2i -8 x 2
i=1
^
^
d= t -c x =2.1-0.4×4.5=0.3,
^
所以t=0.4x+0.3,
^
即y=e0.4x+0.3.
第01讲统计(八大题型)(课件)-2025年高考数学一轮复习讲练测(新教材新高考)
了一场身体素质体能测试,以便对体能不达标的学生进行有针对性的训练,促进他们体能的提升,现从整个年级测试成绩中
抽取100名学生的测试成绩,并把测试成绩分成 40,50 , 50,60 , 60,70 , 70,80 , 80,90 , 90,100 六组,绘制成频率分布直方
(2)理解统计图表的含义.
大,未来在考试中的出题角度会更加与实际生活紧密联
(3)会用统计图表对总体进行估计,会求n
系,背景新颢、形式多样.
个数据的第p百分位数.
稿定PPT
(4)能用数字特征估计总体集中趋势和总
体离散程度.
稿定PPT,海量素材持续更
新,上千款模板选择总有一
款适合你
02
网络构建
03
1
综上,根据统计结果,数据中肯定没有出现点数6的是乙同学.
平均数为:ҧ = 5 1 + 2 + 3 + 3 + 6 =3,
1.简单随机抽样和分层随机抽样在抽样过程中每个个体被抽取
的机会相等,分层随机抽样中各层抽样时采用简单随机抽样.
2.利用分层随机抽样要注意按比例抽取,若各层应抽取的个体
数不都是整数,可以进行一定的技术处理,比如将结果取成
整数等.
常用结论
3.在分层随机抽样中,以层数是 2 层为例,如果第 1 层和第 2 层
2025
高考一轮复习讲练测
第01讲 统计
目录
C
O
N
T
E
01
考情分析
N
T
S
02
03
04
2021届高中数学一轮复习基础知识手册第七编 统计
第七编统计考纲要求1.随机抽样(1)理解随机抽样的必要性和重要性.(2)会用简洁随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样的方法.2.用样本估量总体(1)了解分布的意义和作用,能依据频率分布表画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算术据标准差(不要求记忆公式).(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)能从样本的频率分布估量总体分布,会用样本的基本数字特征估量总体的基本数字特征,理解用样本估量总体的思想.(5)会用随机抽样的基本方法和样本估量总体的思想解决一些简洁的实际问题.3.变量的相关性(1)会作两个有关联变量的数据的散点图,并利用散点图生疏变量间的相关关系.(2)了解最小二乘法的思想,能依据给出的线性回归方程系数公式求出线性回归方程(线性回归方程系数公式不要求记忆).(4)了解回归的基本思想、方法及其简洁应用.(5)了解独立性检验的思想、方法及其初步应用.第一讲统计学问力量解读知能解读(一)抽样方法1简洁随机抽样(1)一般地,从元素个数为N的总体中不放回地抽取容量为n的样本,假如每一次抽取时总体的每个个体有相同的可能性被抽到,那么这种抽样方法就叫做简洁随机抽样.这样抽取的样本叫做简洁随机样本.(2)常用的简洁随机抽样方法有抽签法和随机数表法.(3)简洁随机抽样的特点①被抽取样本的总体的个数有限;②从总体中逐个地进行抽取,使抽样便于在实践中操作;③它是不放回抽样,这使其具有广泛的应用性;④每一次抽样时,每个个体等可能地被抽到,保证了抽样方法的公正性.(4)实施抽样的方法①抽签法.方法简洁,易于理解.②随机数表法.随机数表即表中每个位置上等可能地消灭0,1,2,,9⋅⋅⋅这十个数字的数表.随机数表不唯一,只要符合各个位置上等可能地消灭各个数字的要求就可以构成随机数表.随机数表中各个位置上消灭各个数字的等可能性,保证了利用随机数表进行抽样时抽取到总体中各个个体序号的等可能性.利用随机数表时应留意的问题如下:第一步,将总体中各个个体进行编号,因此整体中个体的个数不宜太大.其次步,选定开头数字,要保证所选数字的随机性.第三步,确定读数方向并猎取样本号码.读数方向是任意的;样本号码不重复,若有重复则舍去.2系统抽样(1)概念在抽样中当总体中个体个数较多时,可将总体分成均衡的若干部分,然后依据预先制定的规章,从每一部分抽取一个个体,得到所需要的样本,这样抽样的方法叫做系统抽样.由于系统抽样的间隔相等,因此系统抽样也被称为等距抽样.由定义可看出:①系统抽样适用于总体中的个体数较多的状况,由于这时接受简洁随机抽样显得不便利;②系统抽样与简洁随机抽样之间存在这亲密联系,即在将总体中的个体均分后的每一段中进行抽样时,接受的是简洁随机抽样.(2)系统抽样的操作步骤①利用随机的方式将总体中的个体编号.②为将总体的号码分段,要确定分段间隔k,当Nn(N为总体中的个体数,n为样本容量)是整数时,Nkn=;当Nn不是整数时,通常从总体中剔除一些个体使剩下的个体数N'能被n整除,这时Nkn'=.③第一段用简洁随机抽样确定起始个体编号l.④依据事先确定的规章抽取样本,通常是将l加上间隔k得到第2个编号()l k+,将()l k+加上l,得到第3个编号()2l k+⋅⋅⋅⋅⋅⋅这样连续下去,知道猎取整个样本.(3)系统抽样的公正性在系统抽样中,总体中的个体数假如正好能被样本容量整除,那么可用它们的比值作为进行系统抽样的间隔.假如不能被整除,那么可能用简洁随机抽样的方法从总体中剔除若干个个体,其个数为总体中的个体数除以样本容量所得的余数,然后再编号、分段,确定第一段的起始号,继而确定整体个样本.上述过程中,总体中的每个格题被踢出的可能性相等,也就是每个个体不被剔除的可能性相等,可知在整个抽样过程中每个个体被抽取的可能性仍旧相等.3分层抽样(1)当总体由有明显差异的几部分组成时,为了使抽取的样本更好地反映总体的状况,长接受分层抽样,将总体中各个个体按某种特征分成互不重叠的若干部分,每一部分叫做层,在各层中按层在总体中所占比例进行简洁随机抽样,这样抽样方法叫做分层抽样.(2)分成抽样的过程①确定样本容量与总体中个体数的比;②计算各层需抽取的个体数;③接受简洁随机抽样或系统抽样在各层中抽取个体;④将各层中抽取的个体合在一起,就是所要抽取的样本.(3)分层抽样的特点①适用于总体由差异明显的几部分组成的状况;②更充分反映了总体的状况;③是等可能抽样,每个个体被抽到的可能性度是Nn(n为样本容量,N为总体中的个体数).知能解读(二)数据的收集数据收集的基本方法:(1)做试验通过设计一些合适的试验,能够直接地获得样本数据.如统计一颗骰子各点消灭的频率,就可做抛掷骰子试验.(2)查阅资料有些数据不易直接调查到,可通过查阅图书馆文献或通过搜寻因特网上的相关资料等方法获得所需数据或相关数据.(3)设计调查问卷问卷一般由一组有目的、有系统、有挨次的题目组成.知能解读(三)用样本估量总体1用样本的频率分布估量总体的分布(1)频率分布表、频率分布直方图当总体中个体数较多,甚至无限时,用样本的频率分布估量总体分布,主要步骤如下:①计算极差;②打算组距与组数;③打算分点;④列频率分布表;⑤绘制频率分布直方图.(2)频率分布直方图的特点①纵轴表示频率组距,即矩形的高,横轴上以相邻两点为端点的线段为矩形的底.②矩形的面积表示频率,各矩形的面积和为1.③有频率分布直方图进行相关计算时,需把握下列关系是: a. ⨯=频率组距频率组距. b. =频数频率样本容量,此关系式可变形为:=频数样本容量频率. (3)茎叶图茎叶图只便于表示有两位有效数字的数据,它有以下两个突出优点; ①统计图上没有原始信息的缺失; ②可随时记录,便利记录与表示. (4)茎叶图制作将全部两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共同一个茎,茎按从小到大的挨次从上向下列出,共茎的叶一般按从小到大(或从小到大)的挨次同行列出.(5)总体密度曲线总体密度曲线反映了总体的分布,即反映了总体在各个范围内取值的百分比.依据这条曲线,总体在(),a b 内取值的百分比就是总体密度曲线与直线,x a x b ==及x 轴所围成的图形的面积. 2用样本的数字特征估量总体的数字特征 (1)众数、中位数、平均数①众数:在样本数据中,消灭次数最多的那个数据.②中位数:将数据按大小挨次排列,位于最中间的数据.假如数据的个数为偶数,就取中间两数的平均数为中位数.③平均数:样本数据的算术平均值,即12nx x x x n++⋅⋅⋅+=.留意通常,我们是用样本平均数取估量总体平均数.样本容量越大,这种估量的牢靠性越高;样本越具有典型性,这种估量的牢靠性也就越高,但用样本平均数估量总体平均数时,样本平均数只是总体平均数的近似值.(2)方程与标准差 ①方差:在一组数据12,,,n x x x ⋅⋅⋅中,各数据与它们的平均数x 的差的平方的平均数,叫做这组数据的方程,通常用2s 表示,即()()()2222121n s x x x x x x n ⎡⎤=-+-+⋅⋅⋅+-⎢⎥⎣⎦.②标准差:方差的算术平方根叫做这组数据的标准差,通常用s 表示,即s =③方程与标准差的意义:方差和标准差都是用来描述一组数据波动状况的特征数,常用来比较两组数据的波动大小.方程大的波动较大,方差小的波动较小.所以,当两组数据的平均数相等或比较接近时,就常用方差来比较两组数据的波动状况. 知能解读(四)变量的相关系数变量与变量之间的关系常见的有两类:一类是确定的函数关系,另一类是相关关系. (1)函数关系函数关系是一种确定性关系,如一次函数、二次函数. (2)相关关系变量间的确存在关系,但又不具备函数关系所要求的确定性,它们的关系带有随机性.如日最低气温与维度之间、产品的成本和产量之间、农作物的产量和施肥两之间、商品的销售额与广告费之间、家庭的支出和收入之间都是相关关系.(3)散点图把两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图.通过散点图可初步推断两个之间是否具有相关关系,它反映了个数据的亲密程度. 知能解读(五)两个变量的线性相关关系1两个变量的线性相关关系可通过散点图观看,一般地,假如图中数据大致分布在一条直线四周,那么这两个变量相像成线性相关关系.其中相关关系包含正相关与负相关.2回归直线方程的求法 (1)列表计算;(2)使用函数计算器计算. 解题方法荟萃 Ⅰ.数学思想方法思想方法 数学结合思想 Ⅱ.解题规律技巧规律技巧(一)系统抽样的应用系统抽样又称为等距抽样,系统抽样的第1段为简洁随机抽样,以后为等距抽样,抽多少个个体,就分成多少组,每组中的个体数即为样本间距. 规律技巧(二)分层抽样的应用现将总体按肯定标准进行分层,然后计算各层的个体数与总体的个数的比,最终按各层个体数站总体个体数的比确定各层应抽取的样本容量. 说明从一个总体得到一个包含大量数据的样本时,我们很难从一个数字中直接看出样本所含的信息.假如将这些数据形成频数分布或频率分布,就可以比较清楚的看出样本数据的特征,从而估量总体的分布状况. 说明本题考查频率分布直方图和频率公式,属中等难度题 规律技巧(四)用样本数字特征估量总体数字特征(1)样本众数通常用来表示分类变量的中心值,易计算,但它只能表达样本数据中较少的一部分信息.中位数不受少数几个极端数据的影响,易计算,但它仅利用了数据中排在中间位置的数据的信息.平均数受样本中的每一个数据的影响,但它受极端值的影响较大,平均数代表了数据的更多信息.(2)样本标准差描述了数据对平均数的偏离程度.标准差越大,数据的离散程度越大;标准差越小数据的离散程度越小. 说明平均数对极端值敏感,而中位数对极端值不敏感,因此两者结合,可较好地分析总体的状况.另外,据此也可估量其他同类班级的状况.规律技巧(五)利用散点图推断两变量的相关关系 说明画出散点图可挂念分析变量间是否具有相关关系,但不是唯一的推断途径. Ⅲ.易混易错辨析易混易错 忽视频率分布直方图纵轴的意义而致误高考命题争辩在近几年的高考中,主要考查:系统抽样、分层抽样的简洁应用,频率分布直方图、茎叶图、相关性、线性回归方程、平均数、方差等计算.多以选择题、填空题的形式消灭,有时以解答的形式消灭,属简洁题. 高考热点(一)随机抽样本部分内容在高考中主要以选择题、填空题形式消灭,且题目较简洁,学习时,应重点把握基本学问的应用和基本题型的求解,对三种抽样方法的考查以分层抽样为主. 说明考查三种抽样方法的特征,试题难度较小. 点评学问:茎叶图和系统抽样.力量:考查了应用意识及数据处理力量.试题难度:易. 高考热点(二)统计图表的应用本热点主要利用统计表、统计图分析并估量总体的分布规律,要娴熟把握绘制统计图表的方法,明确图表中有关数据的意义是正确分析问题的关键,从图形与图表中猎取有关信息并加以整理是今年来高考命题的热点. 点评学问:本题主要考查对柱形图的理解.力量:读图力量.试题难度:易. 点评学问:频率和频数的概念及频率分布直方图的性质.力量:在求a 的过程中,考查了方程思想和运算求解力量.试题难度:中. 点评学问:茎叶图、数据的平均数和标准差等数字特征.力量:通过对茎叶图中数据数字特征的推断考查了推理论证力量和创新应用意识.试题难度:中. 高考热点(三)样本的数字特征样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括众数、中位数和平均数;另一类是反映样本波动大小的,包括方差及标准差.我们常通过样本的数字特征估量总体的数字特征. 高考热点(四)变量间的相关关系及回归方程对两个变量的样本数据进行相关性分析,可发觉存在与生活的回归现象.用最小二乘法争辩回归现象,得到的线性回归方程可用于猜测和估量,为决策供应依据.对两个变量之间的线性关系所进行的统计分析称为线性回归分析. 点评学问:正相关和负相关的概念及线性回归方程.力量:由x 与y 负相关,y 与z 正相关,推导出x 与z 负相关,考查了推理论证力量.试题难度:易. 点评学问:回归直线方程,散点图的应用.力量:通过散点图确定斜率、截距与0的大小关系,考查数形结合的思想方法.试题难度:易. 点评本题考查了正相关的定义,考查了样本点的中心肯定在回归直线上的性质.试题难度较小. 附录 常用符号1常用符号x ——平均数 2s ——方差 s ——标准差 ∑——求和符号 2常用公式()121n x x x x n=++⋅⋅⋅+ ()2211n i i s x x n ==-∑s =1221ˆni ii nii x ynx y bxnx==-=-∑∑ ˆˆay bx =- 其次讲 统计案例 学问力量解读知能解读(一)回归分析1回归分析它是对具有相关关系的两个变量进行统计分析的一种常用方法. 2.随机误差线性回归模型用y bx a e =++表示,其中a 和b 为模型的未知参数,e 称为随机误差. 3样本点的中心对于一组具有线性相关关系的数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅,回归直线y bc a =+的斜率和截距的最小二乘估量分别为()()()121ˆˆˆ,niii nii xxy y ba y bx xx==--==--∑∑,其中()1111,,,n ni ii i x x y y x y n n ====∑∑称为样本点的中心. 留意(1)回归直线必过样本点的中心(),x y ;(2)ˆb的意义:当x 每增加(或削减)1个单位时,y 就平均增加(或削减)ˆb 个单位. 4相关系数(1)()()niix x yyr --=∑(2)当0r >时,表明两个变量正相关;当0r >时,表明两个变量负相关. 线性相关系数r 具有以下性质:(1)1r ≤;(2)r 越接近于1,线性相关程度越强;(3)r 越接近于0,线性相关程度越弱.通常,当r 大于0.75时,认为两个变量有很强的线性相关性.知能解读(二)残差分析 1残差在回归分析中,测定值与按回归方程猜测的值之差,即ˆˆi i i ey y =-为相对于点(),i i x y 的残差. 2残差平方和 ()21ˆniii y y=-∑.3相关指数()()22121ˆ1nii i n ii yy R yy==-=--∑∑.2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好;2R 的值越小,说明残差平方和越大,即模型的拟合效果越差.在线性回归模型中,2R 表示解释变量对于预报变量化的贡献率,2R 越解决于1,表示回归的效果越好.知能解读(三)独立性检验1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. 2列联表列出量分类变量的频数表,称为列联表.一般地,假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表(称为22⨯列联表)为 22⨯列联表构造一个随机变量()()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.3独立性检验利用随机变量2K 来推断“两个分类变量有关系”的方法称为独立性检验. 解题方法荟萃 Ⅰ.数学思想方法思想方法 数形结合思想 说明画散点图推断相关性,简便易行,便于操作,但往往不易,便于操作,但往往不易精确 地把握结论;利用相关系数r 推断相关性,计算量很大,但推断更精确 ,可谓各有利弊.通常解题时可直接画散点图进行推断. Ⅱ.解析规律技巧规律技巧(一)独立性检验的基本方法解决一般的独立性检验问题的步骤:(1)通过所给列联表确定,,,,a b c d n 的值(没有22⨯列联表的先画列联表);(2)利用()()()()()22n ad bc K a b c d a c b d -=++++求随机变量2K 的观测值k ;(3)将k 与0k 比较得出两个变量X 与Y 是否有关系. 规律技巧(二)回归分析的基本方法线性回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点画出散点图,推断两个变量是否具有线性相关关系;(3)由最小二乘法确定线性回归方程,由回归方程计算变量的取值并推断变化趋势. 说明两个结果看似有冲突,其实没有,只是独立性检验是“粗线条的”,它只能回答在某个可信程度上是否有关,而回归分析是“微小的”,它不仅回答是否有关,更重要的它可以告知你有关的程度,甚至通过一个值就能猜测另一个值. 高考命题争辩本讲内容在高考中主要考查独立性检验、回归分析,并借助其解决一些简洁的实际问题,了解一些基本的统计思想,虽然只有个别省份集合抽样方法进行考查,但是应引起我们的高度重视. 高考热点(一)22⨯列联表及独立性检验22⨯列联表属于新课程标准添加的内容,虽然单独考查的可能性较小,但是它可以和抽样方法、样本的数字特征、概率、频率分布直方图等学问综合在一起进行考查. 点评学问:独立性检验的计算和意义、古典概型的概率.力量:会依据2K 公式进行正确运算,考察数据力量和运算求解力量;考查综合应用所学数学学问及用列举法求概率的意识.试题难度:中. 附录 常用公式定理1常用公式(1)回归直线方程ˆˆˆya bx =+,其中()()()1122211ˆ,ˆˆ.nni i i ii i n ni ii i x x y y x y nx yb x x xnxay bx ====⎧---⋅⎪⎪===⎪⎨--⎪⎪=-⎪⎩∑∑∑∑(2)相关系数 ()()niix x yyr --=∑2常用定理(1)22⨯其中,n a b c d =+++,并且n 为样本容量,()()()()2n ad bc K a b c d a c b d -=++++.(2)独立性检验将计算出的2K 的观测值k 与6.635进行比较,假如 6.635k ≥,则在犯错误的概率不超过0.01的前提下认为大事A 与B 有关,否则就认为在犯错误的概率不超过0.01的前提下不能推断大事A 与B 有关系.(人教试验A 版)。
高考数学一轮复习统计初步章节测试题
卜人入州八九几市潮王学校统计初步章节测试题一选择题1.某为了分析全9800名初中毕业生的数学考试成绩,一共抽取50本套试卷,每本都是30份,那么样本容量是………………………………………………………………〔〕〔A 〕30〔B 〕50〔C 〕1500〔D 〕98002.有下面四种说法:〔1〕一组数据的平均数可以大于其中每一个数据;〔2〕一组数据的平均数可以大于除其中1个数据外的所有数据;〔3〕一组数据的HY 差是这组数据的方差的平方;〔4〕通常是用样本的频率分布去估计相应总体的分布.其中正确的有……………………………………………………………………〔〕 〔A 〕1种〔B 〕2种〔C 〕3种〔D 〕4种3.样本数据x 1,x 2,…,x 10,其中x 1,x 2,x 3的平均数为a ,x 4,x 5,x 6,…,x 10的平均数为b ,那么样本数据的平均数为…………………………………………〔〕〔A 〕2b a +〔B 〕1073b a +〔C 〕1037b a +〔D 〕10b a + 4.样本数据x 1,x 2,…,x n 的方差为4,那么数据2x 1+3,2x 2+3,…,2x n +3的方差为……………………………………………………………………………………〔〕〔A 〕11〔B 〕9〔C 〕4〔D 〕165.同一总体的两个样本,甲样本的方差是2-1,乙样本的方差是3-2,那么〔〕〔A 〕甲的样本容量小〔B 〕甲的样本平均数小〔C 〕乙的平均数小〔D 〕乙的波动较小6.某校有500名学生参加毕业会考,其中数学成绩在85~100分之间的有一共180人,这个分数段的频率是……………………………………………………………………〔〕〔A 〕180〔B 〕0.36〔C 〕0.18〔D 〕5007.某校男子足球队22名队员的年龄如下:16171718141816181718191817151817161817181718这些队员年龄的众数与中位数分别是……………………………………………〔〕〔A 〕17岁与18岁〔B 〕18岁与17岁〔C 〕17岁与17岁〔D 〕18岁与18岁校六月份里5天的日用电量,结果如下〔单位:kW 〕.400410395405390根据以上数据,估计这所六月份的总用电量为………………………………〔〕〔A 〕12400kW 〔B 〕12000kW 〔C 〕2000kW 〔D 〕400kW 【提示】51〔400+410+395+405+390〕=400,故30×400=12000. 9.以下说法:〔1〕众数所在的组的频率最大;〔2〕各组频数之和为1;〔3〕假设一组数据的最大值与最小值的差是15,组距为3,那么这组数据应分为5组; 〔4〕频率分布直方图中每个小长方形的高与这一组的频数成正比例.正确的说法是……………………………………………………………………〔〕〔A 〕〔1〕〔3〕〔B 〕〔2〕〔3〕〔C 〕〔3〕〔4〕〔D 〕〔4〕10.近年来国内消费总值年增长率的变化情况如图.从图上看,以下结论中不正确的选项是……………………………………………………………………………………〔〕〔A〕1995所~1999年,国内消费总值的年增长率逐年减小〔B〕2000年国内消费总值的年增长率开场上升〔C〕这7年中,每年的国内消费总值不断增长〔D〕这7年中,每年的国内消费总值有增有减二填空题11.一批灯泡一共有2万个,为了考察这批灯泡的使用寿命,从中抽查了50个灯泡的使用寿命,在这个问题中,总体是__________,样本容量是__________,个体是__________.__________.13.某次考试A,B,C,D,E这5名学生的平均分为62分,假设学生AA__________.14.样本数据-1,2,0,-3,-2,3,1的HY差等于__________.15.把容量是64的样本分成8组,从第1组到第4组的频数分别是5,7,11,13,第5组到第7组的频率是,那么第8组的频数是__________,频率是__________.16.某班通过一次射击测试,在甲、乙两名同学中选出一名同学代表班级参加校射击比赛.这两位同学在一样条件下各射靶5次,所测得的成绩分别如下〔单位:环〕:甲乙根据测试成绩,你认为应该由__________代表班级参赛.三解答题:17.近年来,由于乱砍滥伐,掠夺性使用森林资源,我国长江、黄河流域植被遭到破坏,土地沙化严重,洪涝灾害时有发生.沿黄某地区为积极响应和支持“保护母亲河〞的建议,建造了长100千米,宽千米的防护林.有关部门为掌握这一防护林一共约有多少棵树,从中选出10块〔每块长1千米,宽千米〕进展统计,每块树木数量如下〔单位:棵〕65100632006460064700673006330065100666006280065500请你根据以上数据计算这一防护林一共约有多少棵树〔结果保存3个有效数字〕.18.在开展的综合理论活动中,某班进展了小制作评比,作品上交时间是为5 月1日至30日.评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图如下.从左至右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答以下问题:〔1〕本次活动一共有多少件作品参加评比?〔2〕哪组上交的作品数量最多?有多少件?〔3〕经过评比,第四组和第六组分别有10件、2件作品获奖,这两组哪组获奖率较高?19.从甲、乙、丙三个厂家消费的同一种产品中,各抽出8件产品,对其使用寿命进展跟踪调查,结果如下〔单位:年〕甲345688810乙4666891213丙33479101112三家广告中都称这种产品的使用寿命是8年.请根据调查结果判断厂家在广告中分别运用了平均数、众数、中位数中哪一种反映集中趋势的特征数.20.数据x 1,x 2,x 3,x 4,x 5,其中每一个数均为非负整数且互不相等,中位数是2,x =2.〔1〕求这组数据;〔2〕计算这组数据的HY 差.21.〔15分〕某商店将甲、乙两种糖果混合销售,并按以下公式确定混合糖果的单价:单价=212211m m m a m a ++〔元/千克〕,其中m 1、m 2分别为甲、乙两种糖果的重量〔千克〕,a 1、a 2分别为甲、乙两种糖果的单价〔元/千克〕.甲种糖果单价为20元/千克,乙种糖果单价为16元/千克.现将10千克乙种糖果和一箱甲种糖果混合〔搅拌均匀〕销售,售出5千克后,又在混合糖果中参加5千克乙种糖果,再出售时,混合糖果的单价为元/千克.这箱甲种糖果有多少千克?统计初步章节测试题一选择题9.【答案】D.【点评】此题考察与频率分布有关的概念.判断〔4〕正确,是因为每一个小长方形的62×5,x =70.【答案】70分.=64820.1016020++x x 〔x +5〕+80=〔x +10〕. 化简,得x 2-10x -150=0,即x 2-4x -60=0.解得x1=10,x2=-6.经检验,x1=10,x2=-6都是原方程的根,但x=-6不合题意,舍去.故这箱甲种糖果有10千克.。
第58讲 统计初步(解析版)2021届新课改地区高三数学一轮专题复习
映总体频率分布的表格称为频率分布表.
(2)频率分布直方图:利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图.
(3)频率分布折线图:如果将频率分布直方图中,各相邻的矩形的上底边的中点顺次连结起来,就得到
一条折线,我们称这条折线为本组数据的频率分布折线图.频率分布折线图的优点是它反映了数据的变化
【答案】 A 【解析】 ①不是简单随机抽样,因为是从无限多个个体中抽取.②不是简单随机抽样.由于它是放回抽样.③ 不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个 子最高的 5 名同学是 56 名中特指的,不存在随机性,不是等可能抽样.
变式 2、(1)总体由编号为 01,02,…,19,20 的 20 个个体组成.利用下面的随机数表选取 5 个个体,选取
【答案】:(1) 01 (2) ①②③④
【解析】:(1)由题意知前 5 个个体的编号为 08,02,14,07,01.
(2)①不是简单随机抽样.
②不是简单随机抽样.由于它是放回抽样.
5 / 13
2021 届新课改地区高三数学一轮专题复习
③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取. ④不是简单随机抽样.因为指定个子最高的 5 名同学是 56 名中特指的,不存在随机性,不是等可能抽样.
【答案】A
【解析】该地区中小学生总人数为 3 500+2 000+4 500=10 000(人),则样本量为 10 000×2%=200(人),
其中抽取的高中生近视人数为 2 000×2%×50%=20(人).故选 A.
4、(多选)(2019·济南市模拟考试)随着我国经济实力的不断提升,居民收入也在不断增加.某家庭 2018 年全
新课标高考数学总复习配套教案:统计初步[1]
第十章算法、统计与概率第2课时统计初步(1)错误!考情分析考点新知统计部分重点考查数据收集、处理的基本能力.抽样方法在高考中多为基础题,常以填空题的形式出现,以实际问题为背景,综合考查学生学习基础知识、解决实际问题的能力,考查热点为分层抽样、系统抽样.1理解随机抽样的必要性和重要性.2会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.1.(原创)为了抽查某城市汽车尾气排放执行标准情况,在该城市的主干道上采取抽取车牌末位数字为5的汽车检查,这种抽样方法称为________.答案:系统抽样解析:由于这种抽样方法采用抽取车牌末位数字为5的汽车检查,可以看成是将所有的汽车车牌号分段为若干段(一个车牌末位数字从0到9为一段),每一段抽取一个个体,因此它符合系统抽样的特征,故答案为系统抽样.2.(必修3P47练习1改编)为了解某校一次知识竞赛的1252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中随机剔除个体的数目是____________.答案:2解析:1252除以50的余数就是总体中需要随机剔除个体的数目.3.(必修3P49练习3改编)某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为________.答案:64解析:由题意,应采用分层抽样,则高中二年级被抽取的人数为320×错误!=64.4.(必修3P52习题2改编)某单位有200名职工,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为23,则第8组抽出的号码应是________.答案:38解析:由题意易见系统抽样的间隔为5,设第一段中抽取的起始的个体编号为l,由第5组抽出的号码为23得l+4×5=23,所以l=3,故第8组抽出的号码是3+7×5=38.5.(必修3P50例3改编)某城区有农民、工人、知识分子家庭共计2000家,其中农民家庭1800户,工人家庭100户.现要从中抽取容量为40的样本调查家庭收入情况,则在整个抽样过程中,可以用到下列抽样方法的是________.(填序号)1简单随机抽样;2系统抽样;3分层抽样.答案:123解析:由于各家庭有明显差异,所以首先应用分层抽样的方法分别从农民、工人、知识分子这三类家庭中抽出若干户,即36户、2户、2户.又由于农民家庭户数较多,那么在农民家庭这一层宜采用系统抽样;而工人、知识分子家庭户数较少,宜采用简单随机抽样法.故整个抽样过程要用到123三种方法.1.简单随机抽样(1)定义从个体数为N的总体中逐个不放回地取出n个个体作为样本(n<N),如果每个个体都有相同的机会被取到,那么这样的抽样方法称为简单随机抽样.(2)分类简单随机抽样错误!2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本,系统抽样的步骤为:(1)采用随机的方式将总体中的N个个体编号;(2)将编号按间隔k分段,当错误!是整数时,k=错误!;当错误!不是整数时,从总体中剔除若干个个体,使剩下的总体中个体的个数N′能被n整除,这时k=错误!,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l;(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n—1)k的个体抽出.3.分层抽样当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比例实施抽样,这种抽样方法叫分层抽样.[备课札记]题型1简单随机抽样例1总体编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.7816 65720802631407024369 9728 01983204923449358200 362348696938 7481答案:01解析:依题意,第一次得到的两个数字为65,由于65>20,将它去掉;第二次得到的两个数字为72,由于72>20,将它去掉;第三次得到的两个数字为08,由于08<20,说明号码08在总体内,将它取出;继续向右读,依次可以取出02,14,07,02;但由于02在前面已经选出,故需要继续选一个.再选一个就是01.故选出来的第5个个体是01.错误!现要从20名学生中抽取5名进行问卷调查,请按正确的顺序表示抽取样本的过程:________(填序号).1编号:将20名学生按1到20进行编号;2装箱:将号签放在同一箱中,并搅拌均匀;3抽签:从箱中依次抽出5个号签;4制签:将1到20这20个号码写在形状、大小完全相同的号签上;5取样:将与号签号码相同的5个学生取出.答案:14235解析:由题意易知,本题的抽样方法是抽签法,根据抽样步骤知,正确的顺序为14235.题型2系统抽样例2下列抽样中是系统抽样的有__________.(填序号)1从标有1~15的15个球中,任取3个作为样本,按从小号到大号排序,随机选起点i0,以后i0+5,i0+10(超过15则从1再数起)号入样;2在用传送带将工厂生产的产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品进行检验;3搞某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的调查人数为止;4电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下来座谈.答案:124解析:系统抽样实际上是一种等距抽样,只要按照一定的规则(事先确定即可以).因此在本题中,只有3不是系统抽样,因为事先不知道总体,不能保证每个个体按事先规定的概率入样.错误!将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为________.答案:25,17,8解析:根据系统抽样的特点可知抽取的号码间隔为错误!=12,故抽取的号码构成以3为首项,公差为12的等差数列.在第Ⅰ营区001~300号恰好有25组,故抽取25人,在第Ⅱ营区301~495号有195人,共有16组多3人,因为抽取的第一个数是3,所以Ⅱ营区共抽取17人,剩余50—25—17=8人需从Ⅲ营区抽取.题型3分层抽样例3某高级中学共有学生3000名,各年级男、女生人数如下表:高一年级高二年级高三年级女生523x y男生487490z已知在全校学生中随机抽取1名,抽到高二年级女生的概率是0.17.若现需对各年级用分层抽样的方法在全校抽取300名学生,则应在高三年级抽取的学生人数为________.答案:99解析:由题设可知错误!=0.17,∴x=510.∴ 高三年级人数为y+z=3000—(523+487+490+510)=990,现用分层抽样的方法在全校抽取300名学生,应在高三年级抽取的人数为错误!×990=99.错误!(2013·石家庄检测)某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.答案:37 20解析:由系统抽样知识可知,将总体分成均等的若干部分指的是将总体分段,且分段的间隔相等.在第1段内采用简单随机抽样的方法确定一个起始编号,在此编号的基础上加上分段间隔的整数倍即为抽样编号.由题意,第5组抽出的号码为22,因为2+(5—1)×5=22,则第1组抽出的号码应该为2,第8组抽出的号码应该为2+(8—1)×5=37.由分层抽样知识可知,40岁以下年龄段的职工占50%,按比例应抽取40×50%=20(人).1.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.答案:15解析:分层抽样又称分类抽样或类型抽样.将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性.因此,由50×错误!=15知应从高二年级抽取15名学生.2.(2013·连云港调研)某单位有职工52人,现将所有职工按1、2、3、…、52随机编号,若采用系统抽样的方法抽取一个容量为4的样本,已知6号、32号、45号职工在样本中,则样本中还有一个职工的编号是________.答案:19解析:按系统抽样方法,分成4段的间隔为错误!=13,显然在第一段中抽取的起始个体编号为6,第二段应将编号6+13=19的个体抽出.这就是所要求的.3.(2013·湖南(文)改)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=________.答案:13解析:(解法1)由分层抽样得错误!=错误!,解得n=13.(解法2)从甲乙丙三个车间依次抽取a,b,c个样本,则120∶80∶60=a∶b∶3a=6,b=4,所以n=a+b+c=13.4.(2013·潍坊模拟)某高中在校学生有2000人.为了响应“光体育运动”号召,学校开展了跑步和登山比赛活动.每人都参与而且只参与其中一项比赛,各年级参与比赛的人数情况如下表:高一年级高二年级高三年级跑步a b c登山x y z其中a∶b∶c=2∶3∶5,全校参与登山的人数占总人数的错误!.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取________.答案:36人解析:根据题意可知样本中参与跑步的人数为200×错误!=120,所以从高二年级参与跑步的学生中应抽取的人数为120×错误!=36.1.(2013·金湖中学检测)某工厂生产A、B、C三种不同型号的产品,产品数量之比为3∶4∶7,现用分层抽样的方法抽取容量为n的样本,样本中A型号产品有15件,那么样本容量n为________.答案:70解析:由题意设A、B、C三种产品的数量分别为3k、4k、7k,则错误!=错误!,解得n=70.2.某中学开学后从高一年级的学生中随机抽取80名学生进行家庭情况调查,经过一段时间后,再次从这个年级随机抽取100名学生进行学情调查,发现有20名学生上次被抽到过,估计这个学校高一年级的学生人数为________.答案:400解析:根据抽样的等可能性,设高一年级共有x人,则错误!=错误!,∴x=400.3.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2, (960)分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为________.答案:10解析:系统抽样也称等距抽样,分段间隔为错误!=30,由于第一组抽到的号码为9,所以后面各组抽到的号码成公差为30的等差数列,即第k组抽到的号码为9+30(k—1)=30k—21,做问卷B 的编号应满足451≤30k—21≤750,解得15错误!≤k≤25错误!,由于k∈N,所以k=16,17,…,25,这10组中每组抽一个个体,共抽到10个,故做问卷B的人数为10.4.下面给出某村委调查本村各户收入情况所作的抽样,阅读并回答问题:1本村人口:1200人;户数300户,每户平均人口数4人2应抽户数:303抽样间隔:错误!=404确定随机数字:取一张人民币,后两位数为125确定第一样本户:编号为12的户为第一样本户⑥确定第二样本户:12+40=52,52号为第二样本户⑦……(1)该村委采用了何种抽样方法?(2)抽样过程存在哪些问题,试改之;(3)何处用的是简单随机抽样?解:(1)系统抽样.(2)本题是对某村各户进行抽样,而不是对某村人口抽样.抽样间隔为错误!=10,其他步骤相应改为确定随机数字:取一张人民币,末位数为2(假设).确定第一样本户:编号为02的住户为第一样本户;确定第二样本户:2+10=12,12号为第二样本户;……(3)确定随机数字:取一张人民币,取其末位为2,这是简单随机抽样.1.正确把握三种抽样方法的适用范围及特点,能根据具体情况正确选择抽样方法:当总体中的个体个数较少时,通常采用简单随机抽样,一般可用从总体中逐个抽取的;当总体中的个体个数较多且均衡时,通常采用系统抽样,将总体平均分成几部分,按一定的规则分别在各部分中抽取;当总体是由差异明显的几部分组成时,则采用分层抽样,将总体按差异分成几层,按分层个体数之比抽取.2.实施简单随机抽样,主要有两种方法:抽签法和随机数表法.3.系统抽样也叫等距抽样,如果总体容量N能被样本容量n整除,则抽样间隔为k=错误!,否则需随机地从总体中剔除余数,然后重新分段进行系统抽样.4.分层抽样的关键是按“比例”,每层抽取的个体可以不一样多,按各层个体数占总体的个体数的比确定各层应抽取的样本容量,若按比例计算所得的个数不是整数,可作适当的近似处理.5.注意三种抽样方法的比较.无论采用何种抽样方法,必须保证在整个抽样过程中每个个体被抽到的机会相等.错误![备课札记]。
高考数学第11章统计、统计初步试题
卜人入州八九几市潮王学校第十一章统计、统计案例第一局部三年高考荟萃 2021年高考题一、选择题1.〔2021文〕4.如图,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为A B x x 和,样本HY差分别为sA 和sB,那么[B](A)A x >B x ,sA >sB (B)A x <B x ,sA >sB (C)A x >B x ,sA <sB (D)A x <B x ,sA <sB解析:此题考察样本分析中两个特征数的作用A x <10<B x ;A 的取值波动程度显然大于B ,所以sA >sB2.〔2021文〕〔5〕某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了理解该单位职工的安康情况,用分层抽样的方法从中抽取样本.假设样本中的青年职工为7人,那么样本容量为〔A 〕7〔B 〕15〔C 〕25〔D 〕35 【答案】B解析:青年职工、中年职工、老年职工三层之比为7:5:3,所以样本容量为7157153.〔2021文〕(6)在某项体育比赛中,七位裁判为一选手打出的分数如下: 90899095939493去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为 答案:B4.〔2021理〕7.随机变量X 服从正态分布N(),且(24)P X ≤≤=0.6826,那么p 〔X>4〕=〔〕A 、0.1588B 、0.1587C 7.B .1(34)(24)2P X P X ≤≤=≤≤=0.3413, (4)0.5(24)P X P X >=-≤≤.5.〔2021文〕〔A 〕12,24,15,9〔B 〕9,12,12,7〔C 〕8,15,12,5〔D 〕8,16,10,6 解析:因为40180020=故各层中依次抽取的人数分别是160820=,3201620=,2001020=,120620= 答案:D6.〔2021理〕〔8〕某台小型晚会由6个节目组成,演出顺序有如下要求:节目甲必须排在第四位、节目乙不能排在第一位,节目丙必须排在最后一位,该台晚会节目演出顺序的编排方案一共有 〔A 〕36种〔B 〕42种(C)48种〔D 〕54种【答案】B 7.〔2021理〕 8.〔2021理〕9.〔2021理〕6.将参加夏令营的600名学生编号为:001,002,……600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495住在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数一次为 A .26,16,8,B .25,17,8 C .25,16,9D .24,17,9二、填空题1.〔2021文〕(14)某地有居民100000户,其中普通家庭99000户,高收入家庭1000户.从普通家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取l00户进展调查,发现一共有120户家庭拥有3套或者3套以上住房,其中普通家庭50户,高收人家庭70户.根据这些数据并结合所掌握的统计知识,你认为该地拥有3套或者3套以上住房的家庭所占比例的合理估计是.【答案】5.7%【解析】该地拥有3套或者3套以上住房的家庭可以估计有:5070 9900010005700990100⨯+⨯=户,所以所占比例的合理估计是5700100000 5.7%÷=.【方法总结】此题分层抽样问题,首先根据拥有3套或者3套以上住房的家庭所占的比例,得出100000户,居民中拥有3套或者3套以上住房的户数,它除以100000得到的值,为该地拥有3套或者3套以上住房的家庭所占比例的合理估计.2.〔2021文〕〔11〕在如下列图的茎叶图中,甲、乙两组数据的中位数分别是【答案】4546〔2021理〕〔11〕从某随机抽取100名同学,将他们的身高〔单位:厘米〕数据绘制成频率分布直方图〔如图〕。
高考数学一轮复习统计学专题练习(附答案)
高考数学一轮复习统计学专题练习(附答案)普通来说,统计包括三个含义:统计任务、统计资料和统计迷信。
以下是查字典数学网整理的统计学专题练习,请考生细心练习。
【典例1】 (1)(2021湖南高考改编)对一个容量为N的总体抽取容量为n的样本,中选取复杂随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个集体被抽中的概率区分为p1,p2,p3,那么p1,p2,p3的大小关系为________.(2)(2021湖北高考)甲、乙两套设备消费的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本停止质量检测.假定样本中有50件产品由甲设备消费,那么乙设备消费的产品总数为________件.[解析] (1)不论用什么抽样方法,每一个集体被抽到的时机都相等,p1=p2=p3.(2)设乙设备消费的产品总数为x件,那么甲设备消费的产品总数为(4 800-x)件.由分层抽样特点,结合题意可得=,解得x=1 800.[答案] (1)p1=p2=p3 (2)1 800,【规律方法】1.停止分层抽样时应留意以下几点:分层抽样中分多少层,如何分层要视详细状况而定,总的原那么是:层内样本的差异要求,两层之间的样本差异要大,且互不堆叠;为了保证每个集体等能够入样,一切层中每个集体被抽到的能够性相反;在每层抽样时,应采用复杂随机抽样或系统抽样的方法停止抽样;抽样比==.2.普通地,系统抽样是等距离抽样,假定第一组抽取号码a,然后以d为间距依次等距离抽取前面的编号,抽出的一切号码为a+dk(k=0,1,2,,n-1),其中n是组数.【变式训练1】 (1)(2021天津高考)某大学为了解在校本科生对参与某项社会实际活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本停止调查,该校一年级、二年级、三年级、四年级的本科生人数之比为45∶5∶6,那么应从一年级本科生中抽取________名先生.(2)(2021江西高考改编)总体由编号为01,02,,19,20的20个集体组成,应用下面的随机数表选取5个集体,选取方法是从随机数表第1行的第5列和第6列数字末尾由左到右依次选取两个数字,那么选出来的第5个集体的编号为________.7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481 [解析] (1)依据题意,应从一年级本科生中抽取的人数为300=60.(2)由随机数表法的随机抽样的进程可知选出的5个集体是08,02,14,07,01,所以第5个集体的编号是01.[答案] (1)60 (2)01考向2 统计图表【典例2】 (1)(2021江苏高考改编)设抽测的树木的底部周长均在区间[80,130]上,其频率散布直方图如图93所示,那么在抽测的60株树木中,有________株树木的底部周长小于100 cm.(2)(2021重庆高考)如图94是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,那么数据落在区间[22,30)内的频率为________.图94[解析] (1)由题意在抽测的60株树木中,底部周长小于100 cm的株数为(0.015+0.025)1060=24.频率散布直方图中的纵坐标为,此处经常误以为纵坐标是频率.(2)由落在[22,30)内的数据有4个,且共有10个数据,故频率为=0.4.[答案] (1)24 (2)0.4,【规律方法】1.处置频率散布直方图的效果,关键在于找出图中数据之间的联络.这些数据中,比拟清楚的有组距、,直接的有频率、小长方形的面积,合理运用这些数据,再结合两个等量关系:小长方形面积=组距=频率,小长方形面积之和等于1,即频率之和等于1.2.明白茎叶图的数据对处置样本的数据特征显得尤为重要,而方差可以权衡样本数据的动摇性.茎叶图描写数据的优点:(1)一切数据信息都可用在茎叶图中看到;(2)茎叶图便于记载和表示,且可以展现数据的散布状况.【变式训练2】 (1)(2021山东高考改编)为了研讨某药品的疗效,选取假定干名志愿者停止临床实验,一切志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序区分编号为第一组,第二组,,第五组,如图95是依据实验数据制成的频率散布直方图.第一组与第二组共有20人,第三组中没有疗效的有6人,那么第三组中有疗效的人数为________.(2021重庆高考改编)左面茎叶图记载了甲、乙两组各五名先生在一次英语听力测试中的效果(单位:分).甲组数据的中位数为15,乙组数据的平均数为16.8,那么x+y=________. [解析] (1)依据频率散布直方图及频率公式求解.志愿者的总人数为=50,所以第三组人数为500.36=18,有疗效的人数为18-6=12.(2)由于甲组数据的中位数为15=10+x,x=5.又乙组数据的平均数为=16.8,y=8.故x+y=5+8=13.[答案] (1)12 (2)13考向3 样本的数字特征(高频考点) 命题视角求样本的数字特征是统计中常考的内容,主要命题角度有:(1)求众数、中位数;(2)求平均数、方差;(3)由样本的数字特征估量概率.统计学专题练习及答案就为考生分享到这里,查字典数学网预祝考生可以取得更好的效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第58讲:统计初步一、课程标准1、了解抽样方法2、频率分布直方图的应用3、用样本的数字特征估计总体的数字特征二、基础知识回顾一、抽样方法1. 简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数表法.2. 分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3. 两种抽样方法的区别与联系:1. 总体分布(1)频率分布表:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布,我们把反映总体频率分布的表格称为频率分布表.(2)频率分布直方图:利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图.(3)频率分布折线图:如果将频率分布直方图中,各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为本组数据的频率分布折线图.频率分布折线图的优点是它反映了数据的变化趋势.4. 总体特征数的估计(1)中位数:在频率分布直方图中,中位数左边和右边的直方图面积应该相等,由此可以估计中位数的值.(2)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.(3)平均数及其估计:平均数是直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.平均数x =1n _(x 1+x 2+…+x n ).(4)方差与标准差 标准差s =1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].、方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 5、频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a . (2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2.三、自主热身、归纳总结1、某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )A. 33,34,33B. 25,56,19C. 20,40,30D. 30,50,20 【答案】 B【解析】 因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19. 2、一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )A. 4B. 8C. 12D. 16 【答案】 B【解析】 设频数为n ,则n 32=0.25,所以n =32×14=8.3、已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层随机抽样的方法抽取2%的学生进行调查,则样本量和抽取的高中生近视人数分别为( )A.200,20 B.100,20C.200,10 D.100,10【答案】A【解析】该地区中小学生总人数为3 500+2 000+4 500=10 000(人),则样本量为10 000×2%=200(人),其中抽取的高中生近视人数为2 000×2%×50%=20(人).故选A.4、(多选)(2019·济南市模拟考试)随着我国经济实力的不断提升,居民收入也在不断增加.某家庭2018年全年的收入与2014年全年的收入相比增加了一倍,实现翻番.同时该家庭的消费结构随之也发生了变化,现统计了该家庭这两年不同品类的消费额占全年总收入的比例,得到了如下折线图:则下列结论中错误的是()A.该家庭2018年食品的消费额是2014年食品的消费额的一半B.该家庭2018年教育医疗的消费额与2014年教育医疗的消费额相当C.该家庭2018年休闲旅游的消费额是2014年休闲旅游的消费额的五倍D.该家庭2018年生活用品的消费额是2014年生活用品的消费额的两倍【答案】ABD【解析】设该家庭2014年全年收入为a,则2018年全年收入为2a.对于A,2018年食品消费额为0.2×2a =0.4a,2014年食品消费额为0.4a,故两者相等,A不正确.对于B,2018年教育医疗消费额为0.2×2a=0.4a,2014年教育医疗消费额为0.2a,故B不正确.对于C,2018年休闲旅游消费额为0.25×2a=0.5a,2014年休闲旅游消费额为0.1a,故C正确.对于D,2018年生活用品的消费额为0.3×2a=0.6a,2014年生活用品的消费额为0.15a,故D不正确.8,10内的频数为____.5、有一个容量为200的样本,其频率分布直方图如图所示,据图知,样本数据在[)第5题图【答案】76【解析】根据频率分布直方图,样本数据不在[8,10)内的频率为(0.02+0.05+0.09+0.15)×2=0.62;∴样本数据在[8,10)内的频率为1-0.62=0.38;∴样本数据在[8,10)内的频数为0.38×200=76,故答案为76.6、甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示,从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是____.【答案】丙【解析】乙与丙的平均成绩好于甲与丁的平均成绩,而且丙的方差小于乙的方差,说明丙的成绩比乙稳定,应派丙参加比赛.四、例题选讲考点一抽样方法例1要考察某种品牌的850颗种子的发芽率,从中抽取50颗种子进行实验,利用随机数表法抽取种子,先将850颗种子按001,002,…,850进行编号,如果从随机数表第3行第6列的数开始向右读,请依次写出最先检验的4颗种子的编号:.注:下面抽取了随机数表第1行至第5行.03 47 43 73 8636 96 47 36 6146 98 63 71 6233 26 16 80 4560 11 14 10 9597 74 24 67 6242 81 14 57 2042 53 32 37 3227 07 36 07 5124 51 79 89 7316 76 62 27 6656 50 26 71 0732 90 79 78 5313 55 38 58 5988 97 54 14 1012 56 85 99 2696 96 68 27 3105 03 72 93 1557 12 10 14 2188 26 49 81 7655 59 56 35 6438 54 82 46 2231 62 43 09 9006 18 44 32 5323 83 01 30 30【答案】227,665,650,267【解析】从随机数表第3行第6列的数2开始向右读第一个小于850的数字是227,第二个数字是665,第三个数字是650,第四个数字是267,符合题意.变式1、下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③从20件玩具中一次性抽取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A. 0B. 1C. 2D. 3【答案】 A【解析】①不是简单随机抽样,因为是从无限多个个体中抽取.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.变式2、(1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.(2)①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.【答案】:(1) 01(2) ①②③④【解析】:(1)由题意知前5个个体的编号为08,02,14,07,01.(2)①不是简单随机抽样.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.变式3、(1)(2019·河南名校联考)《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其意为:“今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱”,则丙应出________钱(所得结果四舍五入,保留整数).(2)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a 的值为________. 【答案】:(1)17 (2)30【解析】(1)按照钱的多少按比例出钱,所以丙应该出钱为180560+350+180×100=18 0001 090≈17.(2)由分层抽样得1245+15=30120+a ,解得a =30.方法总结:简单随机抽样的两种方法 (1)抽签法,抽签法的步骤是:①将总体中的N 个个体编号;②将这N 个号码写在形状、大小相同的号签上; ③将号签放在同一箱中,并搅拌均匀; ④从箱中每次抽取1个号签,连续抽取k 次; ⑤将总体中与抽到的号签的编号一致的k 个个体取出. (2)随机数表法,随机数表法的步骤是: ①将总体的个体编号(每个号码的位数一致); ②在随机数表中任选一个数作为开始;③从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过,如此继续下去,直到取满为止;④根据选定的号码抽取样本. 考点二 总体分布的估计例2、(2019·南昌市第一次模拟测试)市面上有某品牌A 型和B 型两种节能灯,假定A 型节能灯使用寿命都超过5 000小时.经销商对B 型节能灯使用寿命进行了调查统计,得到如下频率分布直方图:某商家因原店面需重新装修,需租赁一家新店面进行周转,合约期一年.新店面只需安装该品牌节能灯5支(同种型号)即可正常营业.经了解,A 型20瓦和B 型55瓦的两种节能灯照明效果相当,都适合安装.已知A 型和B 型节能灯每支的价格分别为120元、25元,当地商业电价为0.75元/千瓦时.假定该店面一年周转期的照明时间为3 600小时,若正常营业期间灯坏了立即购买同型灯管更换.(用频率估计概率)(1)根据频率分布直方图估算B型节能灯的平均使用寿命;(2)根据统计知识知,若一支灯管一年内需要更换的概率为p,那么n支灯管估计需要更换np支,若该商家新店面全部安装了B型节能灯,试估计一年内需更换的数量;(3)若只考虑灯的成本和消耗电费,你认为该商家应选择哪种型号的节能灯,请说明理由.【解析】:(1)由题图可知,各组中值依次为3 100,3 300,3 500,3 700,对应的频率依次为0.1,0.3,0.4,0.2,故B型节能灯的平均使用寿命为3 100×0.1+3 300×0.3+3 500×0.4+3 700×0.2=3 440(小时).(2)由题图可知,使用寿命不超过3 600小时的频率为0.8,将频率视为概率,每支灯管需要更换的概率为0.8,故估计一年内5支B型节能灯需更换5×0.8=4(支).(3)若选择A型节能灯,一年共需花费5×120+3 600×5×20×0.75×10-3=870(元);若选择B型节能灯,一年共需花费(5+4)×25+3 600×5×55×0.75×10-3=967.5(元).因为967.5>870,所以该商家应选择A型节能灯.变式1、某网络营销部门随机抽查了某市200名网友在2019年11月11日的网购金额,所得数据如下表:已知网购金额不超过3千元与超过3千元的人数比恰为3∶2.(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);(2)该营销部门为了了解该市网友的购物体验,从这200名网友中,用分层抽样的方法从网购金额在(1,2]和(4,5]的两个群体中确定5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?【解析】:(1)根据题意有⎩⎪⎨⎪⎧16+24+x +y +16+14=200,16+24+x y +16+14=32,解得⎩⎪⎨⎪⎧x =80,y =50,∴p =0.40,q =0.25.补全频率分布直方图如图所示.(2)根据题意,抽取网购金额在(1,2]内的人数为 2424+16×5=3(人). 抽取网购金额在(4,5]内的人数为1624+16×5=2(人). 故此2人来自不同群体的概率P =C 13C 12C 25=35.变式2、某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30).根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A . 56B . 60C . 120D . 140【解析】由频率分布直方图知,自习时间不少于22.5小时为后三组,有200×(0.16+0.08+0.04)×2.5=140(人).故选D .变式3、某公司为了解用户对其产品的满意度,从A ,B 两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A 地区用户满意度评分的频率分布直方图和B 地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表(1)及分散程度(不要求计算出具体值,给出结论即可).B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户的满意度分为三个等级:【解析】:(1)如图所示.通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A 表示事件:“A 地区用户的满意度等级为不满意”;C B 表示事件:“B 地区用户的满意度等级为不满意”. 由直方图得P (C A )的估计值为(0.01+0.02+0.03)×10=0.6,P (C B )的估计值为(0.005+0.02)×10=0.25.所以A 地区用户的满意度等级为不满意的概率大.方法总结: 本题主要考查频率分布直方图,是一道基础题目.图表题作为一道应用题,主要考查考生的视图、用图能力,以及应用数学解决实际问题的能力.频率分布直方图的两个要点:(1)各个小矩形的面积之和等于1,各个小矩形的面积为各组的频率,小矩形的高为频率组距.(2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.五、优化提升与真题演练1、(2020年高考天津)从一批零件中抽取80个,测量其直径(单位:mm ),将所得数据分为9组:[5.31,5.33),[5.33,5.35),,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A .10B .18C .20D .36【答案】B【解析】根据直方图,直径落在区间[)5.43,5.47之间的零件频率为:()6.25 5.000.020.225+⨯=, 则区间[)5.43,5.47内零件的个数为:800.22518⨯=. 故选:B.2、(2019年高考全国Ⅲ卷理数)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7D .0.8【答案】C【解析】由题意得,阅读过《西游记》的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7.故选C .3、(2019年高考全国Ⅱ卷理数)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( ) A .中位数 B .平均数 C .方差D .极差 【答案】A【解析】设9位评委评分按从小到大排列为123489x x x x x x <<<<<.则①原始中位数为5x ,去掉最低分1x ,最高分9x 后剩余2348x x x x <<<<,中位数仍为5x ,A 正确; ②原始平均数1234891()9x x x x x x x =<<<<<,后来平均数23481()7x x x x x '=<<<,平均数受极端值影响较大,∴x 与x '不一定相同,B 不正确; ③2222111[()()()]9q S x x x x x x =-+-++-,22222381[()()()]7s x x x x x x '=-'+-'++-',由②易知,C 不正确;④原极差91x x =-,后来极差82x x =-,显然极差变小,D 不正确.故选A .4、(2020年高考江苏)已知一组数据4,2,3,5,6a a -的平均数为4,则a 的值是 . 【答案】2【解析】∵数据4,2,3,5,6a a -的平均数为4 ∴4235620a a ++-++=,即2a =. 故答案为:2.5、(2019年高考江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是______________.【答案】53【解析】由题意,该组数据的平均数为678891086+++++=,所以该组数据的方差是22222215[(68)(78)(88)(88)(98)(108)]63-+-+-+-+-+-=. 6、(2019年高考全国Ⅱ卷理数)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为______________. 【答案】0.98【分析】本题考查通过统计数据进行概率的估计,采取估算法,利用概率思想解题.【解析】由题意得,经停该高铁站的列车正点数约为100.97200.98100.9939.2⨯+⨯+⨯=,其中高铁个数为10201040++=,所以该站所有高铁平均正点率约为39.20.9840=.7、(2019年高考全国Ⅲ卷理数)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).【答案】(1)a=0.35,b=0.10;(2)甲、乙离子残留百分比的平均值的估计值分别为4.05,6.00.【解析】(1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1–0.05–0.15–0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.。