(典型题)高考数学二轮复习-知识点总结-统计与统计案例
高三统计与统计案例知识点
高三统计与统计案例知识点开头:在高三学习中,统计学是一个重要的学科,它涉及到数据的收集、分析和解释。
学习统计学的目的是使学生能够理解并运用统计方法来解决问题。
下面,我们将介绍一些高三统计学的知识点以及一些统计案例,希望能对大家的学习有所帮助。
1. 数据的收集与整理数据收集是统计学的第一步,它是通过各种方法获取数据的过程。
在收集数据时,我们需要注意数据的准确性和完整性。
无论是实验数据还是调查数据,都需要遵循严谨的方法和标准。
收集到数据后,我们需要对数据进行整理和分类,以便更好地进行后续的分析。
统计案例:某学校为了了解学生的健康状况,进行了一次体质测试。
学生们的体重被测量并记录下来。
这些数据需要被整理成表格或图形,以便分析学生的体重分布情况。
2. 数据的描述与处理在统计学中,我们常常需要对数据进行描述和处理。
一般来说,数据可以用图形和数字来表达。
图形可以帮助我们更直观地了解数据的分布情况,比如频率分布直方图、饼图等。
数字则可以用来对数据进行统计分析,比如平均数、中位数、众数等。
统计案例:某班级进行了一次语文考试,成绩如下:60、65、70、75、80、85、90、95、100。
为了了解学生的整体水平,我们可以计算出平均分,即 (60+65+70+75+80+85+90+95+100)/9=80。
通过计算平均分,我们可以初步判断班级的平均水平。
3. 概率与统计的关系概率是统计学的基础,它是研究随机事件发生的可能性的一门学科。
概率可以帮助我们预测未来事件的发生概率,从而对决策和规划提供参考。
统计案例:某超市想要推销新款产品,他们进行了一次样本调查,来了解顾客购买新产品的可能性。
调查结果显示,有70%的顾客表示愿意尝试新产品。
根据这个调查结果,超市可以对新产品的上市量进行初步规划,以满足顾客的需求。
4. 统计推断与取样调查在实际的统计分析中,由于数据量庞大或成本限制,我们往往无法对整个总体进行数据收集和分析。
高考数学第二轮专题复习----概论统计专题
《计数原理与概率》高考复习指导一、考试说明:1.考试内容(1)分类计数原理与分步计数原理,排列与组合.(2)等可能性事件的概率,互斥事件有一个发生的概率,相互独立事件同时发生的概率.2.考试要求(1)掌握分类计数原理与分步计数原理,并能用它们分析和解决一些简单的应用问题.(2)理解排列与组合的意义,掌握排列数与组合数的计算公式,掌握组合数的两个性质,并能用它们解决一些简单的应用问题.(3)了解等可能性事件的概率的意义,会用排列组合公式计算一些等可能性事件的概率.(4)了解互斥事件的意义,会用互斥事件的概率加法公式计算一些事件的概率.(5)了解相互独立事件的意义,会用相互独立事件的概率乘法公式计算一些事件的概率,会计算事件在n次独立重复试验中恰好发生k次的概率.二、高考试题分析排列与组合、概率与统计是高中数学的重要内容.一方面,这部分内容占用教学时数多达36课时,另一方面,这部分内容是进一步学习高等数学的基础知识,因此,它是高考数学命题的重要内容.从近三年全国高考数学(新材)试题来看,主要是考查排列与组合、概率与统计的基本概念、公式及基本技能、方法,以及分析问题和解决问题的能力.试题特点是基础和全面.题目类型有选择题、填空题、解答题,一般是两小(9分~10分)一大(12分),解答题通常是概率问题.试题难度多为低中档.为了支持高中数学课程的改革,高考数学命题对这部分将进一步重视,但题目数量、难度、题型将会保持稳定.例1.(1999年全国)在一块并排10垄的田地中,选择2垄分别种植A、B两种作物,每种作物种植一垄,为有利于作物生长,要求A、B两种作物间的间隔不小于6垄,则不同的选垄方法共有_______种(用数字作答).[解析]A种植在左边第一垄时,B有3种不同的种植方法;A种植在左边第二垄时,B有两种不同的种植方法;A种植在左边第三垄时,B只有一种种植方法.B在左边种植的情形与上述情形相同.故共有2(3+2+1)=12种不同的选垄方法.∴应填12.例2.(2003年新教材)将3种作物种植在如图所示的5块试验田里,每一块种植一种作物且相邻的试验田不能种植同一作物,不同的种植方法共有______种(以数字作答).[解析]将5块试验田从左到右依次看作甲、乙、丙、丁、戊,3种作物依次看作A、B、C,则3种作物都可以种植在甲试验田里,由于相邻的试验田不能种植同一种作物,从而可知在乙试验田里只能有两种作物.同理,在丙、丁、戊试验田里也只能有两种作物可以种植.由分步计数原理,不同的种植方法共有3×2×2×2=48种.∴应填:48例3.(2003年全国高考题)某城市中心广场建造一个花圃,花圃分为6个部分(如图),现要栽种4种不同颜色的花,每部分栽种1种且相邻部分不能栽种同样颜色的花,不同的栽法有_______种.[解析]由于第1、2、3块两两相邻,我们先安排这三块,给第1、2、3块种花时分别有4、3、2种种法,所以共有4×3×2=24种不同种法.下面给第4块种花,若第4块与第6块同色,只有一种种植方法,则第5块只有2种种法,若第4块与第2块同色时,共有2×1=2种种法.若第4块与第6块不同色,但第4块与第2块同色,则第6块有2种种植的方案,而第5块只有1种种法,共有2种不同的种植方法.若第4块与第6块不同色,但第4块与第2块不同色,则第6块有1种种法,则第5块也有一种不同种法,所以第4块与第6块不同色时,有1种种法.综上共有24×(2+2+1)=120种不同的种植方法.例4.(2003年春季考试题)某班新年联欢会原定的5个节目已排成节目单,开演前又增加了两个新节目,如果将这两个节目插入原节目单中,那么不同的插法的种数为A 、42B 、30C 、20D 、12[解析]将两个新节目插入5个固定顺序节目单有两种情况:(1)两个新节目相邻的插法种数为226A ;(2)两个节目不相邻的插法种数为26A ;由分类计数原理共有2226642A A +=种方法,选A.例5.(2004重庆)(本小题满分12分)设甲、已、丙三人每次射击命中目标的概率分别为0.7、0.6和0.5。
高考数学二轮复习专题突破—统计与统计案例(含解析)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
高考数学二轮复习考点知识与解题方法讲解16 统计
高考数学二轮复习考点知识与解题方法讲解考点16 统计一、抽样与统计图表1.获取数据的基本途径获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.(1)统计报表是指各级企事业、行政单位按规定的表格形式、内容、时间要求报送程序,自上而下统一布置,提供统计资料的一种统计调查方式.(2)年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书.汇辑一年内的重要时事、文献和统计资料,按年度连续出版的工具书.2.总体、样本、样本容量要考察的对象的全体叫做总体,每一个考察对象叫做个体,从总体中被抽取的考察对象的集体叫做总体的一个样本,样本中个体的数目叫做样本容量.3.简单随机抽样(1)定义:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.(3)应用范围:总体中的个体数较少.4.分层抽样(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.5.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.6.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.7.样本的数字特征如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.二、统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=a ^x +b ^的系数为:称为样本点的中心.(3)相关系数①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r |>r 0.05,表明有95%的把握认为变量x 与y 之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.3.独立性检验(1)2×2列联表1+11122+2122+1=n 11+n 21,n +2=n 12+n 22,n =n 11+n 21+n 12+n 22.(2)χ2统计量χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2. (3)两个临界值:3.841与6.635当χ2>3.841时,有95%的把握说事件A 与B 有关;当χ2>6.635时,有99%的把握说事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.1.解决分层抽样的常用公式先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.2.统计图表人类辨识影像的能力要优於辨识文字与数字的能力,因此我们采用图形的方式来展现数据时,常常不我们直接观察数据要来的快.3.平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.4.独立性检验的一般步骤①根据样本数据制成2×2列联表;③查表比较K2与临界值的大小关系,作出统计判断.抽样1.(2023·福建莆田·三模)已知某校有教职工560人,其中女职工240人,现按性别用分层抽样的方法从该校教职工中抽取28人,则抽取的男职工人数与抽取的女职工人数之差是()A.2 B.4 C.6 D.8【答案】B【分析】根据分层抽样的抽取比例计算方法,分别求出抽取人数中的男女职工人数即可求解.【详解】抽取的女职工人数为:2402812 560⨯=人抽取的男职工人数为:281216-=人则抽取的男职工人数与抽取的女职工人数之差为:16124-=人故选:B.2.(2023·安徽·芜湖一中三模(文))某学校对高三年级800名学生进行系统抽样编号分别为001,002,…,800,若样本相邻的两个编号为028,068,则样本中编号最大的为()A.778 B.780 C.782 D.788【答案】D【分析】根据样本中两个相邻编号求出组距和分组数,再根据系统抽样方法即可求出样本编号最大的一个.【详解】∵样本相邻的两个编号为028和068,故组距为68-28=40,由800÷40=20知样本容量为20,系统抽样时分为20组:001-040,041-080,…,760-800,∵从第1组抽出的数据为028,∴从第20组抽出的数据为760+28=788.故选:D.3.(2021北京市通州区高三上期中)某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人数为()A.12 B.20 C.24 D.28【答案】A【分析】根据题意,结合分层抽样的计算方法,即可求解.【详解】根据题意,设抽取的样本人数为n,因男职工抽取的人数为56165642n=+,所以28n=,因此女职工抽取的人数为281612-=(人).故选:A.4.(多选题)(2023·福建南平·三模)支气管炎患者会咳嗽失眠,给患者日常生活带来严重的影响.某医院老年患者治愈率为20%,中年患者治愈率为30%,青年患者治愈率为40%.该医院共有600名老年患者,500名中年患者,400名青年患者,则()A.若从该医院所有患者中抽取容量为30的样本,老年患者应抽取12人B.该医院青年患者所占的频率为415C.该医院的平均治愈率为28.7%D.该医院的平均治愈率为31.3%【答案】ABC【分析】由分层抽样即可判断A选项;直接计算频率即可判断B选项;直接计算平均治愈率即可判断C、D选项.【详解】对于A ,由分层抽样可得,老年患者应抽取6003012600500400⨯=++人,正确; 对于B ,青年患者所占的频率为400460050040015=++,正确; 对于C ,平均治愈率为60020%50030%40040%28.7%600500400⨯+⨯+⨯≈++,正确; 对于D ,由C 知错误.故选:ABC.统计图表1.(2021广东省广雅中学高三上10月月考)小张一星期的总开支分布如图①所示,一星期的食品开支如图②所示,则以下说法正确的是()A. 储蓄金额为300元B. 日常开支比食品中的其他开支多150元C. 娱乐开支比通信开支多50元D. 肉类开支占总开支的13【答案】ABC 【分析】根据图表信息一一分析可得;【详解】解:由食品开支图,可知食品开支有30401008050300++++=元,所以一星期的总开支30030%1000÷=元,其中储蓄金额为100030%300⨯=元,故A 正确;日常开支为100020%200⨯=元,故日常开支比食品中的其他开支多150元,故B 正确; 娱乐开支比通信开支多()100010%5%50⨯-=元,故C 正确; 肉类开支占总开支的1100100010÷=,故D 错误; 故选:ABC2.(2021四川省资阳市高三第一次诊断)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面4个回归方程类型中最适宜作为年末贫困人数y 和年份代码x 的回归方程类型的是()A. y a bx =+B. b y a x =+C. e x y a b =+D. ln y a b x =+【答案】A【分析】结合散点图中点的分布特征即可得出结果.【详解】由散点图可知所有的点几乎分布在一条直线上,结合选项可知选A, 故选:A.3.(2021广东省部分学校高三上11月大联考)中国互联网络信息中心(CNNIC )发布了第46次《中国互联网络发展状况统计报告》,报告公布了截至2020年6月的中国互联网状况数据与对比数据,根据下图,下面结论不正确的是()A. 2020年6月我国网民规模接近9.4亿,相比2020年3月新增网民3625万B. 2020年6月我国互联网普及率达到67%,相比2020年3月增长2.5%C. 2018年12月我国互联网普及率不到60%,经过半年后普及率超过60%D. 2018年6月我国网民规模比2017年6月我国网民规模增加的百分比大于7%【答案】D【分析】结合图表直接判断和计算即可.【详解】对A ,由图可知,新增网民数为:93984903593625-=万,正确;对B ,读图可直接判断正确;对C ,读图可直接判断正确;对D ,2018年6月我国网民规模比2017年6月我国网民规模增加的比例为: 8016675116505050501010.0677%7511675116750001500-=<=≈<,故D 错误. 故选:D4.(2021山西省长治市第八中学高三上阶段性测评)随着2023年北京冬奥会临近,中国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领相关户外用品行业市场增长.下面是2013年至2020年中国雪场滑雪人次(万人次)与同比增长率(与上一年相比)的统计情况,则下面结论中正确的是()A.2013年至2020年,中国雪场滑雪人次的同比增长率逐年减少B.2013年至2020年,中国雪场滑雪人次逐年增加C.2013年至2020年,中国雪场滑雪人次的年增加量相近D.2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长【答案】D【分析】根据图中条形统计图和折线图的实际意义分析逐个判定即可.【详解】对于A,由折线图可知,2013年至2020年,中国雪场滑雪人次的同比增长率先增长再减小,故A错误;对于B,由条形统计图知,2013年至2019年,中国雪场滑雪人次逐年增加,但2020年减少了,故B错误;对于C,由条形图知,2013年至2020年,中国雪场滑雪人次的年增加量不相近,故C 错误;对于D,由条形图和折线图,明显看出2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长,故D正确.故选:D5.(2021河南省重点中学高三上模拟调研)茶叶源于中国,至今中国仍然是茶叶最大生年全球主要茶叶生产国调查数据.产国,下图为2019202020192020-年全球主要茶叶生产国产量分布根据该图,下列结论中不正确的是()A. 2019年图中5个国家茶叶产量的中位数为45.9B. 2020年图中5个国家茶叶产量比2019年增幅最大的是中国C. 2020年图中5个国家茶叶总产量超过2019年D. 2020年中国茶叶产量超过其他4个国家之和【答案】B【分析】根据统计图表提供的数据判断各选项.【详解】图中,2019年的数据中间的一个是45.9,A正确;2020年图中5个国家茶叶产量比2019年增幅最大的是肯尼亚10100%45.9⨯,B错;2020年图中5个国家茶叶总产量比2019年总产量的差是18.713.4112114.40-+-+=>,C正确;2020年图中125.656.92827.8238.3298.6+++=<,D正确,故选:B.样本的数字特征1.(2021江苏苏州模拟)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x 1,x 2,x 3,…,x 100,它们的平均数为x ,方差为s 2;其中扫码支付使用的人数分别为3x 1+2,3x 2+2,3x 3+2,…,3x 100+2,它们的平均数为,TM xT 方差为s ′2,则,TM xT s ′2分别为()A .3x +2,3s 2+2B .3x ,3s 2C .3x +2,9s 2D .3x +2,9s 2+2 【答案】C【解析】 由平均数的计算公式,可得数据x 1,x 2,…,x 100的平均数为x =1100(x 1+x 2+x 3+…+x 100),数据3x 1+2,3x 2+2,…,3x 100+2的平均数为:1100[(3x 1+2)+(3x 2+2)+…+(3x 100+2)]=1100[3(x 1+x 2+…+x 100)+2×100]=3x +2, 数据x 1,x 2,…,x 100的方差为s 2=1100[(x 1-x )2+(x 2-x )2+…+(x 100-x )2], 数据3x 1+2,3x 2+2,…,3x 100+2的方差为:1100{[(3x 1+2)-(3x +2)]2+[(3x 2+2)-(3x +2)]2+…+[(3x 100+2)-(3x +2)]2} =1100[9(x 1-x )2+9(x 2-x )2+…+9(x 100-x )2]=9s 2,故选C. 2.(2021河南省湘豫名校联盟高三上11月联考)某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()A. 这50名学生中成绩在[]80,100内的人数占比为20%B. 这50名学生中成绩在[)60,80内的人数有26人C. 这50名学生成绩的中位数为70D. 这50名学生的平均成绩68.2x =(同一组中的数据用该组区间的中点值做代表) 【答案】C【分析】利用频率分布直方图求解判断.【详解】根据此频率分布直方图,成绩在[]80,100内的频率为0.0080.0121020(.)0+⨯=,所以A 正确;这50名学生中成绩在[)60,80内的人数为()0.0320.020105026,+⨯⨯=所以B 正确; 根据此频率分布直方图,0.0080.02100.280.5()+⨯=<,0.0080.020.032100.()60.5++⨯=>,可得这50名学生成绩的中位数()60,70∈,所以C 错误﹔ 根据频率分布直方图的平均数的计算公式,可得:450.08550.2650.32750.2850.12950.0868.2,x =⨯+⨯+⨯⨯+⨯+⨯=+所以D 正确.故选:C.线性回归方程1.(多选题)(2021山东师范大学附中高三上期中)已知变量x ,y 之间的经验回归方程为ˆ7.60.4yx =-,且变量x ,y 的数据如表所示,则下列说法正确的是()A. 变量x ,y 之间呈正相关关系B. 变量x ,y 之间呈负相关关系C. m 的值等于5D. 该回归直线必过点()9,4【答案】BCD【分析】将样本点中心代入回归直线方程,得出m 的值,再逐一判断即可. 【详解】681012632119,444m mx y +++++++====因为7.60.4y x =-,所以117.60.49,54mm +=-⨯=,故C 正确; 因为0.40-<,所以变量x ,y 之间呈负相关关系,故A 错误,B 正确; 因为(,)(9,4)x y =,所以该回归直线必过点()9,4,故D 正确; 故选:BCD2.(2021福建省宁德市高三上期中联考)某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:【答案】75【分析】根据线性回归方程过样本中心点进行求解即可. 【详解】1020304050305x ++++==,62688189600.25a y a ++++==+,因为线性回归方程过样本中心点, 所以600.20.673054.975a a +=⨯+⇒=, 故答案为:753.(“超级全能生”2023届高三全国卷地区11月联考)自动驾驶汽车依靠5G 、人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆.近年来全球汽车行业达成共识,认为自动驾驶代表了未来汽车行业的发展方向.实现自动驾驶是一个渐进过程,国际通用的自动驾驶标准根据自动驾驶程度逐步提升可以分为5级.3L 级自动驾驶也是整个自动驾驶技术的分水岭.20162020-年全球3L 渗透率(%)统计表及散点图如下.(1)利用散点图判断,y a bt =+和d y c t =⋅(其中'c ,d 为大于0的常数)哪一个更适合作为渗透率y 和年份t 的回归方程模型(只要给出判断即可,不必说明理由); (2)令2018x t =-,求y 关于x 的回归方程; (3)根据(2)中回归模型回答下列问题: (i )估计2022年全球3L 渗透率是多少?(ii )预计至少要到哪一年,全球3L 渗透率能超过10%? 附:回归直线 中斜率和截距的最小二乘估计公式为()()()1122211n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1)y a bt =+更适合 (2)0.30.72y x =+ (3)(i )1.92%;(ii )2049【分析】(1)根据散点图,即可得到y a bt =+更适合作为渗透率y 和年份t 的回归方程模型;(2)由2018x t =-,得5组的对应数据,利用公式,求得ˆˆ,b a 的值,即可得到回归方程;(3)(i )2022t =,求得 1.92y =,即可得到2022年全球3L 渗透率; (ii )令0.30.7210y x =+>,即可求得到2049年,全球3L 渗透率能超过10%. 【小问1详解】解:根据散点图,可知y a bt =+更适合作为渗透率y 和年份t 的回归方程模型.【小问2详解】解:由2018x t =-,得5组的对应数据为()2,0.2-,()1,0.4-,()0,0.6,()1,1.0,()2,1.4,所以0=x ,0.72y =,513i i i x y ==∑,52110i i x ==∑,所以5152213500.720.310502i i i ii x y nx yb x nx==--⨯⨯===-⨯-∑∑,则0.720.300.72a y bx =-=-⨯=, 所以y 关于x 的线性回归方程为0.30.72y x =+.【小问3详解】解:(i )令2022t =,可得202220184x =--,此时0.340.72 1.92y =⨯+=, 所以估计2022年全球3L 渗透率是1.92%.(ii )令0.30.7210y x =+>,解得30.931x >≈,3120182049t =+=, 所以预计至少要到2049年,全球3L 渗透率能超过10%.独立性检验1.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:A .在犯错误概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”【答案】C【分析】作出列联表,求得2K ,再与临界值表对比判断. 【详解】列联表如下:所以210045151030 3.030 2.70675255545K ⨯⨯-⨯=≈>⨯⨯⨯,且()22.7060.10p K ≥≈,所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”. 故选:C 2. 单位:人和成绩无关.如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因.附:临界值表:【分析】列出数据扩大10倍的22⨯列联表,计算出2χ的观测值,结合独立性检验的基本思想可出结论.【详解】数据扩大10倍的22⨯列联表为:0由列联表数据得()22880330703801008.365 2.706430450710170χ⨯⨯-⨯=≈>⨯⨯⨯,根据小概率值0.1α=的独立性检验,我们推断假设0H 不成立,即认为学校与数学成绩有关,又因为甲校成绩优秀和不优秀的概率分别为1000.2326430≈,3300.7674430≈, 乙校成绩优秀和不优秀的概率分别为700.1556450≈,3800.8444450≈, 又因为0.23260.1556>,所以,从甲校、乙校各抽取一个学生,甲校学生数学成绩优秀的概率比乙校学生优秀的概率大.所以,结论不一样,不一样的原因在于样本容量,当样本容量越大时,用样本估计总体的准确性会越高.1.(2021年全国高考甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%B. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%C. 估计该地农户家庭年收入的平均值不超过6.5万元D. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【分析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%+==,故A 正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确; 该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误. 综上,给出结论中不正确的是C. 故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于⨯频率组距组距. 2.(2020年全国统一高考(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:°C )的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i x y i =得到下面的散点图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A. y a bx =+ B. 2y a bx =+ C. e x y a b =+ D. ln y a b x =+【答案】D【分析】根据散点图的分布可选择合适的函数模型.【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近, 因此,最适合作为发芽率y 和温度x 的回归方程类型的是ln y a b x =+. 故选:D.【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.3.(多选题)(2021年全国新高考Ⅰ卷)有一组样本数据1x ,2x ,…,n x ,由这组数据得到新样本数据1y ,2y ,…,n y ,其中i i y x c =+(1,2,,),i n c =⋅⋅⋅为非零常数,则() A. 两组样本数据的样本平均数相同 B. 两组样本数据的样本中位数相同 C. 两组样本数据的样本标准差相同 D. 两组样本数据的样本极差相同 【答案】CD【分析】A 、C 利用两组数据的线性关系有()()E y E x c =+、()()D y D x =,即可判断正误;根据中位数、极差的定义,结合已知线性关系可判断B 、D 的正误. 【详解】A :()()()E y E x c E x c =+=+且0c ≠,故平均数不相同,错误; B :若第一组中位数为i x ,则第二组的中位数为i i y x c =+,显然不相同,错误; C :()()()()D y D x D c D x =+=,故方差相同,正确;D :由极差的定义知:若第一组的极差为max min x x -,则第二组的极差为max min max min max min ()()y y x c x c x x -=+-+=-,故极差相同,正确; 故选:CD4.(2021年全国高考乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:21s 和22s .(1)求x ,y ,21s ,22s ;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y x -≥则不认为有显著提高).【答案】(1)221210,10.3,0.036,0.04x y s s ====;(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【分析】(1)根据平均数和方差的计算方法,计算出平均数和方差. (2)根据题目所给判断依据,结合(1)的结论进行判断. 【详解】(1)9.810.31010.29.99.81010.110.29.71010x +++++++++==,10.110.410.11010.110.310.610.510.410.510.310y +++++++++==,22222222210.20.300.20.10.200.10.20.30.03610s +++++++++==,222222222220.20.10.20.30.200.30.20.10.20.0410s +++++++++==.(2)依题意,0.320.15y x -==⨯==,=y x -≥. 5.(2021年全国高考甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=, 乙机床生产的产品中的一级品的频率为12060%200=. (2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯, 故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.6.(2020年全国统一高考(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160i i x ==∑,2011200i i y ==∑,2021)80i i x x =-=∑(,2021)9000i iy y =-=∑(,201))800i i i x y x y =--=∑((.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r))niix y x y --∑((,≈1.414.【答案】(1)12000;(2)0.94;(3)详见解析【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式20()()iix x y y r --=∑计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为201111200602020i i y ==⨯=∑, 地块数为200,该地区这种野生动物的估计值为2006012000⨯= (2)样本(,)i i x y (i =1,2,…,20)的相关系数为20()()0.943iix x y y r --===≈∑(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性, 由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大, 采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.一、单选题1.(2023·湖南岳阳·三模)已知一组数据:123,,x x x 的平均数是5,方差是4,则由121x +,221x +,321x +和11这四个数据组成的新数据组的方差是( ) A .16 B .14C .12D .11【答案】C【分析】根据平均数、方差公式计算可得;【详解】解:由已知得12315x x x ++=,222123(5)(5)(5)12x x x -+-+-=, 则新数据的平均数为1231232()3111(21212111)1144x x x x x x ++++++++++==,所以方差为22221231[(2111)(2111)(2111)(1111)]4x x x +-++-++-+-,2222221231231[4(5)4(5)4(5)](5)(5)(5)124x x x x x x =-+-+-=-+-+-=, 故选:C .2.(2023·辽宁辽阳·二模)为了解某地高三学生的期末语文考试成绩,研究人员随机抽取了100名学生对其进行调查,根据所得数据制成如图所示的频率分布直方图,已知不低于90分为及格,则这100名学生期末语文成绩的及格率为( )。
(完整版)高中数学统计、统计案例知识点总结和典例
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。
2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。
抽签法的一般步骤:a、将总体的个体编号。
b、连续抽签获取样本号码。
3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。
随机数表法的步骤:a、将总体的个体编号。
b、在随机数表中选择开始数字。
c、读数获取样本号码。
4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。
二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。
(2)将整体按编号进行分段,确定分段间隔k=N/n。
(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。
(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。
在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。
三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
高考数学二轮复习 统计与统计案例
统计与统计案例1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本【解析】 5 000名居民的阅读时间的全体为总体,故选A.【答案】 A2.(2014·重庆高考)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250【解析】 样本抽取比例为703 500=150,该校总人数为1 500+3 500=5 000,则n 5 000=150,故n =100,选A. 【答案】 A3x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为y =bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0【解析】 回归直线方程过中心点(5.5,1.5),即1.5=5.5b +a ,由题意,两个变量负相关,b <0,∴a >0,故选B.【答案】 B4.(2014·广东高考)某车间20名工人年龄数据如下表:年龄(岁) 工人数(人)19 128 329 330 531 432 340 1合计 20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.【解】 (1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=12020i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.从近三年高考来看,该部分高考命题的热点考向为:1.随机抽样①随机抽样问题与实际生活紧密相连,是高考考查的热点之一.主要考查系统抽样中号码的确定和分层抽样中各层人数的确定.②多以选择题和填空题的形式呈现,属容易题.2.用样本估计总体①该考向重点考查样本特征数的计算,样本频率分布直方图和茎叶图等知识.特别是茎叶图是新课标中的新增内容,与实际生活联系密切,可方便处理数据,是高考中新的热点.②多以选择题、填空题的形式考查,有时也出现在解答题中,属容易题.3.线性回归分析①线性回归分析是新增内容,在现实生活中有着广泛的应用,应引起重视.②多以选择题、填空题的形式考查,有时也出现在解答题中,属中、低档题目.4.独立性检验①独立性检验也是新增内容,在现实生活中有着广泛的应用,近几年许多省的高考题涉及本考向,应引起关注.②既可以以选择题、填空题的形式考查,也可以以解答题的形式呈现,属中、低档题目.随机抽样【例1】 (1)(2014·天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.(2)(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本 ,则分段的间隔为( )A .50B .40C .25D .20【解析】 (1)由题意知应抽取人数为300×44+5+5+6=60. (2)由1 00040=25,可得分段的间隔为25.故选C. 【答案】 (1)60 (2)C【规律方法】解答与抽样方法有关的问题时应注意:(1)要深刻理解各种抽样方法的特点和实施步骤.(2)熟练掌握系统抽样中被抽个体号码的确定方法.(3)熟练掌握分层抽样中各层人数的计算方法.注意:抽样方法常和概率、频率分布直方图等知识结合在一起考查.[创新预测]1.(1)(2013·湖南高考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9 B.10 C.12 D.13(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01【解析】(1)根据分层抽样的特点,用比例法求解.依题意得360=n120+80+60,故n=13.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.【答案】(1)D (2)D用样本估计总体【例2】(2014·北京高考)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数1[0,2) 62[2,4)83[4,6)174[6,8)225[8,10)256[10,12)127[12,14) 68[14,16) 29[16,18) 2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;(2)求频率分布直方图中的a ,b 的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)【解】 (1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少于12小时的频率是1-10100=0.9. 从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)的有17人,频率为0.17,所以a =频率组距=0.172=0.085. 课外阅读时间落在组[8,10)的有25人,频率为0.25,所以b =频率组距=0.252=0.125. (3)样本中的100名学生课外阅读时间的平均数在第4组.【规律方法】 1.用样本估计总体时应注意的问题:(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想.(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图.要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数.2.样本数字特征及茎叶图:(1)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据所计算出的样本数据的均值和方差对实际问题作出解释.(2)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.[创新预测]2.(1)(2013·福建高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120(2)(2013·山东高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 79 4 0 1 0 x 9 1则7A.1169 B.367 C .36 D.677【解析】 (1)先求出频率,再求样本容量.不少于60分的学生的频率为(0.030+0.025+0.015+0.010)×10=0.8,∴该模块测试成绩不少于60分的学生人数应为600×0.8=480.故选B.(2)利用平均数为91,求出x 的值,利用方差的定义,计算方差.根据茎叶图,去掉1个最低分87,1个最高分99,则17[87+94+90+91+90+(90+x )+91]=91, ∴x = 4.∴s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367. 【答案】 (1)B (2)B线性回归分析【例3】 (2014·全国新课标Ⅱ高考)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013年份代号t 1 2 3 4 5 6 7人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n t i -t-y i -y -∑i =1n t i -t-2,a ^=y --b ^t -. 【解】 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 ∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17 t i -t-y i -y -∑i =17 t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(Ⅰ)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.【规律方法】 进行线性回归分析时应注意的问题(1)正确理解计算b ,a 的公式和准确的计算,是求回归直线方程的关键.(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3)在散点图中,若所有点大部分都集中在斜向上(自左向右看)的直线的附近,则为正相关;若大部分都集中在斜向下(自左向右看)的直线的附近,则为负相关.[创新预测]3.(2013·重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ;(2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1n x i y i -n x y ∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值.线性回归方程也可写为y ^=b ^x +a ^.【解】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8, y =1n ∑i =1n y i =2010=2, 又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3,a =y -b x =2-0.3×8=-0.4, 故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 独立性检验【例4】 (2014·辽宁高考)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生 喜欢甜品 不喜欢甜品 合计南方学生 60 20 80北方学生 10 10 20合计 70 30 100(1)惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,P (χ2≥k ) 0.100 0.050 0.010k 2.706 3.841 6.635【解】 (1)将2×2列联表中的数据代入公式计算,得χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2=100×60×10-20×10270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710. 【规律方法】 1.独立性检验的关键是准确计算K 2(χ2),而计算k 2(χ2)时,要正确绘制2×2列联表.2.两个变量的独立性检验,在统计学中有着广泛的应用,学习时一定要结合实际问题,从现实中寻找例子,增强学习数学的动力.[创新预测]4.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n ad -bc 2a ++++ P (K 2≥k 0) 0.10 0.05 0.010 0.005k 0 2.706 3.841 6.635 7.879【解】 (1)300×15 000=90,所以应收集90位女生的样本数据. (2)由题中频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表 男生 女生 总计每周平均体育运动时间不超过4小时45 30 75 每周平均体育运动时间超过4小时165 60 225 总计 210 90 300结合列联表可算得K 2=300× 2 250275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.[总结提升]失分盲点(1)混淆简单随机抽样、系统抽样、分层抽样的区别,不能正确地选择抽样方法.(2)不能正确地从频率分布直方图中提取相关的信息,混淆了频数与频率的差异.答题指导(1)看到抽样问题,想到三种抽样的定义以及适用范围和三者的区别.(2)看到频率分布直方图,想到频数与频率的区别以及计算方法.方法规律(1)分层抽样:①抽样原则:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取n =n ·N N(i =1,2,…,k )个个体:②分层原则:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)利用统计量K 2进行独立性检验的步骤:①根据数据列出2×2列联表.②根据公式计算K 2的观测值k .③比较观测值k 与临界值表中相应的检验水平,作出统计判断.通过数据分析事物蕴含的规律1.数据的作用是为了说明实际问题中存在的问题,通过对数据的处理(如计算样本数据的均值、方差、极差、中位数、众数等),看出实际问题中蕴含的某种规律,根据规律的利弊确定未来的发展方向,这是数据处理的一个主要方面.2.在统计中通过对抽取的样本数据进行处理,根据样本估计总体的思想,可以对总体作出估计,从而对总体作出评价,给出令人信服的结论,这就是用数据说话.【典例】 (2014·全国新课标Ⅱ高考)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.【解】(1)由题中所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由题中所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由题中所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由题中茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)【规律感悟】样本数据的均值体现了一种整体的态势,样本数据的方差则说明了整体态势的稳定性,整体态势(均值)及其稳定性(方差)是样本数据的两个重要特征数.。
高考数学二轮复习专题六统计与统计案例-教学课件
[例 3] 有甲、乙两个班级进行数学考试,按照大于等于 85 分
为优秀,85 分以下为非优秀统计成绩后,得到如表所示的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计
105
已知在全部 105 人中随机抽取 1 人为优秀的概率为27.
(1)请完成上面的列联表;
(2)根据列联表中的数据,若按 95%的可靠性要求,能否认为
[例1] (2012·山东高考)采用系统抽样方法从960人中抽
取32人做问卷调查,为此将他们随机编号为1,2,…,960,
分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽
到的32人中,编号落入区间[1,450]的人做问卷A,编号落入
区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人
(3)平均数:样本数据的算术平均数,即 x =n1(x1+x2+…+xn). (4)方差与标准差 方差:s2=n1[(x1- x )2+(x2- x )2+…+(xn- x )2]. 标准差:
s=
n1[x1- x 2+x2- x 2+…+xn- x 2].
[考情分析] 从近两年的高考试题来看,分层抽样 是高考的热点,题型既有选择题也有填空题,分值占5 分左右,属容易题.命题时多以现实生活为背景,主要 考查基本概念及简单计算.
[冲关集训]
5.(2011·湖南高考)通过随机询问 110 名性别不同的大学生是否爱
好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由 K2(χ2)=a+bcn+add- ab+cc2b+d算得,
高考数学二轮复习 统计2
高考数学二轮复习 统计2【知识归纳】1.在统计中,为了考察一个总体的情况,通常是从总体中抽取一个样本,用样本的有关情况去估计总体的相应情况。
这种估计大体分为两类,一类是,一类是.2.总体平均数(又称为总体期望值)描述了一个总体的平均水平。
对很多总体来说,它 的平均数不易求得,常用容易求得的样本平均数:x =对它进行估计.方差和标准差计算公式:样本方差:2s =;样本标准差:s =。
方差和标准差的意义:描述一个样本和总体的的特征数,标准差大说明波动大. 3.用样本频率分布估计总体分布由于总体分布通常不易知道,我们往往用样本的频率分布去估计的分布.一般地,样本的容量越大,估计越精确.(1) 当总体中个体取不同数值很少时,其频率分布表由所取样本的不同数值及相应频率表 示,其几何表示就是相应的条形图.(2) 当总体中个体取不同数值很多时,用频率分布直方图来表示相应样本的频率分布.4.一般地,设一个总体的个体总数为N ,如果通过逐个抽取的方法从中抽取样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为。
这种抽样方法有两种,即、。
一般地,可以证明:用这种抽样的方法从个体数为N 的总体中逐次抽取一个容量为n 的样本,那么在整个抽样过程中每个个体被抽到概率都等于Nn . 5.当总体中的个体数较多时,采用简单随机抽样显得较为费事,这时可将总体分成均匀的几部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样叫做。
当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽取叫做 . 【例题精选】1.☆☆从5名男生、1名女生中随机抽取3人,检查他们的英语口语水平.在整个抽样过程中,这名女生“第一次、第二次均未被抽到,第三次被抽到”的概率是( A )A .16 B .13 C .12 D .23【变式】☆☆用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为2的样本,则某个个体a “第一次被抽到的概率”, “第一次未被抽到,第二次被抽到的概率”,“在整个过程中被抽到的概率”分别是111,,10105. 【思想方法回顾】准确地化归为等可能事件的概率2.☆为了分析高三年级的8个班400名学生第一次高考模拟考试的数学成绩,决定在8个班中每班随机抽取12份试卷进行分析,这个问题中样本容量是 ( C )A .8B .400C .96D .96名学生的成绩 3. ☆(06某某卷)甲校有3600名学生,乙校有5400名学生,丙校有1800名学生,为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个容量为90人的样本,应在这三校分别抽取学生 ( B ) (A )30人,30人,30人(B )30人,45人,15人 (C )20人,30人,10人(D )30人,50人,10人4.☆在频率分布直方图中,各个长方形的面积表示 (B )(A)落在相应各组的数据的频数 (B)相应各组的频率 (C)该样本所分成的组数 (D)该样本的样本容量5.☆(06年某某卷)某人5次上班途中所花的时间(单位:分钟)分别为x ,y ,10,11,9.☆☆已知这组数据的平均数为10,方差为2,则|x -y |的值为 ( D ) (A )1 (B )2 (C )3 (D )4【解析】由题意可得:x+y=20,(x-10)2+(y-10)2=8,解这个方程组需要用一些技巧,因为不要直接求出x 、y ,只要求出y x -,设x=10+t, y=10-t, 24x y t -==,选D 6. ☆已知样本:10 8 6 10 13 8 10 12 11 78 9 11 9 12 9 10 11 12 12那么频率为0.3的X 围是 ( B ) (A)5.5~7.5(B)7.5~9.5(C)9.5~11.5(D)11.5~13.57.☆心理辅导员为研究班上的男女生心理状况,对某班50名学生(其中男生30名,女生20名)采取分层抽样的法案方法,抽取一个容量为10的样本进行研究,则抽取情况的总数为 ( B ) (A)6410302010C C A (B)643020C C (C)643020C A (D)643020A A 8.☆设n 个实数,12,,n x x x 的算术平均数是x ,若a x ≠,设22212()()()n p x x x x x x =-+-+-,22212()()()n q x a x a x a =-+-+-则一定有 ( B )(A )p q > (B )p q < (C )p q = (D )p =9.☆某一计算机网络,有n 个终端,每个终端在一天中使用的概率p ,则这个网络中一天平均使用的终端个数为 ( B )(A) np(1-p) (B) np (C) n (D) p(1- p)10.☆☆为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况, 得到频率分布直方图,如右,由于不慎将部分数据丢失,但知道前4组的频数成等比数列, 后6组的频数成等差数列,设最大频率为a ,视力在4.6到5.0之间的学生数为b ,则a , b 的值分别为 (A ) A .0.27,78 B .0.27,83 C .2.7,78 D .2.7,83【解析】由条件得前4组的频率成等比数列,,又前2组的频率为0.01,0.03,得第三、四组的频率为0.09,0.27,所以后六组的频率之和为1-(0.01+0.03+0.09)=0.87,由6(0.27)0.872x +=,得x=0.02,所以视力在4.6~5.0之间的频率之和为0.78,学生数为0.78×100=78,最大的频率为第四组的频率,故等于0.27. 【思想方法回顾】正确理解频率分布直方图的结构特征.11. ☆(2003年全国高考某某卷14)某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取6,30,10辆.12.☆一总体由差异明显的三部分数据组成,分别有m 个、n 个、p 个,现要从中抽取a 个数据作为样本考虑总体的情况,各部分数据应分别抽取___am m n p ++_____、 _anm n p++_____、____apm n p++___.13. ☆ (06年某某调研卷)假设要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,先将800袋牛奶按000,001,002,…,799.进行编号,如果从随机第8行第18列的数开始向右读,请你依次写出最先检验的5袋牛奶的编号719,050,717,512,358.(下面摘取了一随机数表的第7行至第9行)……84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76 63 01 63 78 59 16 95 56 67 19 98 10 50 71 75 12 86 73 58 07 44 39 62 58 79 73 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54 ……【思想方法回顾】正确理解随机数表的结构和用法14.☆☆一个总体中的100个个体为0,1,2,…,99,并依次将其分为10个小组,要用系统抽样方法抽取一个容量为10的样本,规定:如果在第一组(为0~9)随机抽取的为m,那么依次错位地得到后面各组的,即第k 组中抽取的个数为m+k -1或m+k -11(如果m+k ≥11).若第6组抽取的为52,,则m=7 .【解析】当k=6时,,则m+6-1=2或m+6-11=2(m+6≥11),即m=-3(舍去)或m=7(m+6≥11).15.☆若样本a 1,a 2,a 3的方差是2,则样本2a 1+3,2a 2+3,2a 3+3的方差是8.16. ☆为了科学地比较考试的成绩,有些选拔 性考试常常会将考试分数标准分,转化关系为:x xz s-=(其中x 是某位学生的考试分数,x 是该次考试的平均分,s 是该次考试的标准差,z 称为这 位学生的标准分).转化成标准分后可能出现小数或负数,因此,又常常再将z 分数作线性变 换转化成其它分数.例如某次学业选拔考试采用的是T 分数,线性变换公是:4060T z =+.已知在这次考试中某位考生的考试分数是86,而他的T 分数则为100.若这次考试的平均分是70,则这次考试的方差是256 .17. ☆☆抽样本检查是产品检查的常用方法.分为返回抽样和不返回抽样两种具体操作方案.现有100只外型相同的电路板,其中有40只A 类版后60只B 类板.问在下列两种情况中“从100只抽出3只,3只都是B 类”的概率是多少?(1) 每次取出一只,测试后放回,然后再随机抽取下一只(称为返回抽样);(2) 每次取出一只,测试后不放回,在其余的电路板中,随意取下一只(称为不返回抽样)【解析】(1)31327()5125p ==;(2)3602310051330.2223765A p A ==≈.18. ☆某农场为了从三种不同的西红柿品种中选取高产稳定的西红柿品种,分别在5块试验田上问:哪一种的西红柿既高产又稳定? 【解析】第一种西红柿品种.统计量 组别 平均 标准差 第一组 90 6 第二组 80 419.☆☆有一容量为50的样本,数据的分组及各组的频数如下:[10,15),4;[30,35),9;[15,20),5;[35,40),8;[20,25),10;[40,45),3;[25,30),11;(1) 列出样本的频率分布表; (2) 画出频率分布直方图.【解析】(1)由所给的数据,不难得出以下样本的频率分布表:数据段 [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) [40,45) 总计 频数 4 5 10 11 9 8 3 50 频率 0.08 0.10 0.20 0.22 0.18 0.16 0.06 1.00(2)频率分布直方图(如图).20. ☆☆对某一工件进行了三次测量,测得的数据分别是123,,x x x ,对于函数2221231[()()()]3y x x x x x x =-+-+-,当x 取何值时,函数值y 取得最小值?并求出最小值.【解析】当1233x x x x ++=时,有y 最小值,22221231()3y x x x x =++-最小值.21. ☆☆某班40人随机平均分成两组,两组学生一次考试的成绩情况如下表:求全班的平均成绩和标准差. 【解析】设第一组学生的成绩为1220,,x x x ,第二组学生的成绩为212240,,x x x ,则由209020808540x ⨯+⨯==,20222120(690)i i x ==⨯+∑,402222120(480)i i x ==⨯+∑,得4022211(40)40i i s x x ==-∑,得51s =.【思想方法回顾】熟悉方差的变形公式22211()n i i s x nx n ==-∑.【课后作业】1.☆☆某校为了了解学生的课外阅读情况,随机调查了50名 学生,得到他们在某一天各自课外阅读所用时间的数据,结果 用右侧的条形图表示.根据条形图可得这50名学生这一天平 均每人的课外阅读时间为 ( B )(A)0.6小时 (B)0.9小时 (B)1.0小时 (D)1.5小时 【解析】每人一天平均阅读时间为050.520 1.010 1.510 2.0550x ⨯+⨯+⨯+⨯+⨯=0.9()=小时2.☆若M 个数的平均数是X, N 个数的平均数是Y,则这M+N 个数的平均数是( C )(A)2X Y +(B)X Y M N ++ (C) MX NY M N ++ (D)MX NYX Y++ 3.☆下面哪有个数不为总体特征数的是 ( D ) (A) 总体平均数 (B) 总体方差 (C) 总体标准差 (D) 总体样本4.☆一个年级有12个班,每个班有50名学生,随机编为1~50号,为了了解他们在课外的兴趣爱好要求每班是40号学生留下来进行问卷调查,这里运用的抽样方法是( D )(A) 分层抽样 (B) 抽签法 (C) 随机数表法 (D) 系统抽样法 5.☆在简单随机抽样中,某一个个体被抽到的可能性是 ( C )(A) 与第几次抽样有关,第一次抽的可能性最大 (B) 与第几次抽样有关,第一次抽的可能性最小 (C) 与第几次抽样无关,每次抽到的可能性相等 (D) 与第几次抽样无关,与抽取几个样本有关6.☆要完成下列2项调查:①从某社区125户高收入家庭,280户中等收入家庭,95户低收入家庭中选出100户调查社会购买力的某项指标;②从某中学高一年级的12名体育特长生中选出3人调查学习负担情况。
高考数学二轮复习 统计1
高考数学二轮复习 统计1一、知识归纳总结: 1、抽样方法1) 所要考察的对象的 叫做总体,其中每一个考察的对象称为个体;从总体中抽取一部分个体叫做总体的一个样本,样本的数目叫做 2) 抽样分为 和 两种情况.3) 简单的随机抽样是指 分层抽样是指 4) 从一个个体为N 的总体中,抽取一个容量为n 的样本,无论采用简单的随机抽样还是分层抽样,在整个过程中,每个个体被抽到的 2、总体期望、方差(或标准差)的估计1) 如果有n 个数据1x ,2x ,…, n x ,那么x = ,叫做这n 个数的平均值(期望值).2) 对于一组数据1x ,2x ,…, n x ,2s = ,叫做这组数据的方差,而s 叫做标准差. 二、例题精选:1、对总数为N 的一批零件抽取一个容量为30的样本,若每个零件被抽取的概率为41,则N 的值为 ( A ) A .120 B .200 C .150 D .1002、某学校有老教师28人,中年教师54人,青年教师81人,为了调查他们的身体头状况学校决定从他们中抽取容量为36的样本进行健康调查,最合适抽取样本的方法是: ( D ) A . 简单随机抽样 B.系统抽样C. 分层抽样D.先从老教师中剔除一人,然后进行分层抽样3、在用样本频率估计分布的过程中,下列说法正确的是 (C ) A .总体容量越大,估计越精确 B .总体容量越小,估计越精确 C .样本容量越大,估计越精确 D .样本容量越小,估计越精确知识点:总体分布反映了总体在各范围内取值的概率,一般说来,样本容量越大,这种估计就越准确4、 某地区共有10万户居民,该地区城市住户与农村住户之比为4:6,根据分层抽样方法调查了该地区1000户居民冰箱拥有情况,调查结果如下表所示,那么可以估计该地区农村住户中无冰箱的总户数约为 (A )城市 农村 有冰箱 356(户) 440(户) 无冰箱44(户)160(户)A .1.6万户B .4.4万户C .1.76万户D .0.24万户5、一个容量为40的样本分成了5组,前3组的频数分别是4,7,11,第4组的频率是41,那么第5组的频率是 (答案是:51)知识点:频率=样本容量频数6、某市高三数学抽样考试中,对90分以上(含90分)的成绩进行统计,其 频率分布图如图所示,若130-140分数 段的人数为90人,则90-100分数段的 人数为 810 7、已知样本b a ,,99,100,101的平均数为100,方差为2,这个样本中的数据=a=b (答案:98,102==b a 或102,98==b a )8、利用简单随机抽样的方法,从n 个个体(13>n )中抽取13个个体,若第二次抽取时,余下的每个个体被抽到的概率为31,则在整个抽样过程中,各个个体被抽到的概率为3713 解析:第一次抽取后,还剩下1-n 个个体,每个个体被抽到的概率为37,311113==--n n 在整个抽样过程中,每个个体被抽到的概率相等,都为3713=N n 9、观察下面频率分布表,回答下列问题1)完成频率分布表 2)画出频率分布直方图3)根据表和图估计数据落在)[35,25内的概率约为多少?数据小于30的概率约为 多少?10、甲、乙两人在相同条件下各射靶10次,各次命中的环树如下:甲:8,8,6,8,6,5,9,10,7,4 乙:7,9,5,7,8,7,6,8,6,8 谁10次射靶的情况比较稳定?组别频数频率 )[15,10 4)[20,151.0)[25,20 10)[30,2511 )[35,30 9)[40,3516.0)[45,403总计50332 1 4 7 10 13 15三、课堂总结回顾1、 了解简单随机抽样、分层抽样的意义,会用它们对年问题进行抽样;2、 会用样本的频率分布估计总体分布,会用样本的期望和方差估计总体期望和方差. 四、课后作业1、在频率分布直方图中,各个长方形的面积表示 (B ) A 、落在相应各组的数据的频数 B 、相应各组的频率 C 、该样本分布的组数 D 、该样本的样本容量2、已知五个数据6,4,7,5,3,则样本方差为 ( B ) A 、1 B 、2 C 、 3 D 、43、已知两组数据x 1,x 2,x n 与y 1,y 2,y n ,它们的平均数分别是x 和y ,则新的一组数据2x 1-3y 1+1,2x 2-3y 2+1,2x n -3y n +1的平均数是:( B )A.2x -3yB. 2x -3y +1C. 4x -9yD. 4x -9y +14、 某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采取分层抽样法抽取容量为45的样本,那么高一,高二,高三各年级抽取的人数分别为 ( A )A..15,10,20B.15,15,15C.10,5,30 D15,5,255、如图,观察2000名新生婴儿的体重,得到频率分布直方图如图, 则其中体重[2700,3000]的婴儿有( B )A.2名B.600名C.20名D.6名6、某人在湖中打了一网鱼,共a 条,做上记号再放回湖中,数日后 又打 了一网鱼共b 条,其中c 条有记号,估计湖中共有 鱼 条 (答案是:ac/b )7、如图是一样本的频率分布直方图,其中)(7,4内的频数为4,则在数据点)[)[15,74,1⋃内的频率为 ,样本容量为 . (答案:2/11,22)8、某县三个镇有高中生2000名,且这三个镇的高中生人数之比5:3:2,现抽取一个容量为200的样本,则学生甲被抽到的概率为 (答案是:1)9、一个容量为n 的样本,分为若干组, 已知某组的频率和频数分别为40125.0和, 则n = (答案是:320 )10、要从甲、乙两名工人中选出一名参加机床技术比赛,首先对甲、乙两人进行初选,在使用同一型号机床的情况下,甲、乙两人10天内每天出现的次品数分别是:频率/组距甲:0,2,4,0,1,3,2,0,1,2乙:1,0,1,2,1,1,3,0,2,1分别计算着两组数据的平均数和方差,从计算结果看,选哪一位工人参加即使比赛更合适?。
2023年高考数学二轮复习第四篇考前知识回扣易错提醒保分回扣十统计与统计案例
考前知识回扣•易错提醒保分
回扣十 统计与统计案例
高考二轮总复习 • 数学
知识回扣 1.统计中四个数据特征 (1)众数: ①在样本数据中,出现次数最多的那个数据. ②频率分布直方图中,众数是最高矩形的底边中点的横坐标. (2)中位数:在样本数据中,将数据按从小到大(或从大到小)的顺序
排列,位于中间的那个数据.如果数据的个数为偶数,就取中间两个数 据的平均数作为中位数.
第四篇 考前知识回扣•易错提醒保分
高考二轮总复习 • 数学
(3)平均数:样本数据的算术平均数, 即-x =1n(x1+x2+…+xn). (4)方差与标准差:反应样本数据的分散程度. 方差:s2=1n[(x1--x )2+(x2--x )2+…+(xn--x )2]. 标准差: s= 1n(x1--x )2+(x2--x )2+…+(xn--x )2.
第四篇 考前知识回扣•易错提醒保分
高考二轮总复习 • 数学
(2)相关系数r具有如下性质: ①|r|≤__1__; ②|r|越接近于1,x,y的线性相关程度越__强___; ③|r|越接近于0,x,y的线性相关程度越__弱___.
第四篇 考前知识回扣•易错提醒保分
高考二轮总复习 • 数学
3.独立性检验 利用随机变量 K2=(a+b)(cn+(add-)(ab+c)c2)(b+d)(n=a+b+c+d)来判断 “两个分类变量有关系”的方法称为独立性检验.如果 K2 的观测值 k 越 大,说明“两个分类变量有关系”的可能性越大.
第四篇 考前知识回扣•易错提醒保分
高考二轮总复习 • 数学
易错提醒 1.易混淆频率分布条形图和频率分布直方图,误把频率分布直方图
纵轴的几何意义当成频率,导致样本数据的频率求错. 2.混淆直线方程 y=ax+b 与回归直线方程^y=b^x+a^的系数及斜率与
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计和统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率和统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题. 1. 随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成. 2. 常用的统计图表(1)频率分布直方图 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3. 用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数 数字特征 样本数据 频率分布直方图众数出现次数最多的数据 取最高的小长方形底边中点的横坐标 中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分左右两个面积相等的分界线和x 轴交点的横坐标 平均数样本数据的算术平均数每个小矩形的面积乘以小矩形底边中点的横坐标之和(2)方差:s 2=n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差:s =1n[x 1-x2+x 2-x2+…+x n -x2].4. 变量的相关性和最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q= i =1n(y i -a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法.5. 独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +dn则K 2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d 为样本容量).考点一 抽样方法例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15答案 C分析 由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人.在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为Nn(N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.(1)(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 B.07 C.02 D.01(2)某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.答案(1)D (2)37 20分析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.(2)由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,即第n组抽取的号码为5n-3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为40200×100=20人.考点二用样本估计总体例2(1)(2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )(2)(2013·江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第5次甲8791908993乙8990918892答案(1)A (2)2分析(1)由于频率分布直方图的组距为5,去掉C、D,又[0,5),[5,10)两组各一人,去掉B,应选A.(2)x 甲=15(87+91+90+89+93)=90,x 乙=15(89+90+91+88+92)=90,s 2甲=15[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,s 2乙=15[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题: (1)求参赛总人数和频率分布直方图中[80,90)之间的矩形的高,并完成直方图; (2)若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90,100]之间的概率.解 (1)由茎叶图知,分数在[50,60)之间的频数为2. 由频率分布直方图知,分数在[50,60)之间的频率为 0.008×10=0.08.所以参赛总人数为20.08=25(人).分数在[80,90)之间的人数为25-2-7-10-2=4(人), 分数在[80,90)之间的频率为425=0.16, 得频率分布直方图中[80,90)间矩形的高为0.1610=0.016.完成直方图,如图.(2)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5和6. 则在[80,100]之间任取两份的基本事件为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个, 其中至少有一个在[90,100]之间的基本事件为(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6),共9个.故至少有一份分数在[90,100]之间的概率是915=35.考点三 统计案例例3 (2013·重庆)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)和月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x2i=720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 和y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值,线性回归方程也可写为y ^=b ^x +a ^. 解 (1)由题意知n =10,x =1n ∑i =1nx i =8010=8,y =1n ∑i =1ny i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0), 故x 和y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).(1)对具有线性相关关系的两个变量可以用最小二乘法求线性回归方程,求b ^是关键,其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2.(2)在利用统计变量K 2(χ2)进行独立性检验时,应该注意数值的准确代入和正确计算,最后把计算的结果和有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110 由K 2(χ2)=n ad -bc 2a +bc +d a +cb +d算得,K 2(χ2)=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2(χ2)≥k )0.050 0.010 0.001 k3.841 6.635 10.828( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动和性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动和性别无关”C .有99%以上的把握认为“爱好该项运动和性别有关”D .有99%以上的把握认为“爱好该项运动和性别无关” (2)已知x 、y 取值如下表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3从所得的散点图分析可知:y 和x 线性相关,且y =0.95x +a ,则a 等于 ( )A .1.30B .1.45C .1.65D .1.80 答案 (1)C (2)B分析 (1)根据独立性检验的定义,由K 2(χ2)≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动和性别有关”,故选C. (2)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45.1. 用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、中位数及平均数的异同众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量. (3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布. ①总体期望的估计,计算样本平均值x =1n∑n i =1x i . ②总体方差(标准差)的估计:方差=1n∑n i =1(x i -x )2,标准差=方差, 方差(标准差)较小者较稳定.2. 线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 3. 独立性检验(1)作出2×2列联表. (2)计算随机变量K 2(χ2)的值. (3)查临界值,检验作答.1. 经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学中有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ( )A .6B .18C .30D .54答案 C分析 由题意设全班学生为x 人,持“喜欢”、“不喜欢”和“一般”态度的学生分别占全班人数的59、19、13,所以x (13-19)=12,解得x =54,所以全班持“喜欢”态度的人数为54×59=30.故选C.2. 某校从参加高三年级期中测试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频率分布直方图中的信息,估计出本次测试数学成绩的平均分为________. 答案 71分析 由频率分布直方图得每一组的频率依次为0.1,0.15,0.15,0.3,0.25,0.05,又由频率分布直方图,得每一组数据的中点值依次为45,55,65,75,85,95.所以本次测试数学成绩的平均分为x =45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71. 故填71.3. 随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图. (1)根据茎叶图判断哪个班的平均身高较高; (2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取两名身高不低于173 cm 的同学,求身高为176 cm 的同学被抽中的概率.解 (1)由茎叶图可知:甲班身高集中于160 cm ~179 cm 之间,而乙班身高集中于170 cm ~180 cm 之间,因此乙班平均身高高于甲班,其中x 甲=158+162+163+168+168+170+171+179+179+18210=170,x 乙=159+162+165+168+170+173+176+178+179+18110=171.1.(2)甲班的样本方差为110[(158-170)2+(162-170)2+(163-170)2+(168-170)2+(168-170)2+(170-170)2+(171-170)2+(179-170)2+(179-170)2+(182-170)2]=57.2.(3)设身高为176 cm 的同学被抽中的事件为A .从乙班10名同学中抽取两名身高不低于173 cm 的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178,173)、(178,176)、(176,173),共10个基本事件,而事件A 含有4个基本事件, ∴P (A )=410=25.(推荐时间:60分钟)一、选择题1. 要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取1 000根火腿肠进行“瘦肉精”检测;②从某中学的15名艺术特长生中选出3人调查学习负担情况.适合采用的抽样方法依次为( )A .①用分层抽样,②用简单随机抽样B .①用系统抽样,②用简单随机抽样C .①②都用系统抽样D .①②都用简单随机抽样 答案 B分析 ①中总体容量较大,且火腿肠之间没有明显差异,故适合采用系统抽样;②中总体容量偏小,故适合采用简单随机抽样.2. (2012·四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( )A .101B .808C .1 212D .2 012 答案 B分析 由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N =808.3. (2013·福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120答案 B分析 少于60分的学生人数600×(0.05+0.15)=120(人), ∴不少于60分的学生人数为480人.4. 甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为x 甲,x 乙,则下列判断正确的是( )A.x 甲>x 乙;甲比乙成绩稳定B.x 甲>x 乙;乙比甲成绩稳定C.x 甲<x 乙;甲比乙成绩稳定D.x 甲<x 乙;乙比甲成绩稳定 答案 D分析 由茎叶图可知x 甲=17+16+28+30+345=25,x 乙=15+28+26+28+335=26,∴x 甲<x 乙.又s 2甲=15[(17-25)2+(16-25)2+(28-25)2+(30-25)2+(34-25)2]=52,s 2乙=15[(15-26)2+(28-26)2+(26-26)2+(28-26)2+(33-26)2]=35.6,∴乙比甲成绩稳定.5. 一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是 ( )A .13,12B .13,13C .12,13D .13,14答案 B分析 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,(4-d )(2+d )=8,2d -d 2=0,又d ≠0,故d =2,故样本数据为4,6,8,10,12,14,16,18,20,22,样本的平均数为4+22×510=13,中位数为12+142=13,故选B.6. 2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品和另外500组未添加该试剂的食品作比较,提出假设H 0:“这种试剂不能起到检测出塑化剂的作用”,并计算出P (K 2≥6.635)≈0.01.对此,四名同学做出了以下的判断:p :有99%的把握认为“这种试剂能起到检测出塑化的作用”; q :随意抽出一组食品,它有99%的可能性添加了塑化剂; r :这种试剂能检测出塑化剂的有效率为99%; s :这种试剂能检测出塑化剂的有效率为1%.则下列命题中为真命题的是( )A .p ∧qB .綈p ∧qC .(綈p ∧綈q )∧(r ∨s )D .(p ∨綈r )∧(綈q ∨s )答案 D分析 提出假设H 0“这种试剂不能起到检测出塑化剂的作用”,并计算出P (K 2≥6.635)≈0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题p ,r 为真命题,q ,s 为假命题,依据复合命题的真值表可知D 为真命题. 二、填空题7. (2013·湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示. (1)直方图中x 的值为 __________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________. 答案 (1)0.004 4 (2)70分析 (1)(0.002 4+0.003 6+0.006 0+x +0.002 4+0.001 2)×50=1, ∴x =0.004 4.(2)(0.003 6+0.004 4+0.006 0)×50×100=70.8. 下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)和相应的生产能耗y (吨)的几组对应数据:x 3 4 5 6 y2.5t44.5根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为________. 答案 3分析 ∵样本点中心为⎝ ⎛⎭⎪⎫4.5,11+t 4,∴11+t4=0.7×4.5+0.35,解得t =3. 9. 某校高三考生参加某高校自主招生面试时,五位评委给分如下:9.0 9.1 8.9 9.2 8.8 则五位评委给分的方差为________. 答案 0.02分析 评委给分的平均数为15×(9.0+9.1+8.9+9.2+8.8)=9.0, 方差为15×[(9.0-9.0)2+(9.1-9.0)2+(8.9-9.0)2+(9.2-9.0)2+(8.8-9.0)2]=0.15=0.02. 10.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分 后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中 的x )无法看清,若记分员计算无误,则数字x 应该是__________. 答案 1分析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1. 三、解答题11.(2013·陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:组别 ABCDE人数5010015015050(1)其中从B 组中抽取了6人.请将其余各组抽取的人数填入下表.组别 ABCDE人数 50100 150 150 50 抽取人数6(2)在(1)的评委中分别任选1人,求这2人都支持1号歌手的概率.解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:组别 A B C D E人数5010015015050抽取人数3699 3(2)记从A12312B组抽到的6位评委为b1,b2,b3,b4,b5,b6,其中b1,b2支持1号歌手.从{a1,a2,a3}和{b1,b2,b3,b4,b5,b6}中各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的有a1b1,a1b2,a2b1,a2b2共4种,故所求概率P=418=29.12.(2012·辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”和性别有关?非体育迷体育迷合计男女合计(2)已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:P(K2≥k)0.050.01k 3.841 6.635解(1)25人,从而完成2×2列联表如下:非体育迷体育迷合计男301545女451055合计7525100将2×2列联表中的数据代入公式计算,得 K 2=100×30×10-45×15275×25×45×55=10033≈3.030. 因为3.030<3.841,所以我们没有理由认为“体育迷”和性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2)},其中a i 表示男性,i =1,2,3,b j 表示女性,j =1,2. Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A 表示“任选2人中,至少有1人是女性”这一事件,则A ={(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2)},事件A由7个基本事件组成,因而P (A )=710.。