统计与统计案例

合集下载

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.

的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从

的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.


人流量统计案例

人流量统计案例

人流量统计案例人流量统计是一种针对特定区域或场所进行人数统计的方法,可以用于分析人流量的变化趋势、预测未来人流量、优化场所设计等。

以下是以人流量统计案例为题的一些具体描述:1.商场人流量统计在一个繁华的商业区,有一家大型购物中心,每天都有大量的人流量涌入。

商场管理者希望通过人流量统计来了解每天的客流情况,以便合理安排员工、优化货架摆放位置等。

2.地铁站人流量统计在一个拥挤的地铁站,每天早晚高峰时段都有大量的乘客涌入。

地铁公司希望通过人流量统计来分析不同时间段的客流情况,以便调整列车发车间隔、增加站台安全警力等。

3.景点人流量统计在一个著名的旅游景点,每天都有大量的游客前来观光。

景区管理者希望通过人流量统计来了解游客的分布情况,以便合理安排导游、优化游览路线等。

4.医院门诊人流量统计在一个繁忙的医院门诊部,每天都有大量的患者来看病。

医院管理者希望通过人流量统计来了解就诊高峰时段和科室的负荷情况,以便安排医生值班、优化就诊流程等。

5.学校校门人流量统计在一个大学校园的主校门,每天都有大量的学生和教职员工进出。

学校管理者希望通过人流量统计来了解不同时间段的人流峰谷情况,以便合理安排校门岗亭人员、优化学生放学路线等。

6.公园人流量统计在一个公园,每天都有大量的市民来散步、锻炼。

公园管理者希望通过人流量统计来了解不同区域的人流分布情况,以便合理安排保安巡逻、优化公共设施布局等。

7.体育馆人流量统计在一个体育馆,每天都有大量的观众前来观看比赛。

体育馆管理者希望通过人流量统计来了解不同比赛场次的观众人数,以便合理安排安全人员、优化座位布局等。

8.火车站人流量统计在一个繁忙的火车站,每天都有大量的乘客进出。

火车站管理者希望通过人流量统计来了解不同时间段的客流峰谷情况,以便合理安排安检人员、优化候车室布局等。

9.餐厅人流量统计在一个热门的餐厅,每天都有大量的顾客前来就餐。

餐厅经理希望通过人流量统计来了解不同时间段的客流情况,以便合理安排服务员、优化餐桌布局等。

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习一、选择题1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100 名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1 : 3 : 5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为()领率组距A. 200 C. 400 0.0350.015B. 240D. 48010平均每周上网时间(h)解析:选C 设频率分布直方图中从左到右前3个小矩形的面积分别为A3K5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)X2 = 0.1.由于频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即尸=0.1.所以平均每周上网时间少于4h的学生所占比例为尸+3P=0.4,由此估计学生人数为0.4X1 000 =400.2. AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0〜50),二级良(51〜100),三级轻度污染(101〜150),四级中度污染(151〜200),五级重度污染(201〜300),六级严重污染(大于300).如图是昆明市2021年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2021年4月份空气质量优的天数为 ()A. 3B. 4C. 12D. 2142解析:选c 从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为 1 V.Z 22所以估计昆明市2021年4月份空气质量为优的天数为30X5=12,应选C.3.〔成都模拟〕某城市收集并整理了该市2021年1月份至10月份各月最低气温与最高气 温〔单位:C 〕的数据,绘制了下面的折线图.该城市各月的最低气温与最高气温具有较好的线性关系,那么根据折线图,以下结论错误 的是〔〕A.最低气温与最高气温为正相关B. 10月的最高气温不低于5月的最高气温C.月温差〔最高气温减最低气温〕的最大值出现在1月D.最低气温低于0C 的月份有4个解析:选D 在A 中,最低气温与最高气温为正相关,故A 正确;在B 中,10月的最高气温 不低于5月的最高气温,故B 正确;在C 中,月温差〔最高气温减最低气温〕的最大值出现在1月, 故C 正确:在D 中,最低气温低于0℃的月份有3个,故D 错误.应选D.4 .〔承德模拟〕为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取 了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体 中倾向选择生育二胎与倾向选择不生育二胎的人数比例图〔如下图〕,其中阴影局部表示倾向 选择生育二胎的对应比例,那么以下表达中错误的选项是〔〕A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关♦最高气温 ♦最低气温C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析:选C 由题图,可得是否倾向选择生育二胎与户籍有关、与性别无关;倾向选择不 生育二胎的人员中,农村户籍人数少于城镇户籍人数;倾向选择生育二胎的人员中,男性人数为 60X60% =36,女性人数为40X60%=24,不相同.应选C.5 .(石家庄模拟)某学校48两个班的兴趣小组在一次对抗赛中的成绩如茎叶图所示,通过 茎叶图比拟两个班兴趣小组成绩的平均值及标准差.3 4 28 8 4 6 8 65152①A 班兴趣小组的平均成绩高于B 班兴趣小组的平均成绩; ②B 班兴趣小组的平均成绩高于A 班兴趣小组的平均成绩; ③A 班兴趣小组成绩的标准差大于B 班兴趣小组成绩的标准差;@B 班兴趣小组成绩的标准差大于A 班兴趣小组成绩的标准差. 其中正确结论的编号为()A.①④C. ®®其方差为白义[(53—78尸+(62—78/ +…+ (95—78)2]=121.6, 那么其标准差为'121.6%11.03;45+48+5H -------- F91B 班兴趣小组的平均成成为'」=66,其方差为表义[(45—66)2+(48 - 66)2 + ... + (91-66)2] =169.2, 那么其标准差为1169.2%13.01.应选A.6 .某商场对某一商品搞活动,该商品每一个的进价为3元,销售价为8元,每天售出的 第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如下图,设M 个)为每天商 品的销量,M 元)为该商场每天箱售这种商品的利润.从日利润不少于96元的几天里任选2天, 那么选出的这2天日利润都是97元的概率为()4 5 5 1 6 2 7 38班8 3 6 4 5 3 4 02B.②③D.①③解析:选A A 班兴趣小组的平均成绩为 53+62+64+…+92+95--------------- ---------------- =785x, x=18, 19, y =<l95+(x-19)(4-3), x=20, 21, J5x, x=18, 19, 即 L176+x, x=20, 21.当日销量不少于20个时,日利泗不少于96元, 当日销量为20个时,日利润为96元, 当日销量为21个时,日利润为97元,日利泗为96元的有3天,记为日利泗为97元的有2天,记为人丛从中任选2天有 (.4),(〃石),(.力),(.1),3/),(48),3«),(c4),(.,8),(48),共 10 种情况.其中选出的这2天日利泗都是97元的有(A,8)1种情况. 故所求概率为关.应选B. 二、填空题7 .某小卖部销售某品牌饮料的零售价与销量间的关系统计如下:单价x/元 3.0 3.2 3.4 3.6 3.8 4.0 销量w 瓶504443403528x,y 的关系符合回归方程£=£+2其中分=-20.假设该品牌饮料的进价为2元,为使利润 最大,零售价应定为 元.解析:依题意得:x =3.5, y =40,A所以.=40—(- 20)X3.5=110,所以回归直线方程为f=-20x+110,利润 L = (A —2)(-20A + 110)= -201+ 150x-220,B 选• •1 - 9 1 - 5 A.C 解BioD.g由题意知频数(天)0 18 19 20 2 俏量〔个〕所以x=* = 3.75元时,利润最大.答案:3.758.某高校调查了200名学生每周的自习时间(单位:小时),制成了如下图的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是.解析:设所求的人数为〃,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08 +0.16) X 2.5=0.7, n=0.7 X 200=140.答案:1409.为比拟甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:C) 制成如下图的茎叶图,甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,那么甲地该月11时的平均气温的标准差为.甲9 8 2 62 m 03 I解析:甲地该月11时的气温数据(单位:℃)为28,29,30,30+〃?,32;乙地该月11时的气温数据(单位:℃)为26,28,29,31,31,那么乙地该月11时的平均气温为(26+28+29+31+31计5 = 29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m + 32)+5 = 30,解得〃?=1,那么甲地该月11时的平均气温的标准差为嗝义[(28 - 30产+(29 - 30)2+(30 - 30/+(31 - 30/+(32 - 30户]=\(2.答案:^2三、解做题10.某篮球运发动的投篮命中率为50%,他想提升自己的投篮水平,制定了一个夏季练习计划,为了了解练习效果,执行练习前他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为463执行练习后也统计了10场比赛的得分,茎叶图如下图:0 8 91 2 4 4 5 6 82 1 3(1)请计算该篮球运发动执行练习后统计的10场比赛得分的中位数、平均得分与方差;⑵如果仅从执行练习前后统计的各10场比赛得分数据分析,你认为练习方案对该运发动的投篮水平的提升是否有帮助?为什么?解:(1)练习后得分的中位数为上芋=14.5;平均得分为8+9+12+14+14+15+16+18 + 21+23= 15:10方差为击义[(8—15)2 + (9 — 15>+(12 —15>+(14 — 15)2+(14 — 15> + (15 —15>+(16 — 15产+(18-15)2+(21-15)2+(23 —15)2]=20.6.(2)尽管中位数练习后比练习前稍小,但平均得分一样,练习前方差20.6小于练习前方差46.3, 说明练习后得分稳定性提升了(阐述观点合理即可),这是投篮水平提升的表现.故此练习方案对该篮球运发动的投篮水平的提升有帮助.11.(西安八校联考)在2021年俄罗斯世界杯期间,莫斯科的局部餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:⑴销售单价),与等级代码数值x之间存在线性相关关系,求),关于x的线性回归方程(系数精确到0.1);(2)假设莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(xi1 ),3,光),…其回归直线f=源+2的斜率和截距的最小2Xyi一〃x y八 '। A — A——二乘估计分别为Z? = ----------------- a= y —b x .n _Xxr-n x 26 6参考数据:2>»=8 440, 2e = 25 564.—38+48 + 58 + 68 + 78 + 88解:(1)由题意,得x -■= 63,- 16.8+18.8+20.8 + 22.8 + 24+25.8 _y = 6 =21.5,yA_8 440 - 6X63X21.5〜h = ~~6Z—=25 564—6X63X63「026 A 2A — A 一a= y -bx =21.5-0.2X63 = 8.9.故所求线性回归方程为f=0.2x+8.9.⑵由(1)知,当%=98 时,>=0.2X98+8.9=28.5.・•・估计该等级的中国小龙虾销售单价为28.5元.12.(长沙模拟)某职称晋级评定机构对参加某次专业技术测试的100人的成绩进行了统计, 绘制的频率分布直方图如下图.规定80分以上者晋级成功,否那么晋级失败(总分值为100分).(1)求图中.的值;(2)估计该次测试的平均分不(同一组中的数据用该组的区间中点值代表);(3)根据条件完成下面2X2列联表,并判断能否有85%的把握认为“晋级成功〞与性别有关.P(K?2k)0.40 0.25 0.15 0.1()0.050.025k0.708 1.323 2.072 2.706 3.841 5.024解:(1)由频率分布直方图中各小长方形面积总和为1,得(2.+ 0.020+0.03.+0.040)义10=1,解得〃=0...5.⑵由频率分布直方图知洛小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05.30,0.40,0.20.05,那么估计该次测试的平均分为 x = 55X0.05 + 65X0.30 + 75X0.40 + 85X0.20 + 95X0.05 = 74(分). ⑶由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100X0.25 = 25,填写2X2列联表如下:晋级成功 晋级失败合计男 16 34 50 女 9 41 50 合计2575100100X(16X41 ——25X75X50X50^2,613>2.072,所以有85%的把握认为“晋级成功〞与性别有关.1 .为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单 位:小时)如下:248 256 232 243 188 268 278 266 289 312 274296 288 302 295 228 287 217 329 283K 2=n(acl-bc)2(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.解:(1)频率分布表及频率分布直方图如下所示:0.0100 ——⑵由题意可得8乂(0.30+0.10+0.05) = 3.6,所以估计8万台电风扇中有3.6万台无故障连续使用时限不低于280小时.(3)由频率分布直方图可知x =190X0.05 + 210X0.05 + 230X0.10 + 250X0.15 + 270X0.20 + 290X0.30 + 310X0.10 + 330X0.05 = 269(小时),所以样本的平均无故障连续使用时限为269小时.2 .海水养殖场进行某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50kg 〞,估计A 的概率;⑵填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量V50 kg箱产量250 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比拟. 附:P (心2)0.050 0.010 0.001 k3.841 6.635 10.8280.01500.0125频率 仇距0.0075 0.0050 0.0025.厂工丁丁丁丁厂!无故障连续使用时用/小时新养殖法、n(ad-bc)1 _ .K-= . , , ,,其中〃=a+/?+c+d.(a+Z?)(c 十d)(a十c)(Z?+d)解:⑴旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)X5=0.62.因此,事件A的概率估计值为0.62.⑵根据箱产量的频率分布直方图得到联表:K2=---------- -------------------- 15 705100X100 X 96X104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图说明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.3.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =+£即=9.97,5=、*ZG L x )21 /=1 \ / 1O/=1/ 1 16 _ / 16 16 _=、/讳16 X 2比0.212, / L G-8.5)2^ 18.439,Z (x,- x )(L8.5)=—2.78,其中为为抽取的第i个零件的尺寸,i= 1,2, (16)(1)求⑶,i)(i= 12…,16)的相关系数二并答复是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(假设加V0.25,那么可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(刀-35,7 +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(7 -35,7 +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(H,v)(i = 12…4的相关系数£(X,-7)(57-7)r=I ______/ / ・、/(),008公丫0・09・、/ £ d )2、/ £ 8 - 5 )216 _Z (XL x )(/—8.5)尸1解:(1)由样本数据得8,i)(i= 1,2,…,16)的相关系数为r= --------- /--- 1/16 _ / 16、/ Z (即- X C-8.5)2 -2.78剔除第13个数据,剩下数据的样本方差为aX 〔1 591.134 —9.22?—15X 10.022〕=0.008,A Q 这条生产线当天生产的零件尺寸的标准差的估计值为廊而比0.09.4.〔昆明模拟〕〞工资条里显红利,个税新政入民心〞.随着2021年新年钟声的敲响,我国 自1980年以来,力度最大的一次个人所得税〔简称个税〕改革迎来了全面实施的阶段.某IT 从业 者为了解自己在个税新政下能享受多少税收红利,绘制了他在26〜35岁〔2021〜2021年〕之间各 年的月平均收入〕,〔单位:千元〕的散点图:20・・・・ 16- ・ , 12- ., 8 ■ •4°123456789 io"年龄代码工注:年龄代码1~10分别对应年的26〜35岁⑴由散点图知,可用回归模型y=h\n x+a 拟合〕,与x 的关系,试根据有关数据建立〕,关于x 的回归方程;〔2〕如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用〔1〕的结果,将月平 均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.1010 10 _10_ _ 10附注:参考数据:= 55,2〕〉= 155.5,N 〔即一x 〕2 =82.5,2 — x〕〔F — y 〕 = 94.9,26= i=li=li=lJ =1io _ io _ _15.1,2 缶- 1〕2=4.84,£〔力一 t 〕〔yi- y 〕 =242其中"=ln 为;取 In 11 =24,In 36=361=1 /=1参考公式:回归方程.=筋+味中斜率和截距的最小二乘估计分别为公= n ______ _X 〔出一〃〕〔.- V 〕 曰 A - A — -------------------------- \a= v —b u .Z 〔3一 〃 〕2月平均收入y千元解:(1)令 f=lnx,那么 y=bf+a10__Z & -,)()L y)24.2, b ~ ~__Z _痴_5ze —)2r=l10Zu-_2__155.5-_2_=而=-^-=15.55, t =苗A — A —a= y —b t = 15.55 —5X 1.51=8,所以〕,关于/的回归方程为〕,=5/+8.1015.1 lo"=L51由于/=lnx,所以y关于x的回归方程为y=51nx+8.⑵由⑴得,该IT从业者36岁时月平均收入为y=51n 11+8 = 5X2.4+8 = 20〔千元〕.旧个税政策下每个月应缴纳的个人所得税为1 500X3%+3 000X10%+4 500X20%+〔20 000-3 500-9 000〕X25% = 3 120〔元〕.新个税政策下每个月应缴纳的个人所得税为3 000X3%+〔20 000-5 OOO-3OOO-3 000〕X 10%=990〔元〕.故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(70).I— 0 180.212X716X18.439 ',由于lrlV0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于7 =9.97,产0.212,由样本数据可以看出抽取的第13个零件的尺寸在(T—3s,7 + 3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为右义(16义9.97—9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162X?=16X0.212I2+16X9.972^1 591.134,。

统计与统计案例(文科)教程文件

统计与统计案例(文科)教程文件

统计与统计案例(文科)统计与统计案例第一节随机抽样1.下面的抽样方法是简单随机抽样的是( )A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验答案:D2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )答案:D3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50 B.40 C.25 D.20答案: C4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14答案:B5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.答案:46.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B.100C.180 D.300答案:C7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.答案:58.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=()A.54 B.90 C.45 D.126答案:B9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.答案:3010.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:180011.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.答案:40第二节用样本估计总体12.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案: D13.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.①直方图中的a=________;②在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案:①3 ②6 00014.某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.答案:1515.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案:A16.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:①分别估计该市的市民对甲、乙两部门评分的中位数; ②分别估计该市的市民对甲、乙两部门的评分高于90的概率; ③根据茎叶图分析该市的市民对甲、乙两部门的评价.答案:①由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. ②由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.③由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大. 17.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?答案:(1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300)的用户分别有15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×1=5(户).518.重庆市2013年各月的平均气温(℃)数据的茎叶图如下图,则这组数据的中位数是( )A.19 B.20 C.21.5 D.23答案:B19.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③ B.①④ C.②③ D.②④答案:B20.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4A.甲 B.乙 C.丙 D.丁答案:C第三节变量间的相关关系、统计案例1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√ 2.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③ 解析:选C 由散点图知③④具有相关关系.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ,则a =( )x 0 1 3 4 y2.24.34.86.7A.3.25 B .2.6 C .解析:选B 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.4.若回归直线方程为y ^=2-1.5x ,则变量x 增加一个单位,y ( )A .平均增加1.5个单位B .平均增加2个单位C .平均减少1.5个单位D .平均减少2个单位解析:选 C 因为回归直线方程为y ^=2-1.5x ,所以b ^=-1.5,则变量x 增加一个单位,y 平均减少1.5个单位.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.6.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )答案:D7.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案:B8.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案: C9.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2010)+a ^=6.5(x -2010)+3.2, 即y ^=6.5(x -2010)+260.2.(*)(2)利用回归直线方程(*),可预测2016年的粮食需求量为6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).10.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.精品资料仅供学习与交流,如有侵权请联系网站删除 谢谢11看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[听前试做](1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。

8-1统计与统计案例

8-1统计与统计案例

专题8 第1讲统计与统计案例一、选择题1.(2011·湛江测试)某学校进行问卷调查,将全校4200名同学分为100组,每组42人按1~42随机编号,每组的第34号同学参与调查,这种抽样方法是() A.简单随机抽样B.分层抽样C.系统抽样D.分组抽样[答案] C[解析]一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.2.(文)(2011·重庆文,4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):12512012210513011411695120134则样本数据落在[114.5,124.5)内的频率为()A.0.2 B.0.3C.0.4 D.0.5[答案] C[解析]在[114.5,124.5]范围内的频数m=4,样本容量n=10,∴所求频率410=0.4. (理)(2011·四川理,1)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5)2[15.5,19.5) 4[19.5,23.5)9[23.5,27.5)18[27.5,31.5)11[31.5,35.5)12[35.5,39.5)7[39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是()A.16B.13C.12D.23[答案] B[解析]因为[31.5,35.5)12[35.5,39.5)7[39.5,43.5)3故[31.5,43.5)的概率为12+7+366=13,故选B.3.(2011·山东理,7)某产品的广告费用x与销售额y的统计数据如下表根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额大约为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元[答案] B[解析] 依题意:x =3.5,y =42, 又b ^=9.4,∴42=9.4×3.5+a ^. 而a ^=9.1,∴y ^=9.4x +9.1, 当x =6时,y ^=65.5,故选B.4.(2011·大连模拟)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg 属于超重,低于5kg 的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.20,0.10,0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为( )A .1000,0.50B .800,0.50C .800,0.60D .1000,0.60[答案] D[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为4000.40=1000只,体重正常的频率为0.40+0.20=0.60.故选D.5.(文)(2011·江西文,7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x ,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x[答案] D[解析] 由图可以不难发现众数为5.中位数为5+62=5.5,平均值x =2×3+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930(理)(2011·江西理,6)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0 B. 0<r 2<r 1 C. r 2<0<r 1 D .r 2=r 1[答案] C[解析] 对于第一组数据x -=10+11.3+11.8+12.5+135=11.75,y -=1+2+3+4+55=3.∑i =15(x i -x -)(y i -y -)=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)…(x 5-x -)(y 5-y -)=1.75×(-2)+(-0.45)×(-1)+0.05×0+0.75×1+1.25×2=0.2. ∑i =15(x i -x -)2=(x 1-x -)2+(x 2-x -)2+…+(x 5-x -)2=1.752+(-0.45)2+0.052+0.752+1.252=5.3925.∑i =15(y i -y -)2=(y 1-y -)2+(y 2-y -)2+…+(y 5-y -)2=(-2)2+(-1)2+02+12+22=10, 代入公式中有r 1=0.25.3925×10=0.27.09≈0.0282.同理r 2中∑i =15(x i -x -)(y i -y -)=-4.36<0,故r 2<0,∴r 2<0<r 1,故选C.6.(2011·湖南理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关” [答案] C[解析] ∵6.635<K 2=7.8<10.828,∴我们有99%的把握认为二者有关,或者说在犯错的概率不超过1%的前提下二者有关. 7.(2011·合肥二检)甲、乙两名学生的六次数学测验成绩(百分制)的茎叶图如图所示.①甲同学成绩的中位数大于乙同学成绩的中位数; ②甲同学的平均分比乙同学的平均分高; ③甲同学的平均分比乙同学的平均分低;④甲同学成绩的方差小于乙同学成绩的方差. 上面说法正确的是( ) A .③④ B .①②④ C .②④ D .①③④[答案] A[解析] 由茎叶图知甲同学的成绩为72,76,80,82,86,90;乙同学的成绩为69,78,87,88,92,96.故甲同学成绩的中位数小于乙同学成绩的中位数,①错;计算得甲同学的平均分为81,乙同学的平均分为85,故甲同学的平均分比乙同学的平均分低,因此②错、③对;计算得甲同学成绩的方差小于乙同学成绩的方差,故④对.所以说法正确的是③④,选A.8.(2011·东北四市联考)在2011年5月1日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +a (参考公式:回归方程y ^=bx +a ,a =y --b x -),则a =( )A .-24B .35.6C .40.5D .40[答案] D[解析] 价格的平均数是x -=9+9.5+10+10.5+115=10,销售量的平均数是y -=11+10+8+6+55=8,由y ^=-3.2x +a 知b =-3.2,所以a =y --b x -=8+3.2×10=40,故选D.二、填空题9.(2011·湖北文,11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市________家.[答案] 20[解析] 属简单题,关键是清楚每一层的抽取比例都一样是n N.由于所有超市共计200+400+1400=2000家,需抽取100家,则抽取比例为1002000所以中型超市抽取400×1002000=20家.10.(文)(2011·广东文,13)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.[答案] 0.5 0.53[解析] 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故回归直线方程为y ^=0.47+0.01x ,将x =6代入得6号打6小时篮球的投篮命中率约为0.53.(理)(2011·广东理,13)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.[答案] 185[解析] 设儿子身高y 与父亲身高x 有关系,列表如下:∵x =13(173+170+176)=173,y =13+176+182)=176,∑i =13x i y i =173×170+170×176+176×182=91362,∑i =13x 2i =1732+1702+1762=89805, ∴b ^=91362-3×173×17689805-3×1732=1,a ^=y -b ^x =176-173=3 ∴回归直线方程为y ^=x +3, ∴x =182时,y ^=182+3=185(cm).11.(文)(2011·西城抽样)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有________名.[答案] 40[解析] 由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名.(理)(2011·福州二检)若样本a 1,a 2,a 3,a 4,a 5的方差是3,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的方差是________.[答案] 12[解析] 若a -表示样本a 1,a 2,a 3,a 4,a 5的均值,则样本2a 1+3,2a 2+3,2a 3+3,2a 4+3,2a 5+3的均值为2a -+3.又15∑i =15 (a i -a -)2=3,∴15∑i =15[(2a i +3)-(2a -+3)]2=15∑i =15 (2a i -2a -)2=12. 12.把容量为1000的某个样本数据分为10组,并填写频率分布表.若前3组的频率依次构成公差为0.05的等差数列,且后7组的频率之和是0.79.则前3组中频率最小的一组的频数是________.[答案] 20[解析] 设前3组中频率最小的一组的频率是x .由题意得前3组的频率之和是1-0.79=0.21,则x +(x +0.05)+(x +0.05×2)=0.21,由此解得x =0.02,即前3组中频率最小的一组的频率是0.02,相应的频数是0.02×1000=20.三、解答题13.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a1,a2,大于40岁的为b1,b2,b3,从中随机取2名,基本事件有:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共十个,设恰有一名观众年龄在20至40岁为事件A,则A中含有基本事件6个:(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),∴P(A)=610=3 5.14.(文)(2011·郑州二次质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.参考公式及数据:K2=(a+b)(c+d)(a+c)(b+d),[解析] 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)因为K 2=100×(50×50×55×45=99≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(理)(2011·广东广州)某校高三(1)班的一次数学测试成绩的茎叶图如图所示和频率分布直方图如图所示,都受到不同程度的破坏,但可见部分如下,据此回答如下问题:(1)求全班人数;(2)求分数在[80,90)之间的人数;并计算频率分布直方图中[80,90)间的矩形的高; (3)若要从分数在[80,100]之间的试卷中任取两份分析学生失分情况,在抽取的试卷中,求至少有一份分数在[90,100]之间的概率.[解析] (1)由茎叶图知,分数在[50,60)之间的频数为2,由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08,所以,全班人数为20.08=25(人).(2)分数在[80,90)之间的人数为25-2-7-10-2=4人,分数在[80,90)之间的频率为425=0.16,所以频率分布直方图中[80,90)间的矩形的高为0.1610=0.016.(3)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为5,6. 则在[80,100)之间的试卷中任取两份的基本事件为:(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15个,其中至少有一个在[90,100]之间的基本事件有(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6)共9个,故至少有一份分数在[90,100]之间的概率是915=35.15.(2011·安徽文,20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.[解析] 由所给数据分析,年需求量与年份之间近似直线上升,可对数据进行预处理如下表对预处理后的数据,容易算出x =0,y =3.2∑i =15x i y i =-4×(-21)+(-2)×(-11)+2×19+4×29=260∑i =15x 2i =16+4+0+4+16=40∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=26040=6.5,∴a ^=y -b ^x =3.2 ∴所求回归直线方程y -257=6.5(x -2006)+3.2即y =6.5(x -2006)+260.2(2)当x =2012时,y =6.5(2012-2006)+260.2=299.2万吨=300万吨 故预测2012年粮食需求量约为300万吨.。

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。

有趣的统计学案例

有趣的统计学案例

有趣的统计学案例
第一个案例是有关“猜猜看”的游戏。

在这个游戏中,一个人会想一个数字,然后其他人可以猜这个数字是多少。

我们可以用统计学的方法来分析这个游戏。

比如,我们可以计算所有猜测的平均值,然后和真实的数字进行比较,看看平均值是否接近真实值。

通过这个案例,我们可以了解到平均值在统计学中的重要性,以及如何利用平均值来估计未知的数值。

第二个案例是有关“点菜”的餐厅统计。

假设我们去一家餐厅吃饭,我们可以观察到不同菜品被点的频率。

通过统计每道菜被点的次数,我们可以得出哪些菜是最受欢迎的,哪些菜是不受欢迎的。

这个案例可以帮助我们了解如何利用统计学来分析消费者的偏好,以及如何根据统计结果来调整菜单和经营策略。

第三个案例是有关“天气预报”的统计分析。

天气预报是我们日常生活中经常关注的事情,而天气预报的准确性也是大家关心的问题。

我们可以通过统计方法来分析天气预报的准确性,比如计算实际天气和预报天气的差异,然后得出准确率和误差范围。

通过这个案例,我们可以了解到如何利用统计学的方法来评估和改进天气预报的准确性。

通过以上几个案例,我们可以看到统计学在日常生活中的应用和意义。

无论是游戏、餐厅还是天气预报,统计学都可以帮助我们理解和解释现象,从而更好地应对各种问题。

希望这些有趣的统计学案例能够激发你对统计学的兴趣,让你在日常生活中也能够运用统计学的知识来思考和解决问题。

统计与统计案例PPT课件

统计与统计案例PPT课件
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学

专题六第3讲统计与统计案例

专题六第3讲统计与统计案例

A.10
考 点 核 心 突 破
B.11
C.12
D.16
训 练 高 效 提 能


高考专题辅导与训练· 数学(理科)
第一部分 法
基 础 要 点 整 合
专题六
概率与统计、推理与证明、复数、算
解 题 规 范 流 程
考 点 核 心 突 破
[自主解答] (1)依表知 x+y+z=4 000-2 000 =2 000, x 4 000=0.2,于是 x=800, 1 y+z=1 200,高二抽取学生人数为 1 200×40=30. (2)因为 29 号、42 号的号码差为 13, 所以 3+13=16, 即另外一个同学的学号是 16,选 D.
考 点 核 心 突 破
A.- x 甲>- x 乙,y 甲>y 乙 C.- x 甲<- x 乙,y 甲>y 乙
菜 单
B.- x 甲<- x 乙,y 甲<y 乙 D.- x 甲>- x 乙,y 甲<y 乙
训 练 高 效 提 能
高考专题辅导与训练· 数学(理科)
第一部分 法
基 础 要 点 整 合
专题六
概率与统计、推理与证明、复数、算
考 点 核 心 突 破
训 练 高 效 提 能


高考专题辅导与训练· 数学(理科)
第一部分 法
基 础 要 点 整 合
专题六
概率与统计、推理与证明、复数、算
解 题 规 范 流 程
(2)(2013·潍坊二模)某市为增强市民的节约粮食意识, 面向全市征召务宣传志愿者,现从符合条件的志愿者中 随机抽取100名按年龄分组:第 1组[20,25) ,第2组 [25,30), 第 3 组 [30,35) ,第 4 组 [35,40) ,第 5 组 [40,45] ,得到的频率 分布直方图如图所示.若用分层抽样的方法从第 3,4,5 组

概率与统计:统计与统计案例

概率与统计:统计与统计案例

y1 x1 x2 总计 a c
y2 b d
总计 a+b c+d
a+c
b+d
n
2 n ( ad - bc ) 则 K2= (其中 n=a+b+ (a+b)(c+d)(a+c)(b+d)
c+d 为样本容量).
【题型突破】
题型一、抽样方法 【例 1】 (1) 某校老年、中年和青年教师的人数见下表,采用分层
(2)根据题意,样本中分数不小于 50 的频率为 (0.01+0.02+0.04+0.02)×10=0.9, 分数在区间[40,50)内的人数为 100-100×0.9-5=5. 5 所以总体中分数在区间[40,50)内的人数估计为 400× =20. 100 (3)由题意可知,样本中分数不小于 70 的学生人数为 (0.02+0.04)×10×100=60, 1 所以样本中分数不小于 70 的男生人数为 60×2=30. 所以样本中的男生人数为 30×2=60,女生人数为 100-60=40, 男生和女生人数的比例为 60∶40=3∶2. 所以根据分层抽样原理, 总体中男生和女生人数的比例估计为 3∶2.
易求 x 甲=65.2, x 乙=61.8,知 x 甲> x 乙,②正确. 又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散, ∴s 甲<s 乙,③错误, 因此符合茎叶图所给数据的结论是①②④.
【答案】 C
【例3】我国是世界上严重缺水的国家,某市政府为了鼓励居民节
约用水,计划调整居民生活用水收费方案,拟确定一个合理的 月用水量标准 x( 吨 ) ,一位居民的月用水量不超过 x 的部分按平 价收费,超出x的部分按议价收费 .为了了解居民用水情况,通 过抽样,获得了某年100位居民每人的月均用水量(单位:吨),

高中数学统计与统计案例全章复习题型完美版

高中数学统计与统计案例全章复习题型完美版

第八章统计与统计案例第1节随机抽样最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1)先将总体的N个个体编号.(2)确定分段间隔K,对编号进行分段,当Nn是整数时,取k=Nn,当Nn不是整数时,随机从总体中剔除余数,再取k=N′n(N′为从总体中剔除余数后的总数).1知识梳理(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k).(4)按照一定的规则抽取样本,通常是将l 加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样.2题型分类【例1】下列抽取样本的方式属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3【例2】(2017?葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A.12B.33C.06D.16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A.随机抽样B.分层抽样C.系统抽样D.以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3【变式1】(2017?大连二模)某单位员工按年龄分为A,B,C三组,其人数之比为5:4:1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到1,则该单位员工总数为()的概率是9A.110B.10C.90D.80【变式2】(2017?黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18D.19【变式3】(2017?宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层2,则男运动员应抽取()抽样的方法抽取一个样本,每名运动员被抽到的概率都是7A.18人B.16人C.14人D.12人3课后作业1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,6,16,323.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显着差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9B.10C.12D.134.将参加英语口语测试的1 000名学生编号为000,001,002,...,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002, (019)且第一组随机抽取的编号为015,则抽取的第35个编号为( )A.700B.669C.695D.6765.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )A.1030人B.97人C.950人D.970人第2节用样本估计总体最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;1知识梳理第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征方差s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中s为标准差题型一茎叶图【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92【例2】(2016?唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:(1)补全茎叶图并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.2题型分类【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )A.2,5B.5,5C.5,8D.8,8【变式2】(2015秋?宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.题型二频率分布直方图【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.【变式1】(2017?东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.【变式2】(2016秋?威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.【变式3】(2017?灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.(1)求成绩在[600,650)的频率;(2)根据频率分布直方图算出样本数据的中位数;(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?【例4】(2017?唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:使用时间[0,2](2,4](4,6](6,8](8,10]人数104025205(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;(2)作出这些数据的频率分布直方图;(3)估计该校大学生每周使用共享单车的平均时间t(同一组中的数据用该组区间的中点值作代表).【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?【例5】(2017?肇庆三模)某市房产契税标准如下:从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.3课后作业1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )A.19B.20C.21.5D.232.我国古代数学名着《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ( )A.134石B.169石C.338石D.1365石3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A .45B .50C .55D .604.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9-3-11中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个5.(2015?广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?第3节线性回归方程最新考纲:1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.1知识梳理1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则∑∑∑∑====∧--=---=ni i ni ii ni i ni i i xn x yx n yx x x y y x x b 1221121)())((,x b y a ∧∧-=.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.相关系数a .计算公式:∑∑∑===----=ni ni iini ii y yx x y yx x r 11221)()())((b .当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2题型分类题型一相关关系的判断【例】某公司2010~2015年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:根据统计资料,则()A.利润中位数是16,x与y有正线性相关关系B.利润中位数是17,x与y有正线性相关关系C.利润中位数是17,x与y有负线性相关关系D.利润中位数是18,x与y有负线性相关关系【变式】对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关题型二线性回归分析【例1】(2017?延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为yˆ=0.7x+0.35,则下列结论错误的是()A.线性回归直线一定过点(4.5,3.5)B.产品的生产能耗与产量呈正相关C .t 的取值必定是3.15D .A 产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017?南昌一模)设某中学的高中女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为yˆ=0.85x?85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系B .回归直线过样本的中心点(y x ,)C .若该中学某高中女生身高增加1cm ,则其体重约增加0.85kgD .若该中学某高中女生身高为160cm ,则可断定其体重必为50.29kg【例2】(2017?西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:据上表得回归直线方程a x b yˆˆˆ+=,其中76.0ˆ=b ,x b y a ˆˆˆ-=,据此估计,该社区一户收入为15万元家庭年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【变式2】(2017?成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):由表可得到回归方程为a x yˆ2.10ˆ+=,据此模型,预测广告费为10万元时的销售额约为( )A .101.2B .108.8C .111.2D .118.2题型三 线性相关关系检验【例1】(2017?广西一模)在两个变量y 与x 的回归模型中,分别选择了四个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的为( )A .模型①的相关指数为0.976 C .模型③的相关指数为0.076B .模型②的相关指数为0.776D .模型④的相关指数为0.351【例2】(2015春?祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:求年推销金额y 与工作年限x 之间的相关系数.【变式】(2017?泉州模拟)关于衡量两个变量y 与x 之间线性相关关系的相关系数r 与相关指数R 2中,下列说法中正确的是( )A .r 越大,两变量的线性相关性越强 C .r 的取值范围为(-∞,+∞)B .R 2越大,两变量的线性相关性越强D .R 2的取值范围为[0,+∞)题型四 线性回归方程【例1】(2017?乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x (百元)与日销售量y (件)之间有如下关系:(1)求y 关于x 的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017?全国模拟)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄y i(单位:千元)的数据资料,算得∑==10180iix,∑==10120iiy,∑==101184iiiyx,∑==10 12720iix.(1)求家庭的月储蓄y关于月收入x的线性回归方程ax byˆˆˆ+=;(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.【例2】(2017?甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:32.971=∑=i i y ,17.4071=∑=i i i y t ,55.0)(271=-∑=y yi i,646.27≈.参考公式:相关系数()()niit t y y r --=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y btt ==--=-∑∑,=.a y bt -【例3】(2017?河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:①用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;②求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.参考公式:相关系数∑∑∑===----=ni ni i i ni ii y y x x y yx x r 11221)()())((,∑∑==---=ni ini i ix xy y x xb 121)())((.参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i i x x ,456)(812≈-∑=i i y y ,550)(812≈-∑=i i z z ,668)()(81≈--∑=y y x xi i i,755)()(81≈--∑=z z x xi i i,4.321050≈,4.21456≈,5.23550≈.【变式2】(2017?汕头一模)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(a bˆ,ˆ小数点后保留两位有效数字). (3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:4.18761=∑=i i i y x ,64.4761=∑=i i i z x ,139612=∑=i i x ,96.13)(261=-∑=y y i i,53.1)(261=-∑=z zi i,38.046.1ln ≈,34.07118.0ln ≈.【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.y46.56. 6.表中i ww =1881i i w =∑.(1)根据散点图判断,y a bx =+与y c d x =+,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(I )的判断结果及表中数据,建立y 关于x 的回归方程.附:对于一组数据),(),,(2211v u v u ,……,),(n n v u ,其回归线u v βα+=的斜率和截距的最小二乘估计分别为:∑∑==---=ni ini i iu uv v u u121)())((ˆβ.【变式3】(2017?衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x (天数)与销售单价y (元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中ii x w 1=,∑==101101i i w w .(1)根据散点图判断,a bx y+=ˆ,c xdy ˆˆˆ+=哪一个更适宜作价格y 关于时间x 的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y 关于x 的回归方程;(3)若该产品的日销售量g (x )(件)与时间x 的函数关系为120100)(+-=xx g (x ∈N *),求该产品投放市场第几天的销售额最高?最高为多少元?3课后作业1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显着B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是yˆ=0.849x-85.712,则第3名学生的体重估计为_____kg.3.(2017?合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):(1)求y关于x的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:∑∑==---=niiniiixxyyxxb121)())((,选用数据:1.1231=∑=niiiyx,1.512=∑=ni ix4.(2017?包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2017年该企业污水净化量;(3)请用数据说明回归方程预报的效果.附注:参考数据:54=y ,21))((71=--∑=i i i y y t t ,74.314≈,49)ˆ(712=-∑=i i i yy . 参考公式:相关系数∑∑∑===----=ni ni i i ni i iy y t t y y t tr 11221)()())((,∑∑==---=ni ini i it ty y t tb121)())((ˆ.反映回归效果的公式第4节独立性检验最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1知识梳理一.2×2列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。

统计、统计案例

统计、统计案例

1 0 .0 , 第 一 、 三 、
四 、 五 小 组 的 频 率 分 布 别 是 ∴第 二 小 组 的 频 率 为 : 1 .0 0 -( 0 3 .0
+0 1 .5 +0 1 .0 +0 0 .5 )
=0 4 .0 .
第十章
统计、统计案例
走向高考 ·高考总复习 ·北师大版 ·数学
∴落在 5 9 5 . ~6 9 5 .
方法,即简单随机抽样、系统抽样、分层抽样.
第十章
统计、统计案例
为了考查某校的教学水平,将抽查这个学校高三年级的部分学
生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进行抽查 (已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了
学号,假定该校每班学生的人数相同):
①从高三年级 20 个班中任意抽取一个班,再从该班中任意抽取 20 名学 生,考察他们的学习成绩;
2
13)2] =0 8 ..
2 ( 2 ) 由 s2 > s 知 乙 的 成 绩 较 稳 定 . 从 折 线 图 看 , 甲 成 绩 基 甲 乙可
本 呈 上 升 状 态 , 而 乙 的 成 绩 上 下 波 动 , 可 知 甲 的 成 绩 在 不 断 提 高 , 而 乙 的 成 绩 则 无 明 显 提 高 .
法 抽 取 6 0 人 ; 在 普 通 生 中 用 简 单 随 机 抽 样 法 抽 取
第十章
统计、统计案例
走向高考 ·高考总复习 ·北师大版 ·数学
关于用样本估计总体的问题 用样本估计总体,主要包括用样本的频率分布估计总体的 分布,用样本的数字特征去估计总体的数字特征两部分内容, 这两部分是从不同角度对收集到的样本数据进行加工、整理, 并分析、判断样本数据的分布状况和数字特征,进而对总体进

统计学案例

统计学案例

统计学案例总量指标与相对指标案例1:指出下面的统计分析报告摘要错在哪里?并改正:1、本厂按计划规定,第一季度的单位产品成本应比去年同期降低10%,实际执行结果是,单位产品成本较去年同期降低8%,仅完成产品成本计划的80%(即8%÷10%=80%)。

2、本厂的劳动生产率(按全部职工计算)计划在去年的基础上提高8%,计划执行结果仅提高4%,劳动生产率的计划任务仅实现一半(即4%÷8%=50%)。

3、该车间今年1月份生产老产品的同时,新产品首次小批投产,出现了2件废品(按计算,车间废品率为1.2%)。

2月份老产品下马,新产品大批投产,全部制品1000件,其中废品8件,废品量是1月份的4倍,因此产品质量下降了。

4、在组织生产中,本厂先进小组向另一组提出高产优质的挑战竞赛。

本月先进小组的产量超过了另一小组的1倍,但是在两组废品总量中该组却占了60%,所以在产品质量方面,先进小组明显地落后了。

案例11试计算所有可能计算的相对指标。

案例2:根据下表资料分析哪个企业对社会贡献更大?平均指标与变异指标案例3、以组平均数补充说明总平均数案例4:某单位有10个人,其中1人月工资为10万元,9人每人月工资为1000元。

该单位职工月平均工资为10900元。

即:)(109001091000100000元=⨯+你认为这个平均数有代表性吗?如果缺乏代表性应如何改正?案例5:以下是各单位统计分析报告的摘录1、 本局所属30个工厂,本月完成生产计划的情况是不一致的。

完成计划90%的有3个,完成96%的有5个,完成102%的有10个,完成110%的有8个,完成120%的有4个。

平均全局生产计划完成程度为104.33%。

即:304%1208%11010%1025%963%90⨯+⨯+⨯+⨯+⨯=104.33%2、 本厂开展增产节约运动以后,产品成本月月下降,取得显著的成绩,根据财务部门的报告,1 月份开支总成本15000元,平均单位产品成本为15元,2月份开支总成本25000元,平均单位产品成本下降为10元,3月份开支总成本45000元,平均单位产品成本仅8元。

高中数学《统计与统计案例》课件

高中数学《统计与统计案例》课件
^
设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y =99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用 模型②得到的预测值更可靠.
13
考点整合
1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样, 体现了抽样的公平性,但又各有其特点和适用范围.
位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5
B.0.6
C.0.7
D.0.8
解析 法一 设调查的 100 位学生中阅读过《西游记》的学生人数为 x,则 x+80-60
=90,解得 x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计
值为17000=0.7.故选 C.
解 (1)由调查数据,男顾客中对该商场服务满意的比率为4500=0.8,因此男顾客对该商场
服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为3500=0.6,因此女顾
客对该商场服务满意的概率的估计值为 0.6.
8
(2)K2 的观测值 k=100×5(0×405×0×207-0×303×010)2≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务 的评价有差异.
^
利用模型②,该地区 2018 年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿 元).
12
(2)利用模型②得到的预测值更可靠. 理由如下: 从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+ 13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境 基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础

09统计案例

09统计案例

12
28
性格
外向
43
17
研究案例(8)
某教师想考察英语学习过程中社会支持(一个人 能向其他人寻求支持的程度)能否预测学生英 语学习心理健康。他从所教的学生中随机抽取 了25名,测量了他们的社会支持和心理健康指 标(百分制,且得分越高,程度越高)。他应 用什么方法分析数据?
研究案例(4)
王老师在某培训学校进行CET-4考前辅导。临 考前,他用一套模拟题给所教学生进行了 模拟考试,并计算出分数。正式考试后, 他收集到了每位学生的考分。他想考察, 模拟考试的成绩在多大程度上反应了学生 的真实成绩,该用什么方法?为什么?
研究案例(5)
孙老师凭多年教学经验发现,父母职业背景对 学生英语学习态度有一定影响。于是,他 调查了父母是公务员、外企公司职员和英 语教师这三类学生的英语学习态度(态度 用Likert五点量表测量)。他该用什么方法 考察这些学生的态度差异?为什么?
一位研究员想考察性格类型(内向型、外向型)和学习方式选 择(小组学习、自学)是否有关系。他对100名参加这项研 究的人做了性格测试,分成内向型和外向型两组。然后要求 每个参与者在小组学习和自学两者之中选择更喜欢的学习方 式(结果如下)。他应采用什么方法分析数据?
单位:人数
喜欢的学习方式
小组学习
自学
内向
研究案例(6)
某校心理咨询师想考察两种治疗方法(1. 认知行为; 2. 精神分析)控制英语学习焦虑的效果。30名自 陈有英语学习焦虑感的学生被随机分配接受两个 疗法(每组15人)。一个学期后,他记录下每个 人的焦虑得分。他想考察哪种治疗方法更有效地 缓解了焦虑症状,应该用什么方法?
研究案例(7)
统计方法与数据分析
———研究案例

2021年数学一轮复习考点与题型总结:第十章 统计与统计案例 (1)

2021年数学一轮复习考点与题型总结:第十章 统计与统计案例 (1)

第十章统计与统计案例第一节随机抽样一、基础知识1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.n 是样本容量)是整数时,取k=Nn当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.;二、常用结论(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.(4)三种抽样方法的特点、联系及适用范围考点一简单随机抽样[典例] 下列抽取样本的方式属于简单随机抽样的个数有( )①从无限多个个体中抽取100 个个体作为样本;②盒子里共有80 个零件,从中选出5 个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③用抽签方法从10 件产品中选取3 件进行质量检验;④某班有56 名同学,指定个子最高的 5 名同学参加学校组织的篮球赛.A.0 个B.1 个C.2 个D.3 个[解析] ①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.[答案] B[解题技法] 应用简单随机抽样应注意的问题= (1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的 数字舍去.[题组训练]A.08 C .02 D .012.利用简单随机抽样,从 n 个个体中抽取一个容量为 10 的样本.若第二次抽取时,余 下的每个个体被抽到的概率为1,则在整个抽样过程中,每个个体被抽到的概率为()3A.1 4C. 5 14解析:选 C 根据题意, 9 1,n -1 3B.1 3 D.10 27 解得 n =28.故在整个抽样过程中每个个体被抽到的概率为10= 5.28 14考点二 系统抽样[典例] (1)某校为了解 1 000 名高一新生的身体生长状况,用系统抽样法(按等距的规A .16B .17C .18D .19(2)中央电视台为了解观众对某综艺节目的意见,准备从 502 名现场观众中抽取 10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除个个体,抽样间隔为 .[解析] (1)因为从 1 000 名学生中抽取一个容量为 40 的样本,所以系统抽样的分段间隔 为1 000=25,40设第一组随机抽取的号码为 x ,(2)把 502 名观众平均分成 50 组,由于 502 除以 50 的商是 10,余数是 2,所以每组有 10 名观众,还剩 2 名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从 502500,并均匀分成 50 段,每段含50010 个个体.所以需剔除 2 个个体,抽样间隔为 10. 50[答案] (1)C (2)2 10[变透练清]解析:从 1 000 名学生中抽取一个容量为 40 的样本,系统抽样分 40 组,每组1 000=2540 个号码,每组抽取一个,从 501 到 750 恰好是第 21 组到第 30 组,共抽取 10 人.答案:10本,若在第 1 组中随机抽取的号码为 5,则在第 6 组中抽取的号码为.解析:由题知分组间隔为64=8,又第 1 组中抽取的号码为 5,所以第 6 组中抽取的号8 码为 5×8+5=45.答案:45系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是 第 1 组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.[提醒] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽 样从总体中剔除几个个体,然后再按系统抽样进行.考点三 分层抽样=[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000 人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽取100 人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( ) A.25,25,25,25 B.48,72,64,16C.20,40,30,10 D.24,36,32,8[ 解析] 法一:因为抽样比为100 = 1 ,所以每类人中应抽取的人数分别为20 000 2004 800×1=24,7 200×1=36,6 400×1=32,1 600×1=8. 200 200 200 200法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2,所以每类人中应抽取的人数分别为6×100=24,9×100=36,6+9+8+28 2×100=32,×100=8.6+9+8+26+9+8+2[答案] D6+9+8+2[解题技法] 分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.(3) 分层抽样的计算应根据抽样比构造方程求解,其中“ 抽样比=样本容量=总体容量各层样本数量”.各层个体数量[题组训练]1.(2019·山西五校联考)某校为了解学生的学习情况,采用分层抽样的方法从高一1 000 人、高二1 200 人、高三n 人中抽取81 人进行问卷调查,若高二被抽取的人数为30,则n =( )A.860 B.720C.1 020 D.1 040解析:选D 由已知条件知抽样比为30=1,从而81=1,解得n=1 200 40 1 000+1 200+n 40= ,06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 491 040,故选 D.2.(2018·广州高中综合测试)已知某地区中小学学生人数如图所示.为了解该区学生参加某项社会实践活动的意向,拟采用分层抽样的方法来进 行调查.若高中需抽取 20 名学生,则小学与初中共需抽取的学生人数为.解析:设小学与初中共需抽取的学生人数为 x ,依题意可得1 20020解得 x =85.答案:85[课时跟踪检测]2 700+2 400+1 200 x +201.从 2 019 名学生中选取 50 名学生参加全国数学联赛,若采用以下方法选取:先用简 单随机抽样法从 2 019 名学生中剔除 19 名学生,剩下的 2 000 名学生再按系统抽样的方法抽取,则每名学生入选的概率()A .不全相等B .均不相等C .都相等,且为 502 019解析:选 C 从 N 个个体中抽取 M名学生入选的概率都相等,且为 50.2 019D .都相等,且为 140个个体,则每个个体被抽到的概率都等于M,故每N2.福利彩票“双色球”中红球的号码可以从 01,02,03,…,32,33 这 33 个两位号码中选取,小明利用如下所示的随机数表选取红色球的 6 个号码,选取方法是从第 1 行第 9 列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )A.12 B .33 C .06D .16解析:选 C 被选中的红色球的号码依次为 17,12,33,06,32,22,所以第四个被选中的红色球的号码为 06.3.某班共有学生 52 人,现根据座号,用系统抽样的方法,抽取一个容量为 4 的样本.已知 5 号、18 号、44 号同学在样本中,那么样本中还有一个同学的座号是()A .23B .2781 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85C .31D .33解析:选 C 分段间隔为52=13,故样本中还有一个同学的座号为 18+13=31.4 4.某工厂在 12 月份共生产了 3 600 双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为 a ,b ,c ,且 a ,b , c 构成等差数列,则第二车间生产的产品数为()A .800 双B .1 000 双C .1 200 双D .1 500 双解析:选 C 因为 a ,b ,c 成等差数列,所以 2b =a +c ,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占 12 月份生产 总数的三分之一,即为 1 200 双皮靴.5.(2018·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A .100,20B .200,20C .200,10D .100,10解析:选 B 由题图甲可知学生总人数是 10 000,样本容量为 10 000×2%=200,抽取的高中生人数是 2 000×2%=40,由题图乙可知高中生的近视率为 50%,所以抽取高中生的近视人数为 40×50%=20,故选 B.=6,则在第 7 组中抽取的号码是() A .63 B .64 C .65D .66解析:选 A 若 m =6,则在第 7 组中抽取的号码个位数字与 13 的个位数字相同,而第A .7B .9C .10D .15解析:选 C 960÷32=30,故由题意可得抽到的号码构成以 9 为首项,以 30 为公差的等差数列,其通项公式为 a n =9+30(n -1)=30n -21.由 450<30n -21≤750,解得 15.7< n ≤25.7.又 n 为正整数,所以 16≤n ≤25,故做问卷 B 的人数为 25-16+1=10.故选 C.8.某企业三月中旬生产 A ,B ,C 三种产品共 3 000 件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别 A B C产品数量(件) 1 300 样本容量(件)130A 产品的样本容量比 C 产品的样本容量多 10,根据以上信息,可得 C 的产品数量是件.解析:设样本容量为 x ,则 x ×1 300=130,∴x =300.3 000 ∴A 产品和 C 产品在样本中共有 300-130=170(件). 设 C 产品的样本容量为 y ,则 y +y +10=170,∴y =80.∴C 产品的数量为3 00080=800(件). 300 答案:8009.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取 100 件做使用寿命的测试,则第一分厂应抽取的件数为;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为 1 020 小时、980 小时、1 030 小时,估计这个企业所生产的该产品的平均使用寿命为小时.解析:第一分厂应抽取的件数为 100×50%=50;该产品的平均使用寿命为 1 020×0.5 +980×0.2+1 030×0.3=1 015.答案:50 1 015×5 抽得的号码为 004,这 600 名选手穿着三种颜色的衣服,从 001 到 301 穿红色衣服,从 302 到 496 穿白色衣服,从 497 到 600 穿黄色衣服,则抽到穿白色衣服的选手人数为.2 5≤k ≤42,因此抽到穿白色衣服的选手人数为 42-25=17(人). 6答案:1711.某初级中学共有学生 2 000 名,各年级男、女生人数如下表:(1)求 x 的值;(2)现用分层抽样的方法在全校抽取 48 名学生,问应在初三年级抽取多少名? 解 :(1)∵ x=0.19,∴x =380.2 000(2)初三年级人数为 y +z =2 000-(373+377+380+370)=500,现用分层抽样的方法在 全校抽取 48 名学生,应在初三年级抽取的人数为 48×500=12(名).2 000第二节 用样本估计总体一、基础知识1.频率分布直方图(1)纵轴表示频率频率;(2),即小长方形的高= 组距 组距频率=频率; 小长方形的面积=组距×组距(3)各个小方形的面积总和等于 1 . 2.频率分布表的画法极差第一步:求极差,决定组数和组距,组距= ;组数第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 3.茎叶图茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.4.中位数、众数、平均数的定义 (1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数) 叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数一组数据的算术平均数即为这组数据的平均数,n 个数据 x 1,x 2,…,x n 的平均数 x = 1(x 1+x 2+…+x n ). n5.样本的数字特征如果有 n 个数据 x 1,x 2,…,x n ,那么这 n 个数的(1)平均数 x =1(x 1+x 2+…+x n ).n(2)标准差 s =(3)方差s2=1-x )2+(x -x )2+…+(x -x )2].[(x1 2 nn二、常用结论1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据x1,x2,…,x n的平均数为x ,则mx1+a,mx2+a,mx3+a,…,mx n+a 的平均数是m x +a.(2)若数据x1,x2,…,x n的方差为s2,则数据ax1+b,ax2+b,…,ax n+b 的方差为a2s2.考点一茎叶图[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5 B.5,5C.3,7 D.5,7[解析] 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,所以15×[56+62+65+74+(70+x)]=1×(59+61+67+65+78),解得x=3.5[答案] A[解题技法] 茎叶图的应用(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.甲 乙[题组训练]1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清, 但曾计算得该组数据的极差与中位数之和为 61,则被污染的数字为()A .1B .2C .3D .4解析:选 B 由图可知该组数据的极差为 48-20=28,则该组数据的中位数为 61-28 =33,易得被污染的数字为 2.2.甲、乙两名篮球运动员 5 场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为 x 甲, x 乙,则下列结论正确的是()A. x 甲< x 乙;乙比甲得分稳定B. x 甲> x 乙;甲比乙得分稳定C. x 甲> x 乙;乙比甲得分稳定D. x 甲< x 乙;甲比乙得分稳定解析:选 A 因为 x =2+7+8+16+22=11, x 5 =8+12+18+21+25=16.8,所5以 x < x 且乙比甲成绩稳定.考点二 频率分布直方图[典例] 某城市 100 户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200), [200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中 x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得 x =0.007 5.即直方图中 x 的值为 0.007 5.甲乙=(2)月平均用电量的众数是220+240=230. 2∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内.设中位数为 a ,则 0.45+0.012 5×(a -220)=0.5,解得 a =224,即中位数为 224. [变透练清]1.某校随机抽取 20 个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以 5 为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是()解析:选 A 以 5 为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为 1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项 A 中的图.2.(变结论)在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300] 的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量在[220,240)的用户中应抽取户.解析:月平均用电量在[220,240)的用户有 0.012 5×20×100=25(户).同理可得月平均 用电量在[240,260)的用户有 15 户,月平均用电量在[260,280]的用户有 10 户,月平均用电 量在[280,300]的用户有 5 户,故抽取比例为111.25+15+10+5 5所以月平均用电量在[220,240)的用户中应抽取 25×1=5(户).5 答案:53.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年 100 位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9 组,制成了如图所示的频率分布直方图.(1) 求直方图中 a 的值;(2)设该市有30 万居民,估计全市居民中月均用水量不低于3 吨的人数,说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)估计全市居民中月均用水量不低于3 吨的人数为3.6 万.理由如下:由(1)知,100 位居民中月均用水量不低于3 吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30 万居民中月均用水量不低于 3 吨的人数为300 000×0.12=36 000=3.6(万).考点三样本的数字特征考法(一) 样本的数字特征与频率分布直方图交汇[典例] (2019·辽宁师范大学附属中学模拟)某校初三年级有400 名学生,随机抽查了40 名学生测试1 分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是( )A.该校初三学生1 分钟仰卧起坐的次数的中位数为25B.该校初三学生1 分钟仰卧起坐的次数的众数为24C.该校初三学生1 分钟仰卧起坐的次数超过30 的人数约有80D.该校初三学生1 分钟仰卧起坐的次数少于20 的人数约为8[解析] 第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三.组数据的频率为 0.08×5=0.4,∴中位数在第三组内,设中位数为 25+x ,则 x ×0.08=0.5 -0.1-0.3=0.1,∴x =1.25,∴中位数为 26.25,故 A 错误;第三组数据所在的矩形最高, 第三组数据的中间值为 27.5,∴众数为 27.5,故 B 错误;1 分钟仰卧起坐的次数超过 30 的频率为 0.2,∴超过 30 次的人数为 400×0.2=80,故 C 正确;1 分钟仰卧起坐的次数少于20 的频率为 0.1,∴1 分钟仰卧起坐的次数少于 20 的人数为 400×0.1=40,故 D 错误.故选 C.[答案] C [解题技法]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数; (2)中位数左边和右边的小长方形的面积和是相等的; (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积 乘以小长方形底边中点的横坐标之和.考法(二) 样本的数字特征与茎叶图交汇[典例] 将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91.现场作的 9 个分数的茎叶图后来有 1 个数据模糊,无法辨认,在图中以 x 表示,则7 个剩余分数的方差为.[解析] 由茎叶图可知去掉的两个数是 87,99,所以 87+90×2+91×2+94+90+x =91×7,解得 x =4.故 s 2=1[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=36 [答案] 367 [解题技法]7 7样本的数字特征与茎叶图综合问题的注意点(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据, 因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.考法(三) 样本的数字特征与优化决策问题交汇[典例] (2018·周口调研)甲、乙两人在相同条件下各射击 10 次,每次中靶环数情况如图所示.(1)请填写下表(写出计算过程):平均数 方差命中 9环及 9 环以上的次数甲 乙(2)①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中 9 环及 9 环以上的次数相结合看(分析谁的成绩好些); ③从折线图上两人射击命中环数的走势看(分析谁更有潜力). [解] 由题图,知甲射击 10 次中靶环数分别为 9,5,7,8,7,6,8,6,7,7. 将它们由小到大排列为 5,6,6,7,7,7,7,8,8,9. 乙射击 10 次中靶环数分别为 2,4,6,8,7,7,8,9,9,10. 将它们由小到大排列为 2,4,6,7,7,8,8,9,9,10.(1) x = 1 ×(5+6×2+7×4+8×2+9)=7(环), 10x = 1 ×(2+4+6+7×2+8×2+9×2+10)=7(环), 10 s 2 = 1 ×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]= 1 ×(4+2+0+2+4) 10 10 =1.2,s 2 = 1 ×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2] 10 = 1×(25+9+1+0+2+8+9)=5.4. 10 填表如下:平均数 方差 命中 9 环及 9 环以上的次数甲乙甲乙(2)甲乙∴甲成绩比乙稳定.②∵平均数相同,命中9 环及9 环以上的次数甲比乙少,∴乙成绩比甲好些.③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.[解题技法]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[题组训练]1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示),则该样本中的中位数、众数、极差分别是( )A.46,45,56 B.46,45,53C.47,45,56 D.45,47,53解析:选A 样本共3045+47个,中位数为=46;显然样本数据出现次数最多的为45,2故众数为45;极差为68-12=56,故选A.2.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:平均环数x8.3 8.88.8 8.7方差s2 3.5 3.6 2.2 5.4) A.甲B.乙C.丙D.丁解析:选C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选C.3.某仪器厂从新生产的一批零件中随机抽取40 个进行检测,如图是根据抽样检测得到的零件的质量(单位:克)绘制的频率分布直方图,样本数据按照[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96]分成8 组,将其按从左到右的顺序分别记为第一组,第二组,……,第八组.则样本数据的中位数在第组.解析:由题图可得,前四组的频率为(0.037 5+0.062 5+0.075 0+0.100 0)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.100 0×2=8,故中位数在第四组.答案:四[课时跟踪检测]A 级1.一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60) 上的频率为0.8,则估计样本在[40,60)内的数据个数为( )A.14 B.15C.16 D.17解析:选B 由题意,样本中数据在[20,60)上的频数为30×0.8=24,所以估计样本在[40,60)内的数据个数为24-4-5=15.2.(2019·长春质检)如图所示是某学校某年级的三个班在一学期内的六次数学测试的平均成绩 y 关于测试序号 x 的函数图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:①一班成绩始终高于年级平均水平,整体成绩比较好; ②二班成绩不够稳定,波动程度较大;③三班成绩虽然多数时间低于年级平均水平,但在稳步提升. 其中正确结论的个数为()A .0B .1C .2D .3解析:选 D ①由图可知一班每次考试的平均成绩都在年级平均成绩之上,故①正确.② 由图可知二班平均成绩的图象高低变化明显,可知成绩不稳定,波动程度较大,故②正确.③ 由图可知三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选 D.3.(2018·贵阳检测)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行 整理后分为 5 组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是 40,则成绩在 80~100 分的学生人数是()A .15B .18C .20D .25解析:选 A 根据频率分布直方图,得第二小组的频率是 0.04×10=0.4,∵频数是 40, ∴样本容量是40=100,又成绩在 80~100 分的频率是(0.01+0.005)×10=0.15,∴成绩在0.4 80~100 分的学生人数是 100×0.15=15.故选 A.4.2017 年 4 月,泉州有四处湿地被列入福建省首批重要湿地名录,某同学决定从其中 A ,B 两地选择一处进行实地考察.因此,他通过网站了ABA B A B解上周去过这两个地方的人对它们的综合评分,并将评分数据记录为右图的茎叶图,记 A ,B 两地综合评分数据的均值分别为 x A , x B ,方差分别为 s 2 ,s 2 .若以备受好评为依据,则AB下述判断较合理的是( )A .因为 x A > xB ,s 2 >s 2,所以应该去A 地B .因为 x > x ,s 2 <s 2 ,所以应该去 A 地ABABC .因为 x < x ,s 2 >s 2 ,所以应该去 B 地ABABD .因为 x A < x B ,s 2 <s 2 ,所以应该去 B 地解析:选 B 因 为 x A =1×(72+86+87+89+92+94)≈86.67,x B =1×(74+73+88 6 6 +86+95+94)=85,s 2 ≈1[(72-86.67)2+(86-86.67)2+(87-86.67)2+(89-86.67)2+(92-86.67)2+(94- 6 86.67)2]≈50.56,s 2 =1[(74-85)2+(73-85)2+(88-85)2+(86-85)2+(95-85)2+(94-85)2]=76, 6所以 x > x ,s 2 <s 2 (A 数据集中,B 数据分散),ABAB所以 A 地好评分高,且评价稳定.故选 B.5.(2018·青岛三中期中)已知数据 x 1,x 2,…,x n 的平均数 x =5,方差 s 2=4,则数据 3x 1+7,3x 2+7,…,3x n +7 的平均数和标准差分别为()A .15,36B .22,6C .15,6D .22,36解析:选 B ∵x 1,x 2,x 3,…,x n 的平均数为 5, x 1+x 2+…+x n 3x 1+3x 2+…+3x n 3(x 1+x 2+…+x n ) ∴ =5,∴ n +7= n n +7=3×5+7=22.∵x 1,x 2,x 3,…,x n 的方差为 4,∴3x 1+7,3x 2+7,3x 3+7,…,3x n +7 的方差是 32×4 =36,故数据 3x 1+7,3x 2+7,…,3x n +7 的平均数和标准差分别为 22,6,故选 B.6.(2018·江苏高考)已知5 位裁判给某运动员打出的分数的茎叶图如图所示那么这 5 位裁判打出的分数的平均数为 .解析:这 5 位裁判打出的分数分别是 89,89,90,91,91,因此这 5 位裁判打出的分数的平89+89+90+91+91均数为 5答案:90=90.7.为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理 后,作出了如图所示的频率分布直方图.已知图中从左到右的前 3 个小组的频率之比为 1∶ 3∶5,第 2 个小组的频数为 15,则被抽查的美术生的人数是.解析:设被抽查的美术生的人数为n ,因为后2 个小组的频率之和为(0.037 5+ 0.0125)×5=0.25,所以前 3 个小组的频率之和为 0.75.又前 3 个小组的频率之比为 1∶3∶5,第 2个小组的频数为 15,所以前 3 个小组的频数分别为 5,15,25,所以 n =5+15+25 60.0.75答案:608.某人 5 次上班途中所花的时间(单位:分钟)分别为 x ,y,10,11,9.已知这组数据的平均数为 10,方差为 2,则|x -y |的值为.解析:由题意知这组数据的平均数为 10,方差为 2, 可得 x +y =20,(x -10)2+(y -10)2=8,设 x =10+t ,y =10-t ,由(x -10)2+(y -10)2=8 得 t 2=4, 所以|x -y |=2|t |=4.答 案 :4 9.某班 100 名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间 是[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中 a 的值;(2)根据频率分布直方图,估计这 100 名学生语文成绩的平均分;(3)若这 100 名学生语文成绩某些分数段的人数(x )与数学成绩相应分数段的人数(y )之比如表所示,求数学成绩在[50,90)之外的人数.分数段 [50,60) [60,70) [70,80) [80,90) x ∶y1∶12∶13∶44∶5(2)因为55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.所以这100 名学生语文成=。

大数据统计案例

大数据统计案例

大数据统计案例1. 零售业销售数据分析:一个大型零售公司通过收集和分析大量的销售数据,包括销售额、销售渠道、产品类别等信息,以了解不同产品的销售情况、销售趋势和消费者购买偏好,从而调整产品供应链和制定营销策略。

2. 金融风险评估:一家银行利用大数据分析客户的贷款申请、还款记录、信用评分等信息,以及外部数据如市场经济指标、行业数据等,对客户的信用风险进行评估和预测,以降低不良贷款风险。

3. 医疗健康管理:一家医疗机构通过收集和分析大量的医疗数据,如患者病历、医疗记录、医疗费用等,以及患者的生活习惯、基因信息等,来进行疾病预测、治疗方案优化和健康管理。

4. 交通流量优化:一座城市的交通管理部门通过收集和分析交通摄像头、车辆GPS数据等大量数据,以及天气预报、活动信息等外部数据,来实时监控交通流量、优化交通信号灯配时和交通路线规划,提高交通效率和缓解交通拥堵。

5. 社交媒体情感分析:一家社交媒体公司通过分析用户在社交平台上的帖子、评论和情感表达,以了解用户对不同产品、事件和话题的态度和情感,从而帮助企业制定营销策略和改进产品。

6. 电商推荐系统:一家电商公司通过分析用户的浏览、购买和评价行为,以及商品的属性、销售数据等,来推荐个性化的商品给用户,提高用户的购物体验和购买转化率。

7. 航空公司运营优化:一家航空公司通过收集和分析大量的航班数据、乘客数据和机场数据,以及天气、空管等外部数据,来优化航班调度、乘客服务和航空安全。

8. 物流配送优化:一家物流公司通过收集和分析物流订单、货物跟踪数据、配送路线等信息,以及交通、天气等外部数据,来优化配送路线、减少运输成本和提高配送效率。

9. 能源消耗管理:一家能源公司通过收集和分析能源消耗数据,如电力、水、燃气等,以及建筑、设备等相关数据,来进行能源消耗监控、能源管理和能效改进,以降低能源消耗和环境影响。

10. 人力资源分析:一家公司通过收集和分析员工招聘、培训、离职等数据,以及员工绩效、满意度调查等信息,来优化人力资源管理,包括招聘策略、培训计划和员工激励措施。

高考数学考点二十《统计与统计案例》课件

高考数学考点二十《统计与统计案例》课件

100
200
则 K2=2001×00(×6100×0×601-004×0×10400)2=8>6.635,
所以有 99%以上的把握认为是否持乐观态度与国内外差异有关.
四、解答题 13.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设 备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了 10 件产品,得到各件产品该项指标数据如下:
考点二十 统计与统计案例
一、选择题(在每小题给出的四个选项中,只有一项符合题目要求) 1.(2021·河北张家口第三次模拟)某中学春季运动会上,12 位参加跳高 半决赛同学的成绩各不相同,按成绩从高到低取前 6 位进入决赛,如果小明 知道了自己的成绩后,则他可根据其他 11 位同学成绩的哪个数据判断自己 能否进入决赛( )
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
答案 A 解析 易知题中图(1)和图(3)是正相关,图(2)与图(4)是负相关,且图(1) 与图(2)中的样本点集中分布在一条直线附近,则 r2<r4<0<r3<r1.故选 A.
5.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如
下列联表:


总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110

K2

n(ad-bc)2 (a+b)(c+d)(a+c)(b+d)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计与统计案例
用样本估计总体
■甲、乙、丙三人投掷飞镖,他们的成绩(环数)如下面的频数条形统计图所示,则甲、乙、丙三人训练成绩的方差的大小关系是()
A. B.
C. D.
解析:由于方差为表示数据离散程度的量,且数据越小越集中,
由条形统计图知,乙图最集中,丙图最分散,故.
答案:C
变量间的相关关系、统计案例
■对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断()
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
答案:C
■今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温
x(℃)之间的关系,随机统计了某4
,数据如下表:
由表中数据算出线性回归方程x+中的≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月毛衣的销售量的件数约为.
解析:由表格得()为(10,38),
1。

相关文档
最新文档