统计与统计案例
高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件
![高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件](https://img.taocdn.com/s3/m/367dfd40fd4ffe4733687e21af45b307e871f924.png)
解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.
到
的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从
到
的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.
则
认
为
生活中的统计学案例
![生活中的统计学案例](https://img.taocdn.com/s3/m/3390a40eb207e87101f69e3143323968011cf4ad.png)
生活中的统计学案例生活中的统计学案例无处不在,统计学作为一门应用广泛的学科,其实际应用涵盖了生活的方方面面。
从日常生活中的消费数据到医疗领域的疾病统计,从教育领域的学生成绩分析到经济领域的市场调查,统计学都扮演着不可或缺的角色。
下面,我们将通过几个生活中的具体案例,来展示统计学在实际生活中的应用。
首先,我们来看一个关于市场调查的案例。
某公司推出了一款新产品,想要了解消费者对该产品的满意度。
他们进行了一次市场调查,通过问卷调查的方式收集了大量数据。
在统计学的帮助下,他们可以对这些数据进行分析,得出消费者对产品的整体满意度,以及不同年龄、性别、地域等因素对满意度的影响。
通过统计学的分析,公司可以更好地了解消费者的需求,为产品的改进提供依据。
其次,我们来看一个关于医疗领域的案例。
某医院统计了一段时间内的疾病发病率数据,发现某种疾病的发病率呈上升趋势。
统计学的方法可以帮助医院分析这些数据,找出可能的病因和影响因素。
通过统计学的分析,医院可以及时采取相应的预防措施,有效控制疾病的传播。
再次,我们来看一个关于教育领域的案例。
某学校对学生的期末考试成绩进行了统计分析,发现数学成绩普遍较低。
通过统计学的方法,学校可以对学生的学习情况进行分析,找出存在的问题和不足之处。
同时,还可以通过统计学的方法,找出学习成绩较好的学生的学习方法和习惯,为其他学生提供学习的借鉴和指导。
最后,我们来看一个关于日常生活消费数据的案例。
某家庭通过统计每个月的生活消费数据,发现了一些意想不到的情况。
通过统计学的方法,他们可以对不同方面的消费进行分析,找出存在的问题和改进的空间。
通过统计学的分析,他们可以更好地理财,合理安排生活消费,提高生活质量。
通过以上几个生活中的统计学案例,我们可以看到统计学在实际生活中的重要作用。
无论是在市场调查、医疗领域、教育领域,还是在日常生活中的消费数据分析,统计学都可以为我们提供有力的支持和帮助。
因此,学习统计学,掌握统计学的方法和技巧,对我们的生活和工作都是非常有益的。
统计案例(精讲)(提升版)(原卷版)
![统计案例(精讲)(提升版)(原卷版)](https://img.taocdn.com/s3/m/edc22a40302b3169a45177232f60ddccda38e662.png)
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
统计与统计案例(文科)教程文件
![统计与统计案例(文科)教程文件](https://img.taocdn.com/s3/m/295de8350b1c59eef8c7b4c3.png)
统计与统计案例(文科)统计与统计案例第一节随机抽样1.下面的抽样方法是简单随机抽样的是( )A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验答案:D2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )答案:D3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A.50 B.40 C.25 D.20答案: C4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14答案:B5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.答案:46.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 B.100C.180 D.300答案:C7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.答案:58.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=()A.54 B.90 C.45 D.126答案:B9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.答案:3010.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案:180011.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.答案:40第二节用样本估计总体12.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案: D13.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.①直方图中的a=________;②在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案:①3 ②6 00014.某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.答案:1515.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )答案:A16.某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:①分别估计该市的市民对甲、乙两部门评分的中位数; ②分别估计该市的市民对甲、乙两部门的评分高于90的概率; ③根据茎叶图分析该市的市民对甲、乙两部门的评价.答案:①由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67. ②由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.③由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大. 17.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?答案:(1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300)的用户分别有15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×1=5(户).518.重庆市2013年各月的平均气温(℃)数据的茎叶图如下图,则这组数据的中位数是( )A.19 B.20 C.21.5 D.23答案:B19.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③ B.①④ C.②③ D.②④答案:B20.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环数x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4A.甲 B.乙 C.丙 D.丁答案:C第三节变量间的相关关系、统计案例1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√ 2.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③ 解析:选C 由散点图知③④具有相关关系.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ,则a =( )x 0 1 3 4 y2.24.34.86.7A.3.25 B .2.6 C .解析:选B 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.4.若回归直线方程为y ^=2-1.5x ,则变量x 增加一个单位,y ( )A .平均增加1.5个单位B .平均增加2个单位C .平均减少1.5个单位D .平均减少2个单位解析:选 C 因为回归直线方程为y ^=2-1.5x ,所以b ^=-1.5,则变量x 增加一个单位,y 平均减少1.5个单位.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.6.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )答案:D7.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案:B8.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案: C9.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2010)+a ^=6.5(x -2010)+3.2, 即y ^=6.5(x -2010)+260.2.(*)(2)利用回归直线方程(*),可预测2016年的粮食需求量为6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).10.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.精品资料仅供学习与交流,如有侵权请联系网站删除 谢谢11看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[听前试做](1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。
应用统计案例大赛优秀案例
![应用统计案例大赛优秀案例](https://img.taocdn.com/s3/m/18ff4a7d11a6f524ccbff121dd36a32d7375c72b.png)
应用统计案例大赛优秀案例今天就给大家分享一个超有趣的应用统计案例大赛的优秀案例。
一、案例背景。
这个案例聚焦在校园里,你也知道,校园可是个充满活力和各种消费潜力的小社会呢。
现在奶茶在校园里那可是相当火爆,所以有个团队就盯上了这个现象,想要通过统计分析来搞清楚校园奶茶消费背后的门道。
二、数据收集。
他们可没少费功夫。
首先是问卷调查,在校园各个角落“逮”同学来填问卷。
问题设计得也很巧妙,像“你一周喝几次奶茶?”“你通常会选择什么价位的奶茶?”“你是因为什么原因选择某一家奶茶店(口味、品牌、距离还是促销活动)?”等等。
除了问卷调查,他们还跑到奶茶店门口去做实地观察,统计不同时间段的进店人数、购买奶茶的种类,甚至还记录了顾客等待的时间。
这就像在奶茶店周围安了好多双小眼睛,把各种数据都抓得死死的。
三、数据分析过程。
1. 描述性统计。
把收集来的数据进行初步整理,发现了一些很有意思的东西。
比如说,通过对问卷中“一周喝奶茶次数”的统计,发现大部分同学一周会喝2 3次奶茶。
这就像找到了校园奶茶消费的一个基本节奏。
而且,在价位选择上,10 15元这个区间的奶茶是最受欢迎的,这可能和同学们的零花钱预算有关呢。
2. 相关性分析。
然后他们就开始玩更高级的了。
做相关性分析的时候,发现离教学楼或者宿舍近的奶茶店,即使品牌不是那么知名,生意也还不错。
这说明距离对同学们选择奶茶店有着不小的影响。
而且,他们还发现,当一家奶茶店推出新口味的时候,如果能配合一些促销活动,销售量就会有明显的上升。
这就像是找到了打开奶茶销售更多的两把小钥匙——新口味和促销。
3. 聚类分析。
这个就更酷了。
他们根据同学们的消费习惯,把同学们分成了不同的类。
比如说,有“奶茶狂热型”,这类同学不管什么情况,每天都要喝奶茶,而且对价格不是特别敏感,只要好喝就行;还有“性价比追求者”,他们会在不同奶茶店之间比较价格和分量,总是选择最划算的那一款;还有“偶尔尝鲜型”,平时不怎么喝奶茶,但是看到新口味或者特别的包装就会忍不住去试试。
高考数学二轮复习专题突破—统计与统计案例(含解析)
![高考数学二轮复习专题突破—统计与统计案例(含解析)](https://img.taocdn.com/s3/m/73e5ed8ab1717fd5360cba1aa8114431b90d8e16.png)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
2021年高考数学(文)一轮复习讲义第11章高考专题突破六高考中的概率与统计统计案例
![2021年高考数学(文)一轮复习讲义第11章高考专题突破六高考中的概率与统计统计案例](https://img.taocdn.com/s3/m/ad219d000242a8956aece403.png)
高考专题突破六高考中的概率与统计、统计案例统计与统计案例例1(2022·长沙市雅礼中学模拟)随着智能 的普及,使用 上网成为了人们日常生活的一局部,很多消费者对 流量的需求越来越大.某通信公司为了更好地满足消费者对流量的需求,准备推出一款流量包.该通信公司选了人口规模相当的4个城市采用不同的定价方案作为试点,经过一个月的统计,发现该流量包的定价x (单位:元/月)和购置总人数y (单位:万人)的关系如表:定价x (元/月) 20 30 50 60 年轻人(40岁以下) 10 15 7 8 中老年人(40岁以及40岁以上)20 15 3 2 购置总人数y (万人)30301010(1)计10元/月的流量包将有多少人购置(2)假设把50元/月以下(不包括50元)的流量包称为低价流量包,50元以上(包括50元)的流量包称为高价流量包,试运用独立性检验知识,填写下面列联表,并通过计算说明能否在犯错误的概率不超过0.01的前提下,认为购置人的年龄大小与流量包价格上下有关小于50元大于或等于50元总计 年轻人(40岁以下) 中老年人(40岁以及40岁以上)总计参考公式:y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=i =1n (x i -x )(y i -y )i =1n (x i -x )2,a ^=y -b ^x .K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:P (K 2≥k 0)0.100.050.0250.0100.0050.001解(1)x =20+30+50+604=40,y =30+30+10+104=20,b ^=i =1n (x i -x )(y i -y )2i =1n (x i -x )2=-20×10-10×10+10×(-10)+20×(-10)(-20)2+(-10)2+102+202=-0.6,a ^=y -b ^x =20-(-0.6)×40=44, 所以y 关于x 的回归方程是y ^=-0.6x +44,当x =10时,y =38,估计10元/月的流量包将有38万人购置. (2)K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )=80×(25×5-35×15)60×20×40×40≈6.667,因为6.667>6.635,所以能在犯错误的概率不超过0.01的前提下,认为购置人的年龄大小与流量包价格上下有关. 思维升华统计与统计案例在解答题中考查时,以频率分布直方图、线性回归方程与独立性检验为重点,充分表达了数学核心素养——数据分析.跟踪训练1(2022·湖北省荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动〞的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光〞为口号的课外活动建议.为调查该校学生每周平均体育运动时间的情况,从高一、高二根底年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如下列图的频率分布直方图.(高一年级共有1200名学生)(1)据图估计该校学生每周平均体育运动时间.并估计高一年级每周平均体育运动时间缺乏4小时的人数;(2)规定每周平均体育运动时间不少于6小时记为“优秀〞,否那么为“非优秀〞,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成以下2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关.〞根底年级高三 总计 优秀 非优秀 总计300附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).参考数据:P (K 2≥k 0)0.100 0.050 0.010 0.005 k 02.7063.8416.6357.879解(1)该校学生每周平均体育运动时间为x =1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8,样本中高一年级每周平均体育运动时间缺乏4小时的人数为300×410×(0.025×2+0.100×2)=30.又样本中高一的人数有120,所以估计高一年级每周平均体育运动时间缺乏4小时的人数约为1200×30120=300.(2)列联表如下:根底年级 高三 总计 优秀 105 30 135 非优秀 105 60 165 总计21090300K 2=300×(105×60-105×30)2210×90×135×165=70099≈7.071, 因为7.071>6.635,所以有99%的把握认为“该校学生的每周平均体育运动时间是否优秀与年级有关〞.古典概型与统计的综合应用例2(2022·华中师大附中、实验中学、广雅中学、深圳中学四校联考) 汉字听写大会 不断创收视新高,为了防止“书写危机〞,弘扬传统文化,某市对全市10万名市民进行了汉字听写测试,现从某社区居民中随机抽取25名市民进行听写测试情况,发现被测试市民正确书写汉字的个数全部在160到184之间,将测试结果按如下方式分成六组:第一组[160,164),第二组[164,168),…,第六组[180,184],如图是按上述分组方法得到的频率分布直方图. (1)假设电视台记者要从抽取的市民中选1人进行采访,求被采访人恰好在第1组或第4组的概率;(2)第1组市民中男性有3名,组织方要从第1组中随机抽取2名市民组成弘扬传统文化宣传队,求至少有1名女性被选中的概率.解(1)被采访人恰好在第1组或第4组的频率为(0.05+0.02)×4=0.28, ∴估计被采访人恰好在第1组或第4组的概率为0.28. (2)第1组[160,164)的人数为0.05×4×25=5, ∴第1组中共有5名市民,那么其中女性市民共2名,记第1组中的3名男性市民分别为A ,B ,C,2名女性市民分别为x ,y ,从第1组中随机抽取2名市民组成宣传队,共有10个根本领件,列举如下:AB ,AC ,Ax ,Ay ,BC ,Bx ,By ,Cx ,Cy ,xy ,至少有1名女性Ax ,Ay ,Bx ,By ,Cx ,Cy ,xy ,共7个根本领件,∴从第1组中随机抽取2名市民组成弘扬传统文化宣传队,至少有1名女性的概率为710.思维升华古典概型与统计的综合题一般是先给出样本数据或样本数据的分布等,解题中首先要把数据分析清楚,明确频率可近似替代概率,抽象得到古典概型,把握根本领件的构成要素.跟踪训练2(2022·汉中模拟)槟榔原产于马来西亚,在中国主要分布在云南、海南及台湾等热带地区.槟榔是重要的中药材,在南方一些少数民族还将果实作为一种咀嚼嗜好品,但其被世界卫生组织国际癌症研究机构列为致癌物清单Ⅰ类致癌物.云南某民族中学为了解A ,B 两个少数民族班的学生咀嚼槟榔的情况,分别从这两个班中随机抽取5名学生进行调查,将他们平均每周咀嚼槟榔的颗数作为样本,绘制成如下列图的茎叶图(图中的茎表示十位数字,叶表示个位数字).(1)你能否估计哪个班的学生平均每周咀嚼槟榔的颗数较多(2)从A 班不超过19的样本数据中随机抽取一个数据记为a ,从B 班不超过21的样本数据中随机抽取一个数据记为b ,求a ≥b 的概率.解(1)A 班样本数据的平均值为15(9+11+14+20+31)=17,由此估计A 班学生平均每周咀嚼槟榔的颗数为17; B 班样本数据的平均值为15(11+12+21+25+26)=19,由此估计B 班学生平均每周咀嚼槟榔的颗数为19, 故估计B 班学生平均每周咀嚼槟榔的颗数较多.(2)A 班样本数据中不超过19的数据a 有3个,分别为9,11,14,B 班样本数据中不超过21的数据b 也有3个,分别为11,12,21.从A 班和B 班的样本数据中各随机抽取一个共有9种不同情况,分别为(9,11),(9,12),(9,21),(11,11),(11,12),(11,21),(14,11),(14,12),(14,21). 其中a ≥b 的情况有(11,11),(14,11),(14,12)3种, 故a ≥b 的概率P =39=13.古典概型与统计案例的综合应用例3(2022·河南八市重点高中联考)某县一中学的同学为了解本县成年人的交通平安意识情况,利用假期进行了一次全县成年人平安知识抽样调查.该县成年人中40%的人拥有驾驶证,先根据是否拥有驾驶证,用分层抽样的方法抽取了100名成年人,然后对这100人进行问卷调查,所得分数的频率分布直方图如下列图.规定分数在80以上(含80)的为“平安意识优秀〞.拥有驾驶证没有驾驶证总计 得分优秀 得分不优秀25 总计100(1)补全上面2×驶证〞有关(2)假设规定参加调查的100人中分数在70以上(含70)的为“平安意识优良〞,从参加调查的100人中根据平安意识是否优良,按分层抽样的方法抽出5人,再从5人中随机抽取3人,试求抽取的3人中恰有一人为“平安意识优良〞的概率. 附表及公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828解(1)列联表为K 2=100×(15×55-25×5)240×60×20×80=122596≈12.76>6.635, 所以有超过99%的把握认为“平安意识优秀与是否拥有驾驶证〞有关.(2)由频率分布直方图可求得70分以上(含70)的人数为100×(0.020+0.015+0.005)×10=40,所以按分层抽样的方法抽出5人时,“平安意识优良〞的有2人.记“平安意识优良〞的人分别为1,2,其余的3人分别为a ,b ,c ,从中随机抽取3人,根本领件有(1,2,a ),(1,2,b ),(1,2,c ),(1,a ,b ),(1,a ,c ),(1,b ,c ),(2,a ,b ),(2,a ,c ),(2,b ,c ),(a ,b ,c ),共10个,恰有一人为“平安意识优良〞的事件有6个,所以恰有一人为“平安意识优良〞的概率P =610=35.思维升华古典概型与统计案例相结合,要注意理解实际问题的意义,掌握独立性检验的计算公式及古典概型的根本领件的构成,才能有效地解决问题.跟踪训练3(2022·娄底期末)H 大学就业指导中心对该校毕业生就业情况进行跟踪调查,发现不同的学历对就业专业是否为所学专业有影响,就业指导中心从2022届的毕业生中,抽取了本科和研究生各50名,得到下表中的数据.(1)业生学历有关;(2)为了进一步分析和了解本科毕业生就业的问题,按分层抽样的原那么从本科毕业生中抽取一个容量为5的样本,要从5人中任选2人参加座谈,求被选取的2人中至少有1人就业为非所学专业的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解(1)由题意知,K 2=100(30×5-45×20)275×25×50×50=12>6.635,故能在犯错概率不超过0.01的前提下认为就业专业是否为所学专业与毕业生学历有关. (2)由题意知,所取样本中本科毕业生就业为所学专业的为3人,设为A ,B ,C ,非所学专业的为2人,设为a ,b .从5人中任选2人,其结果有(A ,B ),(A ,C ),(A ,a ),(A ,b ),(B ,C ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b ),共10种.记“至少有1人就业为非所学专业〞为事件S ,共有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b )7种情况,所以P (S )=710,即所求概率为710.例(12分)(2022·北京)改革开放以来,人们的支付方式发生巨大转变.近年来,移动支付已成为主要支付方式之一.为了解某校学生上个月A ,B 两种移动支付方式的使用情况,从全校所有的1000名学生中随机抽取了100人,发现样本中A ,B 两种支付方式都不使用的有5人,样本中仅使用A 和仅使用B 的学生的支付金额分布情况如下:(1)(2)从样本仅使用B 的学生中随机抽取1人,求该学生上个月支付金额大于2000元的概率; (3)上个月样本学生的支付方式在本月没有变化.现从样本仅使用B 的学生中随机抽查1人,发现他本月的支付金额大于2000元.结合(2)的结果,能否认为样本仅使用B 的学生中本月支付金额大于2000元的人数有变化说明理由. 标准解答解(1)由题意知,样本中仅使用A 的学生有27+3=30(人),仅使用B 的学生有24+1=25(人),A ,B 两种支付方式都不使用的学生有5人,故样本中A ,B 两种支付方式都使用的学生有100-30-25-5=40(人).[2分] 估计该校学生中上个月A ,B 两种支付方式都使用的人数为40100×1000=400.[4分](2)记事件C为“从样本仅使用B的学生中随机抽取1人,该学生上个月的支付金额大于2000元〞,=0.04,[8分]那么P(C)=125(3)记事件E为“从样本仅使用B的学生中随机抽查1人,该学生本月的支付金额大于2000元〞.假设样本仅使用B的学生中,本月支付金额大于2000元的人数没有变化,那么由(2)知,P(E)=0.04.[10分]答案例如1:可以认为有变化.理由如下:P(E)比较小,概率比较小的事件一般不容易发生.一旦发生,就有理由认为本月的支付金额大于2000元的人数发生了变化,所以可以认为有变化.[12分]答案例如2:无法确定有没有变化,理由如下:事件E是随机事件,P(E)比较小,一般不容易发生,但还是有可能发生的,所以无法确定有没有变化.[12分]第一步:审清题意,理清条件和结论,找到关键数量关系.第二步:找数量关系,把图表语言转化为数字,将图表中的数字转化为公式中的字母.第三步:建立解决方案,找准公式,根据图表数据代入公式计算数值.第四步:作出判断得结论,依据题意,借助数表作出正确判断.第五步:反思回忆,查看关键点、易错点和答题标准性.1.(2022·南宁适应性测试)某电子商务平台的管理员随机抽取了1000位上网购物者,并对其年龄(在10岁到69岁之间)进行了调查,统计情况如表所示.[30,40)(1)求a,b的值;(2)假设将年龄在[30,50)内的上网购物者定义为“消费主力军〞,其他年龄段内的上网购物者定义为“消费潜力军〞.现采用分层抽样的方式从参与调查的1000位上网购物者中抽取5人,再从这5人中抽取2人,求这2人中至少有一人是消费潜力军的概率.解(1)由题意得⎩⎪⎨⎪⎧a +b =500,ab =40000,a >b ,解得a =400,b =100.(2)由题意可知,在抽取的5人中,有3人是消费主力军,分别记为a 1,a 2,a 3,有2人是消费潜力军,分别记为b 1,b 2.记“这2人中至少有一人是消费潜力军〞为事件A .从这5人中抽取2人所有可能的情况为(a 1,a 2),(a 1,a 3),(a 1,b 1),(a 1,b 2),(a 2,a 3),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),共10种.符合事件A 的有(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),共7种.故所求概率为P (A )=710.2.(2022·南阳一中模拟)某校在一次期末数学测试中,为统计学生的考试情况,从学校的2000名学生中随机抽取50名学生的考试成绩,被测学生成绩全部介于60分到140分之间(总分值150分),将统计结果按如下方式分成八组:第一组[60,70),第二组[70,80),…,第八组[130,140],如图是按上述分组方法得到的频率分布直方图的一局部. (1)求第七组的频率,并完成频率分布直方图;(2)估计该校的2000名学生这次考试成绩的平均分(可用区间中点值代替各组数据平均值); (3)假设从样本成绩属于第一组和第六组的所有学生中随机抽取2名,求他们的分差小于10分的概率.解(1)由频率分布直方图知第七组的频率f 7=1-(0.004+0.012+0.016+0.03+0.02+0.006+0.004)×10=0.08.频率分布直方图如图.(2)估计该校的2000名学生这次考试的平均成绩为(3)第六组有学生3人,分别记作A 1,A 2,A 3,第一组有学生2人,分别记作B 1,B 2,那么从中任取2人的所有根本领件为(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 1,A 2),(A 1,A 3),(A 2,A 3),(B 1,B 2),共10个.分差大于10分表示所选2人来自不同组,其根本领件有6个:(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),所以从中任意抽取2人,分差小于10分的概率P =410=25.3.(2022·内江模拟)基于移动网络技术的共享单车被称为“新四大创造〞之一,短时间内就风行全国,给人们带来新的出行体验,某共享单车运营公司的市场研究人员为了了解公司的经营状况,对公司最近6个月的市场占有率y %进行了统计,结果如下表:出y 关于x 的线性回归方程;如果不能,请说明理由;(2)根据调研数据,公司决定再采购一批单车扩大市场,从本钱1000元/辆的A 型车和800元/辆的B 型车中选购一种,两款单车使用寿命频数如下表:假设每辆单车的使用寿命都是整数年,用频率估计每辆车使用寿命的概率,以平均每辆单车所产生的利润的估计值为决策依据,如果你是公司负责人,会选择采购哪款车型 参考数据:i =16(x i -x )(y i -y )=35,i =16(x i -x )2=17.5,i =16(y i -y )2=76,1330≈36.5.参考公式:相关系数r =i =1n (x i -x )(y i -y )i =1n (x i -x )2i =1n (y i -y )2,b ^=i =1n (x i -x )(y i -y )i =1n (x i -x )2,a ^=y -b ^x .解(1)由表格中数据可得,x =3.5,y =16.∵r =i =1n (x i -x )(y i -y )i =1n (x i -x )2i =1n (y i -y )2=3517.5×76=351330≈0.96.∴y 与月份代码x 之间具有较强的相关关系,故可用线性回归模型拟合两变量之间的关系.b ^=i =1n (x i -x )(y i -y )i =1n (x i -x )2=3517.5=2. ∴a ^=y -b ^x =16-2×3.5=9, ∴关于x 的线性回归方程为y ^=2x +9. (2)这100辆A 款单车平均每辆车的利润为1100(-500×10+0×30+500×40+1 000×20)=350(元), 这100辆B 款单车平均每辆车的利润为1100(-300×15+200×40+700×35+1 200×10)=400(元), ∴用频率估计概率,A 款单车与B 款单车平均每辆的利润估计值分别为350元、400元,应采购B 款车型.4.(2022·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:指数,绘制了频率分布直方图,经过分析研究,决定从2022年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,假设11月份被限行的概率为0.05. (1)求频率分布直方图中m 的值;(2)假设按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:90%的把握认为空气质量的优良与汽车尾气的排放有关.参考数据:参考公式:K 2=(a +b )(c +b )(a +c )(b +d ),其中n =a +b +c +d .解(1)因为限行分单双号,王先生的车被限行的概率为0.05, 所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m )×50+0.1=1,解得m =0.003. (2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,那么空气质量良好的天气被抽取的有4天,记作A 1,A 2,A 3,A 4,空气中度污染的天气被抽取的有2天,记作B 1,B 2,从这6天中随机抽取2天,所包含的根本领件有(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,B 1),(A 1,B 2),(A 2,A 3),(A 2,A 4),(A 2,B 1),(A 2,B 2),(A 3,A 4),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共15个,记事件A 为“至少有一天空气质量是中度污染〞,那么事件A 所包含的事件有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共9个,故P (A )=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:由表中数据可得,K 2=240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.5.某公司方案购置1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购置这种零件作为备件,每个200元.在机器使用期间,如果备件缺乏再购置,那么每个500元.现需决策在购置机器时应同时购置几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图.记x 表示1台机器在三年使用期内需要更换的易损零件数,y 表示1台机器在购置易损零件上所需要的费用(单位:元),n 表示购机的同时购置的易损零件数. (1)假设n =19,求y 与x 的函数解析式;(2)假设要求“需更换的易损零件数不大于n 〞的频率不小于0.5,求n 的最小值;(3)假设这100台机器在购机的同时每台都购置19个易损零件,或每台都购置20个易损零件,分别计算这100台机器在购置易损零件上所需费用的平均数,以此作为决策依据,购置1台机器的同时应购置19个还是20个易损零件 解(1)当x ≤19时,y =3800;当x >19时,y =3800+500(x -19)=500x -5700. 所以y 与x 的函数解析式为y =⎩⎪⎨⎪⎧3800,x ≤19,500x -5700,x >19(x ∈N ). (2)由柱状图知,需要更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.(3)假设每台机器在购机同时都购置了19个易损零件,那么这100台机器中有70台购置易损零件的费用为3800,20台的费用为4300,10台的费用为4800,因此这100台机器在购置易损零件上所需费用的平均数为1100(3800×70+4300×20+4800×10)=4000; 假设每台机器在购机同时都购置20个易损零件,那么这100台机器中有90台在购置易损零件上的费用为4000,10台的费用为4500,因此这100台机器在购置易损零件上所需费用的平均数为1100×(4000×90+4500×10)=4050.比较两个平均数可知,购置1台机器的同时应购置19个易损零件.。
有趣的统计学案例
![有趣的统计学案例](https://img.taocdn.com/s3/m/fd2ce43a00f69e3143323968011ca300a6c3f627.png)
有趣的统计学案例
第一个案例是有关“猜猜看”的游戏。
在这个游戏中,一个人会想一个数字,然后其他人可以猜这个数字是多少。
我们可以用统计学的方法来分析这个游戏。
比如,我们可以计算所有猜测的平均值,然后和真实的数字进行比较,看看平均值是否接近真实值。
通过这个案例,我们可以了解到平均值在统计学中的重要性,以及如何利用平均值来估计未知的数值。
第二个案例是有关“点菜”的餐厅统计。
假设我们去一家餐厅吃饭,我们可以观察到不同菜品被点的频率。
通过统计每道菜被点的次数,我们可以得出哪些菜是最受欢迎的,哪些菜是不受欢迎的。
这个案例可以帮助我们了解如何利用统计学来分析消费者的偏好,以及如何根据统计结果来调整菜单和经营策略。
第三个案例是有关“天气预报”的统计分析。
天气预报是我们日常生活中经常关注的事情,而天气预报的准确性也是大家关心的问题。
我们可以通过统计方法来分析天气预报的准确性,比如计算实际天气和预报天气的差异,然后得出准确率和误差范围。
通过这个案例,我们可以了解到如何利用统计学的方法来评估和改进天气预报的准确性。
通过以上几个案例,我们可以看到统计学在日常生活中的应用和意义。
无论是游戏、餐厅还是天气预报,统计学都可以帮助我们理解和解释现象,从而更好地应对各种问题。
希望这些有趣的统计学案例能够激发你对统计学的兴趣,让你在日常生活中也能够运用统计学的知识来思考和解决问题。
全国通用高考数学一轮总复习第十二章概率与统计统计与统计案例课件理新人教B版
![全国通用高考数学一轮总复习第十二章概率与统计统计与统计案例课件理新人教B版](https://img.taocdn.com/s3/m/c7623153ad51f01dc281f18a.png)
1.相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相 关关系.与函数关系不同,相关关系是一种不确定关系.
2.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量 的关系是否可以用线性关系表示.若这些点散布在从左下角到右上角的区域,则称两个变量
12
4
16
[90.5,100.5]
6
2
16
合计
48
1
(3)成绩落在[70.5,80.5)之间的人数最多,该组的频数和频率分别是18和 3 .
8
(4)不低于60分的学生占总人数的百分比约为 1 ×111600%=93.75%. 2-1 (2014广东,17,13分)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),
n
4.回归方程: yˆ= bˆx+ aˆ,其中 bˆ=
xi yi nx y
i1 , = n
aˆ,它y主bˆ要x 用来估计和预测取值,从而获得对这两
xi2 nx?2
i1
个变量之间整体关系的了解.
n
5.相关系数: r ,它主i1要xi y用i 于nx相y 关量的显著性检验,以衡量它们之间的线
20~39岁 40~59岁
100~500元 10 15
600~1 000元 6 19
总计 16 34
总计
25
25
50
栏目索引
(1)用分层抽样的方法从缴费在100~500元之间的村民中随机抽取5人,则应从年龄在20~39 岁之间的村民中抽取几人? (2)从缴费在100~500元之间抽取的5人中,随机选取2人进行到户走访,求这2人的年龄都在40~59 岁之间的概率. 解析 (1)设应从年龄在20~39岁之间的村民中抽取x人,则 5 = x ,解得x=2.
统计与统计案例PPT课件
![统计与统计案例PPT课件](https://img.taocdn.com/s3/m/e640c99c900ef12d2af90242a8956bec0875a574.png)
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
用样本估计总体 (文)某学校为了调查学生平均每周的上网时间(单 位:h)对学习产生的影响,从高三年级随机抽取了 100 名学生, 将所得数据整理后,画出频率分布直方图(如图),其中频率分 布直方图从左到右前 3 个小矩形的面积之比为 1:3:5,试估 计:
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
疑难误区警示 1.当总体数 N 不能被样本容量整除,用系统抽样法剔除 多余个体时,必须随机抽样. 2.注意中位数与平均数的区别,中位数可能不在样本数 据中.
专题七 第一讲
走向高考 ·二轮专题复习 ·新课工厂甲、乙、丙三个车
间生产了同一种产品,数量分别为 120 件,80 件,60 件,为
了解它们的产品质量是否存在显著差异,用分层抽样方法抽
取了一个容量为 n 的样本进行调查,其中从丙车间的产品中
抽取了 3 件,则 n=( )
A.9
B.10
C.12
D.13
[答案] D
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
某市有大型超市 200 家、中型超市 400 家、小型超市 1400 家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个 容量为 100 的样本,应抽取中型超市________家.
[答案] 20
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
[解析] 属简单题,关键是清楚每一层的抽取比例都一样 是Nn .
专题七 第一讲
走向高考 ·二轮专题复习 ·新课标版 ·数学
统计案例分析及典型例题
![统计案例分析及典型例题](https://img.taocdn.com/s3/m/d58d5476caaedd3383c4d325.png)
统计案例分析及典型例题§11.1 抽样方法基础自测1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 .答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 .答案①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 .答案3,9,184.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= .答案80例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案.解抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k =100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l .(6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工人.答案108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n .解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n =6,12,18,36.当样本容量为(n +1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计基础自测1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组在频率分布直方图的高为h ,则|a -b |= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .分数 5 4 3 2 1 人数2010303010答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n , 则有n =第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 .①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值答案①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩比稳定.答案甲乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为 .答案0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x甲、x乙,则x甲x乙,比稳定.答案<乙甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a、b的取值分别是 .答案10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. 答案 ①②2.为了考察两个变量x 、y 之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l 1和l 2.已知在两人的试验中发现变量x 的观测数据的平均值恰好基础自测相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势.其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化 肥施用量的增加而增长.例2 (14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:家庭编号 12345678910x i (收入)千元 0.8 1.1 1.3 1.5 1.5 1.8 2.0 2.2 2.4 2.8y i (支出)千元0.7 1.0 1.2 1.0 1.3 1.5 1.3 1.7 2.0 2.5(1)判断家庭平均收入与月平均生活支出是否相关? (2)若二者线性相关,求回归直线方程. 解 (1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y =101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-•-ni ini i i x n xyx n y x 1221≈0.813 6,a ˆ=1.42-1.74×0.813 6≈0.004 3,13分∴回归方程y ˆ=0.813 6x +0.004 3. 14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.x 3 4 5 6 y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx +a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -•-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -b ˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x +0.35. (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.年平均气温 12.51 12.84 12.84 13.69 13.33 12.74 13.05 年降雨量748542507813574701432(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:温度(x ) 0 10 20 50 70 溶解度(y )66.776.085.0112.3128.0由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -•-∑∑==≈0.880 9.aˆ=y -b ˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x +67.173.3.某企业上半年产品产量与单位成本资料如下:月份 产量(千件)单位成本(元)1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6568(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x x yx yx i i i ii -•-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y -b ˆx =71+1.82×3.5=77.37. 回归方程为yˆ=a ˆ+b ˆx =77.37-1.82x . (2)因为单位成本平均变动bˆ=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程:yˆ=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案 a ,c ,b2.回归方程yˆ=1.5x -15,则下列说法正确的有 个. ①y =1.5x -15 ②15是回归系数a ③1.5是回归系数a ④x =10时,y =0 答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为yˆ=8.25x +60.13,下列叙述正确的是 . ①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm ③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x +5.75 5.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x +1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 .答案①③④8.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:使用年限2 3 4 5 6x维修费用2.23.8 5.5 6.5 7.0y若y对x呈线性相关关系,则回归直线方程yˆ=bˆx+aˆ表示的直线一定过定点 .答案(4,5)二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:学生A B C D E学科数学80 75 70 65 60物理70 66 68 64 62(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点.解(1)数学成绩和物理成绩具有相关关系.(2)以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近.10.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积x(m2) 115 110 80 135 105销售价格y(万24.8 21.6 18.4 29.2 22元)(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -•-∑∑==≈0.196 2aˆ=y -b ˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x +1.814 2. 11.某公司利润y 与销售总额x (单位:千万元)之间有如下对应数据:x 10 15 17 20 25 28 32 y11.31.822.62.73.3(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y =71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i i x =102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -•-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -b ˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x -0.084. (3)把x =24(千万元)代入方程得,yˆ=2.412(千万元). ∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040605070(1)画出散点图; (2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:i 1 2 3 4 5 x i 2 4 5 6 8 y i3040605070x i y i60 160 300 300 560因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -•-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -b ˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据χ2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .基础自测①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:患慢性气管炎未患慢性气管炎 总计 吸烟 43 162 205 不吸烟 13 121 134 合计56283339试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++- 2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r =)4)(4(42412241241y yx xyx yx i ii ii ii --•-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x -0.857 1. (3)要使yˆ≤10⇒0.728 6x -0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.数x年均价格y(美元)2 651 1 943 1 494 1 087 765 538 484 290 226 204解作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系.与已学函数图象比较,用yˆ=e a x bˆˆ 来刻画题中模型更为合理,令zˆ=ln yˆ,则zˆ=bˆx+aˆ,题中数据变成如下表所示:x 1 2 3 4 5 6 7 8 9 10z 7.8837.5727.3096.9916.646.2886.1825.675.4215.318相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r≈-0.996.|r|>r0.05.认为x与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,aˆ≈8.165,所以zˆ=-0.298x+8.165,最后回代zˆ=ln yˆ,即yˆ=e-0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18 7 25(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y =71(66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r =)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.。
统计案例分析---大学生月平均生活费的估计和检验
![统计案例分析---大学生月平均生活费的估计和检验](https://img.taocdn.com/s3/m/329e7b318762caaedd33d4cb.png)
统计案例分析案例2.1 大学生月平均生活费的估计和检验姓名:覃玉冰学号:班级:16应用统计一、数据为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。
该问卷随机抽取中国人民大学大一、大二、大三、大四在校本科生男女各30多人作为样本。
调查采取分层抽样,对在校本科生各个年级男生、女生各发放问卷30多份,共发放问卷300份,回收问卷291份,其中有效问卷共272份。
其中,男生的有效问卷为127份,女生为145份。
调查得到的部分数据见表一。
表一大学生月平均生活费支出的调查数据(仅截取部分)二、生活费支出的区间估计和假设检验(一)平均月生活费的描述统计量为了更好地研究全校本科学生平均月生活费支出,我们先来看一下样本数据中平均月生活费支出的一些描述统计量。
在spss中,点分析→描述统计→描述→变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述统计量见表二。
表二平均月生活费的描述统计量从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.(二)平均月生活费的假设检验从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。
1.检验统计量的确定样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,如果总体为正态分布,样本统计量服从正态分布:如果总体为非正态分布,样本统计量也是渐进服从正态分布的。
所以在这种情况下,我们都可以把样本统计量视为正态分布,这时可以使用z 统计量(z 分布)。
即在总体标准差δ已知时,有nx /z 0δμ-=而我们这里总体标准差δ是未知的,此时可以用样本标准差s 代替,上式可以写为:ns x /z 0μ-=2. 提出假设原假设0H 为:全校本科学生月平均生活费支出u=500 备择假设1H 为:全校本科学生月平均生活费支出u=500 3. spss 操作及结果分析在spss 中点分析→比较均值→单样本T 检验→检验变量选“平均月生活费”→检验值填“500”,得到的平均月生活费的假设检验的结果见表三。
2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例
![2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例](https://img.taocdn.com/s3/m/1113c38fb1717fd5360cba1aa8114431b80d8e4d.png)
9.3变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2。
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程为错误!=错误!x+错误!,则错误!=错误!=错误!,错误!=错误!-错误!错误!.其中,错误!是回归方程的斜率,错误!是在y轴上的截距,错误!=错误!错误!x i,错误!=错误!错误!y i,(错误!,错误!)称为样本点的中心.说明:回归直线错误!=错误!x+错误!必过样本点的中心(错误!,错误!),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r=错误!,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|〉0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K=错误!,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(2)通过回归方程错误!=错误!x+错误!可以估计和观测变量的取值和变化趋势.()(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案(1)√(2)√(3)√(4)×2.教材衍化(1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:错误!错误!错误!,则此直线一定经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,错误!),而错误!=错误!×(2+4+5+6+8)=5,错误!=错误!×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有________的把握认为性别与是否读生产日期有关. 答案 99.5%解析 由表中数据得k =错误!≈8。
统计学案例
![统计学案例](https://img.taocdn.com/s3/m/cca95722ee06eff9aef80781.png)
统计学案例总量指标与相对指标案例1:指出下面的统计分析报告摘要错在哪里?并改正:1、本厂按计划规定,第一季度的单位产品成本应比去年同期降低10%,实际执行结果是,单位产品成本较去年同期降低8%,仅完成产品成本计划的80%(即8%÷10%=80%)。
2、本厂的劳动生产率(按全部职工计算)计划在去年的基础上提高8%,计划执行结果仅提高4%,劳动生产率的计划任务仅实现一半(即4%÷8%=50%)。
3、该车间今年1月份生产老产品的同时,新产品首次小批投产,出现了2件废品(按计算,车间废品率为1.2%)。
2月份老产品下马,新产品大批投产,全部制品1000件,其中废品8件,废品量是1月份的4倍,因此产品质量下降了。
4、在组织生产中,本厂先进小组向另一组提出高产优质的挑战竞赛。
本月先进小组的产量超过了另一小组的1倍,但是在两组废品总量中该组却占了60%,所以在产品质量方面,先进小组明显地落后了。
案例11试计算所有可能计算的相对指标。
案例2:根据下表资料分析哪个企业对社会贡献更大?平均指标与变异指标案例3、以组平均数补充说明总平均数案例4:某单位有10个人,其中1人月工资为10万元,9人每人月工资为1000元。
该单位职工月平均工资为10900元。
即:)(109001091000100000元=⨯+你认为这个平均数有代表性吗?如果缺乏代表性应如何改正?案例5:以下是各单位统计分析报告的摘录1、 本局所属30个工厂,本月完成生产计划的情况是不一致的。
完成计划90%的有3个,完成96%的有5个,完成102%的有10个,完成110%的有8个,完成120%的有4个。
平均全局生产计划完成程度为104.33%。
即:304%1208%11010%1025%963%90⨯+⨯+⨯+⨯+⨯=104.33%2、 本厂开展增产节约运动以后,产品成本月月下降,取得显著的成绩,根据财务部门的报告,1 月份开支总成本15000元,平均单位产品成本为15元,2月份开支总成本25000元,平均单位产品成本下降为10元,3月份开支总成本45000元,平均单位产品成本仅8元。
统计分析案例
![统计分析案例](https://img.taocdn.com/s3/m/cb6640f09e31433239689318.png)
统计分析案例之一在一家财产保险公司的董事会上,董事们就最近公司的发展战略问题展开了激烈讨论,其中一个引人关注的问题就是如何借鉴国外保险公司的先进管理经验,提高自身的管理水平。
有位董事提出,2010年公司的各项业务与去年相比没有太大增长,除经济环境和市场竟争等因素外,对家庭财产保险的业务开展得不够,公司在管理方式上也存在问题。
他认为,中国的家庭财产保险市场潜力巨大,应加大扩展在这方面业务的力度,同时,对公司家庭财产推销员实行目标管理,并根据目标完成情况建立相应的奖惩制度。
董事长认为该董事的建议有一定道理,准备采纳。
会后,他责成财务部经理尽快拿出具体的实施方案。
财务部经理接到任务后感到有些头痛,它不知道该从何处下手,不知道如何确定推销员的具体销售目标。
如果目标定得过高,多数推销员完不成任务,会使推销员失去信心;如果定得过低,将不利于充分挖掘员工的工作潜力,提高公司的业绩水平。
她首先把公司2010年的一些主要业务数据搬了出来,如表A,看了看有关的保险业务状况。
抽取了160人,对他们的月销售额作了统计。
结果如表B据制定具体的销售目标?具体要求如下(1)对数据进行分组(分十组,组距为2千元),绘制直方图(2)一般水平的销售额是多少?(3)中间的销售额是多少?(4)最多的销售额是多少?(5)每一个销售人员的销售额与一般水平的销售额相差多少?(6)这些销售资料属何种分布?(7)你的销售目标是多少?为什么?统计分析案例之二有顾客反映某家航空公司售票处售票的速度太慢。
为此,航空公司收集了解合理的。
上面的数据是否支持航空公司的说法?顾客提出的意见是否合理?请你对上面的数据进行适当的分析,回答下列问题。
(1)对数据进行适当的分组(分十组),分析数据的分布特点(绘制直方图)。
(2)根据分组后的数据,计算中位数、众数、平均数和标准差。
(3)分析顾客提出的意见是否合理?为什么?(4)使用哪一个平均指标来分析上述问题比较合适?统计分析案例之三宁波开发区一外贸企业近期需要人工组装一批产品出口。
高中数学《统计与统计案例》课件
![高中数学《统计与统计案例》课件](https://img.taocdn.com/s3/m/cb0ceeb8dbef5ef7ba0d4a7302768e9950e76e7b.png)
设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y =99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用 模型②得到的预测值更可靠.
13
考点整合
1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样, 体现了抽样的公平性,但又各有其特点和适用范围.
位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5
B.0.6
C.0.7
D.0.8
解析 法一 设调查的 100 位学生中阅读过《西游记》的学生人数为 x,则 x+80-60
=90,解得 x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计
值为17000=0.7.故选 C.
解 (1)由调查数据,男顾客中对该商场服务满意的比率为4500=0.8,因此男顾客对该商场
服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为3500=0.6,因此女顾
客对该商场服务满意的概率的估计值为 0.6.
8
(2)K2 的观测值 k=100×5(0×405×0×207-0×303×010)2≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务 的评价有差异.
^
利用模型②,该地区 2018 年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿 元).
12
(2)利用模型②得到的预测值更可靠. 理由如下: 从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+ 13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境 基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础
2021年数学一轮复习考点与题型总结:第十章 统计与统计案例 (1)
![2021年数学一轮复习考点与题型总结:第十章 统计与统计案例 (1)](https://img.taocdn.com/s3/m/2c01a763960590c69fc3760f.png)
第十章统计与统计案例第一节随机抽样一、基础知识1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.n 是样本容量)是整数时,取k=Nn当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.;二、常用结论(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.(4)三种抽样方法的特点、联系及适用范围考点一简单随机抽样[典例] 下列抽取样本的方式属于简单随机抽样的个数有( )①从无限多个个体中抽取100 个个体作为样本;②盒子里共有80 个零件,从中选出5 个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③用抽签方法从10 件产品中选取3 件进行质量检验;④某班有56 名同学,指定个子最高的 5 名同学参加学校组织的篮球赛.A.0 个B.1 个C.2 个D.3 个[解析] ①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.[答案] B[解题技法] 应用简单随机抽样应注意的问题= (1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的 数字舍去.[题组训练]A.08 C .02 D .012.利用简单随机抽样,从 n 个个体中抽取一个容量为 10 的样本.若第二次抽取时,余 下的每个个体被抽到的概率为1,则在整个抽样过程中,每个个体被抽到的概率为()3A.1 4C. 5 14解析:选 C 根据题意, 9 1,n -1 3B.1 3 D.10 27 解得 n =28.故在整个抽样过程中每个个体被抽到的概率为10= 5.28 14考点二 系统抽样[典例] (1)某校为了解 1 000 名高一新生的身体生长状况,用系统抽样法(按等距的规A .16B .17C .18D .19(2)中央电视台为了解观众对某综艺节目的意见,准备从 502 名现场观众中抽取 10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除个个体,抽样间隔为 .[解析] (1)因为从 1 000 名学生中抽取一个容量为 40 的样本,所以系统抽样的分段间隔 为1 000=25,40设第一组随机抽取的号码为 x ,(2)把 502 名观众平均分成 50 组,由于 502 除以 50 的商是 10,余数是 2,所以每组有 10 名观众,还剩 2 名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从 502500,并均匀分成 50 段,每段含50010 个个体.所以需剔除 2 个个体,抽样间隔为 10. 50[答案] (1)C (2)2 10[变透练清]解析:从 1 000 名学生中抽取一个容量为 40 的样本,系统抽样分 40 组,每组1 000=2540 个号码,每组抽取一个,从 501 到 750 恰好是第 21 组到第 30 组,共抽取 10 人.答案:10本,若在第 1 组中随机抽取的号码为 5,则在第 6 组中抽取的号码为.解析:由题知分组间隔为64=8,又第 1 组中抽取的号码为 5,所以第 6 组中抽取的号8 码为 5×8+5=45.答案:45系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是 第 1 组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.[提醒] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽 样从总体中剔除几个个体,然后再按系统抽样进行.考点三 分层抽样=[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000 人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽取100 人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( ) A.25,25,25,25 B.48,72,64,16C.20,40,30,10 D.24,36,32,8[ 解析] 法一:因为抽样比为100 = 1 ,所以每类人中应抽取的人数分别为20 000 2004 800×1=24,7 200×1=36,6 400×1=32,1 600×1=8. 200 200 200 200法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2,所以每类人中应抽取的人数分别为6×100=24,9×100=36,6+9+8+28 2×100=32,×100=8.6+9+8+26+9+8+2[答案] D6+9+8+2[解题技法] 分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.(3) 分层抽样的计算应根据抽样比构造方程求解,其中“ 抽样比=样本容量=总体容量各层样本数量”.各层个体数量[题组训练]1.(2019·山西五校联考)某校为了解学生的学习情况,采用分层抽样的方法从高一1 000 人、高二1 200 人、高三n 人中抽取81 人进行问卷调查,若高二被抽取的人数为30,则n =( )A.860 B.720C.1 020 D.1 040解析:选D 由已知条件知抽样比为30=1,从而81=1,解得n=1 200 40 1 000+1 200+n 40= ,06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 491 040,故选 D.2.(2018·广州高中综合测试)已知某地区中小学学生人数如图所示.为了解该区学生参加某项社会实践活动的意向,拟采用分层抽样的方法来进 行调查.若高中需抽取 20 名学生,则小学与初中共需抽取的学生人数为.解析:设小学与初中共需抽取的学生人数为 x ,依题意可得1 20020解得 x =85.答案:85[课时跟踪检测]2 700+2 400+1 200 x +201.从 2 019 名学生中选取 50 名学生参加全国数学联赛,若采用以下方法选取:先用简 单随机抽样法从 2 019 名学生中剔除 19 名学生,剩下的 2 000 名学生再按系统抽样的方法抽取,则每名学生入选的概率()A .不全相等B .均不相等C .都相等,且为 502 019解析:选 C 从 N 个个体中抽取 M名学生入选的概率都相等,且为 50.2 019D .都相等,且为 140个个体,则每个个体被抽到的概率都等于M,故每N2.福利彩票“双色球”中红球的号码可以从 01,02,03,…,32,33 这 33 个两位号码中选取,小明利用如下所示的随机数表选取红色球的 6 个号码,选取方法是从第 1 行第 9 列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )A.12 B .33 C .06D .16解析:选 C 被选中的红色球的号码依次为 17,12,33,06,32,22,所以第四个被选中的红色球的号码为 06.3.某班共有学生 52 人,现根据座号,用系统抽样的方法,抽取一个容量为 4 的样本.已知 5 号、18 号、44 号同学在样本中,那么样本中还有一个同学的座号是()A .23B .2781 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85C .31D .33解析:选 C 分段间隔为52=13,故样本中还有一个同学的座号为 18+13=31.4 4.某工厂在 12 月份共生产了 3 600 双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为 a ,b ,c ,且 a ,b , c 构成等差数列,则第二车间生产的产品数为()A .800 双B .1 000 双C .1 200 双D .1 500 双解析:选 C 因为 a ,b ,c 成等差数列,所以 2b =a +c ,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占 12 月份生产 总数的三分之一,即为 1 200 双皮靴.5.(2018·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A .100,20B .200,20C .200,10D .100,10解析:选 B 由题图甲可知学生总人数是 10 000,样本容量为 10 000×2%=200,抽取的高中生人数是 2 000×2%=40,由题图乙可知高中生的近视率为 50%,所以抽取高中生的近视人数为 40×50%=20,故选 B.=6,则在第 7 组中抽取的号码是() A .63 B .64 C .65D .66解析:选 A 若 m =6,则在第 7 组中抽取的号码个位数字与 13 的个位数字相同,而第A .7B .9C .10D .15解析:选 C 960÷32=30,故由题意可得抽到的号码构成以 9 为首项,以 30 为公差的等差数列,其通项公式为 a n =9+30(n -1)=30n -21.由 450<30n -21≤750,解得 15.7< n ≤25.7.又 n 为正整数,所以 16≤n ≤25,故做问卷 B 的人数为 25-16+1=10.故选 C.8.某企业三月中旬生产 A ,B ,C 三种产品共 3 000 件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别 A B C产品数量(件) 1 300 样本容量(件)130A 产品的样本容量比 C 产品的样本容量多 10,根据以上信息,可得 C 的产品数量是件.解析:设样本容量为 x ,则 x ×1 300=130,∴x =300.3 000 ∴A 产品和 C 产品在样本中共有 300-130=170(件). 设 C 产品的样本容量为 y ,则 y +y +10=170,∴y =80.∴C 产品的数量为3 00080=800(件). 300 答案:8009.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取 100 件做使用寿命的测试,则第一分厂应抽取的件数为;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为 1 020 小时、980 小时、1 030 小时,估计这个企业所生产的该产品的平均使用寿命为小时.解析:第一分厂应抽取的件数为 100×50%=50;该产品的平均使用寿命为 1 020×0.5 +980×0.2+1 030×0.3=1 015.答案:50 1 015×5 抽得的号码为 004,这 600 名选手穿着三种颜色的衣服,从 001 到 301 穿红色衣服,从 302 到 496 穿白色衣服,从 497 到 600 穿黄色衣服,则抽到穿白色衣服的选手人数为.2 5≤k ≤42,因此抽到穿白色衣服的选手人数为 42-25=17(人). 6答案:1711.某初级中学共有学生 2 000 名,各年级男、女生人数如下表:(1)求 x 的值;(2)现用分层抽样的方法在全校抽取 48 名学生,问应在初三年级抽取多少名? 解 :(1)∵ x=0.19,∴x =380.2 000(2)初三年级人数为 y +z =2 000-(373+377+380+370)=500,现用分层抽样的方法在 全校抽取 48 名学生,应在初三年级抽取的人数为 48×500=12(名).2 000第二节 用样本估计总体一、基础知识1.频率分布直方图(1)纵轴表示频率频率;(2),即小长方形的高= 组距 组距频率=频率; 小长方形的面积=组距×组距(3)各个小方形的面积总和等于 1 . 2.频率分布表的画法极差第一步:求极差,决定组数和组距,组距= ;组数第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 3.茎叶图茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.4.中位数、众数、平均数的定义 (1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数) 叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数一组数据的算术平均数即为这组数据的平均数,n 个数据 x 1,x 2,…,x n 的平均数 x = 1(x 1+x 2+…+x n ). n5.样本的数字特征如果有 n 个数据 x 1,x 2,…,x n ,那么这 n 个数的(1)平均数 x =1(x 1+x 2+…+x n ).n(2)标准差 s =(3)方差s2=1-x )2+(x -x )2+…+(x -x )2].[(x1 2 nn二、常用结论1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据x1,x2,…,x n的平均数为x ,则mx1+a,mx2+a,mx3+a,…,mx n+a 的平均数是m x +a.(2)若数据x1,x2,…,x n的方差为s2,则数据ax1+b,ax2+b,…,ax n+b 的方差为a2s2.考点一茎叶图[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5 B.5,5C.3,7 D.5,7[解析] 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,所以15×[56+62+65+74+(70+x)]=1×(59+61+67+65+78),解得x=3.5[答案] A[解题技法] 茎叶图的应用(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.甲 乙[题组训练]1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清, 但曾计算得该组数据的极差与中位数之和为 61,则被污染的数字为()A .1B .2C .3D .4解析:选 B 由图可知该组数据的极差为 48-20=28,则该组数据的中位数为 61-28 =33,易得被污染的数字为 2.2.甲、乙两名篮球运动员 5 场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为 x 甲, x 乙,则下列结论正确的是()A. x 甲< x 乙;乙比甲得分稳定B. x 甲> x 乙;甲比乙得分稳定C. x 甲> x 乙;乙比甲得分稳定D. x 甲< x 乙;甲比乙得分稳定解析:选 A 因为 x =2+7+8+16+22=11, x 5 =8+12+18+21+25=16.8,所5以 x < x 且乙比甲成绩稳定.考点二 频率分布直方图[典例] 某城市 100 户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200), [200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中 x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得 x =0.007 5.即直方图中 x 的值为 0.007 5.甲乙=(2)月平均用电量的众数是220+240=230. 2∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内.设中位数为 a ,则 0.45+0.012 5×(a -220)=0.5,解得 a =224,即中位数为 224. [变透练清]1.某校随机抽取 20 个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以 5 为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是()解析:选 A 以 5 为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为 1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项 A 中的图.2.(变结论)在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300] 的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量在[220,240)的用户中应抽取户.解析:月平均用电量在[220,240)的用户有 0.012 5×20×100=25(户).同理可得月平均 用电量在[240,260)的用户有 15 户,月平均用电量在[260,280]的用户有 10 户,月平均用电 量在[280,300]的用户有 5 户,故抽取比例为111.25+15+10+5 5所以月平均用电量在[220,240)的用户中应抽取 25×1=5(户).5 答案:53.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年 100 位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9 组,制成了如图所示的频率分布直方图.(1) 求直方图中 a 的值;(2)设该市有30 万居民,估计全市居民中月均用水量不低于3 吨的人数,说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)估计全市居民中月均用水量不低于3 吨的人数为3.6 万.理由如下:由(1)知,100 位居民中月均用水量不低于3 吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30 万居民中月均用水量不低于 3 吨的人数为300 000×0.12=36 000=3.6(万).考点三样本的数字特征考法(一) 样本的数字特征与频率分布直方图交汇[典例] (2019·辽宁师范大学附属中学模拟)某校初三年级有400 名学生,随机抽查了40 名学生测试1 分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是( )A.该校初三学生1 分钟仰卧起坐的次数的中位数为25B.该校初三学生1 分钟仰卧起坐的次数的众数为24C.该校初三学生1 分钟仰卧起坐的次数超过30 的人数约有80D.该校初三学生1 分钟仰卧起坐的次数少于20 的人数约为8[解析] 第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三.组数据的频率为 0.08×5=0.4,∴中位数在第三组内,设中位数为 25+x ,则 x ×0.08=0.5 -0.1-0.3=0.1,∴x =1.25,∴中位数为 26.25,故 A 错误;第三组数据所在的矩形最高, 第三组数据的中间值为 27.5,∴众数为 27.5,故 B 错误;1 分钟仰卧起坐的次数超过 30 的频率为 0.2,∴超过 30 次的人数为 400×0.2=80,故 C 正确;1 分钟仰卧起坐的次数少于20 的频率为 0.1,∴1 分钟仰卧起坐的次数少于 20 的人数为 400×0.1=40,故 D 错误.故选 C.[答案] C [解题技法]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数; (2)中位数左边和右边的小长方形的面积和是相等的; (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积 乘以小长方形底边中点的横坐标之和.考法(二) 样本的数字特征与茎叶图交汇[典例] 将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91.现场作的 9 个分数的茎叶图后来有 1 个数据模糊,无法辨认,在图中以 x 表示,则7 个剩余分数的方差为.[解析] 由茎叶图可知去掉的两个数是 87,99,所以 87+90×2+91×2+94+90+x =91×7,解得 x =4.故 s 2=1[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=36 [答案] 367 [解题技法]7 7样本的数字特征与茎叶图综合问题的注意点(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据, 因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.考法(三) 样本的数字特征与优化决策问题交汇[典例] (2018·周口调研)甲、乙两人在相同条件下各射击 10 次,每次中靶环数情况如图所示.(1)请填写下表(写出计算过程):平均数 方差命中 9环及 9 环以上的次数甲 乙(2)①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中 9 环及 9 环以上的次数相结合看(分析谁的成绩好些); ③从折线图上两人射击命中环数的走势看(分析谁更有潜力). [解] 由题图,知甲射击 10 次中靶环数分别为 9,5,7,8,7,6,8,6,7,7. 将它们由小到大排列为 5,6,6,7,7,7,7,8,8,9. 乙射击 10 次中靶环数分别为 2,4,6,8,7,7,8,9,9,10. 将它们由小到大排列为 2,4,6,7,7,8,8,9,9,10.(1) x = 1 ×(5+6×2+7×4+8×2+9)=7(环), 10x = 1 ×(2+4+6+7×2+8×2+9×2+10)=7(环), 10 s 2 = 1 ×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]= 1 ×(4+2+0+2+4) 10 10 =1.2,s 2 = 1 ×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2] 10 = 1×(25+9+1+0+2+8+9)=5.4. 10 填表如下:平均数 方差 命中 9 环及 9 环以上的次数甲乙甲乙(2)甲乙∴甲成绩比乙稳定.②∵平均数相同,命中9 环及9 环以上的次数甲比乙少,∴乙成绩比甲好些.③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.[解题技法]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[题组训练]1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示),则该样本中的中位数、众数、极差分别是( )A.46,45,56 B.46,45,53C.47,45,56 D.45,47,53解析:选A 样本共3045+47个,中位数为=46;显然样本数据出现次数最多的为45,2故众数为45;极差为68-12=56,故选A.2.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:平均环数x8.3 8.88.8 8.7方差s2 3.5 3.6 2.2 5.4) A.甲B.乙C.丙D.丁解析:选C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选C.3.某仪器厂从新生产的一批零件中随机抽取40 个进行检测,如图是根据抽样检测得到的零件的质量(单位:克)绘制的频率分布直方图,样本数据按照[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96]分成8 组,将其按从左到右的顺序分别记为第一组,第二组,……,第八组.则样本数据的中位数在第组.解析:由题图可得,前四组的频率为(0.037 5+0.062 5+0.075 0+0.100 0)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.100 0×2=8,故中位数在第四组.答案:四[课时跟踪检测]A 级1.一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60) 上的频率为0.8,则估计样本在[40,60)内的数据个数为( )A.14 B.15C.16 D.17解析:选B 由题意,样本中数据在[20,60)上的频数为30×0.8=24,所以估计样本在[40,60)内的数据个数为24-4-5=15.2.(2019·长春质检)如图所示是某学校某年级的三个班在一学期内的六次数学测试的平均成绩 y 关于测试序号 x 的函数图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:①一班成绩始终高于年级平均水平,整体成绩比较好; ②二班成绩不够稳定,波动程度较大;③三班成绩虽然多数时间低于年级平均水平,但在稳步提升. 其中正确结论的个数为()A .0B .1C .2D .3解析:选 D ①由图可知一班每次考试的平均成绩都在年级平均成绩之上,故①正确.② 由图可知二班平均成绩的图象高低变化明显,可知成绩不稳定,波动程度较大,故②正确.③ 由图可知三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选 D.3.(2018·贵阳检测)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行 整理后分为 5 组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是 40,则成绩在 80~100 分的学生人数是()A .15B .18C .20D .25解析:选 A 根据频率分布直方图,得第二小组的频率是 0.04×10=0.4,∵频数是 40, ∴样本容量是40=100,又成绩在 80~100 分的频率是(0.01+0.005)×10=0.15,∴成绩在0.4 80~100 分的学生人数是 100×0.15=15.故选 A.4.2017 年 4 月,泉州有四处湿地被列入福建省首批重要湿地名录,某同学决定从其中 A ,B 两地选择一处进行实地考察.因此,他通过网站了ABA B A B解上周去过这两个地方的人对它们的综合评分,并将评分数据记录为右图的茎叶图,记 A ,B 两地综合评分数据的均值分别为 x A , x B ,方差分别为 s 2 ,s 2 .若以备受好评为依据,则AB下述判断较合理的是( )A .因为 x A > xB ,s 2 >s 2,所以应该去A 地B .因为 x > x ,s 2 <s 2 ,所以应该去 A 地ABABC .因为 x < x ,s 2 >s 2 ,所以应该去 B 地ABABD .因为 x A < x B ,s 2 <s 2 ,所以应该去 B 地解析:选 B 因 为 x A =1×(72+86+87+89+92+94)≈86.67,x B =1×(74+73+88 6 6 +86+95+94)=85,s 2 ≈1[(72-86.67)2+(86-86.67)2+(87-86.67)2+(89-86.67)2+(92-86.67)2+(94- 6 86.67)2]≈50.56,s 2 =1[(74-85)2+(73-85)2+(88-85)2+(86-85)2+(95-85)2+(94-85)2]=76, 6所以 x > x ,s 2 <s 2 (A 数据集中,B 数据分散),ABAB所以 A 地好评分高,且评价稳定.故选 B.5.(2018·青岛三中期中)已知数据 x 1,x 2,…,x n 的平均数 x =5,方差 s 2=4,则数据 3x 1+7,3x 2+7,…,3x n +7 的平均数和标准差分别为()A .15,36B .22,6C .15,6D .22,36解析:选 B ∵x 1,x 2,x 3,…,x n 的平均数为 5, x 1+x 2+…+x n 3x 1+3x 2+…+3x n 3(x 1+x 2+…+x n ) ∴ =5,∴ n +7= n n +7=3×5+7=22.∵x 1,x 2,x 3,…,x n 的方差为 4,∴3x 1+7,3x 2+7,3x 3+7,…,3x n +7 的方差是 32×4 =36,故数据 3x 1+7,3x 2+7,…,3x n +7 的平均数和标准差分别为 22,6,故选 B.6.(2018·江苏高考)已知5 位裁判给某运动员打出的分数的茎叶图如图所示那么这 5 位裁判打出的分数的平均数为 .解析:这 5 位裁判打出的分数分别是 89,89,90,91,91,因此这 5 位裁判打出的分数的平89+89+90+91+91均数为 5答案:90=90.7.为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理 后,作出了如图所示的频率分布直方图.已知图中从左到右的前 3 个小组的频率之比为 1∶ 3∶5,第 2 个小组的频数为 15,则被抽查的美术生的人数是.解析:设被抽查的美术生的人数为n ,因为后2 个小组的频率之和为(0.037 5+ 0.0125)×5=0.25,所以前 3 个小组的频率之和为 0.75.又前 3 个小组的频率之比为 1∶3∶5,第 2个小组的频数为 15,所以前 3 个小组的频数分别为 5,15,25,所以 n =5+15+25 60.0.75答案:608.某人 5 次上班途中所花的时间(单位:分钟)分别为 x ,y,10,11,9.已知这组数据的平均数为 10,方差为 2,则|x -y |的值为.解析:由题意知这组数据的平均数为 10,方差为 2, 可得 x +y =20,(x -10)2+(y -10)2=8,设 x =10+t ,y =10-t ,由(x -10)2+(y -10)2=8 得 t 2=4, 所以|x -y |=2|t |=4.答 案 :4 9.某班 100 名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间 是[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中 a 的值;(2)根据频率分布直方图,估计这 100 名学生语文成绩的平均分;(3)若这 100 名学生语文成绩某些分数段的人数(x )与数学成绩相应分数段的人数(y )之比如表所示,求数学成绩在[50,90)之外的人数.分数段 [50,60) [60,70) [70,80) [80,90) x ∶y1∶12∶13∶44∶5(2)因为55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.所以这100 名学生语文成=。
高考数学考点二十《统计与统计案例》课件
![高考数学考点二十《统计与统计案例》课件](https://img.taocdn.com/s3/m/01cf9cddf80f76c66137ee06eff9aef8941e4819.png)
100
200
则 K2=2001×00(×6100×0×601-004×0×10400)2=8>6.635,
所以有 99%以上的把握认为是否持乐观态度与国内外差异有关.
四、解答题 13.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设 备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了 10 件产品,得到各件产品该项指标数据如下:
考点二十 统计与统计案例
一、选择题(在每小题给出的四个选项中,只有一项符合题目要求) 1.(2021·河北张家口第三次模拟)某中学春季运动会上,12 位参加跳高 半决赛同学的成绩各不相同,按成绩从高到低取前 6 位进入决赛,如果小明 知道了自己的成绩后,则他可根据其他 11 位同学成绩的哪个数据判断自己 能否进入决赛( )
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
答案 A 解析 易知题中图(1)和图(3)是正相关,图(2)与图(4)是负相关,且图(1) 与图(2)中的样本点集中分布在一条直线附近,则 r2<r4<0<r3<r1.故选 A.
5.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如
下列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由
K2
=
n(ad-bc)2 (a+b)(c+d)(a+c)(b+d)
统计案例分析大赛优秀案例
![统计案例分析大赛优秀案例](https://img.taocdn.com/s3/m/2c396139f11dc281e53a580216fc700aba685219.png)
统计案例分析大赛优秀案例一、案例一:校园食堂就餐偏好调查。
1. 背景。
咱学校食堂那可是同学们每天都要光顾的地方,但是食堂师傅们总是很头疼,不知道同学们到底爱吃啥。
于是有个超机智的团队就开展了这个统计案例分析。
2. 数据收集方法。
这个团队可没偷懒,他们采用了多种方式收集数据。
首先在食堂门口设置了问卷调查点,逢人就发问卷,那热情,就像食堂打饭不要钱似的。
问卷上的问题可详细了,从“你最喜欢食堂的哪个菜系”到“你觉得食堂的菜量怎么样”。
除了问卷,他们还在食堂里随机找同学进行简短的访谈,就像电视里的记者一样。
另外,还查看了食堂的消费记录,看看哪些菜品的销量高。
3. 分析过程。
他们把收集到的数据整理得井井有条。
对于问卷调查的数据,用了一些简单又实用的统计方法,像计算百分比啊,画柱状图啊。
比如说,发现有40%的同学最爱吃川菜系,那柱状图里川菜系那根柱子就高高地立在那儿。
对于访谈内容呢,他们就像侦探一样,从同学们的回答里找关键词,总结出大家对于食堂环境、服务等方面的看法。
消费记录就更厉害了,通过分析不同菜品在不同时间段的销量变化,发现了一些有趣的规律。
周一到周三中午,盖浇饭的销量特别高,因为很多同学在这几天中午都有课,盖浇饭方便快捷。
4. 结论与建议。
最后得出结论啦,同学们对食堂的口味要求比较多样化,但是更倾向于重口味的菜。
而且食堂的菜量对于大部分男生来说有点少,对于女生来说又有点多。
于是他们给食堂提出了建议:可以增加川菜等热门菜系的菜品,把菜量分成大小份,还可以根据不同时间段的销量调整菜品供应。
食堂师傅们听了这些建议,就像得到了武功秘籍一样,按照建议调整后,同学们的满意度提高了不少呢。
二、案例二:城市共享单车使用情况分析。
1. 背景。
现在共享单车在城市里到处都是,五颜六色的,像一道亮丽的风景线。
但是共享单车公司也面临很多问题,比如说车辆投放量应该怎么确定,哪些地方需求大,哪些地方需求小呢?这时候,一个超酷的团队就站了出来,要通过统计分析来解决这些问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计与统计案例
一. 知识回顾: (一)抽样:
1.简单随机抽样
(1)定义:设一个总体含有N 个个体,从中_________抽取n 个个体作为样本(n ≤N),如果每次抽取时总体内的各个个体被抽到的机会都________,就把这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样的方法:__________和____________.
2.系统抽样的步骤:假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体进行________;
(2)确定____________,对编号进行________.当N n (n 是样本容量)是整数时,取k =N
n
;
(3)在第1段用________________确定第一个个体编号l (l ≤k);
(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号________,再加k 得到第3个个体编号________,依次进行下去,直到获取整个样本. 3.分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:当总体是由____________________组成时,往往选用分层抽样. (二)用样本估计总体: 1.常用的统计图表
(1)频率分布直方图①小长方形的高=_____②频率=____③各小长方形的面积之和=_____ (2)茎叶图:在样本数据较少时,用茎叶图表示数据的效果较好. 2.用样本的数字特征估计总体的数字特征:
(1)在一组数据中,出现次数________的数据叫做这组数据的众数. (2)将一组数据按大小依次排列,把处在________位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数.
(3)如果有n 个数x 1,x 2,……,x n ,那么x =____________叫做这n 个数的平均数. (4)方差:s 2=_________________________(x n 是样本数据,n 是样本容量,x 是样本平均数). 二.典例分析:
例1.(1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14
(2)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 例2. (1)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,
第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( ) A .6 B .8 C .12 D .18
(2)PM 2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM 2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( ) A .甲 B .乙 C .甲乙相等 D .无法确定
课后作业:
1.某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为( ) A .15 B .16 C .17 D .18
2.已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A .200,20
B .100,20
C .200,10
D .100,10
3.某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为___万元.
4.设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a ,4 B .1+a, 4+a C .1 , 4
D .1, 4+a
5. 某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题: (1)求分数在[50,60]的频率及全班人数;
(2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高.
甲 乙 2 0.04 1 2 3 6 9 3 0.05 9 6 2 1 0.06 2 9 3 3 1 0.07 9 6 4 0.08 7
7
0.09
2
4
6
例1.(2) 200
课后作业:3. 10
5.解(1)分数在[50,60]的频率为0.008×10=0.08.
由茎叶图知,分数在[50,60]之间的频数为2,所以全班人数为
2
0.08=25.
(2)分数在[80,90]之间的频数为25-2-7-10-2=4,频率分布直方图中[80,90]
间的矩形的高为4
25÷10=0.016.。