【通用版】高中数学重点难点突破:专题13 统计案例(重难点突破)

合集下载

高考数学考点专项突破 统计与统计案例(含解析)

高考数学考点专项突破 统计与统计案例(含解析)

学习资料统计与统计案例一、单选题1、(江苏金陵中学开学初调研)已知变量x 与y 正相关,且由观测数据算得样本平均数3x =, 3.5y =,则由该观测的数据算得的线性回归方程可能是( )A .0.4.3ˆ2yx =+ B .2 2.4ˆyx =- C .9ˆ2.5yx =-+ D .0.3 4.4ˆyx =-+ 【答案】A 【解析】因为与正相关,排除选项C 、D,又因为线性回归方程恒过样本点的中心,故排除选项B;故选A .2、(山东青岛中学调研)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据,根据表格中的数据求得同归方程ˆˆˆybx a =+,则下列说法正确的是( ) A .0a >,0b > B .0a >,0b < C .0a <,0b > D .0a <,0b <【答案】B【解析】由已知数据,可知y 随着x 的增大而减小, 则变量x 和变量y 之间存在负相关的关系,0b ∴<, 当0x =时,则 3.50a y =>>,即:0a >,0b <. 故选:B.3、(2020届山东省济宁市高三3月月考)下列说法正确的是( )A .回归直线ˆˆˆy bx a =+至少经过其样本数据()()()122,,,,,i n n x y x y x y 中的一个点B .从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他有99%可能患胃肠癌C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .将一组数据的每一个数据都加上或减去同一个常数后,其方差也要加上或减去这个常数 【答案】C【解析】回归直线ˆˆˆy bx a =+可以不经过其样本数据()()()122,,,,,i n n x y x y x y 中的一个点,则A 错误;从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他有99%可能患胃肠癌,则B 错误;在残差图中,残差点分布的带状区域的宽度越窄,表示数据的残差越小,其模型拟合的精度越高,即C 正确; 将一组数据的每一个数据都加上或减去同一个常数后,其平均数也加上或减去同一个常数,则其方差不变,故D 错误, 故选:C4、(江西省抚州市临川区第一中学2017—2018学年高二下学期期末)临川一中舞蹈社为了研究男女学生对舞蹈的喜爱程度,随机调查学校110名学生是否喜欢跳舞,由列联表和公式()()()()()22n ad bc K a b c d a c b d -=++++计算出2K ,并由此作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,则2K 可以为( )A 。

高中数学选修1-2《统计案例》知识点讲义培训资料

高中数学选修1-2《统计案例》知识点讲义培训资料

高中数学选修1-2《统计案例》知识点讲义第一章 统计案例一、回归分析的基本思想及其初步应用1、数学变量相关关系的定义:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。

变量间的这种相互关系,称为具有不确定性的相关关系.(1)按方向分类①正相关:两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大。

②负相关:两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。

正相关 负相关 不相关(2)相关性系数r (在《必修3》中有介绍) 用相关系数r 来衡量两个变量之间的相关关系()()()()12211niii n niii i x x y y r x x y y ===--=--∑∑∑2、两变量之间的关系存在两种不同的类型(1)相关关系——非确定性关系 (2)函数关系——确定性关系3、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。

其基本步骤是:①画出两个变量的散点图; ②求回归直线方程;③并用回归直线方程进行预报。

4、回归直线方程:∧∧∧+=a x b y⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=---=∧∧====∧∑∑∑∑x b y a x n x yx n y x x x y y x x b n i ini i i ni i n i i i ,)())((1221121()()()10.00,2,.b b r x y ≠==说明:回归系数因为当时,相关系数这时不具有线性相关关系.称为样本点的中心,回归直线必定经过样本点的中心例如:,.i y bx a e a b e e y y=++=-4、线性回归模型用来表示其中和为模型的未知参数,称为随机误差 残差:5、相关指数2R 是用来刻画回归效果的,2R 越大,残差平方和越小,模型的拟合效果就越好。

2021高考数学考点突破——统计与统计案例用样本估计总体学案

2021高考数学考点突破——统计与统计案例用样本估计总体学案

2021高考数学考点突破——统计与统计案例用样本估计总体学案【考点梳理】1.频率分布直方图(1)频率分布表的画法: 第一步:求极差,决定组数和组距,组距=极差组数; 第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,运算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图).横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率. 2.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特点 数字特点定义 众数 在一组数据中,显现次数最多的数据叫做这组数据的众数中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数样本数据的算术平均数,即x =x 1+x 2+…+x n n 方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中s 为标准差考点一、茎叶图及其应用【例1】某市为了考核甲、乙两部门的工作情形,随机访问了50位市民.依照这50位市民对这两部门的评分(评分越高说明市民的评判越高),绘制茎叶图如下:(1)分别估量该市的市民对甲、乙两部门评分的中位数;(2)分别估量该市的市民对甲、乙两部门的评分高于90的概率;(3)依照茎叶图分析该市的市民对甲、乙两部门的评判.[解析] (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,因此该市的市民对甲部门评分的中位数的估量值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,因此该市的市民对乙部门评分的中位数的估量值是67. (2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估量值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图能够大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评判较高、评判较为一致,对乙部门的评判较低、评判差异较大.【类题通法】1.茎叶图的优点是保留了原始数据,便于记录及表示,能反映数据在各段上的分布情形.2.(1)作样本的茎叶图时先要依照数据特点确定茎、叶,再作茎叶图;作“叶”时,要做到不重不漏,一样由内向外,从小到大排列,便于数据的处理.(2)依照茎叶图中数据数字特点进行分析判定考查识图能力,判定推理能力和创新应用意识;解题的关键是抓住“叶”的分布特点,准确提炼信息.【对点训练】以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分)已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x +y 的值为______.[答案] 13[解析] 由茎叶图及已知得x =5,又乙组数据的平均数为16.8, 即9+15+10+y +18+245=16.8,解得y =8,因此x +y =13. 考点二、频率分布直方图【例2】我国是世界上严峻缺水的国家,某市为了制定合理的节水方案,对居民用水情形进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估量全市居民中月均用水量不低于3吨的人数,说明理由;(3)估量居民月均用水量的中位数.[解析] (1)由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04. 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a +0.5×a ,解得a =0.30.(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,能够估量30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)设中位数为x 吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.因此2≤x <2.5.由0.50×(x -2)=0.5-0.48,解得x =2.04.故可估量居民月均用水量的中位数为2.04吨.【类题通法】1.准确明白得频率分布直方图的数据特点,频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率和条形图混淆.2.抓住频率分布直方图中各小长方形的面积之和为1,这是解题的关键,并利用频率分布直方图能够估量总体分布.【对点训练】某都市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则从月平均用电量在[220,240)内的用户中应抽取多少户?[解析] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,得x =0.007 5,∴直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.009 5+0.011)×20+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)内的用户有0.012 5×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300]的用户分别有15户、10户、5户,故抽样比为1125+15+10+5=15. ∴从月平均用电量在[220,240)内的用户中应抽取25×15=5(户). 考点三、样本的数字特点【例3】为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时刻后,记录他们日平均增加的睡眠时刻(单位:h ).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时刻:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.52.5 2.6 1.2 2.7 1.5 2.93.0 3.1 2.3 2.4服用B 药的20位患者日平均增加的睡眠时刻:3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.41.6 0.5 1.8 0.62.1 1.1 2.5 1.2 2.7 0.5(1)分别运算两组数据的平均数,从运算结果看,哪种药的疗效更好?(2)依照两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?[解析] (1)设A 药观测数据的平均数为x ,B 药观测数据的平均数为y , 又观测结果可得1(0.6 1.2 1.2 1.5 1.5 1.8 2.2 2.3 2.3 2.4 2.520x =++++++++++ A 药B 药 0.1.2.3.2.6 2.7 2.7 2.8 2.93.0 3.1 3.2 3.5) 2.3+++++++++=,1(0.50.50.60.80.9 1.1 1.2 1.2 1.3 1.4 1.6 1.7 1.8 1.9 2.120y=++++++++++++++2.4 2.5 2.6 2.73.2) 1.6+++++=,由以上运算结果可得x>y,因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:从以上茎叶图能够看出,A药疗效的试验结果有10的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.【类题通法】1.平均数反映了数据的中心,是平均水平,而方差和标准差反映的是数据围绕平均数的波动大小.进行平均数与方差的运算,关键是正确运用公式.2.平均数与方差所反映的情形有着重要的实际意义,一样能够通过比较甲、乙两组样本数据的平均数和方差的差异,对甲、乙两品种能够做出评判或选择.【对点训练】某车间20名工人年龄数据如下表:(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.[解析] (1)这20名工人年龄的众数为30;这20名工人年龄的极差为40-19=21.(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图如下:(3)这20名工人年龄的平均数为(19+28×3+29×3+30×5+31×4+32×3+40)÷20=30;因此这20名工人年龄的方差为1 20(30-19)2+320(30-28)2+320(30-29)2+520(30-30)2+420(30-31)2+320(30-32)2+120(30-40)2=12.6.。

高中高三数学《基本统计方法》优秀教学案例

高中高三数学《基本统计方法》优秀教学案例
3.培养学生严谨、客观、实事求是的态度,让他们在分析问题时,能够遵循逻辑规律,避免主观臆断。
4.引导学生关注社会现象,关心国家大事,运用所学的统计知识为社会发展和国家建设贡献自己的力量。
三、教学策略
(一)情景创设
在本章节的教学中,我将采用贴近生活的情景创设策略,将学生引入到真实的问题场景中,激发他们的学习兴趣和探究欲望。通过设计具有现实意义的数据分析问题,如学校食堂的菜品满意度调查、班级学生的身高体重分布等,让学生在解决问题的过程中感受统计方法的应用价值。同时,结合多媒体手段,展示与统计相关的图表、案例等,增强学生对统计知识的直观认识,提高他们的学习积极性。
2.问题导向,培养数据分析能力
本案例以问题为导向,设计了一系列具有挑战性和启发性的问题,引导学生主动探究、积极思考。通过解决问题,学生不仅掌握了基本统计方法,还培养了数据分析能力,为解决实际生活中的问题奠定了基础。
3.小组合作学习,提升团队协作能力
在教学过程中,本案例注重小组合作学习,让学生在互动交流中互补优势,共同进步。小组合作不仅提高了学生的团队协作能力,还培养了他们的沟通能力、批判性思维等综合素质。
4.能够运用所学的基本统计方法对实际问题进行分析,提出合理的解决方案,形成数据分析报告。
(二)过程与方法
1.培养学生独立思考、合作交流的能力,通过小组讨论、案例分析等形式,提高他们分析问题和解决问题的能力。
2.引导学生通过观察、实验、模拟等手段收集数据,培养他们运用数学方法处理实际问题的能力。
3.培养学生运用信息技术手段,如Excel、统计软件等,进行数据整理、分析和呈现的能力。
(五)作业小结
为了巩固所学知识,我会布置以下作业:
1.根据所学统计量,分析一个实际问题,并撰写数据分析报告。

高中数学知识讲解-高考总复习:统计与统计案例

高中数学知识讲解-高考总复习:统计与统计案例

高考总复习:统计与统计案例【考纲要求】1.随机抽样(1)理解随机抽样的必要性和重要性;(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法. 2.用样本估计总体(1)了解分布的意义和作用, 会列频率分布表, 会画频率分布直方图、频率折线图、茎叶图, 理解它们各自的特点.(2)理解样本数据标准差的意义和作用, 会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差), 并作出合理的解释.(4)会用样本的频率分布估计总体分布, 会用样本的基本数字特征估计总体的基本数字特征, 理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想, 解决一些简单的实际问题. 3.变量的相关性(1)会作两个有关联变量数据的散点图, 会利用散点图认识变量间的相关关系;(2)了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆). 【知识网络】【考点梳理】考点一、随机抽样从调查的对象中按照一定的方法抽取一部分, 进行调查或观测, 获取数据, 并以此对调查对象统计图表用样本估计总体统计简单随机抽样数据的整 理分析数据的数字特征 分层抽样系统抽样变量的相关性的某项指标做出推断, 这就是抽样调查.调查对象的全体称为总体, 被抽取的一部分称为样本.1.简单的随机抽样 简单随机抽样的概念:设一个总体的个体数为N .如果通过逐个抽取的方法从中抽取一个样本, 且每次抽取时各个个体被抽到的概率相等, 就称这样的抽样为简单随机抽样.① 用简单随机抽样从含有N 个个体的总体中抽取一个容量为n 的样本时, 每次抽取一个个体时, 任一个体被抽到的概率为1N;在整个抽样过程中各个个体被抽到的概率为n N;②简单随机抽样的特点是:不放回抽样, 逐个地进行抽取, 各个个体被抽到的概率相等; ③简单随机抽样方法体现了抽样的客观性与公平性, 是其他更复杂抽样方法的基础. 简单抽样常用方法:①抽签法:先将总体中的所有个体(共有N 个)编号(号码可从1到N), 并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作), 然后将这些号签放在同一个箱子里, 进行均匀搅拌, 抽签时每次从中抽一个号签, 连续抽取n 次, 就得到一个容量为n 的样本.适用范围:总体的个体数不多.优点:抽签法简便易行, 当总体的个体数不太多时适宜采用抽签法.②随机数表法:随机数表抽样“三步曲”:第一步, 将总体中的个体编号;第二步, 选定开始的数字;第三步, 获取样本号码.2.系统抽样:当总体中的个体数较多时, 可将总体分成均衡的几个部分, 然后按预先制定出的规则, 从每一部分抽取一个个体, 得到需要的样本, 这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号, 为简便起见, 有时可直接采用个体所带有的号码, 如考生的准考证号、街道上各户的门牌号等等.②为将整个的编号分段 (即分成几个部分), 要确定分段的间隔k .当Nn是整数时(N 为总体中的个体的个数, n 为样本容量), N k n =;当N n不是整数时, 通过从总体中剔除一些个体使剩下的总体中个体的个数'N 能被n 整除, 这时'N k n=.③在第一段用简单随机抽样确定起始的个体编号l .④按照事先确定的规则抽取样本(通常是将l 加上间隔k , 得到第2个编号l k +, 第3个编号2l k +, 这样继续下去, 直到获取整个样本).要点诠释:①系统抽样适用于总体中的个体数较多的情况, 它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时, 采用的是简单随机抽样;②与简单随机抽样一样, 系统抽样是等概率抽样, 它是客观的、公平的③总体中的个体数恰好能被样本容量整除时, 可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时, 可用简单随机抽样先从总体中剔除少量个体, 使剩下的个体数能被样本容量整除再进行系统抽样.3.分层抽样:当已知总体由差异明显的几部分组成时, 为了使样本更充分地反映总体的情况, 常将总体分成几部分, 然后按照各部分所占的比例进行抽样, 这种抽样叫做分层抽样, 所分成的部分叫做层.4.常用的三种抽样方法的比较:要点诠释:(1)各种抽样的个体被抽到的概率相等;(2)抽样过程中个体被抽到的概率相等.5.不放回抽样和放回抽样:在抽样中, 如果每次抽出个体后不再将它放回总体, 称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体, 称这样的抽样为放回抽样随机抽样、系统抽样、分层抽样都是不放回抽样考点二、用样本估计总体1. 统计图表包括条形图、折线图、饼图、茎叶图.2.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差)(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布表3.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离, s =(2)方差: 2222121[()()...()]n s x x x x x x n=-+-++- (n x 是样本数据,n 是样本容量,x 是样本平均数)要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标 6. 频率分布直方图反映样本的频率分布 (1)频率分布直方图中横坐标表示组距,纵坐标表示组距频率,频率=组距×组距频率(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观. (4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. 考点三、变量的相关性 1. 散点图将两个变量所对应的点描在直角坐标系中, 这些点组成了变量之间的一个图, 称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看, 散点分布具有一定的规律.如果变量之间存在某种关系, 这些点会有一个集中趋势, 这种趋势通常可以用一条光滑的曲线来近似表示, 这样近似的过程称为曲线拟合.2.两个变量的线性相关(1)相关关系:当自变量一定时, 因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.(2)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(3)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (4)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.3.回归方程 (1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程$y bx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,),n n x y x y x y L 的回归方程,期中,a b 是待定参数.$1122211()()()n ni i i ii i n ni ii i x x y y x ynxy b x x xnx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$要点诠释:相关关系与函数关系的异同点: 相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系; ②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 考点四、统计案例 1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示, 其中a,b 为模型的未知数, e 称为随机误差. (3)样本点的中心在具有线性相关关系的数据1122(,),(,),(,),n n x y x y x y L 中回归方程的截距和斜率的最小二乘估计公式分别为:$$121()(),=-()nii i nii xx y y ba y bxxx ==--=-∑∑$$ 其中111,=,(,,)nni i i i x x y x x y n ===∑∑称为样本点的中心.(4)相关系数①()()nii xx y y r --=∑②当>0r 时,表明两个变量正相关; 当<0r 时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii yy =-∑(2)残差数据点和它回归直线上相应位置的差异µ2()i i y y -是随机误差的效应,称µµ=i ii e y y -为残差. (3)残差平方和µ21()nii i yy =-∑.(4)相关指数µ22121()()nii i n ii yy R yy ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y总计1x a b a b + 2xcd c d + 总计a c +b d +a b c d +++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值, 或者说2K 是一个随机变量, 它在a , b , c , d )取不同值时, 2K 可能不同, 而k 是取定一组数a , b , c , d 后的一个确定的值. 【典型例题】类型一、简单随机抽样【例1】某车间工人加工一种轴100件, 为了了解这种轴的直径, 要从中抽取10件轴在同一条件下测量, 如何采用简单随机抽样的方法抽取样本?【思路点拨】简单随机抽样一般采用两种方法:抽签法和随机数表法.【解析】解法1:(抽签法)将100件轴编号为1, 2, …, 100, 并做好大小、形状相同的号签, 分别写上这100个数, 将这些号签放在一起, 进行均匀搅拌, 接着连续抽取10个号签, 然后测量这个10个号签对应的轴的直径.解法2:(随机数表法)将100件轴编号为00, 01, …99, 在随机数表中选定一个起始位置,如取第21行第1个数开始, 选取10个为68, 34, 30, 13, 70, 55, 74, 77, 40, 44, 这10件即为所要抽取的样本.【总结升华】从以上两种方法可以看出, 当总体个数较少时用两种方法都可以, 当样本总数较多时, 方法2优于方法1.举一反三:【变式】某大学为了支持奥运会,从报名的24名大三的学生中选6人组成志愿小组,请用抽签法和随机数表法设计抽样方案.【思路点拨】(1)总体的个体数较少,利用抽签法或随机数表法可容易获取样本;(2)抽签法的操作要点:编号、制签、搅匀、抽取;(3)随机数表法的操作要点:编号、选起始数、读数、获取样本.【解析】抽签法第一步:将24名志愿者编号,编号为1,2,3, (24)第二步:将24个号码分别写在24张外形完全相同的纸条上,并揉成团,制成号签;第三步:将24个号签放入一个不透明的盒子中,充分搅匀;[来源:]第四步:从盒子中逐个抽取6个号签, 并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法第一步:将24名学生编号,编号为01,02,03,……24;第二步:在随机数表中任选一数开始,按某一确定方向读数;第三步:凡不在01~24中的数或已读过的数,都跳过去不作记录,依次记录下得数;第四步:找出号码与记录的数相同的学生组成志愿小组.类型二、系统抽样【例2】某校高中三年级的295名学生已经编号为1, 2, ……, 295, 为了了解学生的学习情况, 要按1:5的比例抽取一个样本, 用系统抽样的方法进行抽取, 并写出过程.【思路点拨】按1:5分段, 每段5人, 共分59段, 每段抽取一人, 关键是确定第1段的编号.【解析】按照1:5的比例, 应该抽取的样本容量为295÷5=59, 我们把259名同学分成59组, 每组5人, 第一组是编号为1~5的5名学生, 第2组是编号为6~10的5名学生, 依次下去, 59组是编号为291~295的5名学生.采用简单随机抽样的方法, 从第一组5名学生中抽出一名学生, 不妨设编号为k(1≤k≤5), 那么抽取的学生编号为k+5L(L=0,1,2,……, 58), 得到59个个体作为样本, 如当k=3时的样本编号为3, 8, 13, ……, 288, 293.【总结升华】系统抽样可按事先规定的规则抽取样本. 本题采用的规则是第一组随机抽取的学生编号为k, 那么第m 组抽取的学生编号为k+5(m-1).举一反三:【变式】一个总体中有100个个体, 随机编号为0, 1, 2, …, 99, 依编号顺序平均分成10个小组, 组号依次为l, 2, 3, …, 10.现用系统抽样方法抽取一个容量为10的样本, 规定如果在第1组随机抽取的号码为m, 那么在第最小组中抽取的号码个位数字与m+k 的个位数字相同.若m=6, 则在第7组中抽取的号码是 .【答案】∵6m =, 7k =, ∴13m k += ∴在第7小组中抽取的号码是63. 类型三、分层抽样【例3】某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况, 需从这600个销售点中抽取一个容量为100的样本, 记这项调查为①;在丙地区中有20个特大型销售点, 要从中抽取7个调查其销售收入和售后服务情况, 记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )A .分层抽样法, 系统抽样法B .分层抽样法, 简单随机抽样法C .系统抽样法, 分层抽样法D .简单随机抽样法, 分层抽样法【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样, 采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时, 宜采用分层抽样;当总体中个体较少时, 宜采用随机抽样.【解析】依据题意, 第①项调查应采用分层抽样l 法、第②项调查应采用简单随机抽样法.故选B . 【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定. 举一反三:【变式】甲校有3600名学生, 乙校有5400名学生, 丙校有1800名学生, 为统计三校学生某方面的情况, 计划采用分层抽样法, 抽取一个样本容量为90人的样本, 应在这三校分别抽取学生( )A.30人, 30人, 30人B.30人, 45人, 15人C.20人, 30人, 10人D.30人, 50人, 10人【答案】B ;根据样本容量和总体容量确定抽样比, 最终得到每层中学生人数.【例4】一个地区共有5个乡镇, 人口3万人, 其中人口比例为3:2:5:2:3, 从3万人中抽取一个300人的样本, 分析某种疾病的发病率, 已知这种疾病与不同的地理位置及水土有关, 问应采取什么样的方法?并写出具体过程.【思路点拨】采用分层抽样的方法.【解析】因为疾病与地理位置和水土均有关系, 所以不同乡镇的发病情况差异明显, 因而采用分层抽样的方法, 具体过程如下:(1)将3万人分为5层, 其中一个乡镇为一层. (2)按照样本容量的比例随机抽取各乡镇应抽取的样本.300×3/15=60(人), 300×2/15=40(人), 300×5/15=100(人), 300×2/15=40(人), 300×3/15=60(人), 因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人.(3)将300人组到一起, 即得到一个样本.【总结升华】分层抽样在日常生活中应用广泛, 其抽取样本的步骤尤为重要, 应牢记按照相应的比例去抽取.举一反三:【变式】某单位最近组织了一次健身活动, 活动分为登山组和游泳组, 且每个职工至多参加了其中一组.在参加活动的职工中, 青年人占42.5%, 中年人占47.5%, 老年人占10%.登山组的职工占参加活动总人数的41, 且该组中, 青年人占50%, 中年人占40%, 老年人占10%.为了了解各组不同的年龄层次的职工对本次活动的满意程度, 现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定(Ⅰ)游泳组中, 青年人、中年人、老年人分别所占的比例; (Ⅱ)游泳组中, 青年人、中年人、老年人分别应抽取的人数. 【答案】(Ⅰ)设登山组人数为x , 游泳组中, 青年人、中年人、老年人各占比例分别为a 、b 、c,则有40%347.5%410%310%4x xbxx xc x ⋅+⎧=⎪⎪⎨⋅+⎪=⎪⎩, 解得50%10%b c =⎧⎨=⎩故a=100%-50%-10%=40%,即游泳组中, 青年人、中年人、老年人各占比例分别为40%、50%、10%. (Ⅱ)游泳组中, 抽取的青年人数为320040%604⨯⨯=(人);抽取的中年人数为32004⨯⨯50%=75(人); 抽取的老年人数为32004⨯⨯10%=15(人).类型四、用样本估计总体【例4】甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分) 甲组 76 90 84 86 81 87 86 82 85 83乙组 82 84 85 89 79 80 91 89 79 74 用茎叶图表示两小组的成绩, 并判断哪个小组的成绩更整齐一些?【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.【解析】用茎叶图表示两小组的成绩如图:甲茎乙6 7 4 9 97 6 6 5 4 3 2 1 8 0 2 4 5 9 90 9 1由图可知甲组成绩较集中, 即甲组成绩更整齐一些.【总结升华】对各数据是二、三位数, 且数据量不是很大时, 用用茎叶图表示较为方便, 也便于进行统计推断, 否则, 应改用其他方法.举一反三:【变式1】甲、乙两个学习小组各有10名同学, 他们在一次数学测验中成绩的茎叶图如图所示, 则他们在这次测验中成绩较好的是组.【答案】甲小组【变式2】甲、乙两名运动员的5次测试成绩如下图所示, 设12,s s分别表示甲、乙两名运动员测试成绩的标准差,12,x x分别表示甲、乙两名运动员测试成绩的平均数, 则有()A.12x x=,12s s<B.12x x=,12s s>C.12x x>,12s s> D.12x x=,12s s=【答案】B【例5】以下茎叶图记录了甲、乙两组各四名同学在某次数学测验中的成绩, 甲组记录中有一个数据模糊, 无法确认, 在图中以X表示.甲组乙组甲茎乙5 7 16 88 8 2 2 3 6 76 X8 74 1 9 0 0 3(Ⅰ)如果甲组同学与乙组同学的平均成绩一样, 求X 及甲组同学数学成绩的方差;(Ⅱ)如果X=7, 分别从甲、乙两组同学中各随机选取一名, 求这两名同学的数学成绩之和大于180的概率.(注:方差2222121=[()()...()],n s x x x x x x n-+-++-其中12,,...,.n x x x x 为的平均数) 【思路点拨】(Ⅰ)利用平均数的基本概念加以求解。

高考数学总结归纳点拨 统计案例考点预测及知识点回顾

高考数学总结归纳点拨 统计案例考点预测及知识点回顾

统计案例考点预测及知识点回顾一、考点分析统计案例内容为新课程标准中新添加的内容,包括回归分析与独立性检验两大知识点,在以往的高考中均未涉及,现就其知识点进行预测分析.预测分析:回归分析的知识点包括:求回归系数b 和a 的值,求回归直线方程及推导过程和分析方法,利用回归直线方程来估计有关变量的对应值,画出散点图,并利用散点图判断两个变量之间是否具有相关关系,相关性检验的一般方法,样本相关系数的求解公式.在实际问题中应先对两个变量进行相关性检验,再进行回归直线方程的求解,据预测今后的高考中回归分析应该重点在先分析再求解回归直线方程,并进行相应的估计预测,但由于这类问题的计算量较大,预计试题中出现的数据组数不会太多,应在5组~10组数据之内.对于独立性检验问题,预计在今后的高考中,将主要以22()()()()()n ad bc K a b c d a c b d -=++++的计算及与临界值的比较来判断事件的相关与无关为主,以及相互独立检验的基本思想,前者将以解答题的形式出现,而后者会以选择题为主,请广大读者注意了解高考的有关信息.二、知识点回顾1.回归分析(1)______________,称为随机误差.均值()0E e =,方差2()0D e σ=>,则线性回归模型的完整表达式为:________.(2)模型的未知参数a 和b 的值:$b= ,$a = . (3)样本的相关系数r = ,当0r >时,表明 ;当0r <时表明 ;r 的绝对值越接近1,表明 ;r 的绝对值越接近于0时,表明 通常,当r 大于0.75时,我们认为 .(4)残差i e=$ ,残差平方和$$()Q a b =, ,µ2σ= .µ2σ越小,预报精度越高.(5)残差分析:______________________________称为残差分析,并可画出残差图,残差点比较均匀地落在水平带状区域中,说明_________________________.(6)用身高预报体重时,应注意的几个问题:①____________________________________________.②____________________________________________.③____________________________________________.④____________________________________________.(7)一般地,建立回归模型的基本步骤为:①____________________________________________.②____________________________________________.③____________________________________________.④____________________________________________.⑤____________________________________________.2.独立性检验(1)通过_________图与________图,可用于粗略地判断两个分类变量是否有关系. ①在________图中,主对角线上两个柱形高的乘积ad 与副对角线上的两个柱形高度的乘积bc 相差越大,两个分类变量X 与Y 有关系的可能性就越大.②在________图中,可以估计图形满足1X x =的个体中具有1Y y =的个体所占的比例c c d+.两个比例的值相差越大,X 与Y 有关系的可能性就越大.但是三维柱形图和二维条形图无法精确地给出所得结论的可靠程度,因而只做粗略估计,而不做具体运算.(2)利用随机变量2K 进行判断检验,先假设两个分类变量X 与Y 无关系,计算出2K 的观测值k ,把k 与临界值进行比较,可以判断X 与Y 有关系的程度或无关系.在该假设下,构造的随机变量2K 应该很小,如果实际计算出的2K 的观测值k 很大,则在一定程度上说明假设不合理,根据2K 的含义可以利用统计估算的概率( 6.635)0.01P k ≈≥.评价该假设的不合理程度,具体比较时可以参考以下标准:①如果k >10.828,则有99.9%的把握认为“X 与Y 有关系”.②如果k >7.879,则有99.5%的把握认为“X 与Y 有关系”.③如果k >6.635,则有99%的把握认为“X 与Y 有关系”.④如果k >5.024,则有97.5%的把握认为“X 与Y 有关系”.⑤如果k >3.841,则有95%的把握认为“X 与Y 有关系”.⑥如果k >2.706,则有90%的把握认为“X 与Y 有关系”.⑦如果k ≤2.706,就认为没有充分证据显示“X 与Y 有关系”;这时就认为“X 与Y 无关系”成立.只要k >2.706,我们就认为“X 与Y 有关系”.(3)独立性检验的一般步骤为:①_____________________________________.②计算出2K 的观测值k =__________________.③把______的值与______值比较确定X 与Y 有关的程度或无关系.。

2020届高三数学一轮总复习 第十三章 统计案例(文)(教师用书)

2020届高三数学一轮总复习 第十三章 统计案例(文)(教师用书)

第十三章统计案例高考导航考试要求重难点击命题展望1.理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样方法.2.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、茎叶图,理解它们各自的特点,理解样本数据标准差的意义和作用,会计算数据标准差,能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想,会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.3.会作两个有关联变量的散点图,会利用散点图认识变量间的相关关系,了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,了解回归的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.本章重点:1.三种抽样方法的区别、联系及操作步骤.2.样本频率分布直方图和茎叶图.3.用样本估计总体的思想.本章难点:回归直线方程与独立性检验.统计多数以选择题和填空题形式考查,大题只在个别省的考题中出现过.难度属于基础题和中档题.考点往往集中体现在抽样方法、频率分布图表这两个方面.另外,应注意统计题反映出来的综合性与应用性,如与数列、概率等的综合,用统计方法提供决策、制定方案等,以此考查学生搜集处理信息及分析解决问题的能力.知识网络13.1 抽样方法与用样本估计总体典例精析 题型一 抽样方法【例1】某校有教师200人,男学生1 200人,女学生1 000人,用分层抽样的方法从所有师生中抽取一个容量为n 的样本,已知女学生抽取的人数为80人,则n 的值为 .【解析】根据分层抽样的意义,n200+1 200+1 000=801 000,解得n =192.【点拨】现实中正确的分层抽样一般有三个步骤:首先,辨明突出的统计特征和分类.其次,确定每个分层在总体上的比例.利用这个比例,可计算出样本中每组(层)应抽取的人数.最后,必须从每层中抽取独立简单随机样本.【变式训练1】从某厂生产的802辆轿车中随机抽取80辆测试某项性能.请合理选择抽样方法进行抽样,并写出抽样过程.【解析】第一步,将802辆轿车用随机方式编号.第二步,从总体中剔除2辆(剔除方法可用随机数表法),将剩余的800辆轿车重新编号(分别为001,002,003,…,800),并分成80段.第三步,在第一段001,002,…,010这十个编号中用简单随机抽样抽出一个(如005)作为起始号码.第四步,将编号为005,015,025,…,795的个体抽出,组成样本. 题型二 频率分布直方图【例2】(2010湖南)如图是某城市通过抽样得到的居民某年的月均用水量(单位:吨)的频率分布直方图.(1)求直方图中x的值;(2)若将频率视为概率,从这个城市随机抽取3位居民(看作有放回的抽样),求月均用水量在3至4吨的居民数X的分布列和数学期望.【解析】(1)依题意及频率分布直方图知0.02+0.1+x+0.37+0.39=1,解得x=0.12.(2)由题意知X~B(3,0.1),因此P(X=0)=C03×0.93=0.729,P(X=1)=C13×0.1×0.92=0.243,P(X=2)=C23×0.12×0.9=0.027,P(X=3)=C33×0.13=0.001,故随机变量X的分布列为X 0 1 2 3P 0.729 0.243 0.027 0.001X的数学期望为(或E(X)=1×0.243+2×0.027+3×0.001=0.3)【点拨】从频率分布直方图读取数据时,要特别重视组距,纵坐标是频率除以组距,故长方形的面积之和为1.【变式训练2】如图是容量为100的样本的频率分布直方图,试根据数据填空:(1)样本数据落在[10,14)内的频数为;(2)样本数据落在[6,10)内的频率为;(3)总体落在[2,6)内的频率为.【解析】(1)样本落在[10,14)内的频数为0.09×4×100=36. (2)样本落在[6,10)内的频率为0.08×4=0.32.(3)样本落在[2,6)内的频率为0.02×4=0.08,所以总体落在[2,6)内的频率约为0.08. 题型三 平均数、方差的计算【例3】甲、乙两人在相同条件下各射靶10次,每次命中环数如下: 甲 4 7 10 9 5 6 8 6 8 8 乙 7 8 6 8 6 7 8 7 5 9 试问谁10次射靶的情况较稳定?【解析】本题要计算两样本的方差,当样本平均数不是整数,且样本数据不大时,可用简化公式计算方差.甲x =110(4+7+…+8)=7.1, 乙x =110(7+8+…+9)=7.1, s 2甲=110(42+72+…+82-10×7.12)=3.09, s 2乙=110(72+82+…+92-10×7.12)=1.29, 因为s 2甲>s 2乙,所以乙10次射靶比甲10次射靶情况稳定.【点拨】平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的离散程度就越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.【变式训练3】(2020北京市东城区)在一次数学统考后,某班随机抽取10名同学的成绩进行样本分析,获得成绩数据的茎叶图如右图.(1)计算此样本的平均成绩及方差;(2)现从此样本中随机抽出2名学生的成绩,设抽出分数为90分以上的人数为X ,求随机变量X 的分布列和均值.【解析】(1)样本的平均成绩x =80; 方差为s 2=110[(92-80)2+(98-80)2+(98-80)2+(85-80)2+(85-80)2+(74-80)2+(74-80)2+(74-80)2+(60-80)2+(60-80)2]=175.(2)由题意,随机变量X =0,1,2.P (X =0)=C 27C 210=715,P (X =1)=C 13C 17C 210=715,P (X =2)=115.随机变量X 的分布列为X 0 1 2P157 157 151 E (X )=0×715+1×715+2×15=5.总结提高1.统计的基本思想是用样本估计总体.这就要求样本具有很好的代表性,而样本良好客观的代表性,则完全依赖抽样方法.2.三种抽样方法中简单随机抽样是最基本的抽样方法,是其他两种方法的基础,它们的共同点都是等概率抽样.适用范围不同,要根据总体的具体情况选用不同的方法.3.对于总体分布,总是用样本的频率分布对它进行估计.4.用样本估计总体,一般分成以下几个步骤:先求样本数据中的最大值和最小值(称为极值),再确定合适的组数和组距,确定分点(每个分点只属于一组,故一般采用半开半闭区间),然后列出频率分布表(准确,查数据容易),画频率分布直方图.13.2 两变量间的相关性、回归分析和独立性检验典例精析题型一 求回归直线方程【例1】下表是关于某设备的使用年限(年)和所需要的维修费用(万元)的几组统计数据:x 2 3 4 5 6 y2.23.85.56.57.0(1)若y 对x 呈线性相关关系,求出y 关于x 的线性回归方程y =bˆx +a ˆ; (2)估计使用年限为10年时,维修费用为多少?【解析】(1)因为51=∑i x i y i =112.3,51=∑i x 2i =4+9+16+25+36=90,且x =4,y =5,n =5,所以bˆ=112.3-5×4×590-5×16=12.310=1.23,a ˆ=5-1.23×4=0.08, 所以回归直线方程为y =1.23x +0.08. (2)当x =10时,y =1.23×10+0.08=12.38, 所以估计当使用10年时,维修费用约为12.38万元.【点拨】当x 与y 呈线性相关关系时,可直接求出回归直线方程,再利用回归直线方程进行计算和预测.【变式训练1】某工厂经过技术改造后,生产某种产品的产量(吨)与相应的生产能耗(吨标准煤)有如下几组样本数据.x 3 4 5 6y 2.5 3 4 4.5据相关性检验,y与x具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7,那么y关于x的回归直线方程是.【解析】先求得x=4.5,y=3.5,由yˆ=0.7x+a过点(x,y),则a=0.35,所以回归直线方程是yˆ=0.7x+0.35.题型二独立性检验【例2】研究小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:种子灭菌种子未灭菌合计黑穗病26 184 210无黑穗病50 200 250合计76 384 460试按照原试验目的作统计分析推断.【解析】由列联表得:a=26,b=184,c=50,d=200,a+b=210,c+d=250,a+c=76,b+d=384,n=460.所以K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=460×(26×200-184×50)2210×250×76×384≈4.804,由于K2≈4.804>3.841,所以有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的.【变式训练2】(2020东北三省三校模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,可以有%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重不超重合计偏高 4 1 5不偏高 3 12 15合计7 13 20P(K2≥k0) 0.025 0.010 0.005 0.001k0 5.024 6.635 7.879 10.828(独立性检验随机变量K 2值的计算公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ))【解析】由表可得a +b =5,c +d =15,a +c =7,b +d =13,ad =48,bc =3,n =20,运用独立性检验随机变量K 2值的计算公式得K 2=20×(48-3)25×15×7×13=54091≈5.934,由于K 2≈5.934>5.024,所以有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系. 总结提高1.在研究两个变量之间是否存在某种关系时,必须从散点图入手.2.样本的随机性导致由线性回归方程所作出的预报也具有随机性.。

统计(5大易错点分析+解题模板+举一反三+易错题通关)-备战2024年高考数学考试易错题(原卷版)

统计(5大易错点分析+解题模板+举一反三+易错题通关)-备战2024年高考数学考试易错题(原卷版)

专题13统计易错点一:统计用表中概念不清、识图不准致误(频率分布直方图、总体取值规律)频率分布直方图作频率分布直方图的步骤①求极差:极差为一组数据中最大值与最小值的差.②决定组距与组数将数据分组时,一般取等长组距,并且组距应力求“取整”,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.③将数据分组④列频率分布表各小组的频率=小组频数样本容量.⑤画频率分布直方图纵轴表示频率组距,频率组距实际上就是频率分布直方图中各小长方形的高度,小长方形的面积=组距×频率组距=频率.频率分布直方图的性质①因为小矩形的面积=组距×频率组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.②在频率分布直方图中,各小矩形的面积之和等于1.③频数相应的频率=样本容量.④频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.易错提醒:频率分布条形图和频率分布直方图是两个完全不同的概念,考生应注意两者之间的区别.虽然它们的横轴表示的内容是相同的,但是频率分布条形图的纵轴表示频率;频率分布直方图的纵轴表示频率与组距的比值,其各小组的频率等于该小组上的矩形的面积.例:如图所示是某公司(共有员工300人)2021年员工年薪情况的频率分布直方图,由此可知,员工中年薪在1.4万元~1.6万元之间的共有______人.易错分析:解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在1.4万元~1.6万元之间的频率为()10.020.080.1020.60-++⨯=,从而得到员工中年薪在1.4万元~1.6万元之间的共有3000.60180⨯=(人)的错误结论.正解:由所给图形,可知员工中年薪在1.4万元~1.6万元之间的频率为()10.020.080.080.100.1020.24-++++⨯=,所以员工中年薪在1.4万元~1.6万元之间的共有3000.2472⨯=(人).故72.易错警示:考生误认为频率分布直方图中纵轴表示的是频率,这是错误的,而是“频率/组距”,所以频率对应的是各矩形的面积.变式1:某大学有男生2000名.为了解该校男生的身体体重情况,随机抽查了该校100名男生的体重,并将这100名男生的体重(单位:kg )分成以下六组:[)54,58、[)58,62、[)62,66、[)66,70、[)70,74、[]74,78,绘制成如下的频率分布直方图:70,78上的男生大约有人.该校体重(单位:kg)在区间[]变式2:现对某类文物进行某种物性指标检测,从1000件中随机抽取了200件,测量物性指标值,得到如下频率分布直方图,据此估计这1000件文物中物性指标值不小于95的件数为.变式3:如图是根据我国部分城市某年6月份的平均气温数据得到的样本频率分布直方图,其中平均气温的范围是[20,26],样本数据的分组为[20,21),[21,22),[22,23),[23,24),[24,25),[25,26].已知样本中平均气温低于22°C的城市个数为11,样本中平均气温不低于25°C的城市个数是.1.已知某班全体学生在某次数学考试中的成绩(单位:分)的频率分布直方图如图所示,则图中a所代表的数值是.2.某校共有400名学生参加了趣味知识竞赛(满分:这400名学生的竞赛成绩分组如下:分布直方图如图所示,则这400名学生中竞赛成绩不低于3.从某小学所有学生中随机抽取100名学生,将他们的身高(单位:图),其中样本数据分组[100,110),[110,120),[120,130),[130,140),[140,150)4.某工厂抽取100件产品测其重量(单位:[[[[,42],据此绘制出如图所示的频率分布直方图,则重量在40,40.5),40.5,41),41,41.5),41.5件数为.5.某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:利用该指标制定一个检测标准,需要确定临界值c ,将该指标大于c 的人判定为阳性,小于或等于定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为()p c ;误诊率是将未患病者判定为阳性的概率,记为()q c .假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数()()()f c p c q c =+,则函数()f c 在区间[95,105]取得最小值时c =.6.某大学有男生10000名.为了解该校男生的身体体重情况,随机抽查了该校100100名男生的体重(单位:kg )分成以下六组:[)54,58、[)58,62、[)62,66、[66,70kg []7.某中学为了解高三男生的体能情况,通过随机抽样,获得了秒),将数据按照[)11.5,12,[)12,12.5,…8.某工厂对一批产品的长度(单位:mm)进行检验,将抽查的产品所得数据分为五组,整理后得到的频率分布直方图如图所示,若长度在20mm以下的产品有30个,9.某中学为了解学生的数学学习情况,在全体学生中随机抽取30,40成绩,将所得的数据分为7组:[)图,则在被抽取的学生中,该次数学考试成绩不低于10.某区为了解全区12000名高二学生的体能素质情况,测试,并将这1000名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,这平均成绩的估计值为.11.将一个容量为100的样本数据,按照从小到大的顺序分为组号123456频数10161815若第6组的频率是第3组频率的12.节约用水是中华民族的传统美德,某市政府希望在本市试行居民生活用水定额管理,即确定一个合理易错点二:统计中的数字特征的实际意义理解不清楚致误(频率分布直方图特征数考查)众数、中位数、平均数①众数:一组数据中出现次数最多的数.②中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.③平均数:如果n个数x1,x2,…,x n,那么()∑==+++=niinxnxxxnx12111叫做这n个数的平均数.总体集中趋势的估计①平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.②一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.频率分布直方图中平均数、中位数、众数的求法①样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.②在频率分布直方图中,中位数左边和右边的直方图的面积应相等.③将最高小矩形所在的区间中点作为众数的估计值.易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例.某班50名学生期中考试数学成绩的频率分布直方图如图所示.根据频率分布直方图,估计该班本次测试众数为.变式1:为响应自己城市倡导的低碳出行,小李上班可以选择自行车,他记录了100次骑车所用时间(单位:分钟),得到频率分布直方图,则骑车时间的众数的估计值是分钟变式2:数学兴趣小组的四名同学各自抛掷骰子5次,分别记录每次骰子出现的点数,四名同学的部分统计结果如下:甲同学:中位数为3,方差为2.8;乙同学:平均数为3.4,方差为1.04;丙同学:中位数为3,众数为3;丁同学:平均数为3,中位数为2.根据统计结果,数据中肯定没有出现点数6的是同学.变式3:以下5个命题中真命题的序号有.①样本数据的数字特征中,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息;②若数据1x ,2x ,3x ,…,n x 的标准差为S ,则数据1ax b +,2ax b +,3ax b +,…,n ax b +的标准差为aS ;③将二进制数(2)11001000转化成十进制数是200;④x 是区间[0,5]内任意一个整数,则满足“3x <”的概率是35.1.2022年11月卡塔尔世界杯如期举行,这是世界足球的一场盛宴.为了了解全民对足球的热爱程度,组委会在某场比赛结束后,随机抽取了1000名观众进行对足球“喜爱度”的调查评分,将得到的分数分成6段:[)70,75,[)75,80,[)80,85,[)85,90,[)90,95,[]95,100,得到如图所示的频率分布直方图.图中部分数据丢失,若已知这1000名观众评分的中位数估计值为87.5,则m=.2.为了普及环保知识,增强环保意识,某中学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为e m ,众数为o m ,平均数为x ,则,,e o m m x 的大小关系是.3.《中国居民膳食指南(2022)》数据显示,学生的体重情况,某机构从该地中学生中随机抽取数据,按[)40,45,[)45,50,[50,55所示.根据调查的数据,估计该地中学生体重的中位数是4.为了解某校高三学生的数学成绩,随机地抽查了该校布直方图如图所示.请根据以上信息,估计该校高三学生数学成绩的中位数为两位)5.2021年某省高考体育百米测试中,成绩全部介于按如下方式分成六组:第一组[12,13该100名考生的成绩的中位数(保留一位小数)是6.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别为.7.某快递驿站统计了近期每天代收快件的数量,并制成如下图所示的频率分布直方图.则该快递驿站每天代收包裹数量的中位数为8.某质检部门对某新产品的质量指标随机抽取10.某大学天文台随机调查了该校100位天文爱好者的年龄,得到如下样本数据频率分布直方图,则估计该校100名天文爱好者的平均岁数为.11.众数、平均数和中位数都描述了数据的集中趋势,、、分别表示众数、平均数、形态中,m n p12.如图为某工厂工人生产能力频率分布直方图,则估计此工厂工人生产能力的平均值为易错点三:运用数字特征作评价时考虑不周(方差、标准差的求算)方差、标准差①假设一组数据为n x x x x ,,,321,则这组数据的平均数()∑==+++=ni i n x n x x x n x 12111 ,方差为()()()[]()⎪⎪⎭⎫ ⎝⎛-=-=-+-+-=∑∑=2221222212111n ii n i i n x n x n x x n x x x x x x ns ,标准差()211∑=-=ni i x x n s ②若假设一组数据为n x x x x ,,,321,它的平均数为x ,方差为2s ,则一组数据为b ax b ax b ax b ax n ++++ ,,,321,的平均数为b x a +,方差为22s a 。

统计问题专项突破(教案)-高三数学二轮复习讲义

统计问题专项突破(教案)-高三数学二轮复习讲义

专题十五 统计【学习目标】1.结合具体实例,说出统计本质及意义,厘清相关内容的生成过程和逻辑关系。

2.探究两件事是否相关和两个变量是否线性相关问题,并总结规律方法3.探究概率与生活的关系,能够在生活中建立概率模型,解决生活中的随机现象问题。

【体系建构】 一、必记4个知识点1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在①__________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x -2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中②____________称为样本点的中心.(3)相关系数当r>0时,表明两个变量③________________;当r<0时,表明两个变量④________________.r的绝对值越接近于1,表明两个变量的线性相关性⑤________.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于⑥________时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d构造一个随机变量K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.二、必明4个易误点1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.2.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.r的大小只说明是否相关,并不能说明拟合效果的好坏,R2才是判断拟合效果好坏的依据,必须将二者区分开来.4.独立性检验的随机变量K2=2.706是判断是否有关系的临界值,K2<2.706应判断为没有充分依据显示X与Y有关系,而不能作为小于90%的量化值来作出判断.【基础过关】1.(多选)某中学为了解学生数学史知识的积累情况,随机抽取150名同学参加数学史知识测试,测试题共5道,每答对一题得20分,答错得0分.得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则()A.该次数学史知识测试及格率超过90%B.该次数学史知识测试得满分的同学有15名C .该次测试成绩的中位数大于测试成绩的平均数D .若该校共有1500名学生,则数学史知识测试成绩能得优秀的同学大约有720名 2.(多选)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):根据此频率分布直方图,下面结论中正确的是( ) A .该地农户家庭年收入低于4.5万元的农户比率估计为6% B .该地农户家庭年收入的中位数约为7.5万元C .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间D .估计该地农户家庭年收入的平均值不超过6.5万元3.(多选)某班级一周内对甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是( ) A .甲同学体温的极差为0.4℃B .乙同学体温的众数为36.4℃,中位数与平均数相等C .乙同学的体温比甲同学的体温稳定D .甲同学体温的第60百分位数为36.4℃ 【探究迁移】 【探究一】回归分析【例1】人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件) 4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:2ˆˆˆyux v =+. (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为24z x x=1)的结果,问该公司哪一个月的月利润预报值最大?参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.【探究二】 独立性检验【例2】为了增强学生体质,茂名某中学的体育部计划开展乒乓球比赛,为了解学生对乒乓球运动的兴趣,从该校一年级学生中随机抽取了200人进行调查,男女人数相同,其中女生对乒乓球运动有兴趣的占80%,而男生有15人表示对乒乓球运动没有兴趣.(1)完成2×2列联表,并回答能否有90%的把握认为“对乒乓球运动是否有兴趣与性别有关”?(2)为了提高同学们对比赛的参与度,比赛分两个阶段进行.第一阶段的比赛赛制采取单循环方式,每场比赛采取三局二胜制,然后由积分的多少选出进入第二阶段比赛的同学,每场积分规则如下:比赛中以2:0取胜的同学积3分,负的同学积0分;以2:1取胜的同学积2分,负的同学积1分.其中,小强同学和小明同学的比赛倍受关注,设每局小强同学取胜的概率为23p =,记小强同学所得积分为X , 求X 的分布列和期望.附表:()22 ()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++参考公式:。

高中数学- 统计案例(知识梳理)

高中数学- 统计案例(知识梳理)

30第25章 统计案例-@>% )一回归分析的基本思想及其初步应用1.回归直线方程设x 与y 是具有相关关系的两个变量,且相应于n 个观测值的(x i ,y i )(i =1,2, ,n )大致分布在某一条直线的附近,就可以认为y 对x 的回归函数的类型为直线型:y ɡ=b x +a .其中b =ðni =1(x i -x -)(y i -y -)ðni =1(x i -x -)2,a =y --b x -,ìîíïïïïïï我们称这个方程为y 对x 的回归直线方程.其中,x -=1n ðni =1x i ,y -=1n ðni =1y i ,(x -,y -)称为样本点的中心.2.相关系数及相关检验(1)对于变量x 与y 随机抽取到的n 对数据(x i ,13 yi )(i =1,2, ,n ),利用相关系数r 来衡量两个变量之间的线性相关关系,当x i 不全相等,y i 也不全相等时,样本相关系数的具体计算公式为r =ðni =1(x i-x -)(y i -y -)ðni =1(x i-x -)2ðni =1(yi -y -)2,|r |ɤ1,当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 越接近于1,表明两个变量的线性相关性越强;r 越接近于0,表明两个变量之间几乎不存在线性相关关系.通常,当r 大于0.75时,我们认为两个变量之间存在着很强的线性相关关系.(2)相关性检验的步骤如下:①所作的统计假设是两个变量不具备线性相关关系②在相关系数检验的临界值表中查出与显著性水平0.05㊁自由度(n -2)(n 为观测值的组数)相应的相关系数临界值表r 0.05.③根据公式计算相关系数r 的值.④检验所得结果,如果|r |ɤr 0.05,那么就认为y 与x 之间的线性相关关系不显著,从而接受假设,即承认两个变量不具备线性相关关系.如果|r |>r 0.05,表明一个概率不到5%的事件在一次试验中竟然发生了,小概率事件的发生使我们有理由认为假设是不成立的,拒绝32这个假设即表明y 与x 之间有线性相关关系.3.残差分析(1)在线性回归模型中,e 是用y ɡ预报真实值的误差,它是一个不可测量的量,我们称e 为随机误差,因为随机误差是一个随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此不能用均值来衡量随机误差的大小,但可以用方差σ2来衡量这个随机误差的大小.为了衡量预报的精度,需要估计σ2的值,我们一般采用样本方差估计总体的方差,但由于e 隐含在预报变量y 中,无法精确地从y 中分离出来,因而也就无法得到随机变量e 的样本.解决问题的方法是通过样本的估计值来估计σ2,我们可以建立回归方程y ɡ=b x +a ,因此y ɡ为y ɡ=b x +a 中y ɡ的估计值,由于e ɡ=y -y ɡ,所以e ɡ=y -y ɡ是e 的估计量,这样,对于样本点(x i ,y i )(i =1,2, ,n )相应于它们的随机误差为e i =y i -y ɡi =yi -b x i -a (i =1,2, ,n ),其估计值为e ɡi =y i -y ɡi =y i -b ɡx i -a ɡ(i =1,2, ,n ),e ɡi 称为相应于样本点(x i ,y i )的残差,类比样本方差估计总体方差的思想,可以用σɡ2=1n -2ðni =1e ɡ2i=1n -2Q (a ɡ,b ɡ)(n >2)作为σ2的估计量,其中a ɡ和b ɡ为回归系数,Q(aɡ,bɡ)称为残差平方和,可以利用σɡ2来衡量回归方程的预报精度.通常σɡ2越小,预报精度越高.在研究两个变量间的关系时,首先要根据散点图来粗略地判断它们是否线性相关,数据是否可以用线性回归模型来拟合,然后可以通过残差eɡ1,eɡ2, ,eɡn来判断模型的拟合效果,判断原始数据中是否存在可疑数据,这方面的分析工作被称为残差分析.(2)残差分析的一般方法是作残差图.作图时,纵坐标为残差,横坐标可以选用样本编号或有关数据,这样作出的图形称为残差图.如果残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,这样的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度也越高;如果残差点分布不均匀,应首先确认采集的样本点有无错误,如果有错误,就予以纠正,然后再重新利用线性回归模型来拟合数据,如果数据的采集没有错误,则需要寻找其他的原因.4.相关指数R2可以用相关指数R2来刻画回归的效果,R2的计算公式为R2=1-ðn i=1(y i-yɡi)2ðn i=1(y i-y-)2,R2取值越大,说明残差平方和越小,也就是说模型的拟合效果越好.135.非线性回归分析(1)非线性回归模型:当回归方程不是形如y=b x+a时,我们称为非线性回归模型.(2)非线性回归模型的拟合效果:对于给定的样本点(x1,y1),(x2,y2), ,(x n,y n),两个含有未知参数的模型y-(1)=f(x,a)和y-(2)=g(x,b),其中a和b都是未知参数.可按如下的步骤比较它们的拟合效果:①分别建立对应于两个模型的回归方程yɡ(1)= f(x,aɡ)和yɡ(2)=g(x,bɡ),其中aɡ,bɡ分别是参数a和b 的估计值.②分别计算两个回归方程的残差平方和Qɡ(1)=ðn i=1(y i-y(1)i)2和Qɡ(2)=ðn i=1(y i-yɡ(2)i)2.③若Qɡ(1)<Qɡ(2),则yɡ(1)=f(x,aɡ)的效果比yɡ(2)= g(x,bɡ)的效果更好;反之,yɡ(1)=f(x,aɡ)的效果不如yɡ(2)=g(x,bɡ)的效果好.二独立性检验的基本思想及其初步应用1.独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认 两个分类变量有关系 这一结论成立的可信程度,首先假设该结论不成立,即假设结论 两个分类变量没有关系 成342.独立性检验的基本方法一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表如下表所示.YX y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d可以利用独立性检验来考查两个分类变量有无关系,并且能较为准确地给出这种判断的可靠程度,具体做法是:根据观测数据计算由公式K2= n(a d-b c)2(a+b)(a+c)(c+d)(b+d)所给出的检验随机变量的观测值k,并且k的值越大,说明 X与Y有关系 成立的可能性越大.13。

高考数学专题突破教师版-统计案例(考点讲析)

高考数学专题突破教师版-统计案例(考点讲析)
(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立 y 关于 x 的回归方程; (Ⅲ)已知这种产品的年利率 z 与 x、y 的关系为 z=0.2y-x.根据(Ⅱ)的结果回答下列问题: (ⅰ)年宣传费 x=49 时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费 x 为何值时,年利率的预报值最大?
【答案】B
【解析】
因为相关系数的绝对值越大,越接近 1,则说明两个变量的相关性越强.因为点 E 到 直线的距离最远,所
以去掉点 E, 余下的 5 个点所对应的数据的相关系数最大. 【典例 2】(2019·青海平安一中高二月考(文))若对于变量 x 的取值为 3,4,5,6,7 时,变量 y 对应的
值依次分别为 4.0,2.5,-0.5,-1,-2;若对于变量 u 的取值为 1,2,3,4 时,变量 v 对应的值依次分别
(Ⅰ)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;
2
(Ⅱ)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量. 附注:
参考数据:


, ≈2.646.
参考公式:相关系数
回归方程
中斜率和截距的最小二乘估计公式分别为:
【答案】(Ⅰ)答案见解析;(Ⅱ)答案见解析.
附:对于一组数据 (u1, v1) , (u2 , v2 ) ,……, (un , vn ) ,其回归线 v u 的斜率和截距的最小二乘估计分
别为:
【答案】(Ⅰ)y c d x 适合作为年销售 y 关于年宣传费用 x 的回归方程类型;(Ⅱ)y 100.6 68 x
(Ⅲ)46.24 【解析】
专题 26.1 统计案例(考点讲析) 提纲挈领

高三数学统计案例知识点

高三数学统计案例知识点

高三数学统计案例知识点统计学是数学的一个分支,是研究数据收集、整理、分析和解释的科学方法和技术。

在高三数学中,统计学是一项重要的内容,本文将介绍高三数学统计案例的知识点。

一、数据的收集与整理1. 可数数据和连续数据:可数数据是指可以一一列举的数据,如人数、成绩等;连续数据是指在一定范围内取值的数据,如身高、体重等。

2. 调查和实验:调查是收集数据的方法之一,通过问卷、观察等方式获取数据;实验是进行有计划的操作来观察和测量,得出定量的数据。

3. 数据的整理与处理:数据整理包括数据的清理、汇总和分类,可以使用表格、图表等形式展示数据。

二、统计指标的计算与分析1. 中心倾向的度量:平均数是一组数据总和除以样本个数,可以衡量数据的中心位置;中位数是将一组数据按从小到大排列后,中间的数值。

2. 数据的离散程度:离差是指观察值与平均数的差值;标准差是离差的平均值的平方根,可以衡量数据的离散情况。

3. 分布的形态:偏态是指数据分布的不对称程度,正偏态表示右侧尾部较长,负偏态表示左侧尾部较长;峰态是指数据分布峰值的陡峭程度,正态分布峰态为3。

三、概率与统计1. 随机事件与概率:随机事件是指在一次试验中可能发生也可能不发生的事件,事件的概率是指事件发生的可能性大小。

2. 概率的计算:频率概率是指事件发生的频率与试验次数的比值;几何概率是指用几何方法计算概率。

3. 概率分布:离散型概率分布是指随机变量可能取值有限且可列的概率分布,如二项分布、泊松分布;连续型概率分布是指随机变量可能取值无限多的概率分布,如正态分布、指数分布。

四、统计推断1. 参数估计:点估计是用样本统计量估计总体参数的值,如样本均值估计总体均值;区间估计是用样本统计量构造总体参数估计的区间。

2. 假设检验:假设检验是根据样本数据对总体参数的假设进行统计推断的方法,包括设置原假设与备择假设、选择显著性水平、计算检验统计量等步骤。

3. 方差分析:方差分析可以判断几个样本均值是否有显著差异,包括单因素方差分析和多因素方差分析。

(2021年整理)高中数学统计与统计案例概率知识点

(2021年整理)高中数学统计与统计案例概率知识点

高中数学统计与统计案例概率知识点(推荐完整)编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学统计与统计案例概率知识点(推荐完整))的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学统计与统计案例概率知识点(推荐完整)的全部内容。

高中数学统计与统计案例概率知识点(推荐完整)编辑整理:张嬗雒老师尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布到文库,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是我们任然希望高中数学统计与统计案例概率知识点(推荐完整) 这篇文档能够给您的工作和学习带来便利。

同时我们也真诚的希望收到您的建议和反馈到下面的留言区,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请下载收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为〈高中数学统计与统计案例概率知识点(推荐完整)> 这篇文档的全部内容.统计与统计案例概率(文科)知识点1.抽样调查(1)抽样调查通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查.(2)总体和样本调查对象的称为总______体,被抽取的称为样______本.(3)抽样调查与普查相比有很多优点,最突出的有两点:①______②节约人力、物力和财力.2.简单随机抽样(1)简单随机抽样时,要保证每个个体被抽到的概率.(2)通常采用的简单随机抽样的方法:_____3.分层抽样(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.系统抽样系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.5.统计图表统计图表是______数据的重要工具,常用的统计图表有______6.数据的数字特征(1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.平均数:样本数据的算术平均数,即错误!=错误!(x1+x2+…+x n).在频率分布直方图中,中位数左边和右边的直方图的面积应该______(2)样本方差标准差s=错误!,其中x n是样本数据的第n项,n是,______错误!是______标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差.7.用样本估计总体(1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______.(2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______(3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.8.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的______(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为____________(3)在两个变量x和y的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是______,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是______的.如果所有的点在散点图中没有关系,则称变量间是______的.9.线性回归方程(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a+bx n)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.错误!10.回归分析(1)定义:对______的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(错误!,错误!)称为样本点的中心.(3)相关系数①r=错误!=错误!;②当r〉0时,表明两个变量正相关;当r〈0时,表明两个变量负相关;当r=0时,表明两个变量线性不相关.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高.r的绝对值越接近于0,表明两个变量之间的线性相关程度越低.11.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=错误!1;变量B:B1,B2=错误!1;2×2列联表:错误!B1B2总计A1a b a+bA2c d c+d总计a+c b+d n=a+b+c+d构造一个随机变量χ2=n ad-bc2a+b c+d a+c b+d.利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2______时,没有充分的证据判定变量A,B有关联,可以认为变量A,B______的;当______时,有______的把握判定变量A,B有关联;当______,有______的把握判定变量A,B有关联;当______时,有______的把握判定变量A,B有关联.12.基本事件的特点(1)任何两个基本事件是______的;(2)任何事件(除不可能事件)都可以表示______的和.13.古典概型具有以下两个特点的概率模型称为古典的概率模型,简称古典概型.(1)试验的所有可能结果______,每次试验只出现其中的一个结果;(2)每一个试验结果出现的可能______.14.如果一次试验中可能出现的结果有n个,而且所有结果出现的可能性都相等,那么每一个基本事件的概率都是1n;如果某个事件A包括的结果有m个,那么事件A的概率P(A)=_____15.古典概型的概率公式P(A)=______1.几何概型向平面上有限区域(集合)G内随机地投掷点M,若点M落在子区域G1G的概率与G1的面积成正比,而与G的形状、位置无关,即P(点M落在G1)=______,则称这种模型为几何概型.2.几何概型中的G也可以是空间中或直线上的有限区域,相应的概率是______之比或______之比.3.借助______可以估计随机事件发生的概率.。

(完整版)高中数学统计、统计案例知识点总结和典例

(完整版)高中数学统计、统计案例知识点总结和典例

统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。

2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。

抽签法的一般步骤:a、将总体的个体编号。

b、连续抽签获取样本号码。

3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。

随机数表法的步骤:a、将总体的个体编号。

b、在随机数表中选择开始数字。

c、读数获取样本号码。

4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。

二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。

系统抽样的一般步骤:(1)采用随机抽样的方法将总体中的N个个编号。

(2)将整体按编号进行分段,确定分段间隔k=N/n。

(k∈N,L≤k).(3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。

(4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。

在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。

三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。

问题解决教学 高中《统计》数学案例设计

问题解决教学 高中《统计》数学案例设计

高中《统计》数学案例设计一、问题解决教学在数学教学中的意义1. 问题解决教学的定义和特点问题解决教学是指教师通过设计和提出具体的问题情境,引导学生去解决问题或进行探究,培养学生的问题意识、探究精神和解决问题的能力。

问题解决教学要求教师引导学生从真实生活中的问题出发,进行数学建模、统计分析、数据处理等活动,让学生在解决问题的过程中学会运用数学知识和技能,培养解决问题的能力。

2. 问题解决教学在高中数学教学中的重要性高中数学是培养学生逻辑思维能力、创新精神和数学建模能力的重要学科之一。

问题解决教学可以激发学生的学习兴趣,培养他们的实际动手能力和合作精神,提高他们的数学素养。

通过问题解决教学,学生可以更好地理解数学知识,增加数学应用意识,提高解决实际问题的能力,同时也为未来的学习和工作奠定坚实的数学基础。

二、高中《统计》课程案例设计的原则和方法1. 统计课程案例设计的原则(1)真实性原则:案例要贴近学生的生活实际,使学生在解决问题的过程中感受到数学在现实生活中的应用,并激发他们的学习兴趣。

(2)多样性原则:案例设计要涵盖不同领域的问题,可以涉及日常生活、社会经济、自然科学等各个方面,使学生从不同角度理解统计知识。

(3)适用性原则:案例设计要以统计知识点为基础,能够让学生运用所学的统计技能来解决问题,让学生感受到统计的实用性和价值。

2. 统计课程案例设计的方法(1)选题广泛:案例选题要广泛,可以涉及到生活中的各个领域,如人口统计、市场调查、环境监测等。

(2)数据真实:案例设计的数据要真实可靠,可以采用真实的数据源,也可以通过学生自己收集相关数据。

(3)情境设置:案例情境要具体生动,能够引起学生的兴趣,激发学生的思考和求解欲望。

(4)注重引导:在案例设计中,教师要注重引导学生进行问题分析、数据处理和结果解释,引导学生学会用统计方法解决实际问题。

三、高中《统计》课程案例设计实例1. 人口增长案例设计情境描述:某城市在过去十年间的人口增长情况。

高三数学一轮复习统计与统计案例知识点知识点突破训练含答案解析

高三数学一轮复习统计与统计案例知识点知识点突破训练含答案解析

第十章⎪⎪⎪统计与统计案例 第一节 统 计突破点(一) 随机抽样基础联通 抓主干知识的“源”与“流”1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.4.三种抽样方法的比较 类别 共同点各自特点 相互联系 适用范围 简单随机抽样均为不放回抽样,且抽样过程中每个个体被抽取的机会相等 从总体中逐个抽取 是后两种方法的基础总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则在各部分中抽取在起始部分抽样时采用简单随机抽样 元素个数很多且均衡的总体抽样分层抽样将总体分成几层,分层按比例进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.考点贯通抓高考命题的“形”与“神”简单随机抽样1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机数法的步骤第一步,将个体编号;第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.[例1](1)以下抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01[解析](1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C 不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案](1)D(2)D系统抽样系统抽样的步骤(1)先将总体的N 个个体编号;(2)确定分段间隔k (k ∈N *),对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第1个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10. [答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整数时,取k =⎣⎡⎦⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数; (2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.[例3](1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()类别人数老年教师900中年教师 1 800青年教师 1 600合计 4 300A.90 B.100C.180 D.300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90C.45 D.126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组书画组乐器组高一4530a高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.[解析](1)设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,故x=180.(2)依题意得33+5+7×n=18,解得n=90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a+20,解得a=30.[答案](1)C(2)B(3)30[方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本数量各层个体数量.能力练通 抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( ) A .②③④ B .③④ C .②③D .①②解析:选C 根据随机数法编号可知,①④编号位数不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A ,B ,C 三所中学抽取60名教师进行调查,已知A ,B ,C 三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为( )A .10B .12C .18D .24解析:选A 根据分层抽样的特征,从C 学校中应抽取的人数为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A .10B .11C .12D .16解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A 、B 、C 三所学校,共有高三文科学生1 500人,且A 、B 、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B 校学生中抽取________人.解析:设A 、B 、C 三所学校高三文科学生人数分别为x ,y ,z ,由题知x ,y ,z 成等差数列,所以x +z =2y ,又x +y +z =1 500,所以y =500,用分层抽样方法抽取B 校学生人数为1201 500×500=40.答案:405.[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差数列,故最大编号为3+9×6=57.答案:57突破点(二)用样本估计总体基础联通抓主干知识的“源”与“流”1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.2.样本的数字特征(1)众数、中位数、平均数数字特征定义与求法优点与缺点众数一组数据中重复出现次数最多的数众数体现了样本数据的最大集中点,不受极端值的影响.但显然它对其他数据信息的忽视使得无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点平均数如果有n个数据x1,x2,…,xn ,那么这n个数的平均数x=x1+x2+…+x nn 平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n[(x1-x)2+(x2-x)2+…+(x n-x)2].②方差:标准差的平方s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x i(i=1,2,3,…,n)是样本数据,n 是样本容量,x是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广若数据x1,x2,…,x n的平均数为x,方差为s2,则数据mx1+a,mx2+a,…,mx n +a的平均数为m x+a,方差为m2s2.考点贯通抓高考命题的“形”与“神”频率分布直方图[例1](1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析] (1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案] (1)D (2)15 [方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.茎叶图1.茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一; (2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据. 2.茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[例2] 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,4 15,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解](1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A 的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本数据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图数据求出样本数据的数字特征,进一步估计总体情况.样本的数字特征1.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性比较方差(标准差)的大小.考法(一)与频率分布直方图交汇命题[例3](2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解](1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27] 频率0.10.150.20.250.150.050.050.05 根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二)与茎叶图交汇命题[例4](1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x,y的值分别为()甲组乙组9099y6166x629A.7,8 B.5,7 C.8,5 D.7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:8 7 7 941x91则7个剩余分数的方差为________.[解析] (1)甲组数据的中位数为17, 故y =7,乙组数据的平均数为3×10+20+(9+6+6+x +9)5=17.4,解得x =7.(2)由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4.s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)367[易错提醒]在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.考法(三) 与优化决策问题交汇[例5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲 乙 丙 丁 平均环数x 8.3 8.8 8.8 8.7 方差s 23.53.62.25.4从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( ) A .甲 B .乙 C .丙D .丁[解析] 由题目表格中数据可知,丙平均环数最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C [方法技巧]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.能力练通 抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频数为x ,依题意有x 80=14⎝⎛⎭⎫1-x 80,解得x =16. 2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.018解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018. 4.[考点三·考法(二)]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )7 9 8 4 4 6 4 793A .84,4.84B .84,1.6C .85,1.6D .85,4 解析:选C 依题意,所剩数据的平均数是80+15×(4×3+6+7)=85,所剩数据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.5.[考点三·考法(三)]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲 10 8 9 9 9 乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25, s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定. 答案:甲6.[考点三·考法(一)](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x (吨),一位居民的月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a +0.20+0.26+0.5×a +0.06+0.04+0.02=1,解得a =0.30. (2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x <3.由0.30×(x -2.5)=0.85-0.73,解得x =2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 7.[考点三·考法(二)]某车间20名工人年龄数据如下表: 年龄(岁) 工人数(人)19 1 28 3 29 3 30 5 31 4 32 3 40 1 合计20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众数是30,极差是40-19=21. (2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20 i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律] 1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:选D由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;故D错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125) 频数62638228(1)作出这些数据的频率分布直方图(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A 药B 药 0. 1. 2.3.解:(1)设A 药观测数据的平均数为x -,B 药观测数据的平均数为y -.由观测结果可得 x -=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y -=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x ->y -,因此可看出A 药的疗效更好. (2)由观测结果可绘制如下茎叶图:A 药B 药 6 0. 5 5 6 8 9 8 5 5 2 2 1. 1 2 2 3 4 6 7 8 9 9 8 7 7 6 5 4 3 3 22.1 4 5 6 7。

高中数学统计案例教案

高中数学统计案例教案

高中数学统计案例教案
主题:高中数学统计案例教学
教学目标:
1. 理解统计学的基本概念和方法;
2. 学会应用统计学知识解决实际问题;
3. 提高学生的分析和思考能力。

教学内容:
1. 统计学基本概念:总体、样本、频数、频率等;
2. 统计学方法:描述统计、参数估计、假设检验等;
3. 统计学应用:实际案例分析。

教学步骤:
1. 导入:通过一个生活中的例子引入统计学的概念,引起学生兴趣;
2. 讲解:讲解统计学的基本概念和方法,让学生了解统计学的重要性和应用;
3. 练习:让学生进行一些简单的统计计算和分析,巩固所学知识;
4. 案例分析:选择一个实际案例,让学生用统计学知识解决问题;
5. 总结:总结本节课的内容,强调统计学在实际生活中的应用价值。

教学材料:
1. PowerPoint课件;
2. 统计学实例案例。

教学评估:
1. 在课堂上通过提问、讨论等方式检测学生对统计学知识的理解和掌握;
2. 布置作业或小测验,检测学生对统计学知识的掌握情况。

教学反思:
1. 根据学生的反馈和表现调整教学方法,提高教学效果;
2. 继续为学生提供更多实际统计案例,帮助他们将所学知识应用到实际问题中。

【备注】以上是一份高中数学统计案例教案范本,具体的教学内容和步骤可根据实际情况进行调整修改。

祝教学顺利!。

高考数学(理)二轮复习专题突破课件:1-7-3统计、统计案例

高考数学(理)二轮复习专题突破课件:1-7-3统计、统计案例

主干知识研讨
命题角度聚焦
阅卷现场体验
n
xiyi-n x y
i=1
附:线性回归方程
^
y

^
b
x+
^
a
中,
^
b


^
a
=y
n
x2i -n x 2
i=1
-b^ x ,其中 x , y 为样本平均值.
[思路点拨](1)求
x

y
,代入求
^
b

^
a
;得回归直线方程.(2)根
据回归方程作出判断与预测.
主干知识研讨
[思路点拨]确定女运动员的人数→按比例抽取
解析 依题意,女运动员有 98-56=42(人).设应抽取女运动 员 x 人,根据分层抽样特点,得4x2=2988,解得 x=12. 答案 12
主干知识研讨
命题角度聚焦
阅卷现场体验
[探究提升] 1.理解三种抽样方法的特征,根据适用范围选择抽样 方法进行计算. 2.三种抽样方法的异同点
主干知识研讨
命题角度聚焦
阅卷现场体验
(2)设工厂获得的利润为L元,依题意得 L=x(-20x+250)-4(-20x+250) =-20x2+330x-1 000 =-20(x-8.25)2+361.25. 当且仅当x=8.25时,L取得最大值. 故当单价定为8.25元时,工厂可获得最大利润.
主干知识研讨
主干知识研讨
命题角度聚焦
阅卷现场体验
解 (1)由频率分布直方图知(2a+0.02+0.03+0.04)×10=1,解 得a=0.005. (2) 由 频 率 分 布 直 方 图 知 这 100 名 学 生 语 文 成 绩 的 平 均 分 为 55×0.005×10+65×0.04×10+75×0.03×10+85×0.02×10+ 95×0.005×10=73(分). (3)由频率分布直方图知语文成绩在[50,60),[60,70),[70,80), [80,90)各分数段的人数依次为0.005×10×100=5,0.04×10×100 =40,0.03×10×100=30,0.02×10×100=20. 由题中给出的比例关系知数学成绩在上述各分数段的人数依次为
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【通用版】高中数学重点难点突破:专题13 统计案例【重难点知识点网络】: 一、 相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.二、线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑n i =1x i y i -nx - y -∑n i =1x 2i -nx-2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距,回归直线一定过样本点的中心(x -,y -).三、回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4) 相关指数:R 2=1-∑ni =1 (y i -y ^i )2∑ni =1(y i -y -)2.其中∑n i =1(y i -y ^i )2是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.四、独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d则随机变量K 2=(-)(a +b )(a +c )(b +d )(+d ),其中n =a +b +c +d 为样本容量.【知识必备】1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.【重难点题型突破】: 一、相关关系判断例1、(山西大同一中2019届质检)观察下列各图形,其中两个变量x ,y 具有相关关系的图是( ) A.①② B.①④ C.③④ D.②③【变式训练1-1】、(1)(江苏无锡一中2019届模拟)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A.x 与y 正相关,x 与z 负相关B.x 与y 正相关,x 与z 正相关C.x 与y 负相关,x 与z 负相关D.x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.二、线性回归方程分析例2、(山东青岛一中2019届模拟)商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如表:月平均气温x (℃) 17 13 8 2 月销售量y (件)24334055由表中数据算出线性回归方程y ^=-2x +a ^,气象部门预测下个月的平均气温约为24℃,据此估计商场下个月毛衣销售量约为________件.【变式训练2-1】、为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x A.y ^=x -1 B.y ^=x +1 C.y ^=88+12xD.y ^=176【变式训练2-2】、(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的 数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i nii tty y b tt∧==--=-∑∑,ˆˆay bt =-【变式训练2-3】、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对 年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1, 2,·,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()i i x x =-∑821()i i w w =-∑81()()i i i x x y y =--∑81()()iii w w yy =--∑46.65636.8289.8 1.6 1469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程;(Ⅲ)已知这种产品的年利率z与x、y的关系为0.2z y x=-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x为何值时,年利率的预报值最大?附:对于一组数据11(,)u v,22(,)u v,⋅⋅⋅,(,)n nu v,其回归线v uαβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()ni iiniiu u v vu uβ==--=-∑∑,ˆˆv uαβ=-.三、独立性检测例3、(2018年全国Ⅲ卷理数)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m 不超过m 第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,0.050 0.010 0.001k 3.841 6.635 10.828【变式训练3-1】、(湖南长沙雅礼中学、河南省实验中学2019届联考)环境问题是当今世界共同关注的问空气污染指数(0,50](50,100](100,150](150,200](200,300](300,+∞)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数11 27 11 7 3 1根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计参考数据:参考公式:K 2=(-)(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .【变式训练3-2】、(河北承德一中2019届模拟)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.【通用版】高中数学重点难点突破:专题13 统计案例(教师版)【重难点知识点网络】: 一、 相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 二、线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑n i =1x i y i -nx - y -∑n i =1x 2i -nx-2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距,回归直线一定过样本点的中心(x -,y -).三、回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=1-∑ni =1 (y i -y ^i )2∑ni =1(y i -y -)2.其中∑n i =1(y i -y ^i )2是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 四、独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=(-)(a +b )(a +c )(b +d )(+d ),其中n =a +b +c +d 为样本容量.【知识必备】1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值. 【重难点题型突破】: 一、相关关系判断例1、(山西大同一中2019届质检)观察下列各图形,其中两个变量x ,y 具有相关关系的图是( )A.①②B.①④C.③④D.②③ 【答案】C【解析】由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.【变式训练1-1】、(1)(江苏无锡一中2019届模拟)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A.x 与y 正相关,x 与z 负相关B.x 与y 正相关,x 与z 正相关C.x 与y 负相关,x 与z 负相关D.x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 【答案】(1)C (2)①②【解析】(1)由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y=c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.二、线性回归方程分析例2、(山东青岛一中2019届模拟)商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如表:由表中数据算出线性回归方程y ^=-2x +a ^,气象部门预测下个月的平均气温约为24℃,据此估计商场下个月毛衣销售量约为________件. 【答案】10【解析】因为x -=14×(17+13+8+2)=10,y -=14×(24+33+40+55)=38,代入y ^=-2x +a ^中,得a ^=58,所以y ^=-2x +58,所以y ^=-2×24+58=10.【变式训练2-1】、为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:则y 对x A.y ^=x -1 B.y ^=x +1 C.y ^=88+12xD.y ^=176 【答案】C [设y 对x 的线性回归方程为y ^=b ^x +a ^,x =176,y =176,检验得y =88+x 2过点(x ,y ).]【变式训练2-2】、(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的 数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i niitty y b tt∧==--=-∑∑,ˆˆay bt=-【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4,17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.37211()t t t =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y b tt ==--===-∑∑, 4.30.54 2.3a y bt =-=-⨯=.所求回归方程为0.5 2.3y t =+. 【变式训练2-3】、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对 年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,·,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()ii i xx y y =--∑81()()iii w w yy =--∑46.65636.8289.8 1.6 1469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与yc x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()nii i nii uu v v uu β==--=-∑∑,ˆˆv u αβ=-. 【解析】(Ⅰ)由散点图可以判断,yc =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 三、独立性检测例3、(2018年全国Ⅲ卷理数)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min )绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m 不超过m 第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:,0.050 0.010 0.001k 3.841 6.635 10.828【答案】(1)第二种生产方式的效率更高. 理由见解析(2)80(3)能【解析】(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知.列联表如下:超过m 不超过m 第一种生产方式15 5第二种生产方式 5 15(3)由于,所以有99%的把握认为两种生产方式的效率有差异. 【变式训练3-1】、(湖南长沙雅礼中学、河南省实验中学2019届联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50](50,100](100,150](150,200](200,300](300,+∞)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.参考数据:参考公式:K 2=(-)(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .【解析】(1)因为限行分单双号,王先生的车被限行的概率为0.05, 所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m )×50+0.1=1,解得m =0.003. (2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A 1,A 2,A 3,A 4, 空气中度污染的天气被抽取的有2天,记作B 1,B 2,从这6天中随机抽取2天,所包含的基本事件有(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,B 1),(A 1,B 2),(A 2,A 3),(A 2,A 4),(A 2,B 1),(A 2,B 2),(A 3,A 4),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共15个, 记事件A 为“至少有一天空气质量是中度污染”,则事件A 所包含的事件有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共9个,故P (A )=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:由表中数据可得,K 2=240×(90×22-90×38)180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.【变式训练3-2】、(河北承德一中2019届模拟)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.【答案】5%【解析】K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.。

相关文档
最新文档