2020最新高中数学 第三章 统计案例章末复习课学案 新人教A版必备2-3

合集下载

2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

§3.2 独立性检验的基本思想及其初步应用学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.知识点一 分类变量及2×2列联表思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计270520790如何判定“喜欢体育还是文娱与性别是否有联系”?答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表.y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d知识点二 等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.2.如果通过直接计算或等高条形图发现aa +b 和cc +d相差很大,就判断两个分类变量之间有关系.知识点三 独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.1.列联表中的数据是两个分类变量的频数.( √)2.事件A与B的独立性检验无关,即两个事件互不影响.( ×)3.K2的大小是判断事件A与B是否相关的统计量.( √)类型一等高条形图的应用例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?考点定性分析的两类方法题点利用图形定性分析解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.反思与感悟在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.两个比例的值相差越大,X与Y有关系成立的可能性就越大.跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?考点定性分析的两类方法题点利用图形定性分析解根据题目所给的数据得到如下2×2列联表:经常上网不经常上网总计不及格80120200及格120680800总计200800 1 000得出等高条形图如图所示:比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.类型二独立性检验例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.考点独立性检验及其基本思想题点独立性检验的方法解 将2×2列联表中的数据代入公式计算,得K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(60×10-20×10)270×30×80×20=10021≈4.762. 因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.反思与感悟 (1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱;|ad -bc |越大,关系越强. (2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k 0.②利用公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算随机变量K 2的观测值k .③如果k ≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系. 考点 独立性检验及其基本思想 题点 独立性检验的方法 解 (1)2×2列联表如下所示:(2)假设“对新课程教学模式的赞同情况与教师年龄无关”. 由公式得K 2=50×(10×6-24×10)234×16×20×30≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关. 类型三 独立性检验的综合应用例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).考点独立性检验思想的应用题点分类变量与统计、概率的综合性问题解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,由P (A )=P (BC )=P (B )P (C ),则旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62,新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66,则事件A 的概率估计值为P (A )=P (B )P (C )=0.62×0.66=0.409 2, ∴A 发生的概率为0.409 2.(2)根据箱产量的频率分布直方图得到列联表:则K 2=200×(62×66-38×34)2100×100×96×104≈15.705,由15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. 反思与感悟 两个分类变量相关关系的判断(1)等高条形图法:在等高条形图中,可以估计满足条件X =x 1的个体中具有Y =y 1的个体所占的比例aa +b,也可以估计满足条件X =x 2的个体中具有Y =y 1的个体所占的比例cc +d.两个比例的值相差越大,X 与Y 有关系成立的可能性就越大.(2)观测值法:通过2×2列联表,先计算K 2的观测值k ,然后借助k 的含义判断“两个分类变量有关系”这一结论成立的可信程度.跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题 解 (1)列联表补充如下:喜爱打篮球不喜爱打篮球合计 男生 22 6 28 女生 10 10 20 合计321648(2)由K 2=48×(220-60)228×20×32×16≈4.286.因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. (3)喜爱打篮球的女生人数X 的可能取值为0,1,2. 其概率分别为 P (X =0)=C 210C 220=938,P (X =1)=C 110C 110C 220=1019,P (X =2)=C 210C 220=938,故X 的分布列为X 0 1 2 P9381019938X 的均值为E (X )=0+1019+919=1.1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A .平均数 B .方差 C .回归分析 D .独立性检验 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 D2.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大考点独立性检验及其基本思想题点独立性检验的思想答案 B解析k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是( )考点定性分析的两类方法题点利用图形定性分析答案 D解析由等高条形图易知,D选项两个分类变量关系最强.4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有考点独立性检验及其基本思想题点独立性检验的方法答案 D解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.总成绩好 总成绩不好 总计 数学成绩好 478 a490 数学成绩不好39924423 总计b c913(1)计算a ,b ,c 的值;(2)文科学生总成绩不好与数学成绩不好有关系吗? 考点 独立性检验及其基本思想 题点 独立性检验的方法解 (1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系. 2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K 2的值,如果K 2的值很大,说明假设不合理.K 2越大,两个分类变量有关系的可能性越大.一、选择题1.下面是一个2×2列联表:y 1 y 2总计 x 1 a21 73 x 2825 33 总计b46106则表中a ,b 的值分别为( ) A .94,96 B .52,50 C .52,60D .54,52考点 分类变量与列联表 题点 求列联表中的数据 答案 C2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( ) A .0.1% B .1% C .99% D .99.9% 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 C解析 易知K 2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.3.在独立性检验中,两个分类变量“X 与Y 有关系”的可信度为99%,则随机变量K 2的观测值k 的取值范围是( ) A .[3.841,5.024) B .[5.024,6.635) C .[6.635,7.879) D .[7.879,10.828)考点 分类变量与列联表 题点 求观测值 答案 C4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:则随机变量K 2的观测值约为( ) A .0.600 B .0.828 C .2.712D .6.004考点 分类变量与列联表 题点 求观测值 答案 A解析 根据列联表中的数据,可得随机变量K 2的观测值k =90×(11×37-34×8)245×45×19×71≈0.600.故选A.5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )A.a a +b 与c c +d B.a c +d 与c a +b C.aa +d 与cb +cD.ab +d 与ca +c考点 定性分析的两类方法 题点 利用图形定性分析 答案 A 解析 由题意,⎪⎪⎪⎪⎪⎪a a +b -c c +d =⎪⎪⎪⎪⎪⎪ac +ad -ac -bc (a +b )(c +d )=⎪⎪⎪⎪⎪⎪ad -bc (a +b )(c +d ),因为|ad -bc |的值越大,两个分类变量有关系的可能性就越大,故选A.6.有两个分类变量X ,Y ,其列联表如下所示,其中a,15-a 均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X ,Y 有关,则a 的值为( ) A .8 B .9 C .8或9D .6或8考点 分类变量与列联表 题点 求列联表中的数据 答案 C解析 根据公式,得K 2的观测值 k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5, a ∈Z ,求得当a =8或9时满足题意.7.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.025 C .0.005 D .0.001 考点 独立性检验及其基本思想 题点 独立性检验的方法答案 B解析 由公式得K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024.∵P (K 2≥5.024)=0.025,∴犯错误的概率不超过0.025. 二、填空题8.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K 2的观测值k >6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________. 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 ③解析 K 2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确. 9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为K 2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5%解析 因为K 2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 95%解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100=35,所以q =25,p =25,a =40,b =60.K 2=100×(25×35-25×15)240×60×50×50=256≈4.167>3.841.故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关. 三、解答题11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 考点 定性分析的两类方法 题点 利用图形定性分析解 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =170×(22×38-22×88)2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:喜欢 不喜欢 合计 大于40岁 20 5 25 20岁至40岁10 20 30 合计302555(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题解 (1)由公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,观测值k ≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B 1,B 2,B 3,B 4,C 1,C 2,从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2),共15个,其中恰有1位大于40岁的市民和1位20岁至40岁的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为815.四、探究与拓展13.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表为:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d对同一样本,以下数据能说明X 与Y 有关的可能性最大的一组是( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5考点 分类变量与列联表 题点 求列联表中的数据 答案 D解析 对于同一样本,|ad -bc |越小,说明x 与y 相关性越弱,而|ad -bc |越大,说明x 与y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D ,有|ad -bc |=|15-8|=7,显然7>2. 14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.(1)根据2×2列联表,判断能否在犯错误的概率不超过0.10的前提下认为性别与喜爱轮滑有关? (2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和均值. 考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1)假设:是否喜爱轮滑与性别无关.由已知数据可求得K 2的观测值为 k =30×(10×8-6×6)216×14×16×14≈1.157 5<2.706.因此不能在犯错误的概率不超过0.10的前提下认为喜爱轮滑与性别有关. (2)喜爱轮滑的人数ξ的可能取值为0,1,2, 则P (ξ=0)=C 06C 28C 214=2891=413,P (ξ=1)=C 16C 18C 214=4891,P (ξ=2)=C 26C 08C 214=1591.所以喜爱轮滑的人数ξ的分布列为4 13+1×4891+2×1591=67.所以喜爱轮滑的人数ξ的均值为E(ξ)=0×。

2019_2020年高中数学第三章统计案例3.1回归分析的基本思想及其初步应用学案新人教A版选修2_3

2019_2020年高中数学第三章统计案例3.1回归分析的基本思想及其初步应用学案新人教A版选修2_3

3.1 回归分析的基本思想及其初步应用[教材研读]预习教材P 80~88,思考以下问题 1.什么是回归分析?2.什么是线性回归模型? [要点梳理] 1.回归分析 (1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).设其回归直线方程为y ^=b ^x +a ^,其中a ^,b ^是待定参数,由最小二乘法得b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x .(3)线性回归模型线性回归模型⎩⎪⎨⎪⎧y =bx +a +e ,E e =0,D e =σ2,其中a ,b 为模型的未知参数,通常e 为随机变量,称为随机误差.x 称为解释变量,y 称为预报变量.2.线性回归分析(1)残差:对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值e ^i =y i -y ^i 称为相应于点(x i ,y i )的残差,∑i =1n(y i -y ^i )2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2越接近1,表示回归的效果越好.[自我诊断]判断(正确的打“√”,错误的打“×”)1.残差平方和越小,线性回归方程的拟合效果越好.( )2.在画两个变量的散点图时,预报变量在x 轴上,解释变量在y 轴上.( ) 3.R 2越小,线性回归方程的拟合效果越好.( ) [答案] 1.√ 2.× 3.×题型一 求线性回归方程思考:求线性回归方程的步骤是什么? 提示:①列表表示x i ,y i ,x i y i ,x 2i ;②计算x ,y ,∑i =1nx 2i ,∑i =1nx i y i ;③代入公式计算a ^,b ^的值; ④写出线性回归方程.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎫相关公式:b ^=∑i =1nx i y i -n x ·y∑i =1nx 2i-n x 2,a ^=y -b ^ x[思路导引] 先画散点图,再求回归系数a ^,b ^写出方程. [解] (1)如图:(2)∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4, ∑i =1nx 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明. 【温馨提示】 对回归直线的四点说明 (1)回归直线过点(x -,y -).(2)回归直线的截距a 和斜率b 都是通过样本估计而得的,存在着误差,这种误差可能导致预报结果的偏差.(3)线性回归方程y =a +bx 中的b 表示x 增加1个单位时,y 的平均变化量为b ,而a 表示y 不随x 的变化而变化的部分.(4)可以利用线性回归方程y =a +bx 预报在x 取某个值时,y 的估计值. [跟踪训练](链接教材P 81—例1)某种产品的广告费用支出x 与销售额y (单位:百万元)之间有如下的对应数据:(1)(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额. [解] (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:所以,x -=255=5,y -=2505=50,∑i =15x 2i =145,∑i =15x i y i =1380.于是可得b ^=∑i =15x i y i -5x -y-∑i =15x 2i -5x-2=1380-5×5×50145-5×52=6.5,a ^=y --b ^x -=50-6.5×5=17.5.所以所求的线性回归方程为y ^=6.5x +17.5.(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时, y ^=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元. 题型二 线性回归分析思考:如何用残差图、残差平方和、相关指数R 2分析模型拟合效果?提示:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合效果越好;R 2越接近于1,模型拟合效果越好.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x (2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求R 2,并说明残差变量对有效穗的影响占百分之几? [解] (1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,∑i =15x 2i =5101.56,∑i =15y 2i =9511.43.x -y -=1320.66,x -2=921.7296,∑i =15x i y i =6746.76.则b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2≈0.29,a ^=y --b ^x -≈34.70.故所求的回归直线方程为y ^=0.29x +34.70. 当x =56.7时,y ^=0.29×56.7+34.70=51.143. 估计成熟期有效穗为51.143.(3)由于y ^i =b ^x i +a ^,可以算得e ^i =y i -y ^i 分别为e ^1=0.35,e ^2=0.718,e ^3=-0.5,e ^4=-2.214,e ^5=1.624,残差平方和:∑i =15e ^2i ≈8.43.(4)∑i =15(y i -y -)2=50.18,故R 2=1-8.4350.18≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.[跟踪训练]为研究质量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:(1)(2)求出R 2. (3)进行残差分析.[解] (1)作出散点图如图所示:x -=16×(5+10+15+20+25+30)=17.5.y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2275,∑i =16x i y i =1076.2,计算得,b ^≈0.183,a ^≈6.285, 所求回归直线方程为y ^=6.285+0.183x . (2)列表如下:所以∑i =16(y i -y ^i )2≈0.01318,∑i =16(y i -y -)2=14.6784.所以,R 2=1-0.0131814.6784≈0.9991.所以回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量具有线性关系.题型三 非线性回归分析(链接教材P 86—例2)某地区六年来轻工业产品利润总额y 与年次x 的试验数据如下表所示:0为正数,求y 关于x 的回归方程.[思路导引] 解答此题可根据散点图选择恰当的拟合函数,而本题已经给出,只需将其转化为线性函数,利用最小二乘法求得回归直线方程,再将其还原为非线性回归方程即可.[解] 对y =ab xe 0两边取自然对数,得ln y =ln ae 0+x ln b ,令z =ln y ,则z 与x 的数据如下表:由z 0ln b ≈0.0477,ln ae 0=2.378,即z ^=2.378+0.0477x ,故y ^=10.8×1.05x .非线性回归问题的处理方法一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模; (2)如果散点图中的点分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模.(3)非线性回归方程的求法: ①根据原始数据(x ,y )作出散点图; ②根据散点图,选择恰当的拟合函数;③作恰当的变换,将其转化成线性函数,求线性回归方程; ④在③的基础上通过相应的变换,即可得非线性回归方程. (4)非线性相关问题常见的几种线性变换:在实际问题中,常常要根据一批实验数据绘出曲线,当曲线类型不具备线性相关关系时,可以根据散点分布的形状与已知函数的图象进行比较,确定曲线的类型,再作变量替换,将曲线改为直线.下面是几种容易通过变量替换转化为直线的函数模型:①y =a +b x,令y ′=y ,x ′=1x,则有y ′=a +bx ′;②y =ax b,令y ′=ln y ,x ′=ln x ,a ′=ln a ,则有y ′=a ′+bx ′; ③y =a e bx ,令y ′=ln y ,x ′=x ,a ′=ln a ,则有y ′=a ′+bx ′; ④y =a e b x,令y ′=ln y ,x ′=1x,a ′=ln a ,则有y ′=a ′+bx ′;⑤y =a +b ln x ,令y ′=y ,x ′=ln x ,则有y ′=a +bx ′; ⑥y =bx 2+a ,令y ′=y ,x ′=x 2,则有y ′=bx ′+a .[跟踪训练]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w -=18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑i =1nu i -u-v i -v-∑i =1nu i -u-2,α^=v --β^u -.[解] (1)由散点图的变化趋势可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -w-y i -y-∑i =18w i -w-2=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.11 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.1.本节课的重点是线性回归方程的求法及线性回归分析,难点是残差分析和非线性回归分析.2.本节课要重点掌握的规律方法(1)求线性回归方程,见典例1;(2)线性回归分析,见典例2;(3)非线性回归分析,见典例3.3.对线性回归模型的三点说明(1)线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.(3)线性回归模型中随机误差的主要来源①线性回归模型与真实情况引起的误差;②省略了一些因素的影响产生的误差;③观测与计算产生的误差.。

2020_2021学年高中数学第3章统计案例章末归纳整合课件新人教A版选修2_32021031711

2020_2021学年高中数学第3章统计案例章末归纳整合课件新人教A版选修2_32021031711

3.(2020年新课标Ⅱ)某沙漠地区经过治理,生态系统得到 很大改善,野生动物数量有所增加,为调查该地区某种野生动 物的数量,将其分为面积相近的200个地块,从这些地块中用 简单随机抽样的方法抽取20个作为样区,调查得到样本数据 (xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物 覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
解:将问题中的数据写成 2×2 列联表:
组 别 患 病 不患病 合 计
使用
5
100
105
不使用
18
400
418
合计
23
500
523
将上述数据代入公式 K2=a+bcn+add-ab+cc2b+d中,计
算可得 K2≈0.041 45.而查表可知 P(K2≥0.445)≈0.5.故没有充分
理由认为该保健药品对预防 A 疾病有效.
其回归直线方程为^y=b^x+a^.已知
10
10
xi=225,yi=1
600,b^=4.
i=1
i=1
该班某学生的脚长为 24,据此估计其身高为( ) A.160 B.163 C.166 D.170
【答案】C
【解析】 x =110i1=01xi=22.5,-y =110i1=01yi=160,所以a^=160-
n
xi- x 2
n
x2i -n x 2
i=1
i=1
=1ni=n1xi, y =1ni=n1yi)即可.
1.为了研究某种细菌随时间x变化繁殖个数y的变化,收 集数据如下:
(1)用时间作解释变量,繁殖个数作预报变量作出这些数据 的散点图;
(2)求y与x之间的回归方程; (3)计算残差,相关指数R2,并描述解释变量与预报变量之 间的关系.

人教a版数学【选修2-3】第3章《统计案例》归纳总结ppt课件

人教a版数学【选修2-3】第3章《统计案例》归纳总结ppt课件

B.75% D.97.5%
第三章 章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
[答案] D [解析] 有关系”. 查表可得K2>5.024.因此有97.5%的把握认为“x和y
第三章
章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
算可得 k≈0.04145,而 0.04145<2.706,所以没有充分的证据表 明该药品对防治 A 疾病有效.
第三章
章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
[点评]
利用独立性检验可以帮助我们定量地分析两个分
第三章
章末归纳总结
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3
[解析] 将问题中的数据写成 2×2 列联表如下表: 患病 使用 不使用 总计 5 18 23 不患病 100 400 500 总计 105 418 523
2 n ad - bc 将上述数据代入公式 K2= 中,计 a+bc+da+cb+d
3.(2014· 唐山模拟)对具有线性相关关系的变量 x、y 有一 1 ^ 组观测数据(xi,yi)(i=1,2,„,8),其回归直线方程是:y=3x +a, 且 x1+x2+x3+„+x8=2(y1+y2+y3+„+y8)=6, 则实数 a 的值是( 1 A.16 1 C.4 [答案] B ) 1 B.8 1 D.2
成才之路 · 数学
人教A版 · 选修2-3
路漫漫其修远兮 吾将上下而求索
成才之路 · 高中新课程 · 学习指导 · 人教A版 · 数学 · 选修2-3

2019_2020学年高中数学第三章统计案例章末复习提升课课件新人教A版选修2_3

2019_2020学年高中数学第三章统计案例章末复习提升课课件新人教A版选修2_3
答案:5%
4.某市教育局邀请教育专家深入该市多所中小学,开展听课、 访谈及随堂检测等活动,他们把收集到的 180 节课分为三类课堂 教学模式,教师主讲的为 A 模式,少数学生参与的为 B 模式,多 数学生参与的为 C 模式,A,B,C 三类课的节数比例为 3∶2∶1. (1)为便于研究分析,教育专家将 A 模式称为传统课堂模式,B, C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为 高效和非高效,根据检测结果统计得到如下 2×2 列联表(单位: 节)
量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理
由)
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程;
(3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x.根据(2) 的结果回答下列问题: ①年宣传费 x=49 时,年销售量及年利润的预报值是多少? ②年宣传费 x 为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 v=α+βu 的斜率和截距的最小二乘估计分别为
其中 n=a+b+c+d.
第三章 统计案例
章末复习提升课
回归分析
某公司为确定下一年度投入某 种产品的宣传费,需了解年宣传费 x(单 位:千元)对年销售量 y(单位:t)和年利 润 z(单位:千元)的影响.对近 8 年的年 宣传费 xi 和年销售量 yi(i=1,2,…, 8)数据作了初步处理,得到下面的散点图及一些统计量的值.
主食蔬菜
主食肉类
总计
50 岁以下
50 岁以上
总计
(3)能否在犯错误的概率不超过 0.01 的前提下认为“其亲属的饮食
习惯与年龄有关”?
【解】 (1)30 位亲属中 50 岁以上的人饮食多以蔬菜为主,50 岁 以下的人饮食多以肉类为主.

高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新人教A版选修23

高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新人教A版选修23

3.1 第二课时 残差分析及回归模型的选择一、课前准备 1.课时目标(1) 了解残差分析回归效果; (2) 了解相关指数2R 分析回归效果;(3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探1.在线性回归模型y bx a e =++中,a b 和为模型的未知参数,e y 是与y bx a =+之间的误差,通常e为随机变量,称为_______.它的均值E(e)=0,方差2()0D e σ=>.线性回归模型的完整表达形式为2()0,()y bx a eE e D e σ=++⎧⎨==⎩.在此模型中,随机误差r的方差2σ越小,通过回归直线y bx a =+预报真实值y的精度越高. 2.对于样本点1122(,),(,),,(,)n n x y x y x y 而言,相应于它们的随机误差为(1,2,,)i i i i e y y y bx a i n =-=--=,其估计值为(1,2,,)i i i i i e y y y bx a i n =-=--=,i e 称为相应于点(,)i i x y 的______.类比样本方差估计总体方差的思想,可以用21(,)2Q a b n σ=-(n>2)作为2σ的估计量,其中a b 和由公式给出,()Q a b ,称为残差平方和.可以用2σ衡量回归直线方程的预报精度.通常2σ越小,预报精度越高.3.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为_______.4.用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ==-=--∑∑.显然2R 取值越大,意味着残差平方和_______,也就是说模型的拟合效果________. 二、学习引领1. 进行回归分析的步骤是什么?(1)确定研究对象,明确是哪两个变量之间的相关关系.(2)画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系,判断散点图是否存在非线性相关关系.(3)若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选用线性回归方程ˆy=bx+a ;否则可选择指数模型、对数模型或二次函数模型等. (4)利用残差图或者相关指数2R 对回归效果进行判断2.随机误差e的产生及估计的方法(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其它变量的影响;(2)由于前面相关关系公式中的a b 和为截距和斜率的估计值,它们与真实值a b 和之间也存在误差.(3)因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差2来衡量随机误差的大小. 3.如何利用2R 判断回归效果在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率. 2R 越接近于1,表示回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个2R ,选择其值大的模型.4.常见的可线性化的回归模型(1)幂函数曲线y=ax b(如图所示), 作变换u=lny ,v=lnx,c=lna,得线性函数u=c+bv.(2)指数函数y=ae bx(如图所示) 作变换u=lny, c= lna,得线性函数u=c+bx.(3)倒指数曲线y=a b xe (如图所示).(4)对数曲线y=a+blnx(如图所示)三、典例导析题型一相关系数的应用例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车r,由此判断交通事故数y与机动车辆数x是否线性相关.解析:将数据列成下表由此可知x=128.875 y=8.95,进而求得0.9927≈.因为|r|接近1 ,所以可得交通事故数y和机动车辆数x有较强的线性相关关系.规律总结:进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关系,再去求其线性回归方程,否则所求的方程无意义.两个变量正(负)相关时,它们就有相同(反)的变化趋势,即当由小变大时,相应的有由小(大)变大(小)的趋势.变式训练:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工完成下列要求:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验。

高中数学 复习课(二)统计教学案 新人教A版必修3-新人教A版高一必修3数学教学案

高中数学 复习课(二)统计教学案 新人教A版必修3-新人教A版高一必修3数学教学案

复习课(二) 统计抽样方法本估计总体或概率问题交汇命题.属于中、低档题.[考点精要]1.简单随机抽样(1)特征:①一个一个不放回的抽取;②每个个体被抽到可能性相等.(2)常用方法:①抽签法;②随机数表法.2.系统抽样(1)适用环境:当总体中个数较多时,可用系统抽样.(2)操作步骤:将总体平均分成几个部分,再按照一定方法从每个部分抽取一个个体作为样本.3.分层抽样(1)适用范围:当总体由差异明显的几个部分组成时可用分层抽样.(2)操作步骤:将总体中的个体按不同特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样.[典例] (1)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )A.7 B.9C.10 D.15(2)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.[解析] (1)从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n 组抽到的号码为a n =9+30(n -1)=30n -21,由451≤30n -21≤750,得23615≤n ≤25710,所以n =16,17,…,25,共有25-16+1=10人.(2)小学中抽取30×150150+75+25=18所学校;从中学中抽取30×75150+75+25=9所学校.[答案] (1)C (2)18 9 [类题通法] 1.系统抽样的特点(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn. 2.与分层抽样有关问题的常见类型及解题策略(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数.[题组训练]1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 2.某学校高一、高二、高三3个年级共有430名学生,其中高一年级学生160名,高二年级学生180名,为了解学生身体状况,现采用分层抽样方法进行调查,在抽取的样本中高二学生有32人,则该样本中高三学生人数为________.解析:高三年级学生人数为430-160-180=90,设高三年级抽取x 人,由分层抽样可得32180=x90,解得x =16.答案:163.某单位有职工960人,其中青年职工420人,中年职工300人,老年职工240人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为14人,则样本容量为________.解析:因为分层抽样的抽样比应相等,所以420960=14样本容量,样本容量=960×14420=32.答案:32用样本的频率分布估计总体的频率分布分布直方图的读图问题.[考点精要]1.频率分布直方图 2.茎叶图[典例] (1)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.(2)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].①求图中a 的值;②根据频率分布直方图,估计这100名学生语文成绩的平均分;③若这100名学生语文成绩某些分数段的人数(x )与数学成绩相应分数段的人数(y )之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60) [60,70) [70,80) [80,90) x ∶y1∶12∶13∶44∶5[个数为50×0.18=9.答案:9(2)解:①由频率分布直方图可知(0.04+0.03+0.02+2a )×10=1. 所以a =0.005.②该100名学生的语文成绩的平均分约为x=0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.③由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:分数段[50,60)[60,70)[70,80)[80,90)x 5403020x∶y 1∶12∶13∶44∶5y 5204025100-(5+20+40+25)=10.[类题通法]与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.[题组训练]1.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为( )A.0.2 B.0.4C.0.5 D.0.6解析:选 B 由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为410=0.4,故选B.2.为了了解某学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如图所示.根据此图,估计该校2 000名高中男生中体重大于70.5公斤的人数为( )A.300 B.360C.420 D.450解析:选B 样本中体重大于70.5公斤的频率为:(0.04+0.034+0.016)×2=0.090×2=0.18.故可估计该校2 000名高中男生中体重大于70.5公斤的人数为:2 000×0.18=360(人).3.某商场在庆元宵节促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.解析:总销售额为2.50.1=25(万元),故11时至12时的销售额为0.4×25=10(万元).答案:10用样本的数字特征估计总体的数字特征[考点精要] 有关数据的数字特征[典例] (1)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A .46,45,56B .46,45,53C .47,45,56D .45,47,53(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差(3)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)[解析] (1)从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即45+472=46,众数为45,极差为68-12=56,故选择A.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C.(3)假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4,则⎩⎪⎨⎪⎧x 1+x 2+x 3+x44=2,x 2+x32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4,又s = 14[x 1-22+x 2-22+x 3-22+x 4-22]=12x 1-22+x 2-22+x 3-22+x 4-22=122[x 1-22+x 2-22]=1,∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.[答案] (1)A (2)C (3)1,1,3,3 [类题通法]平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.[题组训练]1.(山东高考)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③D .②④解析:选B 法一:∵x 甲=26+28+29+31+315=29,x 乙=28+29+30+31+325=30,∴x 甲<x 乙,又s 2甲=9+1+0+4+45=185,s 2乙=4+1+0+1+45=2,∴s 甲>s 乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.2.甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如图所示,根据茎叶图可知,两城市中平均温度较高的城市是__________,气温波动较大的城市是__________.解析:根据题中所给的茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙3.甲、乙两台机床同时加工直径为100 mm 的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:99,100,98,100,100,103; 乙:99,100,102,99,100,100.(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 解:(1)x 甲=99+100+98+100+100+1036=100(mm),x 乙=99+100+102+99+100+1006=100(mm),s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73(mm 2),s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1(mm 2).(2)因为s 2甲>s 2乙,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.线性回归主要考查线性相关关系的判断,回归方程的求法以及利用回归分析解决实际问题.考查形式为选择题、填空题、解答题,属于中低档题.[考点精要]1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关:①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x 2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b x .[典例] 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. [类题通法](1)线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.(2)回归直线方程恒过点(x ,y ).[题组训练]某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x =11,y =24,∑i =14x i y i =1 092,∑i =14x 2i =498. 代入公式可得b ^=187.再由a ^=y -b ^x ,求得a ^=-307,所以y 关于x 的线性回归方程为 y ^=187x -307.(3)当x =10时,y ^=1507,⎪⎪⎪⎪⎪⎪1507-22=47<2;同样,当x =6时,y ^=787,⎪⎪⎪⎪⎪⎪787-12=67<2.所以该小组所得线性回归方程是理想的.1.某全日制大学共有学生5 600人,其中专科生有1 300人、本科生有3 000人、研究生有1 300人,现采用分层抽样的方法抽取280人,调查学生利用因特网查找学习资料的情况,则应在专科生、本科生与研究生这三类学生中分别抽取( )A .65人,150人,65人B .30人,150人,100人C .93人,94人,93人D .80人,120人,80人解析:选A 抽样比为2805 600=120,所以专科生应抽取120×1 300=65(人),本科生应抽取120×3 000=150(人),研究生应抽取120×1 300=65(人),故选A. 2.某学校为调查学生的学习情况,对学生的课堂笔记进行了抽样调查,已知某班级一共有56名学生,根据学号(001~056),用系统抽样的方法抽取一个容量为4的样本,已知007号、021号、049号在样本中,那么样本中还有一个学生的学号为( )A .014B .028C .035D .042解析:选C 由系统抽样的原理知抽样的间隔为564=14,故第一组的学号为001~014,所以007为第一组内抽取的学号,所以第二组抽取的学号为021;第三组抽取的学号为035;第四组抽取的学号为049.故选C.3.如图是2016年某中学举行的校园之星评选活动中,七位评委为某位同学打出的分数的茎叶图,则该组数据的中位数和众数分别为( )A.86,84 B .84,84 C .85,84D .85,93解析:选B 将打分按从小到大的顺序排列为79,84,84,84,86,87,93,则中位数为84,而众数就是出现次数最多的数,即84,故选B.4.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A. 6B. 8C. 12D. 18解析:选C 由题意,第一组和第二组的频率之和为0.24+0.16=0.4,故样本容量为200.4=50,又第三组的频率为0.36,故第三组的人数为50×0.36=18,故该组中有疗效的人数为18-6=12.5.某题的得分情况如下:其中众数是(A .37.0%B .20.2%C .0分D .4分解析:选C 根据众数的概念可知C 正确. 6.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④D .②③解析:选C 由散点图知③④具有相关关系.7.某学生在一门功课的22次考试中,所得分数如茎叶图所示,则该学生该门功课考试分数的极差与中位数之和为________.解析:最大数为98,最小数为56,极差为98-56=42,中位数为76,所以极差与中位数之和为118.答案:1188.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.解析:平均命中率y =15×(0.4+0.5+0.6+0.6+0.4)=0.5;而x =3,∑5i =1x i y i =7.6,∑5i =1x 2i =55,由公式得b ^=0.01,a ^=y -b ^ x =0.5-0.01×3=0.47,∴y ^=0.01x +0.47,令x =6,得y ^=0.53.答案:0.5 0.539.某高中共有学生900人,其中高一年级240人,高二年级260人,为做某项调查,拟采用分层抽样法抽取容量为45的样本,则在高三年级抽取的人数是________.解析:高三的人数为900-240-260=400,所以在高三抽取的人数为45900×400=20.答案:2010.(重庆高考改编)20名学生某次数学考试成绩(单位:分)的频率分布直方图如图: (1)求频率分布直方图中a 的值;(2)分别求出成绩落在[50,60]与[60,70]中的学生人数.解:(1)据直方图知组距为10,由(2a +3a +7a +6a +2a )×10=1,解得a =1200=0.005. (2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2. 成绩落在[60,70)中的学生人数为3×0.005×10×20=3.11.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:) 解:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y =3.53x +a ^, 则74.9=3.53×17.4+a ^, 解得a ^≈13.5.12.为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?解:(1)设A 药观测数据的平均数为x ,B 药观测数据的平均数y ,由观测结果可得x=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6,由以上计算结果可得x>y,因此可以看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,B药疗效的试验结果有710的叶集中在茎0,1上,由此可以看出A药的疗效更好.。

高中数学第三章统计案例章末复习课学案新人教A版选修2-3(2021年整理)

高中数学第三章统计案例章末复习课学案新人教A版选修2-3(2021年整理)

2018-2019学年高中数学第三章统计案例章末复习课学案新人教A版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018-2019学年高中数学第三章统计案例章末复习课学案新人教A版选修2-3)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018-2019学年高中数学第三章统计案例章末复习课学案新人教A版选修2-3的全部内容。

第三章统计案例章末复习课[整合·网络构建][警示·易错提醒]1.线性回归方程中的系数及相关指数R2,独立性检验统计量K2公式复杂,莫记混用错.2.相关系数r是判断两随机变量相关强度的统计量,相关指数R2是判断线性回归模型拟合效果好坏的统计量,而K2是判断两分类变量相关程度的量,应注意区分.3.在独立性检验中,当K2≥6.635时,我们有99.9%的把握认为两分类变量有关,是指“两分类变量有关"这一结论的可信度为99%而不是两分类变量有关系的概率为99%。

专题一回归分析思想的应用回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.[例1]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008-2014。

(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.附注:参考数据:错误!y i=9。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章统计案例章末复习课[整合·网络构建][警示·易错提醒]1.线性回归方程中的系数及相关指数R2,独立性检验统计量K2公式复杂,莫记混用错.2.相关系数r是判断两随机变量相关强度的统计量,相关指数R2是判断线性回归模型拟合效果好坏的统计量,而K2是判断两分类变量相关程度的量,应注意区分.3.在独立性检验中,当K2≥6.635时,我们有99.9%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%而不是两分类变量有关系的概率为99%.专题一回归分析思想的应用回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.[例1] 下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008—2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1 y i =9.32,∑7i =1 t i y i =40.17,∑7i =1 (y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1 (t i -t )2∑ni =1 (y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y )∑ni =1 (t i -t )2,a ^=y -b ^t . 解:(1)由折线图中数据和附注中参考数据得t =4,∑7i =1 (t i -t )2=28,∑7i =1 (y i -y )2=0.55,∑7i =1 (t i -t )(y i -y )=∑7i =1 t i y i -t ∑7i =1 y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1 (t i -t )(y i -y )∑7i =1 (t i -t )2=2.8928≈0.10, a ^=y ^-b ^t =1.331-0.10×4≈0.93.所以y 关于t 的回归方程为y ^=0.93+0.10t .将2018年对应的t =11代入回归方程得y ^=0.93+0.10×11=2.03. 所以预测2018年我国生活垃圾无害化处理量约为2.03亿吨. 归纳升华解决回归分析问题的一般步骤1.画散点图.根据已知数据画出散点图.2.判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求回归系数,然后写出回归方程.3.实际应用.依据求得的回归方程解决问题.[变式训练] 近年来,随着以煤炭为主的能源消耗大幅攀升、机动车持有量急剧增加,某市空气中的PM 2.5(直径小于等于2.5微米的颗粒物)的含量呈逐年上升的趋势,如图是根据该市环保部门提供的2010年至2014年该市PM 2.5年均浓度值画成的散点图.(为便于计算,把2010年编为1,2011年编号为2,…,2014年编号为5)(1)以PM 2.5年均浓度值为因变量,年份的编号为自变量,利用散点图提供的数据,用最小二乘法求出该市PM 2.5年均浓度值与年份编号之间的线性回归方程y ^=b ^x +a ^;(2)按世界卫生组织过渡期目标-1的标准,空气中PM 2.5的年均浓度限值为35微克/立方米,该市若不采取措施,试预测到哪一年该市空气中PM 2.5的年均浓度值将超过世界卫生组织过渡期目标-1设定的限值.解:(1)由散点图可得,变量x i ,y i 组成的几组数据为(1,13),(2,15),(3,20),(4,22),(5,25),则x -=3,y -=19,所以b ^=(-2)×(-6)+(-1)×(-4)+0×1+1×3+2×6(-2)2+(-1)2+02+12+22=3.1, a ^=y --b ^x -=19-3.1×3=9.7.所以所求线性回归方程为y ^=3.1x +9.7.(2)由3.1x +9.7>35,得x >25331=8531,因为x ∈N ,所以x =9.故可预测到2018年该市空气中PM 2.5的年均浓度值将超过世界卫生组织过渡期目标-1设定的限值.专题二 独立性检验的应用独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用等高条形图来直观反映两个分类变量之间差异的大小;利用假设检验求随机变量K 2的值能更精确地判断两个分类变量间的相关关系.[例2] 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图,将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否在犯错误的概率不超过0.10的前提下认为“体育迷”与性别有关.性别 非体育迷体育迷 总计 男女10 55 总计(2)方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X ,若每次抽取的结果是相互独立的,求X 的分布列、期望E (X )和方差D (X ).解:(1)由频率分布直方图可知,在抽取的100人中“体育迷”有(0.020+0.005)×10×100=25(人).由独立性检验的知识得2×2列联表如下:性别 非体育迷 体育迷 总计 男 30 15 45 女 45 10 55 总计7525100将2×2得K 2的观测值=100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706.所以在犯错误的概率不超过0.10的前提下认为“体育迷”与性别有关. (2)由频率分布直方图知抽到“体育迷”的频率为(0.020+0.005)×10=0.25, 将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.由题意知X ~B ⎝ ⎛⎭⎪⎫3,14, 从而X 的分布列为:X 0 1 2 3 P27642764964164E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.归纳升华独立性检验问题的求解方法1.等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.2.K 2统计量法:通过公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),先计算观测值k ,再与临界值表进行比较,最后得出结论.[变式训练] “十一”黄金周前某地一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:年份 本地 外地 总计 去年 1 407 2 842 4 249 今年 1 331 2 065 3 396 总计2 7384 9077 645系?解:因为K 2的观测值k =7 645×(1 407×2 065-2 842×1 331)24 249×3 396×2 738×4 907≈30,30>10.828,所以在犯错误的概率不超过0.001的前提下,认为票价上浮后游客人数与所处地区有关系.专题三 数形结合思想数形结合思想在统计中的应用主要是将收集到的数据利用图表的形式表示出来,直观地反映变量间的关系.[例3] 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下,问铅中毒病人和对照组的尿棕色素阳性数有无差别?组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573解:由上述列联表可知,在铅中毒病人中尿棕色素为阳性的占80.56%,而对照组仅占24.32%.说明他们之间有较大差别.根据列联表作出等高条形图由图可知,铅中毒病人中与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系.归纳升华收集数据、整理数据是统计知识处理问题的两个基本步骤,将收集到的数据利用图表的形式整理出来,能够直观地反映变量之间的关系.在精确度要求不高的情况下,可以利用散点图、等高条形图等对两个变量之间的关系做出判断.[变式训练] 根据如下样本数据:x 345678y 4.0 2.5-0.50.5-2.0-3.0得到的回归方程为y=bx+a,则( )A.a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0解析:根据题中表内数据画出散点图如图所示,由散点图可知b<0,a>0.答案:B。

相关文档
最新文档