2022高三统考数学文北师大版一轮教师文档:第九章第七节 变量间的相关关系与统计案例
2022版高考数学一轮复习第九章算法初步统计统计案例第四讲变量间的相关关系统计案例学案含解析新人教版
第四讲变量间的相关关系、统计案例知识梳理·双基自测知识梳理知识点一回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系__.(2)散点图:表示具有__相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量__正相关__;若这些散点有y随x增大而减小的趋势,则称两个变量__负相关__.(3)回归方程:y^=b^x+a^,其中b^=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2,a^=__y--b^x__,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2∑ni=1y2i-n y2它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性__越强__;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱__.知识点二独立性检验(1)2×2列联表设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性检验利用随机变量K2(也可表示为X2)=n ad-bc2n=a+b+c+d为样本容量)来判断“两个变a+b c+d a+c b+d(其中量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K2的观测值k,查表确定临界值k0:③如果k≥k0,就推断“X与Y有关系\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关\”.归纳拓展1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.双基自测题组一走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( ×)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y^=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( ×)(5)事件x,y关系越密切,则由观测数据计算得到的K2的观测值越大.( √)(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)题组二走进教材2.(P97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )A.回归分析B.均值与方差C.独立性检验D.概率[解析]“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.3.(P81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为__68__.[解析]由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.题组三走向高考4.(2017·某某高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知∑10i=1x i=225,∑10i=1y i=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( C )A .160B .163C .166D .170[解析]由题意知y ^=4x +a ^又x =22.5,y =160,因此160=22.5×4+a ^,∴a ^=70,因此y ^=4x +70,当x =24时,y ^=4×24+70=166,故选C .5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n ad -bc2a +bc +da +cb +d.P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828[解析](1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)由题可得K 2=100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.考点突破·互动探究考点一 相关关系的判断——自主练透例1 (1)(2021·某某资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3[解析](1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.名师点拨判断两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b^>0时,正相关;b^<0时负相关.考点二线性回归分析——师生共研例2 (1)(2021·湖湘名校教育联合体联考)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:价格x 99.51010.511销售量y 111086 5 按公式计算,y与x的回归直线方程是:y=-3.2x+a,相关系数|r|=0.986,则下列说的是( D )法不正确...A.变量x,y线性负相关且相关性较强B.a^=40C.当x=8.5时,y的估计值为12.8D.相应于点(10.5,6)的残差约为0.4(2)(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120xi =60,∑i =120y i =1 200,i =120(x i -x -)2=80,i =120(y i -y -)2=9 000,i =120(x i -x -)(y i -y -)=800.①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);②求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);③根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =i =1nx i -x-y i -y-i =1nx i -x-2i =1ny i -y-2,2≈1.414.[解析](1)对A ,由表可知y 随x 增大而减少,可认为变量x ,y 线性负相关,且相关性强,故A 正确.对B ,价格平均x -=15(9+9.5+10+10.5+11)=10,销售量y -=15(11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+a ^⇒a ^=40,故B 正确.对C ,当x =8.5时,y ^=-3.2×8.5+40=12.8,故C 正确.对D ,相应于点(10,8)的残差约为e ^=6-(-3.2×10.5+40)=-0.4,故D 不正确.故选D .(2)①样区野生动物平均数为 120∑i =120y i =120×1 200=60,地块数为200,该地区这种野生动物的估计值为200×60=12 000. ②样本(x i ,y i )的相关系数为r=i=120x i-x-y i-y-i=120x i-x-2i=120y i-y-2=80080×9 000=223≈0.94.③由于各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样,先将植物覆盖面积按优中差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样方法抽取样本即可.名师点拨线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b^,a^.②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^.〔变式训练1〕(2021·某某六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:销售额x/千万元35679利润额y/百万元1334 5(1)画出散点图,观察散点图,说明两个变量有怎样的相关关系;(2)求出利润额y关于销售额x的回归直线方程;(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2=i=1n x i-x-y i-y-i=1n x i-x-2,a^=y--b x-.[解析](1)散点图如图所示:两个变量正相关,且具有线性相关关系.(2)易求x-=6,y-=3.2,由公式有b^=3×2.2+1×0.2+0+1×0.8+3×1.832+12+12+32=1320=0.65,且a^=3.2-0.65×6=-0.7,则线性回归方程为y^=0.65x-0.7,(3)当x=4时,由(1)可求得y^=1.9,即利润额约为1.9百万元.考点三,独立性检验——师生共研例3 (1)(2020·新高考Ⅰ,19)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2PM2.5[0,50](50,150](150,475][0,35]3218 4(35,75]6812(75,115]3710①估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;②根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115]③根据②中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828某校推迟2020年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的100名学生(男生与女生的人数之比为3∶2)对线上课程进行评价打分,若评分不低于80分视为满意,其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于70分的频率为0.85.①估计100名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)②结合频率分布直方图,请完成以下2×2列联表,并回答能否有99%的把握认为对“线上教学是否满意与性别有关”;态度性别满意 不满意 合计男生 女生 10合计100K 2=n ad -bc2a +bc +d a +cb +d,其中P (K 2=k 0)0.10 0.05 0.025 0.010 0.005 k 02.7063.8415.0246.6357.879n =a +b +c +d .[解析](1)①根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.②根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] 64 16 (75,115]1010K 2=100×64×10-16×10280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.(2)①由已知得(0.015+b +0.03)×10=0.85, 解得b =0.04,又(0.005+a )×10=1-0.85,解得a =0.01, 评分的平均值为55×0.05+65×0.1+75×0.3+85×0.4+95×0.15=80. ②完成2×2列联表如下表:态度性别满意 不满意 合计男生 25 35 60 女生 30 10 40 合计5545100K 2=100×10×25-35×3055×45×60×40≈10.774>6.635,∴有99%的把握认为对“线上教学是否满意与性别有关”.名师点拨解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体.②明确研究的两个问题. (2)两个关键:①准确列出2×2列联表:②准确理解K 2.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k 值与求得的K 2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p ,所以其有关联的可能性为1-p .〔变式训练2〕(2021·某某某某、崇左质检)某出租汽车公司决定更换一批新的小汽车以代替原来的报废的出租车,现有A,B两款车型,根据以往这两种出租车车型的数据,得到两款出租车型使用寿命频数表如下:使用寿命年数4年5年6年7年总计A型出租车(辆)10204525100B型出租车(辆)153********(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命年数与汽车车型有关?使用寿命不高于5年使用寿命不低于6年总计A型B型总计(2)司机师傅小李准备在一辆开了3年的A型车和一辆开了3年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择.参加公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.参考数据:P(K2≥k0)0.050.0100.001k0 3.841 6.63510.828[解析](1)根据题目所给数据得到如下2×2的列联考:使用寿命不高于5年使用寿命不低于6年总计A型3070100B型5050100总计80 120 200由列联表可知:K 2=200×30×50-70×502100×100×80×120≈8.33>6.635,所以有99%的把握认为出租车的使用寿命年数与汽车车型有关;(2)记事件A 1,A 2分别表示小李选择A 型出租车和B 型出租车时,3年内(含3年)换车, 由表知P (A 1)=10+20+45100=0.75,P (A 2)=15+35+40100=0.9,因为P (A 1)<P (A 2),所以小李应选择A 型出租车.名师讲坛·素养提升非线性回归问题例4 (2020·某某乌兰察布等五市调研)一个调查学生记忆的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t (分钟)和答对人数y 的统计表格如下: 时间t (分钟) 10 20 30 40 50 60 70 80 90 100 答对人数y 98 70 52 36 30 20 15 11 5 5 lg y1.991.851.721.561.481.301.181.040.70.7附:∑n =110t 2i =38 500,∑n =110y i =342,∑n =110lg y i =13.5,∑n =110t i y i =10 960,∑n =110t i lg y i =620.9,对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑i =1nu i v i -n u -v -∑i =1n u 2i -n u -2,α^=v --β^u -.请根据表格数据回答下列问题:(1)根据散点图判断,y =at +b 与lg y =ct +d ,哪个更适宜作为线性回归类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立y 与t 的回归方程;(数据保留3位有效数字)(3)根据(2)请估算要想记住75%的内容,至多间隔多少分钟重新记忆一遍.(参考数据:lg 2≈0.3,lg 3≈0.48)[解析](1)由图象可知,lg y =ct +d 更适宜作为线性回归类型; (2)设lg y =ct +d ,根据最小二乘法得c =∑i =110t i lg y i -10t -lg y ∑i =110t 2i -10t -2=620.9-10×55×1.3538 500-10×552≈-0.014 7,d =lg y -c t -≈2.16,所以lg y =-0.014 7t +2.16, 因此y =10-0.014 7t +2.16;(3)由题意知y =10-0.014 7t +2.16≥75,即-0.014 7t+2.16≥2+lg 3-2lg 2≈1.88,解得t≤19.05,即至多19.05分钟,就需要重新复习一遍.名师点拨非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决.〔变式训练3〕(2020.课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2, (20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x[解析]观察题中散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象,故选D.。
数学北师大版高中必修3第七节变量间的相关关系教案
第十一课时 §1.8相关关系一、 教学目标:1.通过收集现实问题中两个变量的数据作出散点图,利用散点图直观认识变量间的相关关系.2.经历用不同的估算方法来描述两个变量线性相关的过程.二、重难点:利用散点图直观认识两个变量之间的线性相关关系 三、教学方法:动手操作,师生合作交流 四、教学过程(一)、创设情境 导入新课1、相关关系的理解 师:我们曾经研究过两个变量之间的函数关系:一个自变量对应着唯一的一个函数值,这两者之间是一种确定关系.生活中的任何两个变量之间是不是只有确定关系呢? 让学生举例,教师总结 如:生:不是.师:能否举出反例? 比如,年龄与身高. 生:身高与体重 生:教师水平与学生成绩.生:网速与下载文件所需时间师:不妨以教师水平与学生成绩为例,学生成绩与教师水平有关吗? 生:有,一般来说,教师水平越高,学生成绩越好师:即“名师出高徒”,名师一定出高徒吗? 生:不一定.师:即学生成绩与教师水平之间存在着某种联系,但又不是必然联系,对于学生成绩与教师水平之间的这种不确定关系,我们称之为相关关系.这就是我们这节课要共同探讨的内容,即变量间的相关关系.(板书)生活中还有很多描述相关关系的成语,如:“虎父无犬子”,“瑞雪兆丰年” 【设计意图:通过学生熟悉的函数关系,引导学生关注生活中两个变量之间还存在的相关关系.让学生体会研究变量之间相关关系的重要性.感受数学来源于生活.】(二)、初步探索,直观感知1、根据样本数据利用电子表格作出散点图,直观感知变量之间的相关关系 师:在研究相关关系前,同学们先回忆一下:函数的表示方法有哪些? 生:列表,画图象,求解析式.师:下面我们就用这些方法来研究相关关系.请同学们看这样一组数据:探究: 在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据: 根据上述数据,人体的脂肪含量与年龄之间有怎样的关系?生:随着年龄增长,脂肪含量在增加 师:有没有更直观的方式?生:画图师生:用x 轴表示年龄,y 轴表示脂肪.一组样本数据就对应着一个点.由于数据比较多,我们借用电子表格来作图,请大家注意观察.教师演示作图方法,学生观察年龄327 39 41 45 49 50 53 54 56脂肪9.5 17.821.225.927.526.328.229.630.231.4年龄脂肪51015202530354005101520253035404550556065年龄脂肪含量20.84r =-图图1051015202530354005101520253035404550556065年龄脂肪含量20040060080010000501001500 123456789145678910 0.0.0.0.1 1.-00 0.0.0.0.1 1.2图图3图4051015202530354005101520253035404550556065年龄脂肪含量师:这个图跟我们所学过的函数图象有区别,它叫作散点图. 2、判断正、负相关、线性相关 学生观察,比较,讨论. 师:请同学们观察这4幅图,看有什么特点?生:图1呈上升趋势,图2呈下降趋势. 师生:这就像函数中的增函数和减函数.即一个变量从小到大,另一个变量也从小到大,或从大到小.对于图1中的两个变量的相关关系,我们称它为正相关.图2中的两个变量的相关关系,称为负相关.师:我们还可以判断出:年龄与身高是正相关,网速与下载文件所需时间是负相关.生:后面两个图很乱,前面两个图中点的分布呈条状. 师:从数学的角度来解释:即图1、2中的点的分布从整体上看大致在一条直线附近.我们称图1、2中的两个变量具有线性相关关系.这条直线叫做回归直线.图3、4中的两个变量是非线性相关关系师:这节课我们重点研究线性相关关系.(板书) 设计意图 :数形结合,扫清了学生的思维障碍,体现数学的简约美. (三)、循序渐进、延伸拓展1、找回归直线师:下面我们再来看一下年龄与脂肪的散点图,从整体上看,它们是线性相关的. 如果可以求出回归直线的方程,我们就可以清楚地了解年龄与体内脂肪含量的23 9.5 27 17.8 39 21.2 41 25.9 45 27.5 49 26.3 50 28.2 53 29.6 54 30.2 56 31.4 57 30.8 58 33.5 60 35.2 6134.6051015202530354005101520253035404550556065年龄脂肪含量5101520253035405101520253035404550556065年龄脂肪含量51015202530354005101520253035404550556065年龄脂肪含量05101520253035405101520253035404550556065年龄脂肪含量5101520253035020406080100120140160面积售价相关性.这条直线可以作为两个变量具有线性相关关系的代表.同学们能否画出这条直线?请完成数学实验1、画出回归直线.(学生在计算机上用电子表格画回归直线)数学实验1: 画出回归直线 教师展示学生画图情况,学生说明理由学生方案一 学生方案二 学生方案三 学生总结: 第二种方法好,因为所有的点离这条直线最近. 师:即,从整体上看,各点与此直线的距离和最小. (四)、例题探析例1: 在下列两个变量的关系中,哪些是相关关系?①正方形边长与面积之间的关系;②作文水平与课外阅读量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系. 【 答案:②③④】例2、 以下是某地搜集到的新房屋的销售价格和房屋的面积的数据: 房屋面积(平方米) 6170 115 110 80 135 105 销售价格(万元)12.2 15.3 24.8 21.6 18.4 29.2 22画出数据对应的散点图,并指出销售价格与房屋面积这两个变量是正相关还是负相关.(五)、小结与作业1.对于两个变量之间的关系,有函数关系和相关关系两种,其中函数关系是一种确定性关系,相关关系是一种非确定性关系.2.散点图能直观反映两个相关变量之间的大致变化趋势,利用计算机作散点图是简单可行的办法.3.一般情况下两个变量之间的相关关系成正相关或负相关,类似于函数的单调性.作业:P85练习:1,2 . 第84页,习题2-3A第1(1)、2(1)题,五、教后反思:。
高考数学(文)一轮复习备考学案:《变量间的相关关系、统计案例》(北师大版)
第四节变量间的相关关系、统计案例对应学生用书P1651.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y=bx+a,其中b=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a=y-b x.(3)通过求Q=∑i=1n(y i-bx i-a)2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dχ2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[试一试]1.(2013·石家庄调研)下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④解析:选C由回归分析的方法及概念判断.2.已知x,y之间的数据如表所示,则回归直线过点()x 1234 5y 1.2 1.8 2.5 3.2 3.8A.(0,0)C.(3,2.5) D.(4,3.2)解析:选C回归直线恒过定点(x,y),故x=3,y=2.5.1.求回归直线方程的步骤(1)依据样本数据画出散点图,确定两个变量具有线性相关关系;(2)计算出x ,y,∑i =1nx 2i ,∑i =1n x i y i 的值; (3)计算回归系数a ,b ; (4)写出回归直线方程y =bx +a . 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(a +d )(a +c )(b +d )计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断. [练一练]1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是( )A .100个吸烟者中至少有99人患有肺癌B .1个人吸烟,那么这人有99%的概率患有肺癌C .在100个吸烟者中一定有患肺癌的人D .在100个吸烟者中可能一个患肺癌的人也没有解析:选D 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生. 2.在2012伦敦奥运会期间,某网站针对性别是否与看奥运会直播有关进行了一项问卷调查,得出如下表格:性别是否看奥运会直播男 女 看奥运会直播 6 000 2 000 不看奥运会直播2 0002 000则χ2=( ) A .700 B.750 C .800D .850解析:选B 由题意知, χ2=12 000(6 000×2 000-2 000×2 000)28 000×4 000×8 000×4 000=750.对应学生用书P166考点一相关关系的判断1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C由题知夹在带状区域内的点,总体呈上升趋势的属于正相关;反之,总体呈下降趋势的属于负相关.由图可知,选C.2.已知变量x,y呈线性相关关系,线性回归方程为y=0.5+2x,则变量x,y是() A.线性正相关关系B.由回归方程无法判断其正负相关C.线性负相关关系D.不存在线性相关关系解析:选A随着变量x增大,变量y有增大的趋势,则x,y称为正相关.3.(2014·镇江模拟)如图所示,有A,B,C,D,E,5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D.答案:D[类题通法]相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点二回归方程的求法及回归分析[典例] 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1到6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期 1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x (℃) 1011131286就诊人数y (个)22 25 29 26 16 12回归方程,再用选取的2组数据进行检验.(1)若选取的是1月与6月的2组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y =bx +a ;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试求该小组所得的线性回归方程是否理想?[解] (1)由数据得x =11+13+12+84=11,y =25+29+26+164=24,由公式得b =187,再由a =y -b x 得a =-307,所以y 关于x 的线性回归方程为y =187x -307.(2)当x =10时,y =1507,|1507-22|<2,同理,当x =6时,y =787,|787-12|<2,所以该小组所得线性回归方程是理想的.在本例(1)条件下,试预测昼夜温差为5℃时,因感冒而就诊的人数约为多少?解:由(1)知,y =187x -307,当x=5时,y=907-307=607≈8.6,∴当温差为5℃时,就诊的人数约为9人.[类题通法]利用线性回归方程可以对总体进行预测估计,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据,依据自变量的取值估计和预测因变量的值,在现实生活中有广泛的应用.[针对训练](2013·大连模拟)已知下列表格所示数据的回归直线方程为y=3.8x+a,则a的值为________.x 2345 6y 251254257262266解:由已知得,x=4,y=258,因为点(x,y)在回归直线上,所以a=242.8.答案:242.8考点三独立性检验[典例]福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P(χ2≥x0)0.1000.0500.0100.001x0 2.706 3.841 6.63510.828附:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)[解](1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以得χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(15×25-15×45)260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.[类题通法]1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.[针对训练]2012年欧洲杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,40岁以上调查了50人,不高于40岁调查了50人,所得数据制成如下列联表:不高于40岁15 35 50 总计ab100已知工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (χ2≥x 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 x 02.0722.7063.8415.0246.6357.87910.828解析:设“从所有人中任意抽取一个取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100=35,所以p =25,q =25,a =40,b =60,χ2=100×(25×35-25×15)240×60×50×50=25×40040×60=256≈4.167>3.841,故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.答案:95%对应学生用书P168[课堂练通考点]1.(2013·石家庄模拟)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是( )A .x 和y 正相关B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在-1到0之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同解析:选C 由题图知,回归直线的斜率为负值,所以x 与y 是负相关,且相关系数在-1到0之间,所以C 正确,选择C.2.(2013·云南模拟)变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=( )A.35 B.45 C .1D .3解析:选C 依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1,选C.3.浙江卫视为了调查评价“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高,在播出前后分别从居民点抽取了100位居民,调查对浙江卫视的关注情况,制成列联表,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( )A .有99%的人认为该栏目优秀B .有99%的人认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高C .有99%的把握认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高D .没有理由认为“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高 附表:解析:选D 只有χ2>6.635才能有99%的把握认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高,而即使χ2>6.635也只是对“浙江卫视收视率有明显提高”这个论断成立的可能性大小的结论,与是否有99%的人认为该栏目优秀或收视率提高等无关.故选D.4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2的观测值x 0=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).解析:由观测值x 0=27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 答案:有关5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (χ2≥3.841)≈根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:因为χ2≈4.844>3.841,故认为选修文科与性别之间有关系出错的可能性约为5%. 答案:5%[课下提升考能]第Ⅰ组:全员必做题1.(2014·枣庄模拟)下面是2×2列联表:则表中a,b的值分别为()A.94,72 B.52,50C.52,74 D.74,52解析:选C∵a+21=73,∴a=52,又a+22=b,∴b=74.2.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程y=bx+a必过样本点的中心(x,y);④在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是()A.0 B.1C.2 D.3本题可以参考独立性检验临界值表解析:选B数据的方差与加了什么样的常数无关,①正确;对于回归方程y=3-5x,变量x增加1个单位时,y平均减少5个单位,②错误;由线性回归方程的相关概念易知③正确;因为χ2=13.079>x0=10.828,故有99%的把握确认这两个变量间有关系,④正确.3.(2013·广州模拟)工人月工资(元)依劳动产值(千元)变化的回归直线方程为y=60+90x,下列判断正确的是()A.劳动产值为1 000元时,工资为50元B.劳动产值提高1 000元时,工资提高150元C .劳动产值提高1 000元时,工资提高90元D .劳动产值为1 000元时,工资为90元解析:选C 回归系数的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位. 4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),算得χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.5.某产品的广告费用x 与销售额y 的统计数据如下表:6万元时销售额为( )A .63.6万元 B.65.5万元 C .67.7万元D .72.0万元解析:选B 样本中心点是(3.5,42),a =y -b x ,则a =y -b x =42-9.4×3.5=9.1, 所以回归直线方程是y =9.4x +9.1,把x =6代入得y =65.5.6.高三某学生高考成绩y (分)与高三期间有效复习时间x (天)正相关,且回归方程是y =3x +50,若期望他高考达到500分,那么他的有效复习时间应不低于________天.解析:本题主要考查运用线性回归方程来预测变量取值. 当y =500时,易得x =500-503=150.答案:1507.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:.(答案保留到0.1)解析:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y =3.53x +a ,则74.9=3.53×17.4+a ,解得a ≈13.5. 答案:13.58.某中学生物研究性学习小组对春季昼夜温差大小与水稻发芽率之间的关系进行研究,记录了实验室4月10日至4月14日的每天昼夜温差与每天每50颗稻籽浸泡后的发芽数,得到如下资料:线性回归方程为________.(参考公式:回归直线方程y =bx +a ,其中b =∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a=y -b x )解析:因为x =12,y =13.2, 所以b =10×11+12×13+13×14+14×16+11×12-5×12×13.2102+122+132+142+112-5×122=1.2,于是,a =13.2-1.2×12=-1.2,故所求线性回归方程为y =1.2x -1.2.答案:y =1.2x -1.29.(2013·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.数学 88 83 117 92 108 100 112 物理949110896104101106(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.解:(1)x =100+-12-17+17-8+8+127=100;y =100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142.∴s 2物理=2507. 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b =7i =1x i y i -7xy7i =1x 2i-7x 2=497994=0.5, a =y -b x =100-0.5×100=50. ∴回归方程为y =0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.10.(2013·郑州模拟)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.解:(1)由题意知,甲、乙两班均有学生50人, 甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%. (2)列联表如下:因为χ2=100×(30×25-20×25)250×50×55×45=10099≈1.010, 所以由参考数据知,没有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.第Ⅱ组:重点选做题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1 B.0 C.12D .1解析:选D 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式R =1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2=1.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 解析:选D 根据线性回归方程中各系数的意义求解.由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.。
高考数学总复习 103变量间的相关关系课件 北师大版
i=1
i=1
[解析] -x =0+10+205+50+70=30. -y =66.7+76.0+85.50+112.3+128.0=93.6,
5 xiyi-5-x -y
i=1
b=
≈0.8809,
5 xi2-5-x 2
i=1
a=-y -b-x =93.6-0.8809×30≈67.173 ∴回归直线方程为 y=0.8809x+67.173.
• [解析] (1)散点图如下:
• (2)从图中可以发现数据点大致分布在一条 直线的附近,因此施化肥量和水稻产量近 似成线性相关关系,当施化肥量由小到大 变化时,水稻产量由小变大,但水稻产量 只是在一定范围内随着化肥施用量的增加 而增长.
利用散点图判断两个变量的相关关系
[例 1] 5 个学生的数学和物理成绩如下表:
• (参考数值:3×2.5+4×3+5×4+6×4.5= 66.5)
• [解析] (1)由题设所给数据,可得散点图如 下图.
4
(2)由表中数据,计算得:xi2=86,
i=1
x =3+4+4 5+6=4.5, y =2.5+3+4 4+4.5=3.5,
4
已知xiyi=66.5,
i=1
所以,由最小二乘法确定的回归直线方程的系数为:
知识梳理 1.散点图 (1)将变量所对应的点描出来,就组成了变量之间的一个图, 这种图为变量之间的 散点图 . (2)从散点图上可以看出,如果变量之间存在着某种关系,这 些点会有一个集中的大致趋势,这种趋势可用一条光滑的曲线来 近似,这种近似的过程称为曲线拟合.
若两个变量 x 和 y ቤተ መጻሕፍቲ ባይዱ散点图中,所有点看上去都在一条直 线附近波动,则称变量间是 线性相关 的.若所有点看上去都 在某条曲线(不是一条直线)附近波动,则称此相关为非___线__性__相__关 的.如果所有的点在散点图中没有显示任何关系,则称变量间 是不相关的.
高三数学一轮 11.3 变量间的相关关系导学案 理 北师大版
学案58 变量间的相关关系导学目标: 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.自主梳理1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从__________到________的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关 在散点图中,点散布在从________到________的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程 (1)最小二乘法求回归直线使得样本数据的点到它的________________________的方法叫做最小二乘法.(2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.自我检测1.下列有关线性回归的说法,不正确的是( ) A .相关关系的两个变量不一定是因果关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .任一组数据都有回归直线方程2.(2009·海南,宁夏)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关3.(2011·银川模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据:由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其回归直线方程是y ^=-0.7x +a ^,则a ^等于( )A .10.5B .5.15C .5.2D .5.254.(2010·广东)某市居民2005~2009年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:, 家庭年平均收入与年平均支出有______线性相关关系.5.(2011·金陵中学模拟)已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性关系,则其回归方程是________________.探究点一 利用散点图判断两个变量的相关性例1 有一位同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出热饮杯数与当天气温的对比表:(1)(2)你能从散点图中发现气温与热饮销售杯数之间关系的一般规律吗?变式迁移1 某班5个学生的数学和物理成绩如表:探究点二求回归直线方程例2 假设关于某设备的使用年限x和所支出的维修费用y(万元)有以下统计资料:若由资料知y对x呈线性相关关系.试求回归方程y=b x+a .变式迁移2 已知变量x与变量y有下列对应数据:且y对x探究点三利用回归方程对总体进行估计例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的回归方程y ^ =b ^ x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)变式迁移3 (2011·盐城期末)某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归方程y =b x +a 中b =-2,预测当气温为-4℃时,用电量的度数约为________.点大致分布在某一条直线的附近,就可以认为y 对x 的回归函数的类型为直线型:其中(满分:75分)一、选择题(每小题5分,共25分) 1.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线y ^=b ^x +a ^及回归系数b ^,可以估计和预测变量的取值和变化趋势. 其中正确的命题是( )A .①②B .①③C .②③D .①②③2.设有一个回归直线方程为y ^=2-1.5x ,则变量x 增加一个单位时( ) A .y 平均增加1.5个单位 B .y 平均增加2个单位 C .y 平均减少1.5个单位 D .y 平均减少2个单位3.(2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x ,y )4.(2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元5.(2011·青岛模拟)为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1、l 2,已知两人所得的试验数据中,变量x 和y 的数据的平均值都相等,且分别是s 、t ,那么下列说法中正确的是( )A .直线l 1和l 2一定有公共点(s ,t)B .直线l 1和l 2相交,但交点不一定是(s ,t)C .必有l 1∥l 2D .l 1与l 2必定重合二、填空题(每小题4分,共12分)6.下列关系中,是相关关系的为________.(填序号) ①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系.7.已知回归直线的斜率的估计值是0.73,样本点的中心为(12.5,8.25),则回归直线的回归方程是______________.8.(2011·茂名月考)在研究硝酸钠的可溶性程度时,观测它在不同温度的水中的溶解度,得观测结果如下表:三、解答题(共38分)9.(12分)(2011·威海模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)(2)求出y 关于x 的回归方程y ^ =b ^ x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b ^=∑ni =1x i y i -n x y∑n i =1x 2i-n x2,a ^ =y -b ^x )10.(12分)(2010·许昌模拟)某种产品的宣传费支出x 与销售额y(单位:万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)试预测宣传费支出为10万元时,销售额多大?11.(14分)(1)(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?学案58 变量间的相关关系自主梳理1.(1)左下角 右上角 (2)左上角 右下角 2.(1)距离的平方和最小(2)∑ni =1i -xi-y∑n i =1 i-x 2∑ni =1x i y i -n x y∑n i =1x 2i-n x2y -b ^x 自我检测1.D 2.C 3.D4.13 正 5.y ^=74x +234课堂活动区例 1 解题导引 判断变量间是否线性相关,一种常用的简便可行的方法就是作散点图.散点图是由大量数据点分布构成的,是定义在具有相关关系的两个变量基础之上的,对于性质不明确的两组数据可先作散点图,直观地分析它们有无关系及关系的密切程度.解 (1)以x 轴表示温度,以y 轴表示热饮杯数,可作散点图,如图所示.(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间是负相关关系,即气温越高,卖出去的热饮杯数越少.从散点图可以看出,这些点大致分布在一条直线附近.变式迁移1 解 以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下图所示:由散点图可见,两者之间具有相关关系.例2 解题导引 根据题目给出的数据,利用公式求回归系数,然后获得回归方程. 解 制表如下:于是有b ^=90-5×42=10=1.23; a ^=y -b ^x =5-1.23×4=0.08.∴回归直线方程为y ^=1.23x +0.08.变式迁移2 解 x =1+2+3+44=52,y =12+32+2+34=74,∑ni=1x 2i =12+22+32+42=30, ∑n i =1x i y i =1×12+2×32+3×2+4×3=432, ∴b ^ =∑n i =1x i y i -n x y ∑ni =1x 2i -n x 2=432-4×52×7430-4×254=0.8, a ^ =y -b ^x =74-0.8×52=-0.25,∴y ^=0.8x -0.25.例3 解题导引 利用描点法得到散点图,按求回归方程的步骤和公式,写出回归方程,最后对总体进行估计.利用回归方程可以进行预测,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量值的基础和依据,有广泛的应用.解 (1)散点图:(2)x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5, ∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86, ∴b ^=∑4i =1x i y i -4x y∑4i =1x 2i-4x2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35. ∴所求的回归方程为y ^=0.7x +0.35. (3)现在生产100吨甲产品用煤y ^=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨标准煤). 变式迁移3 68解析 x =10,y =40,回归方程过点(x ,y ),∴40=-2×10+a ^.∴a ^=60.∴y ^=-2x +60.令x =-4,y ^=(-2)×(-4)+60=68. 课后练习区1.D [根据线性回归的含义、方法、作用分析这三个命题都是正确的.] 2.C [设(x 1,y 1),(x 2,y 2)在直线上,若x 2=x 1+1,则y 2-y 1=(2-1.5x 2)-(2-1.5x 1)=1.5(x 1-x 2)=-1.5,y 平均减少1.5个单位.]3.D [因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以A 、B 错误.C 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以C 错误.根据线性回归方程一定经过样本中心点可知D 正确.所以选D .]4.B [∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).]5.A [回归直线方程为y ^=b ^x +a ^.而a ^=y -b ^x ,即a ^=t -b ^s ,t =b ^s +a ^.∴(s,t)在回归直线上. ∴直线l 1和l 2一定有公共点(s ,t).] 6.①②解析 ①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性,是相关关系.②教师的执教水平与学生的学习成绩之间的关系是相关关系.③④都不具备相关关系.7.y ^=0.73x -0.875解析 a ^=y -b ^x =8.25-0.73×12.5=-0.875. 8.0.880 9解析 x =30,y =93.6,∑5i =1x 2i=7 900,∑5i =1x i y i =17 035, ∴回归直线的斜率为 b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x 2=17 035-5×30×93.67 900-4 500≈0.880 9.9.解(1)散点图如图所示.(4分)(2)由表中数据得∑4i =1x i y i =52.5, x =3.5,y =3.5,∑4i =1x 2i =54, ∴b ^=0.7.∴a ^=y -b ^x =1.05.∴y ^=0.7x +1.05.回归直线如图中所示.(10分) (3)将x =10代入回归直线方程, 得y =0.7×10+1.05=8.05(小时),∴预测加工10个零件需要8.05小时.(12分)10.解 (1)根据表中所列数据可得散点图如图所示:(4分)(2)计算得:x =255=5,y =2505=50, ∑5i =1x 2i=145,∑5i =1x i y i =1 380. 于是可得b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x 2=1 380-5×5×50145-5×52=6.5, a ^=y -b ^x =50-6.5×5=17.5,因此,所求回归直线方程是y ^=6.5x +17.5.(10分)(3)由上面求得的回归直线方程可知,当宣传费支出为10万元时,y ^=6.5×10+17.5=82.5(万元),即这种产品的销售大约为82.5万元.(12分)11.解 (1)n =6,∑6i =1x i =21,∑6i =1y i =426,x =3.5,y =71, ∑6i =1x 2i=79,∑6i =1x i y i =1 481, b ^=∑6i =1x i y i -6x y∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82. (3分)a ^=y -b ^x =71+1.82×3.5=77.37.(5分)∴回归方程为y ^=a ^+b ^x =77.37-1.82x.(6分)(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(10分)(3)当产量为6 000件时,即x =6,代入回归方程:y ^=77.37-1.82×6=66.45(元).∴当产量为6 000件时,单位成本为66.45元.(14分)。
2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析
2. 已知变量 和 满足关系式 ,变量 与 正相关,则下列结论中正确的是( )
A. 与 正相关, 与 负相关 B. 与 正相关, 与 正相关C. 与 负相关, 与 负相关 D. 与 负相关, 与 正相关
C
3. 变量 与 相对应的一组数据为 , , , , ;变量 与 相对应的一组数据为 , , , , 表示变量 与 之间的线性相关系数, 表示变量 与 之间的线性相关系数,则( )
1
2
3
4
5
32.0
31.0
33.0
36.0
37.0
25.0
30.0
34.0
37.0
39.0
6
7
8
9
10
38.0
39.0
43.0
45.0
41.0
42.0
44.0
48.0
(1) 求第10年该城市的居民年收入 ;
[解析] 因为 ,所以 ,解得 .
(2) 若该城市的居民年收入 与该种商品的销售额 之间满足经验回归方程 .
3. (新教材改编题)如图所示的散点图中,两个变量的相关关系为正相关的是________.
图(4)
[解析] 只有题图(4)中随着 的增大, 值也呈现增加的趋势,故题图(4)中变量关系为正相关.
A. B. C. D.
C
4. 一位同学分别对甲、乙、丙、丁四组变量进行线性相关试验,并分别计算出决定系数 ,则线性相关程度最高的一组变量是( )
甲
乙
丙
丁
0.87
0.91
0.58
0.83
A. 甲 B. 乙 C. 丙 D. 丁
B
[解析] 越大,两个变量的线性相关程度越高. ,则线性相关程度最高的是乙,故选B.
统考版2022届高考数学一轮复习课后限时集训62变量间的相关关系统计案例理含解析北师大版
课后限时集训(六十二)变量间的相关关系、统计案例建议用时:40分钟一、选择题1.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y^=b^1x+a^1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y^=b^2x+a^2,相关系数为r2.则( )A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0D[根据相关变量x,y的散点图知,变量x,y具有负线性相关关系,且点(10,21)是离群值.方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r2<r1<0.故选D.]2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln xD[根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]3.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y^=b^x+a^.已知∑10i=1x i=225,∑10i=1y i=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( )A.160 cm B.163 cm C.166 cm D.170 cmC[∵∑10i=1x i=225,∴x=110∑10i=1x i=22.5.∵∑10 i=1y i=1 600,∴y=110∑10i=1y i=160.又b^=4,∴a^=y-b^x=160-4×22.5=70.∴回归直线方程为y^=4x+70.将x=24代入上式得y^=4×24+70=166.故选C.]4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的( )A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理D[由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.]5.某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(χ2≥6.635)≈0.01,则下列说法正确的是( )A.这种疫苗能起到预防甲型H1N1流感的有效率为1%B.若某人未使用疫苗,则他在半年中有99%的可能性得甲型H1N1流感C.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”C[因为P(χ2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”,故选C.]二、填空题6.对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8),其线性回归方程是y^=13x+a^,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a^的值为________.1 8[依题意可知样本点的中心为⎝⎛⎭⎪⎫34,38,则38=13×34+a^,解得a^=18.]7.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:则丁[r越大,m越小,线性相关性越强.]8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.①[χ2≈3.918>3.841,而P(χ2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.]三、解答题9.某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.P (χ2≥k ) 0.100 0.050 0.025 0.010 k2.7063.8415.0246.635注:χ2=n ad -bc2a +bc +da +cb +d,n =a +b +c +d .[解] (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得χ2的观测值为k =80×30×20-20×10230+20×10+20×30+10×20+20≈5.333>5.024. 又P (χ2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”. 10.调查某公司的五名推销员,其工作年限与年推销金额如下表:推销员 ABCDE工作年限x (年) 2 3 5 7 8 年推销金额y (万元)33.546.58(1)金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额. 附:b ^=∑ni =1x i -x y i -y ∑ni =1x i -x 2,a ^=y -b ^x .[解] (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此,工作年限与年推销金额正相关,即工作年限越长,年推销金额越大.(2)由表中数据可得:x =15×(2+3+5+7+8)=5,y =15×(3+3.5+4+6.5+8)=5,b ^=∑ni =1 x i -x y i -y ∑ni =1 x i -x 2=-3×-2+-2×-1.5+0+2×1.5+3×39+4+0+4+9=2126,a ^=y -b ^x =5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为 y ^=2126x +2526.(3)当x =10时,y ^ =2126×10+2526=23526,∴预测工作年限为10年的推销员的年推销金额为23526万元.1.已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误的是( )x 6 8 10 12 y6m32A .变量xB .可以预测,当x =20时,y ^=-3.7 C .m =4D .该回归直线必过点(9,4)C [由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x =14×(6+8+10+12)=9,y =(6+m+3+2)=11+m 4,则11+m4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y =6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C.] 2.在对具有线性相关的两个变量x 和y 进行统计分析时,得到如下数据:x 4 m 8 10 12由表中数据求得y 关于x 的回归方程为y =0.65x -1.8,则(4,1),(m,2),(8,3)这三个样本点中落在回归直线下方的有( )A .1个B .2个C .3个D .0个B [由表中数据,得x =15×(4+m +8+10+12)=34+m 5,y =15×(1+2+3+5+6)=3.4,代入回归方程y ^=0.65x -1.8中, 得3.4=0.65×34+m5-1.8,计算得出m =6.所以x =4时,y ^=0.65×4-1.8=0.8<1,点(4,1)在回归直线y ^=0.65x -1.8上方;x =6时,y ^=0.65×6-1.8=2.1>2,点(6,2)在回归直线y ^=0.65x -1.8下方;x =8时,y ^=0.65×8-1.8=3.4>3,点(8,3)在回归直线y ^=0.65x -1.8下方.综上,(4,1),(6,2),(8,3)这三个样本点中落在回归直线下方的有2个.故选B.] 3.针对时下的“游戏热”,某校团委对“学生性别和喜欢打游戏是否有关”作了一次调查,其中女生人数是男生人数的13,女生喜欢打游戏的人数占女生人数的16,男生喜欢打游戏的人数占男生人数的23.若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有________人.则k ≥3.841,即k =4x 3⎝ ⎛⎭⎪⎫x 18·x 3-5x 18·2x 32x ·x 3·13x 18·11x 18=36x143≥3.841,解得x ≥15.257.因为各部分人数均为整数,所以x 是18的倍数,所以若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有18人.]4.手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性、300名男性)进行调查,对手机进行评分,评分的频数分布表如下:值,给出结论即可);(2)把评分不低于70分的用户称为“评分良好用户”,能否有90%的把握认为是否是评分良好用户与性别有关?参考公式及数据:χ2=n ad -bc2a +bc +da +cb +d,其中n =a +b +c +d . P (χ2≥k ) 0.10 0.05 0.01 0.001 k2.7063.8416.63510.828[解] (1)女性用户和男性用户的频率分布直方图分别如下图所示:女性用户 男性用户由图可得女性用户的波动小,男性用户的波动大. (2)由题可得2×2列联表如下:女性用户 男性用户 合计 评分良好用户 140 180 320 不是评分良好用户60 120 180 合计200300500则χ2=500×140×120-180×602200×300×320×180≈5.208>2.706,所以有90%的把握认为是否是评分良好用户与性别有关.某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x (单位:亿元)对年销售额y (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i和年销售额y i的数据,i=1,2, (12)并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.令u i=x2i,v i=ln y i(i=1,2,…,12),经计算得如下数据:x y∑12i=1(x i-x)2∑12i=1(y i-y)2u v2066770200460 4.20∑12 i=1(u i-u)2∑12i=1(u i-u)·(y i-y)∑12i=1(v i-v)2∑12i=1(x i-x)·(v i-v)3 125 00021 5000.30814(1)设{u i}和{y i}的相关系数为r1,{x i}和{v i}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)(ⅰ)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);(ⅱ)若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元.附:①相关系数r=∑i=1nx i-x-y i-y-∑i=1nx i-x-2∑i=1ny i-y-2,回归直线y^=a^+b^x中斜率和截距的最小二乘估计公式分别为:b^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,a ^=y --b ^x -;②参考数据:308=4×77,90≈9.486 8,e 4.499 8≈90. [解] (1)由题意,r 1=∑12i =1u i -u -y i -y-∑12i =1u i -u -2∑i =112y i -y-2=21 5003 125 000×200=21 50025 000=4350=0.86,r 2=∑i =112x i -x-v i -v-∑i =112x i -x-2∑i =112v i -v-2=14770×0.308=1477×0.2=1011≈0.91, 则|r 1|<|r 2|,因此从相关系数的角度,模型y =e λx +t 的拟合程度更好. (2)(ⅰ)先建立v 关于x 的线性回归方程, 由y =e λx +t ,得ln y =t +λx ,即v =t +λx ,由于λ=∑i =112x i -x-v i -v-∑i =112x i -x-2=14770≈0.018≈0.02, t =v --λx -=4.20-0.018×20=3.84,所以v 关于x 的线性回归方程为v ^=0.02x +3.84,所以ln y ^=0.02x +3.84,则y ^=e 0.02x +3.84. (ⅱ)下一年销售额y 需达到90亿元,即y =90, 代入y ^=e 0.02x +3.84,得90=e 0.02x +3.84, 又e 4.499 8≈90,所以4.499 8≈0.02x +3.84, 所以x ≈4.499 8-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.。
2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例
第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。
北师大版 变量之间的相关关系优秀课件1
名次 1 13 28 3 9 2 19 20 4 16
数学
物理
成绩 76 74 73 73 72 71 70 67 66 62 60 55
名次 31 32 33 34 35 36 37 38 39 40 41 42
成绩 24 24 48 31 41 58 71 33 54 50 31 41
名次 41 42 24 38 30 14 7 37 18 21 39 31
变量之间的两种关系对比:
区别 联系 例子
函数关系
确定性-可 研究两变量 匀速运动中 以精确表示 之间的关系 时间与路程 的关系 非确定性- 研究两变量 物理与数学 带有随机性 之间的关系 成绩
相关关系
问题4:
相关关系的例子在现实生活中非常广泛, 你能举出几个吗?
人的身高和年龄是一对相关关系。 期中考试数学成绩与复习时间的投入量的关系。
变量之间的相关关系
问题1:
我们常说:“如果你的数学成绩好, 那么你的物理成绩也不会差。”这种 说法有没有根据,你对这话认可吗?
数学
物理
成绩 100 98 97 96 94 92 91 91 90 90
名次 1 2 3 4 5 6 7 8 9 10
成绩 91 58 43 83 68 84 51 50 83 56
学习时间
其它因素
相关关系是一种非确定性关系
问题3:
两个变量之间除了相关关系之外, 还有函数关系,例如在匀速直线运 动中时间与路程这两个变量的关 系。这两种关系有什么异同?
在匀速直线运动中时间与路程这两个 变量是一种函数关系,他们之间是完 全确定的。数学和物理成绩这两个变 量之间的关系是不确定的,带有随机 性。
1.如果所有的样本点都落在某一函数曲线上,这两个变量有 什么关系? ——具有函数关系. 2.如果所有的样本点都落在某一函数曲线附近,那么这两个 变量之间有关系吗?关系确定吗?是什么关系? ——有关系,不确定,有相关关系。 3. 如果所有的样本点都落在某一直线附近,变量之间就有线 性相关关系 4.如果散点图的点几乎没有什么规则,则这两个变量之间 关系又如何? ——没有相关关系
高考数学一轮复习第九章概率统计与统计案例第七节变量间的相关关系与统计案例课件文北师大版
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 v=α+βu 的斜率 和截距的最小二乘估计分别为
n
-
-
∑ (ui-u)(vi-v)
-
-
β=i=1 n
-
,α=v-βu.
∑ (ui-u)2
i=1
[解析] (1)由散点图可以判断,y=c+d x适宜作为年销售量 y 关于年宣传费 x 的回
1.两种关系——函数关系与相关关系 (1)区别 ①函数关系是一种确定性关系,相关关系是一种非确定性关系. ②函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系. (2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的 取值进行估计.
2.回归直线方程的两个关注点
i=1
i=1
①当 r>0 时,表明两个变量__________;
②当 r<0 时,表明两个变量__________;
③r 的绝对值越接近 1,表明两个变量的线性相关性_____;r 的绝对值越接近于 0,
表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75 时,认为两个变量有很
强的线性相关关系.
4.独立性检验 利用独立性假设、随机变量 χ2 来确定是否有一定把握认为“两个分类变量有关系” 的方法称为两个分类变量的独立性检验. 两个分类变量 X 和 Y 是否有关系的判断标准: 统计学研究表明: 当 χ2≤2.706 时,认为没有充分证据显示 X 与 Y 有关系; 当 χ2>3.841 时,有 95%的把握说 X 与 Y 有关; 当 χ2>6.635 时,有 99%的把握说 X 与 Y 有关; 当 χ2>10.828 时,有 99.9%的把握说 X 与 Y 有关.
北师大版 变量之间的相关关系优秀课件
(1)将上表中的数据制成散点图. (2)你能从散点图中发现温度与饮料杯数近似成什么关系吗? (3)如果近似成线性关系的话,请填写下表,并按照课本计算器求回归 直线方程的步骤求出回归直线方程,近似地表示这种线性关系. (4)如果某天的气温是-5℃时,预测这天小卖部卖出热茶的杯数.根据表 中数据,完成下表: i xi yi xiyi
A方案
回归直线为:y=0.6541x-4.5659
年 23 39 45 50 54 57 60 龄 脂 9 21 27 28 30 30 35 B方案 y=0.4767x+4.9476 肪 .回归直线为: . . . . . . 5 27 2 5 41 2 49 2 8 532 56 58 61 年龄 脂肪 17.8 25.9 26.3 29.6 31.4 33.5 34.6
9.5
21 28 28 31 35
这条直线就叫回归直线方程 54 30
ˆ ˆ y y y y 1 1 7 7 取最小值
已知样本点(xi,yi)(i=1,2,…,n)满足线性相关关系
设回归直线方程为 :
ˆ bx y a
你能用代数式来刻画“从整体上看,各点与此直线 的偏差最小”吗?
变量之间的相关关系
上一节课我们通过选择两点,得到描述下面两个变量 相关关系的直线方程
年龄 脂肪 23 9.5 39 21.2 45 27.5 50 28.2 54 30.2 57 30.8 60 35.2
40
脂肪含量
30 20 10 0 0 10 20 30 年龄 40 50 60 70
40
脂肪含量
56
58
高考数学一轮复习第九章 第七节变量间的相关关系与统计案例课时规范练文含解析北师大版
第九章概率、统计与统计案例第七节变量间的相关关系与统计案例课时规范练A组——基础对点练1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),可得散点图如图①,对变量u,v有观测数据(u i,v i)(i=1,2,…,10),可得散点图如图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.答案:C2.下面四个命题中,错误的是() A.从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B.对分类变量X与Y的随机变量χ2来说,χ2越大,“X与Y有关系”的把握程度越大C.两个随机变量相关性越强,则相关系数的绝对值越接近于0D.在回归直线方程y=0.4x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.4个单位解析:两个随机变量相关性越强,则相关系数的绝对值越接近于1,故C错误.故选C.答案:C3.(2020·新乡模拟)下列四个选项中,关于两个变量所具有的相关关系描述正确的是()A.圆的面积与半径具有相关性B.纯净度与净化次数不具有相关性C.作物的产量与人的耕耘是负相关D.学习成绩与学习效率是正相关解析:对于A,圆的面积与半径是确定的关系,是函数关系,不是相关关系,A错误;对于B,一般地,净化次数越多,纯净度就越高,所以纯净度与净化次数是正相关关系,B错误;对于C,一般地,作物的产量与人的耕耘是一种正相关关系,所以C错误;对于D ,学习成绩与学习效率是一种正相关关系,所以D 正确.答案:D4.(2020·邯郸模拟)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有效果的图形是 ( )解析:选项D 中不服药样本中患病的频率与服药样本中患病的频率差距最大.答案:D5.已知变量x ,y 之间具有线性相关关系,其回归方程为y =-3+bx ,若∑10i =1x i =17,∑10i =1y i =4,则b 的值为 ( )A .2B .1C .-2D .-1解析:依题意知,x -=1710=1.7,y -=410=0.4,而直线y =-3+bx 一定经过点(x -,y -),则-3+b ×1.7=0.4,解得b =2.答案:A6.(2020·重庆模拟)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线L .根据图中数据,下列对该样本描述错误的是( )A .据样本数据估计,该地区青少年身高与年龄成正相关B .所抽取数据中,5 000名青少年平均身高约为145 cmC .直线L 的斜率的值近似等于样本中青少年平均身高每年的增量D .从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线L 上解析:由图知该地区青少年身高与年龄成正相关,A 选项描述正确;由图中数据得5 000名青少年平均身高为1 000×(108+128.5+147.6+164.5+176.4)5 000=145 cm ,B 选项描述正确;由回归直线L 的斜率定义知C 选项描述正确;对于D 选项中5种年龄段各取一人的身高数据不一定能代表所有的平均身高,所以D 选项描述不正确.答案:D7.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y =2.347x -6.423;②y 与x 负相关且y =-3.476x +5.648;③y 与x 正相关且y =5.437x +8.493;④y 与x 正相关且y =-4.326x -4.578.其中一定不正确的结论的序号是 ( )A .①②B .②③C .③④D .①④解析:y =bx +a ,当b >0时,为正相关,b <0时,为负相关,故①④错误.答案:D8得到的回归方程为y 个单位时,y ( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,y -=a +b -25=0.9,故a +b =6.5①;又样本点的中心为(5,0.9),故0.9=5b +a ②,联立①②,解得b =-1.4,a =7.9,即y =-1.4x +7.9,可知当x 每增加1个单位时,y 减少1.4个单位,故选B.答案:B9.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y =0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y =0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.24510.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的2×2由2×2附:χ2=n (ad -bc )2解析:由表中的数据可得χ2=105×(10×30-45×20)255×50×30×75≈6.109,由于6.109>5.024,所以我们有97.5%以上的把握认为“文化程度与月收入有关系”.答案:97.5%B 组——素养提升练11.某炼钢厂废品率x (%)与成本y (元/吨)的线性回归方程为y =105.492+42.569x .当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).解析:因为176.5=105.492+42.569x ,解得x ≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.答案:16.6812.(2020·岳阳模拟)某考察团对全国10个城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程y =0.66x +1.562.若某城市居民人均消费水平为7.675(千元),估计该城市人均消费占人均工资收入的百分比约为________.解析:由y =0.66x +1.562知,当y =7.675时,x =6 113660,故所求百分比为7.675x =7.675×6606 113≈83%.答案:83%13.(2020·运城模拟)某科考试题中有甲、乙两道不同类型的选做题,且每道题满分为10分,每位考生需从中任选一题作答.(1)A 同学将自己在该考试中历次的选题及得分情况统计如下,选甲题8次,得分分别为:6,10,10,6,6,10,6,10选乙题10次,得分分别为:5,10,9,8,9,8,10,8,5,8某次考试中,A 同学的剩余时间仅够阅读并解答出甲、乙两题中的某一道题,他应该选择甲题还是乙题?(2)某次考试中,某班40名同学中选择甲、乙两题的人数相等,在16名该选做题获得满分的同学中有10人选的是甲题,求能否在犯错误的概率不超过1%的情况下,判断该选做题得满分与选题有关?参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )参考数据:解析:(1)计算甲、乙两题得分的平均数分别为x -甲=18×(6+10+10+6+6+10+6+10)=8, x -乙=110×(5+10+9+8+9+8+10+8+5+8)=8. 甲、乙两题得分的方差为s 2甲=18×[(6-8)2+…+(10-8)2]=4, s 2乙=110×[(5-8)2+…+(8-8)2]=2.8, 因此选择乙题更加稳妥.(2)根据题意,填写2×2列联表如下:因此χ2=40×(10×14-10×6)216×24×20×20=53≈1.667<6.635, 则不能在犯错误的概率不超过1%的情况下,判断该选做题得满分与选题有关.14.(2020·合肥模拟)某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)(1)(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精确到月).附:b =∑n i =1x i y i -nx -y -∑n i =1x 2i -nx -2,a =y --bx -. 解析:(1)由题意知x -=3,y -=0.1,∑5i =1x i y i =1.92,∑5i =1x 2i =55,所以b =∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=1.92-5×3×0.155-5×32=0.042,a =y --bx -=0.1-0.042×3=-0.026, 所以线性回归方程为y =0.042x -0.026. (2)由(1)中的回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率约增加0.042个百分点.由y =0.042x -0.026>0.5,解得x ≥13,故预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.。
北师大版变量之间的关系
1. 柿子熟了,从树上落下来.下面的那一幅图可以大致刻 画出柿子下落过程中(即落地前)的速度的变化情况?
速度
速度
0
速度
时间
A
0
时间
B
速度
0 C 时间
0
时间
D
2. 一辆公共汽车从车站开出,加速行驶一段后开 始匀速行驶.过了一段时间,汽车到达下一个车 站.乘客上下车后汽车开始加速,一段时间后又开 始匀速行驶.下面的哪一幅图可以近似地刻画出 汽车在这段时间内的变化情况?
(3)出发后8分到10分之间可能发生什么样的情况?
(4)用自己的语言大致描述这辆汽车的行驶情况。
交流讨论
图象中上升、下降、 水平部分是什么含义?
判断速度随时间的变化情况
1、怎样看图:从左往右若图象上升,表明 速度在增大;若图象下降,表明速度减小; 若图象与横轴平行;则表明速度保持不变。
2、图象所表示的变量间的关系直观形象, 而图象包含着丰富的信息资源。
水深/米
8
(1)大约什么时刻港口的水最深?
7
A
约是多少?
6 5
(2)A点表示什么?
4
(3)说说这个港口从0时到6时的
3
水位是怎样变化的?
2
1
0123 4 56
时间/时
每辆汽车上都有一个时速表用来指示汽车当 前的速度,你见过这个时速表吗?
每辆汽车上都有一个时速表用来指示汽车当 前的速度,你见过这个时速表吗?
示的理解。
2.不仅读懂了文字语言,而且还要读懂图形 语言。例如:在速度随时间变化的图象中 “水平线”表示什么?“上升线”又表示什 么? 3.弄清楚自变量、应变量及它们之间的关系。
随测 结束
变量之间的相关关系 北师大版精品课件
每个人都有自己的精神家园,而对于记忆中的几户人家,我更有着刻骨铭心的情感。 上个世纪六七十年代,在陕西的某城市的郊区一个大院子里住了四家人。一家人姓赵四十岁左右,是一个食堂的采购员;姓李的一家人是个老离休干部,也是一个军人。曾经在解放战争时期受过伤,当时他的腿上留有敌人手榴弹炸的弹片在里头呢;东面的一家姓石,是一个搞电子的工程师;西面一家姓吴,老吴是一个中学教师。 老李一般在家休息,负伤的地方经常疼痛难忍。家里有老婆姓元,大儿子当时工作了,还有两个孩子在读书。老石呢,由于是个工程师专门修理无线电的,厂里人的电器坏了一般都让老石修理,所以一下班吃完饭他就忙着给别人修理电器。老赵由于是个采购员,一天就是给食堂买粮食和各种蔬菜。老吴是个教师一般都是上课,但是还有两个寒暑假期。老吴的家里人口最多,五个儿子一个女儿,加上老两口,一共八口人。
B方案 回归直线为:y=0.4767x+4.9476
年龄 27 41 49 53 56 58 61
脂肪 17.8 25.9 26.3 29.6 31.4 33.5 34.6
统考版2022届高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例教师用书教案北师大
变量间的相关关系、统计案例[考试要求]1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.(2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.最小二乘估计(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n)可以用下面的表达式来刻画这些点与直线y =a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a+bx n)]2.使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心.(3)相关系数r①r =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2∑i =1ny 2i -n y2;②当r >0时,称两个变量正相关. 当r <0时,称两个变量负相关. 当r =0时,称两个变量线性不相关. 4.独立性检验 若一个2×2列联表为:BAB 1 B 2 总计 A 1 a b a +b A 2 c d c +d 总计a +cb +dn =a +b +c +d则统计量χ2为: χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(1)当χ2≤2.706时,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. [常用结论](1)回归直线必过样本点的中心(x ,y ).(2)当两个变量的相关系数|r |=1时,两个变量呈函数关系.一、易错易误辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,则由观测数据计算得到的χ2的观测值越大.( ) [答案](1)√ (2)√ (3)× (4)√ 二、教材习题衍生 1.下面是2×2列联表:则表中a ,b A .94,72 B .52,50 C .52,74D .74,52 C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]2.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如表:则y 对x A .yx -0.7 B .yx C .yx -2.3D .yxC [因为i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64b =158-4×9×436+64+100+144-4×81=0.7,a ×yx -2.3.故选C.] 3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (χ2≥根据表中数据,得到χ2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.5% [χ2≈4.844,这表明小概率事件发生.根据独立性检验,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y (杯)与当天最高气温x (℃)的有关数据,通过描绘散点图,发现y 和x 呈线性相关关系,并求得其回归方程y ^=2x 34 ℃,则可以预测该天这种饮料的销售量为__________杯.128 [由题意x =34时,该小卖部大约能卖出冷饮的杯数y ^=2×34+60=128杯.]考点一 相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 1.观察下列各图形,①②③④其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④ D .②③C [由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.]2.已知变量x 和y 近似满足关系式yx +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关C [由y =-x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.]3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )相关系数为r 1 相关系数为r 2相关系数为r 3 相关系数为r 4A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由相关系数的定义以及散点图可知r 2<r 4<0<r 3<r 1.]4.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数为r 1,用y ^=b ^x +a ^拟合时的相关系数为r 2,则|r 1|>|r 2|;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则|r 1|>|r 2|,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]考点二 回归分析用最小二乘法求线性回归方程的步骤线性回归分析[典例1-1](2020·某某模拟)某地随着经济的发展,居民收入逐年增长,表1是该地一建设银行连续五年的储蓄存款(年底余额):年份x 2013 2014 2015 2016 2017 储蓄存款y (千亿元)56 7810为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1 235(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x ·y∑n i =1x 2i -n x 2,a ^=y -b ^x )[解](1)t =3,z =2.2,∑5i =1t i z i =45,∑5i =1t 2i =55, b ^=45-5×3×55-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,所以z ^t -1.4.(2)将t =x -2 012,z =y -5,代入z ^t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^x -2 410.8.(3)因为y ^×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.点评:在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x ,y )),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.利用回归直线方程求出的是估算值,非准确值.非线性回归方程[典例1-2] 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )(y i -y ) ∑8i =1(w i -w )· (y i -y )5631 469表中w i =x i ,w ]=18∑ i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为zy -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解](1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=i =18(w i -w )(y i -y )i =18(w i -w )2=,1.6)=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x x +20.12.所以当x =,2)=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.点评:对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.[跟进训练]1.(2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i=60,∑20i =1y i =1 200,∑20i =1 (x i -x -)2=80,∑20i =1 (y i -y -)2=9 000,∑20i =1(x i -x -)(y i-y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i,y i)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2,2≈1.414.[解](1)由已知得样本平均数y=120∑i=120y i=60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i,y i)(i=1,2,…,20)的相关系数r=i=120(x i-x)(y i-y)i=120(x i-x)2i=120(y i-y)2=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.2.十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):(1)请根据散点图判断y ^=b ^x +a ^与y ^=c ^x 2+d ^中哪个更适宜作为新能源汽车年销量y 关于年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程,并预测2022年我国新能源汽车的年销量.(精确到0.1)c ^=i =1n (w i -w )(y i -y )i =1n (w i -w )2,d ^=y -c ^w .附:令w i =x 2i .y∑5i =1(x i -x )2∑5i =1(w i -w )2∑5i =1(x i -x )·(y i -y ) ∑5i =1(w i -w )·(y i -y )10374[解](1)根据散点图得,y ^=c ^x 2+d ^更适宜作为年销量y 关于年份代码x 的回归方程.(2)依题意得,w -=1+4+9+16+255=11,c ^=i =15(w i -w -)⎝⎛⎭⎫y i -y -i =15(w i -w -)2=,374)≈2.28,则d ^=y --c ^w -×11=-2.36, ∴y ^x 2-2.36.令x =10,则y ^×≈225.6,故预测2022年我国新能源汽车的年销量为225.6万辆.考点三 独立性检验(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大.2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算χ2的观测值k.(3)比较观测值k与临界值的大小关系,作统计推断.[典例2](2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),. [解](1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:(2)一天中到该公园锻炼的平均人次的估计值为1100(100×20+300×35+500×45)=350. (3)根据所给数据,可得2×2列联表:人次≤400人次>400空气质量好 33 37 空气质量不好228根据列联表得χ2=100×(33×8-22×37)255×45×70×30≈5.820.由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.点评:独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[跟进训练]1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )A BC DD [根据四个选项中的等高条形图可知,选项D 中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]2.(2020·新高考全国卷Ⅰ)2浓度(单位:μg/m 3),得下表:2 (2)根据所给数据,完成下面的2×2列联表:2附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),.[解](1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:(3)根据(2)的列联表得 χ2=100×(64×10-16×10)280×20×74×26≈7.484.2浓度有关.。
变量之间的相关关系1 北师大版精品课件
问题5:
某地区的环境适合天鹅繁衍,有人统 计发现一个有趣现象,如果村庄附近 的天鹅多,那么这个村庄婴儿出生率 也高,天鹅少的地方婴儿出生率低。 于是他得出一个结论:天鹅能带来孩 子。你认为这样的结论可靠吗?如何 证明这个结论得可靠性?
下面是7位同学的物理、数学成绩。 他们之间具有相关性吗?
学生 A B C D E F G 数学成绩 85 80 75 70 65 60 55 物理成绩 75 70 66 68 64 62 58
变量之间的相关关系
第一课时
问题1:
我们常说:“如果你的数学成绩好, 那么你的物理成绩也不会差。”这种 说法有没有根据,你对这话认可吗?
数学
成绩
名次
100
1
98
2
97
3
96
4
94
5
92
6
91
7
91
8
90
9
90
10
物理
成绩
名次
91
1
58
13
43
28
83
3
68
9
84
2
51
19
50
20
83
4
56
16
成绩 76 74 73 73 72 71 70 67 66 62 60 55
检测1
“名师出高徒”可以解释为教师的水 平
越高,学生的水平也越高。教师的水 平与学生的水平有什么关系?并分析 原因。你还能举出一些具有相关关系 的成语吗?
检测 2
工厂为了规定工时定额,需要确定加工零件所花 费的时间,为此进行了10次调查,收集数据如下 零件数 10 20 30 40 50 60 70 80 90 100 加工时间62 68 75 81 89 95 102 108 115 122 (1)画出散点图。 (2)指出是正相关还是负相关。 (3)关于加工零件的个数与加工时间,你能得出
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七节 变量间的相关关系与统计案例授课提示:对应学生用书第189页[基础梳理]1.相关关系与回归方程(1)相关关系的分类 ①正相关:从散点图上看,点分布在从左下角到右上角的区域内; ②负相关:从散点图上看,点分布在从左上角到右下角的区域内. (2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫作回归直线. (3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫作最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y =bx +a ,则b =∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2=∑n i =1x i y i -nx - y -∑n i =1x 2i -nx -2,a=y --bx -.其中,b 是回归方程的斜率,a 是在y 轴上的截距.(4)样本相关系数r =∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑n i =1 (y i -y -)2,用它来衡量两个变量间的线性相关关系.①当r >0时,表明两个变量正相关;②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:y 1 y 2 总计x 1 a b a +bx 2 c d c +d总计 a +c b +d a +b +c +d(2)χ2统计量χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).1.两种关系——函数关系与相关关系(1)区别①函数关系是一种确定性关系,相关关系是一种非确定性关系.②函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系.(2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.2.回归直线方程的两个关注点(1)样本数据点不一定在回归直线上,回归直线必过(x -,y -)点.(2)在回归直线方程y =bx +a 中,b >0时,两个变量呈正相关关系;b <0时,两个变量呈负相关关系.3.回归分析的意义回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.在线性回归模型y =bx +a +e 中,因变量y 的值由自变量x 和随机误差e 共同确定,即自变量x 只能解释部分y 的变化,在统计中,我们把自变量x 称为解释变量,因变量y 称为预报变量.4.独立性检验利用独立性假设、随机变量χ2来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X 和Y 是否有关系的判断标准:统计学研究表明:当χ2≤2.706时,认为没有充分证据显示X 与Y 有关系;当χ2>3.841时,有95%的把握说X 与Y 有关;当χ2>6.635时,有99%的把握说X 与Y 有关;当χ2>10.828时,有99.9%的把握说X 与Y 有关.[四基自测]1.(基础点:回归分析的相关指数)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是 ( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25答案:A2.(基础点:回归直线方程的特征)某研究机构对高三学生的记忆力x 和判断力y则y 对x A .y =2.3x -0.7 B .y =2.3x +0.7C .y =0.7x -2.3D .y =0.7x +2.3答案:C3.(基础点:独立性检验)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50理科文科男1310女720已知P(χ2≥3.841)≈0.05,2据表中数据,得到χ2=50×(13×20-10×7)2≈4.844.23×27×20×30则认为选修文科与性别有关系出错的可能性为________.答案:5%4.(基础点:散点图与线性相关)为了研究某班学生的脚长x(cm)与身高y(cm)的关系,从该班中抽取10名学生,其脚长x和身高y的散点图如图所示,则y与x间________(有、没有)相关关系.答案:有授课提示:对应学生用书第190页考点一回归分析挖掘1相关关系的判断/ 互动探究[例1](1)(2020·镇江模拟)如图所示,有A,B,C,D,E 5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.[详细分析]由散点图知呈带状区域时有较强的线性相关关系,故去掉D组数据.[答案]D(2)下列两变量中不存在相关关系的是()①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A.①②⑤B.①③⑥C.④⑤⑥D.②⑥[详细分析]①人的身高与视力无任何关系,故①不存在相关关系;②曲线上的点与该点的坐标之间,存在一一对应的关系,故②不存在相关关系;③某农田的水稻产量与施肥量,两变量有关系,但不确定,故存在相关关系;④某同学考试成绩与复习时间的投入量,两变量有关系,但不确定,故存在相关关系;⑤匀速行驶的汽车的行驶距离与时间,它们之间的关系是函数关系,故不存在相关关系;⑥商品的销售额与广告费,两变量有关系,但不确定,故存在相关关系.[答案] A(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 [详细分析] 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.[答案] A[破题技法] 利用散点图判断两个变量是否有相关关系是比较简便的方法.(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.(2)如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(4)若呈圆形区域且分布较乱,则不具备相关性.挖掘2 求线性回归方程及应用/ 自主练透[例2] (1)(2020·河南濮阳一模)根据下表中的数据,得到的回归方程为y =bx +9,则b =( ) x 4 5 6 7 8y 5 4 3 2 1A.2 C .0 D .-1[详细分析] 由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3.∵回归方程为y =bx +9且回归直线过点(6,3),∴3=6b +9,解得b =-1,故选D.[答案] D(2)(2020·泰安模拟)某商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格: 人数x i 10 15 20 25 30 35 40件数y i 47 12 15 20 23 27 其中i =1,2,①以每天进店人数为横轴,每天商品销售件数为纵轴,画出散点图.②求回归直线方程.(结果保留到小数点后两位)(参考数据:∑7i =1x i y i =3 245,x -=25,y -=15.43,∑7i =1x 2i =5 075,7(x -)2=4 375,7x - y -=2700)③预测进店人数为80人时,商品销售的件数.(结果保留整数)[详细分析] ①散点图如图所示.②因为∑7i =1x i y i=3 245,x -=25,y -=15.43, ∑7i =1x 2i=5 075,7(x -)2=4 375,7x - y -=2 700. 所以b =∑7i =1x i y i -7x -y -∑7i =1x 2i -7(x -)2≈0.78, a =y --bx -=-4.07,所以回归直线方程是y =0.78x -4.07.③进店人数为80人时,商品销售的件数y =0.78×80-4.07≈58(件).[破题技法] 线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b .挖掘3 非线性回归分析/ 互动探究[例3] 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x -y - w -∑8i =1 (x i -x -)2 ∑8i =1 (w i -w -)2 ∑8i =1 (x i -x -)(y i -y -) ∑8i =1 (w i -w -)(y i -y -) 46.6 5636.8 289.8 1.6 1 469 108.8 表中w i =x i ,w =18∑i =1w i . (1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑n i =1 (u i -u -)(v i -v -)∑n i =1 (u i -u -)2,α=v --βu -.[详细分析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d =∑8i =1 (w i -w -)(y i -y -)∑8i =1 (w i -w -)2=108.81.6=68,c =y --d w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6,年利润z 的预报值z =576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.[破题技法] 非线性回归分析问题的处理方法(1)描点,选模:画出已知数据的散点图,把它与已经学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合最好的函数.(2)解模:先对变量进行适当地变换,再利用线性回归模型来解模.(3)比较检验:通过回归分析比较所建模型的优劣.考点二 独立性检验挖掘 判断两个分类变量的独立性/ 自主练透[例] (1)(2020·南昌模拟)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.附表:由χ2=n (a +b )(c +d )(a +c )(b +d )算得,χ2=45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”C .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”D .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关”[详细分析] 由题意x ≈9.616>6.635,所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.[答案] C(2)(2019·高考全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名②能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[详细分析] ①由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.②χ2=100×(40×20-30×10)250×50×70×30≈4.762. 由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.[破题技法] 1.独立性检验的原理独立性检验的基本思想类似于反证法,要确认“两个分类变量有关系”这一结论成立的可信度,首先假设该结论不成立.即假设结论“两个分类变量没有关系”成立.在该假设下构造的随机变量χ2应该很小.如果由观测数据计算得到的χ2的观测值k 很大,则在一定程度上说明不合理.2.独立性检验的两个关键(1)根据样本数据列出2×2列联表.(2)计算随机变量χ2.。