「精品」全国通用高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计案例课时分层训

合集下载

2022版高考数学一轮复习第九章算法初步统计统计案例第四讲变量间的相关关系统计案例学案含解析新人教版

2022版高考数学一轮复习第九章算法初步统计统计案例第四讲变量间的相关关系统计案例学案含解析新人教版

第四讲变量间的相关关系、统计案例知识梳理·双基自测知识梳理知识点一回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系__.(2)散点图:表示具有__相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量__正相关__;若这些散点有y随x增大而减小的趋势,则称两个变量__负相关__.(3)回归方程:y^=b^x+a^,其中b^=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2,a^=__y--b^x__,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2∑ni=1y2i-n y2它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性__越强__;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱__.知识点二独立性检验(1)2×2列联表设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性检验利用随机变量K2(也可表示为X2)=n ad-bc2n=a+b+c+d为样本容量)来判断“两个变a+b c+d a+c b+d(其中量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K2的观测值k,查表确定临界值k0:③如果k≥k0,就推断“X与Y有关系\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关\”.归纳拓展1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.双基自测题组一走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( ×)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y^=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( ×)(5)事件x,y关系越密切,则由观测数据计算得到的K2的观测值越大.( √)(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)题组二走进教材2.(P97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )A.回归分析B.均值与方差C.独立性检验D.概率[解析]“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.3.(P81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为__68__.[解析]由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.题组三走向高考4.(2017·某某高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知∑10i=1x i=225,∑10i=1y i=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( C )A .160B .163C .166D .170[解析]由题意知y ^=4x +a ^又x =22.5,y =160,因此160=22.5×4+a ^,∴a ^=70,因此y ^=4x +70,当x =24时,y ^=4×24+70=166,故选C .5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n ad -bc2a +bc +da +cb +d.P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828[解析](1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)由题可得K 2=100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.考点突破·互动探究考点一 相关关系的判断——自主练透例1 (1)(2021·某某资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3[解析](1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.名师点拨判断两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b^>0时,正相关;b^<0时负相关.考点二线性回归分析——师生共研例2 (1)(2021·湖湘名校教育联合体联考)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:价格x 99.51010.511销售量y 111086 5 按公式计算,y与x的回归直线方程是:y=-3.2x+a,相关系数|r|=0.986,则下列说的是( D )法不正确...A.变量x,y线性负相关且相关性较强B.a^=40C.当x=8.5时,y的估计值为12.8D.相应于点(10.5,6)的残差约为0.4(2)(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120xi =60,∑i =120y i =1 200,i =120(x i -x -)2=80,i =120(y i -y -)2=9 000,i =120(x i -x -)(y i -y -)=800.①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);②求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);③根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =i =1nx i -x-y i -y-i =1nx i -x-2i =1ny i -y-2,2≈1.414.[解析](1)对A ,由表可知y 随x 增大而减少,可认为变量x ,y 线性负相关,且相关性强,故A 正确.对B ,价格平均x -=15(9+9.5+10+10.5+11)=10,销售量y -=15(11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+a ^⇒a ^=40,故B 正确.对C ,当x =8.5时,y ^=-3.2×8.5+40=12.8,故C 正确.对D ,相应于点(10,8)的残差约为e ^=6-(-3.2×10.5+40)=-0.4,故D 不正确.故选D .(2)①样区野生动物平均数为 120∑i =120y i =120×1 200=60,地块数为200,该地区这种野生动物的估计值为200×60=12 000. ②样本(x i ,y i )的相关系数为r=i=120x i-x-y i-y-i=120x i-x-2i=120y i-y-2=80080×9 000=223≈0.94.③由于各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样,先将植物覆盖面积按优中差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样方法抽取样本即可.名师点拨线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b^,a^.②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^.〔变式训练1〕(2021·某某六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:销售额x/千万元35679利润额y/百万元1334 5(1)画出散点图,观察散点图,说明两个变量有怎样的相关关系;(2)求出利润额y关于销售额x的回归直线方程;(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2=i=1n x i-x-y i-y-i=1n x i-x-2,a^=y--b x-.[解析](1)散点图如图所示:两个变量正相关,且具有线性相关关系.(2)易求x-=6,y-=3.2,由公式有b^=3×2.2+1×0.2+0+1×0.8+3×1.832+12+12+32=1320=0.65,且a^=3.2-0.65×6=-0.7,则线性回归方程为y^=0.65x-0.7,(3)当x=4时,由(1)可求得y^=1.9,即利润额约为1.9百万元.考点三,独立性检验——师生共研例3 (1)(2020·新高考Ⅰ,19)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2PM2.5[0,50](50,150](150,475][0,35]3218 4(35,75]6812(75,115]3710①估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;②根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115]③根据②中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828某校推迟2020年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的100名学生(男生与女生的人数之比为3∶2)对线上课程进行评价打分,若评分不低于80分视为满意,其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于70分的频率为0.85.①估计100名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)②结合频率分布直方图,请完成以下2×2列联表,并回答能否有99%的把握认为对“线上教学是否满意与性别有关”;态度性别满意 不满意 合计男生 女生 10合计100K 2=n ad -bc2a +bc +d a +cb +d,其中P (K 2=k 0)0.10 0.05 0.025 0.010 0.005 k 02.7063.8415.0246.6357.879n =a +b +c +d .[解析](1)①根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.②根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] 64 16 (75,115]1010K 2=100×64×10-16×10280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.(2)①由已知得(0.015+b +0.03)×10=0.85, 解得b =0.04,又(0.005+a )×10=1-0.85,解得a =0.01, 评分的平均值为55×0.05+65×0.1+75×0.3+85×0.4+95×0.15=80. ②完成2×2列联表如下表:态度性别满意 不满意 合计男生 25 35 60 女生 30 10 40 合计5545100K 2=100×10×25-35×3055×45×60×40≈10.774>6.635,∴有99%的把握认为对“线上教学是否满意与性别有关”.名师点拨解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体.②明确研究的两个问题. (2)两个关键:①准确列出2×2列联表:②准确理解K 2.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k 值与求得的K 2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p ,所以其有关联的可能性为1-p .〔变式训练2〕(2021·某某某某、崇左质检)某出租汽车公司决定更换一批新的小汽车以代替原来的报废的出租车,现有A,B两款车型,根据以往这两种出租车车型的数据,得到两款出租车型使用寿命频数表如下:使用寿命年数4年5年6年7年总计A型出租车(辆)10204525100B型出租车(辆)153********(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命年数与汽车车型有关?使用寿命不高于5年使用寿命不低于6年总计A型B型总计(2)司机师傅小李准备在一辆开了3年的A型车和一辆开了3年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择.参加公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.参考数据:P(K2≥k0)0.050.0100.001k0 3.841 6.63510.828[解析](1)根据题目所给数据得到如下2×2的列联考:使用寿命不高于5年使用寿命不低于6年总计A型3070100B型5050100总计80 120 200由列联表可知:K 2=200×30×50-70×502100×100×80×120≈8.33>6.635,所以有99%的把握认为出租车的使用寿命年数与汽车车型有关;(2)记事件A 1,A 2分别表示小李选择A 型出租车和B 型出租车时,3年内(含3年)换车, 由表知P (A 1)=10+20+45100=0.75,P (A 2)=15+35+40100=0.9,因为P (A 1)<P (A 2),所以小李应选择A 型出租车.名师讲坛·素养提升非线性回归问题例4 (2020·某某乌兰察布等五市调研)一个调查学生记忆的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t (分钟)和答对人数y 的统计表格如下: 时间t (分钟) 10 20 30 40 50 60 70 80 90 100 答对人数y 98 70 52 36 30 20 15 11 5 5 lg y1.991.851.721.561.481.301.181.040.70.7附:∑n =110t 2i =38 500,∑n =110y i =342,∑n =110lg y i =13.5,∑n =110t i y i =10 960,∑n =110t i lg y i =620.9,对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑i =1nu i v i -n u -v -∑i =1n u 2i -n u -2,α^=v --β^u -.请根据表格数据回答下列问题:(1)根据散点图判断,y =at +b 与lg y =ct +d ,哪个更适宜作为线性回归类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立y 与t 的回归方程;(数据保留3位有效数字)(3)根据(2)请估算要想记住75%的内容,至多间隔多少分钟重新记忆一遍.(参考数据:lg 2≈0.3,lg 3≈0.48)[解析](1)由图象可知,lg y =ct +d 更适宜作为线性回归类型; (2)设lg y =ct +d ,根据最小二乘法得c =∑i =110t i lg y i -10t -lg y ∑i =110t 2i -10t -2=620.9-10×55×1.3538 500-10×552≈-0.014 7,d =lg y -c t -≈2.16,所以lg y =-0.014 7t +2.16, 因此y =10-0.014 7t +2.16;(3)由题意知y =10-0.014 7t +2.16≥75,即-0.014 7t+2.16≥2+lg 3-2lg 2≈1.88,解得t≤19.05,即至多19.05分钟,就需要重新复习一遍.名师点拨非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决.〔变式训练3〕(2020.课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2, (20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x[解析]观察题中散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象,故选D.。

[推荐学习]全国通用2018高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计

[推荐学习]全国通用2018高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计

第四节 变量间的相关关系与统计案例———————————————————————————————— [考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i -y ^i 2∑ni =1y i -y2.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量).1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) [答案] (1)√ (2)× (3)× (4)×2.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5)在回归直线上,排除B ,选项A 满足.]3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图9­4­1A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关D[对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( ) A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系D[只有K2≥6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.]5.(2017·贵阳检测)若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________kg.50 [设第3名学生的体重为a,则1 8(48+57+a+54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712.解得a≈50.]+1,变量y与z正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图9­4­2所示,则下列说法中所有正确命题的序号为________.图9­4­2①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.(1)C (2)①② [(1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强.[变式训练1] 甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:A .甲B .乙C .丙D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.](单位:亿吨)的折线图.图9­4­3注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑ 7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑ni =1t i -ty i -y∑ni=1t i -t2∑n i =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,2分∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.5分(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -ty i -y∑7i =1t i -t2=2.8928≈0.103.8分 a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .10分将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分[规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.(1)正确运用计算b ^,a ^的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ).[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1t i -t-y i -y-∑ni =1t i -t-2,a ^=y --b ^t -.[解] (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4,y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1 (t i -t -)2=9+4+1+0+1+4+9=28,3分∑7i =1(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑7i =1t i -t-y i -y-∑7i =1t i -t-2=1428=0,5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.6分(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.9分将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12分10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9­4­4所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;【导学号:31222369】图9­4­4(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=a +bc +d a +cb +d.[解] (1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.4分(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.8分(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.10分又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表k =-275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分 [规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表; (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断.[变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=a +bc +d a +c a +d.[解] x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).5分(2)根据条件可得2×2列联表如下:K2=≈6.27<6.635,10×40×18×32∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.12分[思想与方法]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据K2的值可以判断两个分类变量有关的可信程度.[易错与防范]1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.课时分层训练(五十七)变量间的相关关系与统计案例A组基础达标(建议用时:30分钟)一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确...的结论的序号是 ( ) A .①② B .②③ C .③④D .①④D [由正负相关性的定义知①④一定不正确.]2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是 ( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25A [相关指数R 2越大,拟合效果越好,因此模型1拟合效果最好.]3.第31届夏季奥林匹克运动会,中国获26金,18银,26铜共70枚奖牌居奖牌榜第二,并打破3次世界记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A .平均数与方差B .回归直线方程C .独立性检验D .概率C [由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.]4.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B [由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).]5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n a +bc +d a +cb +d,算得K 2=-260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.(2017·西安质检)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.【导学号:31222370】68 [由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,即a =68.]7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2根据表中数据,得到K 2=-223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.5% [∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________℃.【导学号:31222371】68 [根据题意知x =18+13+10+-4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量为68度.]三、解答题9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)关”?附:K 2=n ad -bc 2a +bc +d a +cb +d.[解] (1)180(人), 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 所以2×2列联表:5分(2)将列联表中数据代入公式可得:K 2=-2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关” .12分 10.为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下试验数据:(1)求y (2)利用(1)中的回归方程,预测t =8时的细菌繁殖个数. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑ni =1t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .[解] (1)由表中数据计算得,t =5,y =4,∑ni =1(t i -t )(y i -y )=8.5,∑ni =1(t i -t )2=10,2分b ^=∑ni =1t i -ty i -y∑ni =1t i -t2=0.85,a ^=y -b ^t =4-0.85×5=-0.25.所以回归方程为y ^=0.85t -0.25.5分 (2)将t =8代入(1)的回归方程中得 y ^=0.85×8-0.25=6.55.10分故预测t =8时,细菌繁殖个数为6.55千个.12分B 组 能力提升 (建议用时:15分钟)1.根据如下样本数据:得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0B [作出散点图如下:观察图象可知,回归直线y ^=bx +a 的斜率b <0,当x =0时,y ^=a >0.故a >0,b <0.] 2.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,过________.附表:k =-230×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图9­4­5表中w i =x i ,w ]=8∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -u v i -v ∑ni =1u i -u2,α^=v -β^u .[解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.4分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .8分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.12分。

2019年高考数学人教版理科一轮复习课件:第9章 算法初步、统计、统计案例 4 变量间的相关关系与统计案例

2019年高考数学人教版理科一轮复习课件:第9章 算法初步、统计、统计案例 4  变量间的相关关系与统计案例

解析:由公式可得 K2≈8.333>7.879,故填 0.005。 答案:0.005
[知识重温] 一、必记 4●个知识点 1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量 的这种相关关系,我们将它称为正相关。 (2)负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这 种相关关系称为负相关。 (3)线性相关关系、回归直线 一条直线 附近,就 如果散点图中点的分布从整体上看大致在①__________ 称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
4.若 8 名学生的身高和体重数据如下表: 1 2 3 4 5 6 7 8 编号 身高/cm 165 165 157 170 175 165 155 170 54 64 61 43 59 体重/kg 48 57 第 3 名学生的体重漏填,但线性回归方程是^ y=0.849x-85.712, 则第 3 名学生的体重估计为________。 解析:设第 3 名学生的体重为 a,根据样本点的中心一定在回归 直线上,可得 48+57+a+54+64+61+43+59 =0.849× 8 165+165+157+170+175+165+155+170 -85.712, 8 解得 a≈50。 答案:50 kg
解析:由样本的中心( x , y )落在回归直线上可知 A 正确;x 和 y 的相关系数表示为 x 与 y 之间的线性相关程度,不表示直线 l 的斜率, 故 B 错;x 和 y 的相关系数应在-1 到 1 之间,故 C 错;分布在回归 直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还 是偶数,故 D 错。
[小题热身] 1.思考辨析(正确的打“√”,错误的打“×”) (1)相关关系的两个变量是非确定关系。( √ ) (2)散点图中的点越集中,两个变量的线性相关性越强。( × ) (3)对于分类变量 X 与 Y,它们的随机变量 K2 的观测值越小。“X 与 Y 有关联”的把握程度越大。( × )

全国通用近年高考数学一轮复习第九章算法初步、统计、统计案例课时作业六十三9.4变量间的相关关系与统

全国通用近年高考数学一轮复习第九章算法初步、统计、统计案例课时作业六十三9.4变量间的相关关系与统

(全国通用版)2019版高考数学一轮复习第九章算法初步、统计、统计案例课时分层作业六十三9.4 变量间的相关关系与统计案例理编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((全国通用版)2019版高考数学一轮复习第九章算法初步、统计、统计案例课时分层作业六十三9.4 变量间的相关关系与统计案例理)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(全国通用版)2019版高考数学一轮复习第九章算法初步、统计、统计案例课时分层作业六十三9.4 变量间的相关关系与统计案例理的全部内容。

课时分层作业六十三变量间的相关关系与统计案例一、选择题(每小题5分,共25分)1。

(2018·新乡模拟)下列四个选项中,关于两个变量所具有的相关关系描述正确的是()A。

圆的面积与半径具有相关性B.纯净度与净化次数不具有相关性C。

作物的产量与人的耕耘是负相关D.学习成绩与学习效率是正相关【解析】选D。

对于A,圆的面积与半径是确定的关系,是函数关系,不是相关关系,A错误;对于B,一般地,净化次数越多,纯净度就越高,所以纯净度与净化次数是正相关关系,B错误;对于C,一般地,作物的产量与人的耕耘是一种正相关关系,所以C错误;对于D,学习成绩与学习效率是一种正相关关系,所以D正确。

2。

(2018·邯郸模拟)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有效果的图形是( )【解析】选D. 选项D中不服药样本中患病的频率与服药样本中患病的频率差距最大.3。

(全国通用)近年高考数学一轮复习 第9章 算法初步、统计与统计案例 第4节 变量间的相关关系与统计案

(全国通用)近年高考数学一轮复习 第9章 算法初步、统计与统计案例 第4节 变量间的相关关系与统计案

(全国通用)2018高考数学一轮复习第9章算法初步、统计与统计案例第4节变量间的相关关系与统计案例课时分层训练文新人教A版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((全国通用)2018高考数学一轮复习第9章算法初步、统计与统计案例第4节变量间的相关关系与统计案例课时分层训练文新人教A版)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(全国通用)2018高考数学一轮复习第9章算法初步、统计与统计案例第4节变量间的相关关系与统计案例课时分层训练文新人教A版的全部内容。

课时分层训练(五十七)变量间的相关关系与统计案例A组基础达标(建议用时:30分钟)一、选择题1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且错误!=2.347x-6.423;②y与x负相关且错误!=-3.476x+5.648;③y 与x正相关且错误!=5.437x+8.493;④y与x正相关且错误!=-4.326x-4.578。

其中一定不正确...的结论的序号是()A.①②B.②③C.③④D.①④D[由正负相关性的定义知①④一定不正确.]2.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是 ( )A.模型1的相关指数R2为0。

98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25A[相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.]3.第31届夏季奥林匹克运动会,中国获26金,18银,26铜共70枚奖牌居奖牌榜第二,并打破3次世界记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A.平均数与方差B.回归直线方程C.独立性检验D.概率C[由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.]4.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:错误!错误!错误!错误!错误!=错误!-错误! x。

高考数学一轮复习第九章算法初步统计统计案例9.4变量间的相关关系与统计案例课件理

高考数学一轮复习第九章算法初步统计统计案例9.4变量间的相关关系与统计案例课件理
第四节 变量间的相关关系与统计案例
y bxa
n
n
xix yiy xiyinxy
bi1 n 2 xix
i1 n
xi2nx2
,aybx.
i1
i1
【知识梳理】
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从_______到_______
【解析】选C.因为 b 15849=4 60.7,×2+8×3+10×5+12×6=158, 36641014481
50(1320107)2
所以 23272030
=4-0y.7×9=-2.3b. x a
nadbc2
故线性回归直线方程为 abcdacbd =0.7x-2.3.
【规范解答】(1)选D.A中两个变量之间是函数关系,不 是相关关系;在两个变量的散点图中,若样本点呈直线形 带状分布,则两个变量具有相关关系, 对照图形:B,D样本点呈直线形带状分布,B是负相关,D 是正相关,
C样本点不呈直线形带状分布. 所以两个变量具有正相关关系的图是D. (2)选D.正相关指的是y随x的增大而增大,负相关指的 是y随x的增大而减小,故不正确的为①④.
【规律方法】 1.散点图法判断相关关系 根据点的分布情况及正相关、负相关的概念判断.
2.线性相关关系与函数关系的区别 (1)函数关系中的两个变量间是一种确定性关系.例如, 正方体体积V与棱长x之间的关系V=x3就是函数关系. (2)相关关系是一种非确定性关系,即相关关系是非随 机变量与随机变量之间的关系.例如,商品的销售额与 广告费是相关关系.两个变量具有相关关系是回归分析 的前提.
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001

艺术生高考数学总复习第九章算法与框图统计与统计案例第4节变量间的相关性与统计案例课件

艺术生高考数学总复习第九章算法与框图统计与统计案例第4节变量间的相关性与统计案例课件

月份 2017.8 2017.9 2017.10 2017.11 2017.12 2018.1
月份代码 x 1
2
3
4
5
6
市场占有率
11 13
16
15
20
21
y(%)
(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用
线性回归模型拟合市场占有率 y 与月份代码 x 之间的关系;
(2)求 y 关于 x 的线性回归方程,并预测该公司 2018 年 2 月份的 市场占有率.
解:(1)作出散点图如下:
∴两变量之间具有较强的线性相关关系,故可用线性回归模型拟 合市场占有率 y 与月份代码 x 之间的关系.
考点三 独立性检验(师生共研)
[典例] (2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了 50
名男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满
-- yn),其中( x , y )称为样本点的中心.
(3)相关系数 当 r>0 时,表明两个变量 正相关 ; 当 r<0 时,表明两个变量 负相关 . r 的绝对值越接近于 1,表明两个变量的线性相关性 越强 .r 的 绝对值越接近于 0,表明两个变量之间 几乎不存在线性相关关系 . 通常|r|大于 0.75 时,认为两个变量有很强的线性相关性.
y2
总计
x1
a 21
73
x2
2 25
27
总计 b 46
则表中 a,b 处的值分别为 ________ .
解析:因为 a+21=73,所以 a=52.又因为 a+2=b,所以 b= 54.
答案:52,54
5.2019 年我国是第二个“中国农民丰收节”.某农业主管部门 调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位: 万元),调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由 调查数据得到回归直线方程:^y=0.254x+0.321,由回归直线方程可 知,家庭年收入每增加 1 万元,年饮食支出平均约增加 ________ 万元.

高考新坐标(教师用书)届高考数学总复习第九章算法初步、统计与统计案例【含答案】

高考新坐标(教师用书)届高考数学总复习第九章算法初步、统计与统计案例【含答案】

第九章算法初步、统计与统计案例第一节算法与程序框图[考纲传真]1.了解算法的含义,了解算法的思想. 2.理解程序框图的三种基本逻辑结构:顺序、条件、循环. 3.理解几种基本算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句的含义.1.算法(1)算法通常是指按照一定规则解决某一类问题的明确和有限的步骤.(2)应用:算法通常可以编成计算机程序,让计算机执行并解决问题.2.程序框图定义:程序框图又称流程图,是一种用程序框、流程线及文字说明来表示算法的图形.3.三种基本逻辑结构及相应语句1.(夯基释疑)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)程序框图中的图形符号可以由个人来确定.( )(2)一个程序框图一定包含顺序结构,但不一定包含条件结构和循环结构.( ) (3)5=x 是赋值语句.( )(4)输入语句可以同时给多个变量赋值.( )[解析] 图形符号不能个人确定,(1)不正确;赋值语句只能给变量赋值,(3)不正确. [答案] (1)× (2)√ (3)× (4)√2.(教材改编)根据给出的程序框图,计算f(-1)+f(2)=( )图9­1­1A .0B .1C .2D .4[解析] 输入-1,满足x≤0,所以f(-1)=4×(-1)=-4;输入2,不满足x≤0,所以f(2)=22=4,即f(-1)+f(2)=0.[答案]A3.运行如图所示的程序,可得A的输出值为( )A=20A=A*2-30PRINT AENDA.30 B.20 C.10 D.-10[解析]A=20×2-30=10.[答案]C4.(2014·天津高考)阅读下边的框图,运行相应的程序,输出S的值为________.图9­1­2[解析]S=0,n=3,S=0+(-2)3=-8,n=3-1=2≤1不成立;故S=-8+(-2)2=-4,n=2-1=1≤1成立.故输出S的值为-4.[答案]-45.(2014·福建高考改编)阅读如图9­1­3所示的程序框图,运行相应的程序,输出的n的值为________.图9­1­3[解析]当n=1时,21>12;当n=2时,22>22不成立,结束循环.因此输出n=2.[答案] 2考向1程序框图的基本结构与应用【典例1】(1)执行下面的程序框图,如果输入的t∈[-1,3],则输出的s属于( ) A.[-3,4] B.[-5,2]C.[-4,3] D.[-2,5]图9­1­4图9­1­5(2)(2014·浙江高考)若某程序框图如图9­1­5所示,当输入50时,则该程序运行后输出的结果是________.[解析] (1)由程序框图知s =⎩⎪⎨⎪⎧3t ,(t<1),4t -t 2,(t≥1),①当-1≤t<1时,-3≤s<3;②当1≤t≤3时,s =-(t -2)2+4.∴3≤s≤4. 由①②知,s 的取值范围属于[-3,4]. (2)第一次循环,S =1,i =2; 第二次循环,S =4,i =3;第三次循环,S =2×4+3=11,i =4; 第四次循环,S =2×11+4=26,i =5;第五次循环,S =2×26+5=57,i =6,此时S>50,退出循环. 所以输出的结果i =6. [答案] (1)A (2)6 【规律方法】1.对条件结构,无论判断框中的条件是否成立,都只能执行两个分支中的一个,不能同时执行两个分支.2.利用循环结构表示算法,第一要确定是利用当型还是直到型循环结构;第二准确表示累计变量;第三要注意从哪一步开始循环.弄清进入或终止的循环条件、循环次数是做题的关键.【变式训练1】 (1)如图9­1­6所示的程序框图,运行相应的程序.若输入x 的值为1,则输出S 的值为________.图9­1­6(2)(2014·陕西高考)根据下边框图,对大于2的整数N,输出的数列的通项公式是( )图9­1­7A.a n=2n B.a n=2(n-1) C.a n=2n D.a n=2n-1[解析](1)第1次运行:x=1,S=0+13=1<50;第2次运行:x=2,S=1+23=9<50;第3次运行:x=4,S=9+43=73>50,满足S≥50,跳出循环.输出S=73.(2)由程序框图可知第一次运行:i=1,a1=2,S=2;第二次运行:i=2,a2=4,S=4;第三次运行:i=3.a3=8,S=8;第四次运行:i=4,a4=16,S=16.故选C.[答案](1)73 (2)C考向2程序框图的识别与完善(高频考点)命题视角程序框图的识别与完善是高考命题的热点,主要以客观题的形式呈现.主要命题角度:(1)根据程序框图确定输出结果;(2)补充程序框图中判断框或执行框;(3)依据程序框图及运行结果求输入变量的初始值等.【典例2】 (1)如图9­1­8所示是计算某年级500名学生期末考试(满分为100分)及格率q 的程序框图,则图中空白框内应填入________.图9­1­8 图9­1­9(2)(2014·重庆高考)执行如图9­1­9所示的程序框图,若输出k 的值为6,则判断框内可填入的条件是( )A .s>12B .s>35C .s>710D .s>45[思路点拨] (1)根据程序框图的功能,应确定及格率q 与及格人数M 之间的关系;(2)依次执行程序框图,根据输出结果确定判断框内的控制条件.[解析] (1)由判断框输出可知,M 表示及格人数,N 表示不及格人数, ∴及格率q =M M +N ,因此执行框为“q=M M +N”.(2)第一次循环:s =1×910=910,k =8,s =910应满足条件;第二次循环:s =910×89=810,k =7,s =810应满足条件,排除选项D ;第三次循环:s =810×78=710,k =6,故这时程序不再满足条件,结束循环,因此判断框中的条件为s>710.[答案] (1)q =MM +N(2)C 【通关锦囊】1.(1)第1题的关键在于理解程序框图的功能;(2)第2题要明确何时进入或退出循环体,以及累乘变量的变化.2.解答此类题目:(1)要明确程序框图的顺序结构,条件结构和循环结构;(2)理解程序框图的功能;(3)要按框图中的条件运行程序,按照题目的要求完成解答.【变式训练2】 (2015·潍坊质检)执行如图9­1­10所示的程序框图,若输出的S 是2 047,则判断框内应填写()图9­1­10A .n ≤9?B .n ≤10?C .n ≥10?D .n ≥11?[解析] 由程序框图的功能知,题目的实质是数列{2n}(n∈N )求和. ∵{2n }的首项为20=1,公比为2.∴当n =9时,S =1+2+22+…+29=1-2101-2=1 023.当n =10时,S =1+2+22+…+210=1-2111-2=2 047.此时输出S =2 047,跳出循环,所以判断框的条件为n ≤9. [答案] A考向3 基本算法语句【典例3】 根据下列算法语句,当输入x 为60时,输出y 的值为( )A .25B .30C .31D .61[解析] 由题意,得y =⎩⎪⎨⎪⎧0.5x ,x ≤50,25+0.6(x -50),x>50.当x =60时,y =25+0.6×(60-50)=31. ∴输出y 的值为31. [答案] C ,【规律方法】1.本题主要考查条件语句,输入与输出语句,要注意赋值语句一般格式中的“=”不同于等式中的“=”,其实质是计算“=”右边表达式的值,并将该值赋给“=”左边的变量.2.解决此类问题关键要理解各语句的含义,以及基本算法语句与算法结构的对应关系. 【变式训练3】 运行下面的程序时,WHILE 循环语句的执行次数是( )A .3B .4C .18D .19[解析] 0<20,1<20,2×2<20,5×5>20,程序结束, 故WHILE 循环语句共执行了3次. [答案] A掌握1条规律 每个算法结构都含有顺序结构,循环结构中必定包含一个条件结构,用于确定何时终止循环体.循环结构和条件结构都含有顺序结构.注意1个区别 当型循环与直到型循环的区别:直到型循环是“先循环,后判断,条件满足时终止循环”;当型循环是“先判断,后循环,条件满足时执行循环”;两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相反.勿忘2点注意 1.赋值号左边只能是变量(不是表达式),在一个赋值语句中只能给一个变量赋值. 2.利用循环结构表示算法,要明确是利用当型循环结构,还是直到型循环结构.要注意:(1)选择好累计变量;(2)弄清在哪一步开始循环,满足什么条件不再执行循环体.易错辨析之10程序框图中“变量”的含义理解不清致误(2014·课标全国卷Ⅰ)执行下面的程序框图,若输入的a ,b ,k 分别为1,2,3,则输出的M =( )图9­1­11A .203 B .72 C .165 D .158[错解] n =1,M =1+12=32,a =2,b =32;n =2,M =2+23=83,a =32,b =83;n =3,M =32+38=158,a =83,b =158;n =4,M =83+815=4815=165,a =158,b =165,此时不满足条件,跳出循环,输出M =165.[答案] C 【智慧心语】错因分析:(1)循环变量n 与累加变量M 计算不对立,或混淆当型循环,误认为直到型循环结构,导致错解.(2)对循环体中各执行框的含义不清,错误赋值,错选A 或B .防范措施:(1)要分清是当型循环结构还是直到型循环结构;要理解循环结构中各变量的具体含义以及变化规律.具体求解时,把每次循环中各个变量的值对应起来,并要清楚的写下来,再根据条件判断是否结束循环.(2)在处理含有循环结构的算法问题时,关键是确定循环的次数,循环中有哪些变量,且每一次循环之后的变量S 、k 值都要被新的S 、k 值所替换.[正解] 第一次执行循环后:M =1+12=32,a =2,b =32,n =2;第二次执行循环后:M =2+23=83,a =32,b =83,n =3.第三次执行循环后:M =32+38=158,a =83,b =158,n =4.这时n =4,跳出循环.输出M 的值158.[答案] D【类题通关】 (2014·北京高考)当m =7,n =3时,执行如图9­1­12所示的程序框图,输出的S 值为( )图9­1­12A.7 B.42 C.210 D.840[解析]程序框图的执行过程如下:m=7,n=3时,m-n+1=5,k=m=7,S=1,S=1×7=7;k=k-1=6>5,S=6×7=42;k=k-1=5=5,S=5×42=210;k=k-1=4<5,输出S=210.故选C.[答案]C课后限时自测[A级基础达标练]一、选择题1.(2014·课标全国卷Ⅱ)执行如图9­1­13所示的程序框图,如果输入的x,t均为2,则输出的S=( )图9­1­13A .4B .5C .6D .7[解析] x =2,t =2,M =1,S =3,k =1. k ≤t ,M =11×2=2,S =2+3=5,k =2;k ≤t ,M =22×2=2,S =2+5=7,k =3;3>2,不满足条件,输出S =7. [答案] D2.(2014·湖南高考)执行如图9­1­14所示的程序框图,如果输入的t∈[-2,2],则输出的S 属于( )图9­1­14A .[-6,-2]B .[-5,-1]C .[-4,5]D .[-3,6][解析] 由程序框图知,当0≤t≤2时,输出S =t -3,此时S∈[-3,-1];当-2≤t<0时,执行t =2t 2+1后1<t≤9,执行1<t≤9时,输出S =t -3,此时S∈(-2,6].因此输出S 的值属于[-3,6].[答案] D3.某程序框图如图9­1­15所示,若输出的结果S=57,则判断框内应填入的条件是( )图9­1­15A.k>4? B.k>5? C.k>6? D.k>7?[解析]由程序框图可知,k=1时,S=1;k=2时,S=2×1+2=4;k=3时,S=2×4+3=11;k=4时,S=2×11+4=26;k=5时,S=2×26+5=57.[答案]A4.阅读如图9­1­16所示的程序框图,运行相应的程序,则输出S的值为( )图9­1­16A.8 B.18 C.26 D.80[解析]执行一次循环S=2,n=2;执行第二次循环:S=2+32-31=8,n=3;执行第3次循环:S=8+33-32=26,n=4;满足n≥4,故输出S=26.[答案]C5.(2014·安徽高考)如图9­1­17所示,程序框图(算法流程图)的输出结果是( )图9­1­17A.34 B.55 C.78 D.89[解析]当输入x=1,y=1,执行z=x+y及z≤50,x=y,y=z后,x,y,z的值依次对应如下:x=1,y=1,z=2;x=1,y=2,z=3;x=2,y=3,z=5;x=3,y=5,z=8;x=5,y=8,z=13;x=8,y=13,z=21;x=13,y=21,z=34;x=21,y=34,z=55.由于55≤50不成立,故输出55.故选B.[答案]B二、填空题6.运行下列的程序,当输入a,b分别为2,3时,最后输出的m的值为________.[解析]∵a=2,b=3,满足a<b,∴应把b值赋给m,∴m的值为3.[答案] 37.(2014·山东高考)执行如图9­1­18所示的程序框图,若输入的x的值为1,则输出的n的值为________.图9­1­18[解析]按照程序框图逐一执行.由x2-4x+3≤0,解得1≤x≤3.当x=1时,满足1≤x≤3,所以x=1+1=2,n=0+1=1;当x=2时,满足1≤x≤3,所以x=2+1=3,n=1+1=2;当x=3时,满足1≤x≤3, 所以x=3+1=4,n=2+1=3;当x=4时,不满足1≤x≤3,所以输出n=3.[答案] 38.(2015·临沂模拟)图9­1­19(1)是某高三学生进入高中三年来的数学考试成绩茎叶图,第1次到第14次的考试成绩依次记为A1,A2,…,A14.图(2)是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图.那么算法流程图输出的结果是________.(1) (2)图9­1­19[解析]从算法流程图可知,该图表示统计成绩大于或等于90分的考试次数.由茎叶图可知输出的结果为10.[答案]10三、解答题9.某篮球队6名主力队员在最近三场比赛中投进的三分球个数如表格所示:图9­1­20统计该6名队员在最近三场比赛中投进的三分球总数的程序框图如图9­1­20所示.(1)试在判断框内填上条件;(2)求输出的s的值.[解](1)依题意,程序框图是统计6名队员投进的三分球的总数.∴判断框内应填条件“i≤6?”.(2)6名队员投进的三分球数分别为a1,a2,a3,a4,a5,a6.故输出的s=a1+a2+…+a6.10.三月植树节,林业管理部门在植树前,为了保证树苗的质量,都会对树苗进行检测.现从甲,乙两种树苗中各抽测了10株树苗,量出它们的高度如下:(单位:厘米) 甲:37,21,31,20,29,19,32,23,25,33;乙:10,30,47,27,46,14,26,10,44,46.(1)画出两组数据的茎叶图,并根据茎叶图对甲,乙两种树苗的高度作比较,写出两个统计结论.(2)设抽测的10株甲种树苗高度平均值为x -,将这10株树苗的高度依次输入,按程序框图(如图9­1­21)进行运算,问输出的S 大小为多少?并说明S 的统计学意义.图9­1­21[解] (1)茎叶图如下:统计结论:①甲种树苗的平均高度小于乙种树苗的平均高度; ②甲种树苗比乙种树苗长得整齐;③甲种树苗的中位数为27,乙种树苗的中位数为28.5;④甲种树苗的高度基本上是对称的,而且大多数集中在均值附近.(任写两条即可) (2)x -=27,S =35;S 表示10株甲种树苗高度的方差,是描述树苗高度离散程度的量.S 值越小,表示长得越整齐,S 值越大,表示长得越参差不齐.[B 级 能力提升练]1.(2015·济南质检)已知函数f(x)=ax 3+12x 2在x =-1处取得极大值,记g(x)=1f ′(x ).程序框图如图9­1­22所示,若输出的结果S>2 0142 015,则判断框中可以填入的关于n 的判断条件是( )图9­1­22A .n ≤ 2 014?B .n ≤2 015?C .n>2 014?D .n>2 015?[解析] 由题意得f′(x)=3ax 2+x ,由f′(-1)=0得a =13,∴f ′(x)=x 2+x ,即g(x)=1x 2+x =1x (x +1)=1x -1x +1. 由程序框图可知S =0+g(1)+g(2)+…+g(n)=1-1n +1, 由1-1n +1>2 0142 015,得n>2 014. 因此条件应为n≤2 015? [答案] B2.执行如图9­1­23所示的程序框图,若输入n 的值为4,则输出s 的值为________.图9­1­23[解析] 第一步运算结果:s =1,i =2(i≤4成立);第二步运算结果:s =2,i =3(i≤4成立);第三步运算结果:s =4,i =4(i≤4成立);第四步运算结果:s =7,i =5(i≤4不成立),程序结束,故输出s 的值为7.[答案] 73.已知数列{a n }的各项均为正数,观察程序框图如图9­1­24所示,若k =5,k =10时,分别有S =511和S =1021,试求数列{a n }的通项公式.图9­1­24[解] 由程序框图可知,数列{a n }是等差数列,首项为a 1,公差为d. S i =1a 1a 2+1a 2a 3+…+1a i a i +1=1d (1a 1-1a 2+1a 2-1a 3+…+1a i -1a i +1) =1d ⎝ ⎛⎭⎪⎫1a 1-1a i +1. 当k =5时,S =⎝ ⎛⎭⎪⎫1a 1-1a 61d =5a 1a 6=511.∴a 1a 6=11,即a 1(a 1+5d)=11;①当k =10时,S =⎝ ⎛⎭⎪⎫1a 1-1a 111d =10a 1a 11=1021,∴a 1a 11=21,即a 1(a 1+10d)=21,② 由①②联立,得a 1=1,d =2, 因此a n =a 1+(n -1)d =2n -1.第二节 随机抽样[考纲传真]1.理解随机抽样的必要性和重要性. 2.会用简单随机抽样方法从总体中抽取样本. 3.了解分层抽样和系统抽样方法.1.简单随机抽样(1)设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)常用简单随机抽样的方法:抽签法和随机数表法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号.(2)确定分段间隔k ,对编号进行分段,当N n 是整数时,取k =N n ,当Nn 不是整数时,随机从总体中剔除余数.(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k). (4)按照一定的规则抽取样本, 3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样.(2)应用范围:总体是由差异明显的几个部分组成时.1.(夯基释疑)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)简单随机抽样是从总体中逐个不放回的抽取抽样.( ) (2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( ) (3)系统抽样在起始部分抽样时采用简单随机抽样.( )(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )[解析] 由简单随机抽样,系统抽样,分层抽样的意义,知(1)与(3)正确,(2)与(4)不正确.[答案] (1)√ (2)× (3)√ (4)×2.(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20[解析] 根据系统抽样的特点可知分段间隔为1 00040=25,故选C .[答案] C3.(2015·青岛调研)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学,初中,高中三个学段学生的视力情况有较大差异,而男女视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层抽样C .按学段分层抽样D .系统抽样[解析] 由于三个学段学生的视力情况差别较大,故需按学段分层抽样. [答案] C4.(2014·湖南高考)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( )A .p 1=p 2<p 3B .p 2=p 3<p 1C .p 1=p 3<p 2D .p 1=p 2=p 3[解析] 由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p 1=p 2=p 3. [答案] D5.某学校高一,高二,高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.[解析] 设应从高二年级抽取x 名学生,则x∶50=3∶10.解得x =15. [答案] 15考向1简单随机抽样【典例1】(1)下列抽取样本的方式属于简单随机抽样的个数为( )①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.②从20件玩具中一次性抽取3件进行质量检验.③某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1 C.2 D.3(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 B.07 C.02 D.01[解析](1)①②③中都不是简单随机抽样,这是因为:①是放回抽样,②中是“一次性”抽取,而不是“逐个”抽取,③中“指定个子最高的5名同学”,不存在随机性,不是等可能抽样.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.[答案](1)A(2)D【规律方法】1.简单随机抽样是从含有N(有限)个个体的总体中,逐个不放回地抽取样本,且每次抽取时总体内的各个个体被抽到的机会都相等.2.(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.(2)随机数表法适用于总体中个体数较多的情形:随机数表法的操作要点:编号,选起始数,读数,获取样本.【变式训练1】下列抽样试验中,适合用抽签法的有________.①从某厂生产的5 000件产品中抽取600件进行质量检测; ②从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验; ③从甲,乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检测; ④从某厂生产的5 000件产品中抽取10件进行质量检测. [解析] ①,④中总体的个体数较大,不适用抽签法.对于③中,甲,乙两厂的产品质量可能差别较大,不一定能够达到搅拌均匀的条件,不适宜用抽签法.②中为同厂的产品,且样本容量较小,可用抽签法. [答案] ②考向2 系统抽样及其应用【典例2】 (1)(2015·淄博调研)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.(2)(2013·陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14[解析] (1)设第1组抽取的号码为b ,由系统抽样则第n 组抽取的号码为8(n -1)+b , ∴8×(16-1)+b =126,∴b =6, 故第1组抽取的号码为6.(2)抽样间隔为84042=20.设在1,2,…,20中抽取号码x 0(x 0∈[1,20]),在[481,720]之间抽取的号码记为20k +x 0,则481≤20k+x 0≤720,k ∈N *.∴24120≤k +x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120,1,∴k =24,25,26,…,35, ∴k 值共有35-24+1=12(个),即所求人数为12. [答案] (1)6 (2)B 【规律方法】1.如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn,否则,可随机地从总体中剔除余数,然后按系统抽样的方法抽样.特别注意,每个个体被抽到的机会均是n N.2.系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.【变式训练2】 (2015·威海质检)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15[解析] 由系统抽样知:抽取号码的间隔为96032=30,∵第一组抽取的号码为9,∴抽取的第n 个号码为a n ,则a n =9+30(n -1), 由451≤a n ≤750,得151115≤n ≤25710,注意到n ∈N *,∴落入区间[451,750]的号码共10个, 因此做问卷B 的有10人. [答案] C考向3 分层抽样及应用(高频考点)命题视角 分层抽样是抽样方法考查的重点,主要以客观题的形式呈现,命题的主要角度:(1)求各层的个体容量;(2)根据某层的容量求总体容量;(3)分层抽样的简单应用.【典例3】 (1)(2015·日照联考)某工厂甲,乙,丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( )A .9B .10C .12D .13(2)(2014·湖北高考)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.[思路点拨] (1)利用抽样比为定值,列方程求解;(2)利用分层抽样,先求出总体中甲设备生产的产品数量,再计算乙设备生产的产品数量.[解析] (1)依题意得360=n120+80+60,故n =13.(2)由题设,抽样比为804 800=160.设甲设备生产的产品为x 件, 则x60=50,∴x =3 000. 故乙设备生产的产品总数为4 800-3 000=1 800. [答案] (1)D (2)1 800 【通关锦囊】1.分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.2.为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i ∶N i =n∶N.分层抽样的有关计算,转化为按比例列方程或算式求解.【变式训练3】 (1)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为________.(2)(2014·重庆高考)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250[解析] (1)抽样比为280560+420=280980=27,所以样本中男生人数为560×27=160.(2)法一:由题意可得70n -70=3 5001 500,解得n =100.法二:由题意,抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n =5 000×150=100.[答案] (1)160 (2)A掌握2条规律 1.三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体容量为N ,每个个体被抽到的概率是nN. 2.系统抽样抽取的个体编号从小到大成等差数列.熟记3个范围 1.简单随机抽样:总体容量较少,尤其是样本容量较少. 2.系统抽样:适用于元素个数很多且均衡的总体. 3.分层抽样:适用于总体由差异明显的几部分组成的情形.勿忘3点注意 1.简单随机抽样中,易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等. 2.系统抽样中,易忽视抽取的样本数也就是分段的段数,当Nn 不是整数时,注意剔除,剔除的个体是随机的. 3.分层抽样中,易忽视每层抽取的个体的比例是相同的.易错辨析之11 图表信息求解的误区(2014·广东高考改编)已知某地区中小学生人数和近视情况分别如图9­2­1①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.图9­2­1[错解] 由图①知,样本容量为(2 000+3 500+4 500)×2%=200, 根据图②知,高中学生的近视人数为200×50%=100. 或根据图②知,高中近视人数为50人. 【智慧心语】错因分析:(1)误把样本容量200认为高中学生的样本数量,或将条形图中近视率误为近视人数.(2)不能从图表中提取有效信息,有的考生无从入手,或者未抓住分层抽样的特点:“各层抽取的个体数依各层个体之比来分配”而无法正确完成高中近视人数的计算求值.防范措施:(1)加强识图能力的培养,如本题中纵轴表示的近视率分别为10%,30%,50%.(2)理解分层抽样的概念,首先分层抽样是等概率抽样,因此,各层的抽样比应相等,可以利用这个等比关系计算求值.[正解] 易知,样本容量为(3 500+4 500+2 000)×2%=200.又样本中高中学生共有2 000×2%=40人.利用图②知,高中学生的近视率为50%.因此所抽样本中高中学生的近视人数为40×50%=20人.[答案]200 20【类题通关】从某小学随机抽样100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图9­2­2所示),由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.图9­2­2[解析]∵0.005×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030.设身高在[120,130),[130,140),[140,150]内的三组学生各有x,y,z人,则x100=0.030×10,y100=0.020×10,z100=0.01×10.∴x=30,y=20,z=10.由分层抽样的意义,抽样比为1830+20+10=30%.因此从身高在[140,150]内的学生中选取10×30%=3(人).[答案](1)0.030 (2)3课后限时自测[A 级 基础达标练]一、选择题1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本[解析] 调查的目的是“了解某地5 000名居民某天的阅读时间”,所以“5 000名居民的阅读时间的全体”是调查的总体.[答案] A2.从2 007名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样从2 007人中剔除7人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( )A .不全相等B .均不相等C .都相等,且为502 007D .都相等,且为140[解析] 从N 个个体中抽取M 个个体,每个个体被抽到的概率均为MN .[答案] C3.某学校有男,女学生各500名,为了解男,女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )A .抽签法B .随机数法C .系统抽样法D .分层抽样法[解析] 由于是调查男,女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样法.[答案] D4.(2015·潍坊一模)高三某班有学生56人,现将所有同学随机编号,用系统抽样的方。

2019届高考数学一轮复习第九章算法初步、统计与统计案例第4节变量间的相关关系与统计案例课件新人教A版

2019届高考数学一轮复习第九章算法初步、统计与统计案例第4节变量间的相关关系与统计案例课件新人教A版

1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常 用方法;判断相关性的常用统计图是: 散点图 数与相关指数. (1)在散点图中,点散布在从 左下角 到 右上角 的区域, ;统计量有相关系
对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从
左上角
第4节 变量间的相关关系与统计案 例
最新考纲 1.会作两个相关变量的数据的散点图,会利用散点图认识变量 间的相关关系; 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公 式建立线性回归方程; 3.了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其 简单应用; 4.了解回归分析的基本思想、方法及其简单应用.
关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则 r2<r4 <0<r3<r1.]
2.(导学号 14576897)(2015· 高考湖北卷)已知变量 x 和 y 满足关 系 y=-0.1x+1,变量 y 与 z 正相关.下列结论中正确的是( A.x 与 y 负相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 正相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关 )
2.(导学号 14576894)下面是 2×2 列联表: y1 x1 x2 总计 则表中 a,b 的值分别为( A.94,72 C.52,74 a 22 b ) B.52,50 D.74,52 y2 21 25 46 总计 73 47 120
解析:C 故选 C.]
[∵a+21=73,∴a=52,又 a+22=b,∴b=74.
4.独立性检验 (1)利用随机变量 K2 来判断“两个分类变量 称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设 有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1,y2}, 其样本频数列联表(2×2 列联表)为 有关系 ”的方法

高考数学一轮复习 第九章 算法初步、统计、统计案例 第四节 变量间的相关关系、统计案例学案 文-人教

高考数学一轮复习 第九章 算法初步、统计、统计案例 第四节 变量间的相关关系、统计案例学案 文-人教

第四节变量间的相关关系、统计案例1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识点一两个变量的相关关系1.相关关系的分类(1)正相关:从散点图上看,点散布在从________到______的区域内;(2)负相关:从散点图上看,点散布在从左上角到________的区域内.2.线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫________.答案1.(1)左下角右上角(2)右下角2.回归直线1.根据两个变量x,y之间的观测数据画成散点图如图所示,则这两个变量________线性相关关系.(填“具有”或“不具有”)解析:图中的点分布零散,不在一条直线附近,所以不具有线性相关关系. 答案:不具有2.(2017·泉州模拟)下列四个图象中,两个变量具有正相关关系的是()解析:A 中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点呈直线形带状分布,则两个变量具有相关关系,对照图形:B ,D 样本点呈直线形带状分布,B 是负相关,D 是正相关,C 样本点不呈直线形带状分布.所以两个变量具有正相关关系的图是D .答案:D知识点二 回归分析 1.回归方程(1)最小二乘法:使得样本数据的点到回归直线的______ 最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中,b ^是回归方程的______,a ^是在y 轴上的截距.2.样本相关系数r =∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1n y i -y2,用它来衡量两个变量间的线性相关关系的强弱.(1)当r >0时,表明两个变量________; (2)当r <0时,表明两个变量________;(3)r 的绝对值越接近1,表明两个变量的线性相关性__________;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.答案1.(1)距离的平方和 (2)斜率 2.(1)正相关 (2)负相关 (3)越强3.最小二乘法的原理是( )A .使得∑i =1n[y i -(a +bx i )]最小B .使得∑i =1n[y i -(a +bx i )2]最小C .使得∑i =1n[y 2i -(a +bx i )2]最小D .使得∑i =1n[y i -(a +bx i )]2最小解析:根据回归方程表示到各点距离之和最小的直线方程,即总体偏差最小,亦即∑i =1n[y i-(a +bx i )]2最小.答案:D4.当我们建立多个模型拟合某一数据组时,为了比较各个模型的拟合效果,我们可通过计算下列( )量来确定①残差平方和 ②回归平方和 ③相关指数R 2④相关系数rA .①B .①③C .①②③D .③④解析:残差平方和越小,相关指数R 2越大,拟合的效果越好. 答案:B知识点三 独立性检验1.分类变量:变量的不同“值”表示个体所属的________,像这类变量称为分类变量. 2.列联表:列出两个分类变量的________,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +d a +b +c +dK 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.答案1.不同类型 2.频数表5.在性别与吃零食这两个分类变量的计算中,下列说法正确的是________.①若K 2的观测值为k =6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.解析:由独立性检验的基本思想可得,只有③正确. 答案:③热点一 相关关系的判断【例1】 (1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x 、y 之间不能建立线性回归方程.【解析】 (1)所有点均在直线上,则样本相关系数最大即为1,故选D.(2)①显然正确;由散点图知,用y =c 1e c 2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.【答案】 (1)D (2)①② 【总结反思】判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:(1)由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以选C.答案:(1)D (2)C 热点二 ,线性回归分析【例2】 (2016·新课标全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .【解】 (Ⅰ)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17 y i -y2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由y =9.327≈1.331及(Ⅰ)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.【总结反思】(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x+a ^必过样本点中心(x ,y ).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(1)(2017·江西南昌十所省重点中学一模)某产品的广告费用x (万元)与销售额y (万元)的统计数据如下表所示,根据表中数据可得回归方程y ^=b ^x +a ^中的b ^=10.6.据此模型预测广告费用为10万元时的销售额为( )广告费用x (万元) 4 2 3 5 销售额y (万元)49263958A .112.1万元C .111.9万元D .113.9万元(2)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.①求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; ②判断变量x 与y 之间是正相关还是负相关;③若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.解析:(1)由题表中数据得x =3.5,y =43.由于回归直线y ^=b ^x +a^过点(x ,y ),且b ^=10.6,解得a ^=5.9,所以线性回归方程为y ^=10.6x +5.9,于是当x =10时,y ^=111.9.(2)解:①由题意知n =10,x =110∑i =110x i =8010=8,y =110∑i =110y i =2010=2,又∑i =110x 2i -10x 2=720-10×82=80.∑i =110x i y i -10x y =184-10×8×2=24.由此得b ^=∑i =110x i y i -10x y∑i =110x 2i -10x 2=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4,故所求回归方程为y ^=0.3x -0.4.②由于变量y 的值随x 值的增加而增加(b ^=0.3>0),故x 与y 之间是正相关.③将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元). 答案:(1)C热点三 独立性检验【例3】 某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.说明:如图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成如下表所示的2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.【解】 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主. (2)2×2列联表如下表所示.主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)K 2=30×8-128212×18×20×10=30×120×12012×18×20×10=10>6.635.所以有99%的把握认为其亲属的饮食习惯与年龄有关. 【总结反思】1.独立性检验的步骤:(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n ad -bc 2a +bc +d a +cb +d计算K 2的观测值.(3)比较K 2与临界值的大小关系作统计推断.2.另外,还可利用图形来判断两个变量之间是否有关系,可以画出等高条形图,从图形上只可以粗略地估计两个分类变量的关系,可以结合所求数值来进行比较,作图时应注意单位统一,图形准确.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:认为作业多认为作业不多合计 喜欢玩游戏189不喜欢玩游戏8 15 合计(1)请完善上表中所缺的有关数据;(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系?解:(1)认为作业多认为作业不多合计 喜欢玩游戏 18 9 27 不喜欢玩游戏8 15 23 合计262450(2)将表中的数据代入公式K 2=n ad -bc 2a +bc +d a +cb +d得到K 2的观测值k =50×18×15-8×9226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.。

全国通用高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计案例教师用书文新人教

全国通用高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计案例教师用书文新人教

全国通用高考数学一轮复习第9章算法初步统计与统计案例第4节变量间的相关关系与统计案例教师用书文新人教A 版———————————————————————————————— [考纲传真] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i -y ^i 2∑ni =1 y i -y2.4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d则随机变量K 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量).1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) [答案] (1)√ (2)× (3)× (4)×2.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5)在回归直线上,排除B ,选项A 满足.]3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图9­4­1A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关D[对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( ) A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系D[只有K2≥6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.]5.(2017·贵阳检测)若8名学生的身高和体重数据如下表:编号12345678身高/cm165165157170175165155170体重/kg48575464614359 第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________kg.50 [设第3名学生的体重为a,则1 8(48+57+a+54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712.解得a≈50.]相关关系的判断(1)(2015·湖北高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图9­4­2所示,则下列说法中所有正确命题的序号为________.图9­4­2①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.(1)C (2)①② [(1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强.[变式训练1] 甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85 m106115124103则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]线性回归方程及应用(2016·全国卷Ⅲ)如图9­4­3是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.图9­4­3注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑ 7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1t i -ty i -y∑ni =1t i -t2∑n i =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1 (t i -t )2=28,∑7i =1y i -y2=0.55,2分∑7 i =1(t i -t )(y i -y )=∑ 7 i =1t i y i-t ∑7i =1y i =40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.5分(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -ty i -y∑7i =1t i -t2=2.8928≈0.103.8分 a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .10分将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分[规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.(1)正确运用计算b ^,a ^的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ).[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年 份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1t i -t-y i -y-∑ni =1t i -t-2,a ^=y --b ^t -.[解] (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4,y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1 (t i -t -)2=9+4+1+0+1+4+9=28,3分∑7i =1(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑7i =1t i -t-y i -y-∑7i =1t i -t-2=1428=0,5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.6分(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.9分将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12分独立性检验(2017·郑州调研)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9­4­4所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;【导学号:31222369】图9­4­4(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P (K 2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879附:K 2=n ad -bc 2a +bc +d a +cb +d.[解] (1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.4分(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.8分(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.10分又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时165 60 225 总计21090300将2×2列联表中的数据代入公式计算,得K 2观测值 k =300×45×60-165×30275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分 [规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断.[变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;月收入(单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75] 赞成定价者人数 1 2 3 5 3 4 认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入不低于55百元的人数月收入低于55百元的人数总计 认为价格 偏高者 赞成定价者 总计附:K 2=n ad -bc 2a +bc +d a +c a +d. P (K 2≥k 0)0.05 0.01 k 03.8416.635[解] x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).5分(2)根据条件可得2×2列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格 偏高者 3 29 32赞成定价者 7 11 18 总计104050K 2=50×3×11-7×29210×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.12分[思想与方法]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据K 2的值可以判断两个分类变量有关的可信程度. [易错与防范]1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.课时分层训练(五十七) 变量间的相关关系与统计案例A 组 基础达标 (建议用时:30分钟)一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确...的结论的序号是 ( ) A .①② B .②③ C .③④D .①④D [由正负相关性的定义知①④一定不正确.]2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是 ( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25A [相关指数R 2越大,拟合效果越好,因此模型1拟合效果最好.]3.第31届夏季奥林匹克运动会,中国获26金,18银,26铜共70枚奖牌居奖牌榜第二,并打破3次世界记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A .平均数与方差B .回归直线方程C .独立性检验D .概率C [由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.]4.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元)6.27.58.08.59.8根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y -b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B [由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).]5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050 110由K 2=n ad -bc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.(2017·西安质检)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 203040 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________.【导学号:31222370】68 [由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,即a =68.]7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 总计 男 13 10 23 女 7 20 27 总计203050已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.5% [∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃) 18 13 10 -1 用电量(度)24343864由表中数据得回归直线方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量为________℃.【导学号:31222371】68 [根据题意知x =18+13+10+-14=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量为68度.]三、解答题9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:青年人 中年人 总计 经常使用微信 不经常使用微信总计(2)由列联表中所得数据判断,是否有99.9%的把握认为“经常使用微信与年龄有关”?附:K 2=n ad -bc 2a +bc +d a +cb +d.P (K 2≥k 0)0.010 0.001 k 06.63510.828[解] (1)由已知可得,该公司员工中使用微信的有200×90%=180(人), 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 所以2×2列联表:青年人 中年人 总计 经常使用微信 80 40 120 不经常使用微信55 5 60 总计135451805分(2)将列联表中数据代入公式可得: K 2=180×80×5-55×402120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关” .12分 10.为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下试验数据:天数t (天) 3 4 5 6 7 繁殖个数y (千个)2.5344.56(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时的细菌繁殖个数. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑ni =1t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .[解] (1)由表中数据计算得,t =5,y =4,∑ni =1(t i -t )(y i -y )=8.5,∑ni =1(t i -t )2=10,2分b ^=∑ni =1t i -ty i -y∑ni =1t i -t2=0.85,a ^=y -b ^t =4-0.85×5=-0.25.所以回归方程为y ^=0.85t -0.25.5分 (2)将t =8代入(1)的回归方程中得 y ^=0.85×8-0.25=6.55.10分故预测t =8时,细菌繁殖个数为6.55千个.12分B 组 能力提升 (建议用时:15分钟)1.根据如下样本数据:x 3 4 5 6 7 8 y4.02.5-0.50.5-2.0-3.0得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0B [作出散点图如下:观察图象可知,回归直线y ^=bx +a 的斜率b <0,当x =0时,y ^=a >0.故a >0,b <0.] 2.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计302050根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:P (K 2≥k )0.15 0.10 0.05 0.025 0.010 0.005 0.001 k2.0722.7063.8415.0246.6357.87910.8280.025 [由列联表计算K 2的观测值 k =50×22×12-8×8230×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图9­4­5x y w ∑8i =1 (x i -x )2 ∑8i =1(w i -w )2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y )46.6 563 6.8289.81.61 469108.8表中w i =x i ,w ]=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .[解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.4分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .8分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.12分。

(全国版)高考数学一轮复习 第九章 算法初步、统计、统计案例 9.4 变量间的相关关系与统计案例课时

(全国版)高考数学一轮复习 第九章 算法初步、统计、统计案例 9.4 变量间的相关关系与统计案例课时

变量间的相关关系与统计案例(25分钟45分)一、选择题(每小题5分,共20分)1.有下列关于回归分析的说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示;③通过回归方程=x+可以估计变量的取值和观测变量的变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确的个数是( )A.1B.2C.3D.4【解析】选C.①反映的是最小二乘法的思想,故正确;②反映的是散点图的作用,也正确;③解释的是回归方程=x+的作用,也正确;④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.2.(2015·某某高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关【解析】选C.因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z 正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关.3.(2016·某某模拟)根据如下样本数据得到的回归方程为=x+,则( )x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0A.>0,>0B.>0,<0C.<0,>0D.<0,<0【解析】选B.由表中数据画出散点图,如图,由散点图可知<0,>0.4.(2016·某某模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走斑马线40 20 60走人行天桥20 30 50总计60 50 110由K2=算得K2的观测值k=≈7.8.附表:P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.01的前提下认为“选择过马路的方式与性别有关”B.在犯错误的概率不超过0.01的前提下认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”【解析】选A.因为K2的观测值k≈7.8≥6.635,所以犯错误的概率不超过0.01.【加固训练】(2016·某某模拟)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩不及格及格总计性别男 6 14 20女10 22 32总计16 36 52表2视力好差总计性别男 4 16 20女12 20 32总计16 36 52表3智商偏高正常总计性别男8 12 20女8 24 32总计16 36 52表4阅读量丰富不丰富总计性别男14 6 20女 2 30 32总计16 36 52 A.成绩 B.视力 C.智商 D.阅读量【解析】选D.因为k1==,k2==,k3==,k4==,则有k4>k2>k3>k1,所以阅读量与性别关联的可能性最大.二、填空题(每小题5分,共15分)5.(2016·某某模拟)某市居民2011~2015年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如表所示:年份2011 2012 2013 2014 2015收入x 11.5 12.1 13 13.3 15支出y 6.8 8.8 9.8 10 12根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有线性相关关系.【解析】由中位数的定义知,总体个数为奇数个时按大小顺序排列后中间一个是中位数,而偶数个时需取中间两数的平均数.由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.答案:13 正6.(2016·某某模拟)为了考察是否喜欢运动与性别之间的关系,得到一个2×2列联表,经计算K2的观测值k=6.679,则在犯错误的概率不超过的前提下认为是否喜欢运动与性别有关系.本题可以参考独立性检验临界值表P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 【解析】由于K2=6.679>6.635,所以在犯错误的概率不超过0.01的前提下认为是否喜欢运动与性别有关系. 答案:0.01【加固训练】1.(2016·某某模拟)某中学将100名高一新生分成水平相同的甲,乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲,乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下,记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为“成绩优秀”与教学方式有关.甲班(A方式) 乙班(B方式) 总计成绩优秀成绩不优秀总计【解析】由已知数据得:甲班(A方式) 乙班(B方式) 总计成绩优秀 1 5 6成绩不优秀19 15 34 总计20 20 40根据2×2列联表中数据,K2=≈3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.2. (2016·某某模拟)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.完成下面2×2列联表,并回答能否在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.疱疹面积小于70mm2疱疹面积不小于70mm 2总计注射药物A a= b=30 a+b=注射药物B c=35 d= c+d= 总计a+c= b+d= a+b+c+d=【解题提示】(1)把握2×2列联表的意义,准确填入数据.(2)将数据代入随机变量K2的公式进行计算.(3)与临界值比较并得出结论.【解析】2×2列联表如下:疱疹面积小于70mm2疱疹面积不小于70mm2总计注射药物A a=70 b=30 a+b=100注射药物B c=35 d=65 c+d=100 总计a+c=105 b+d=95a+b+c+d=200K2的观测值k=≈24.56,由于k>6.635,因此能在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B 后的疱疹面积有差异”.7.(2016·某某模拟)车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.零件数x(个) 10 20 30 40 50加工时间y(min) 62 75 81 89现发现表中有一个数据看不清,请你推断出该数据的值为.【解析】由已知可计算求出=30,而回归直线方程必过点(,),则=0.67×30+54.9=75,设模糊数据为a,则=75,计算得a=68.答案:68三、解答题8.(10分)(2015·某某高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y(千亿元) 5 6 7 8 10(1)求y关于t的回归方程=t+.(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=,=-.【解题提示】(1)直接利用回归系数公式求解即可.(2)利用回归方程代入直接进行计算即可.【解析】(1)列表计算如下:i t i y i t i y i1 1 5 1 52 2 6 4 123 3 7 9 214 4 8 16 325 5 10 25 50∑15 36 55 120这里n=5,=t i==3,=y i==7.2.又-n=55-5×32=10,t i y i-n=120-5×3×7.2=12,从而==1.2,=-×3=3.6,故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).【加固训练】某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 8 8.2 8.4 8.6 8.8 9销量y(件) 90 84 83 80 75 68(1)求回归直线方程=x+,其中=-20,=-.(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解析】(1)由于=(x1+x2+x3+x4+x5+x6)=8.5,=(y1+y2+y3+y4+y5+y6)=80.所以=-=80+20×8.5=250.从而回归直线方程为=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20+361.25.当且仅当x=8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.(20分钟40分)1.(5分)(2016·某某模拟)对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8),其回归直线方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )A. B. C. D.【解析】选B.依题意可知样本中心点为,则=×+,解得=.2.(5分)(2016·某某模拟)有两个分类变量X,Y,其一组的2×2列联表如下所示,Y1Y2X1 a 20-aX215-a 30+a其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( ) A.8 B.9 C.8或9 D.6或8【解题提示】计算K2的观测值k,建立k>3.841的不等式.解不等式并根据a,15-a均为大于5的整数求解. 【解析】选C.根据公式,得k==>3.841,根据a>5且15-a>5,a∈Z,求得a=8或9满足题意.3.(5分)已知x,y之间的一组数据如下表:x 2 3 4 5 6y 3 4 6 8 9对于表中数据,现给出如下拟合直线:①y=x+2;②y=3x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是(填序号).【解析】由题意知=4,=6,所以==,所以=-=-,所以=x-,所以填③.答案:③4.(12分)在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1求y与x之间的回归方程.【解析】画出散点图如图所示,观察可知y与x近似是反比例函数关系.设y=(k≠0),令t=,则y=kt.可得到y关于t的数据如表: t 4 2 1 0.5 0.25y 16 12 5 2 1画出散点图如图所示,观察可知t和y有较强的线性相关性,因此可利用线性回归模型进行拟合,易得:=≈4.1344,=-≈0.7917,所以=4.1344t+0.7917,所以y与x的回归方程是=+0.7917.5.(13分)(2016·某某模拟)设三组试验数据(x1,y1),(x2,y2),(x3,y3)的回归直线方程是:=x+,使代数式[y1-(x1+)]2+[y2-(x2+)]2+[y3-(x3+)]2的值最小时,=-,=(,分别是这三组数据的横、纵坐标的平均数)若有七组数据列表如下:x 2 3 4 5 6 7 8wordy 4 6 5 6.2 8 7.1 8.6(1)求上表中前三组数据的回归直线方程.(2)若|y i-(x i+)|≤0.2,即称(x i,y i)为(1)中回归直线的拟合“好点”,求后四组数据中拟合“好点”的概率.【解析】(1)前三组数的平均数:=3,=5.根据公式:==.所以=5-×3=.所以回归直线方程为y=x+.×5|=0.2≤0.2,×6|=1.5>0.2,×7|=0.1<0.2,×8|=1.1>0.2,综上,拟合的“好点”有2组,所以后四组数据中拟合“好点”的概率P==.。

2020高考数学一轮复习第九章算法初步、统计、统计案例第4讲变量间的相关关系、统计案例课件

2020高考数学一轮复习第九章算法初步、统计、统计案例第4讲变量间的相关关系、统计案例课件

②在( x -3s,x +3s)之外的数据称为离群值,试剔除离群值,估计这条生产
线当天生产的零件尺寸的均值与标准差.(精确到 0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数
n
r=

i=1
xi- x yi- y
n
n
. 0.008≈0.09.

i=1
xi- x 2

i=1
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
(2)独立性检验 利用随机变量 K2(也可表示为 X2)=a+bcn+add-ab+cc2b+d(其中 n=a+b+ c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验. (3)独立性检验的一般步骤 ①根据样本数据列出 2×2 列联表; ②计算随机变量 K2 的观测值 k,查表确定临界值 k0: ③如果 k≥k0,就推断“X 与 Y 有关系\”,这种推断犯错误的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关”.
例 1 (1)(2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研 究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年
龄关系的散点图.根据该图,下列结论中正确的是( B ) A.人体脂肪含量与年龄正相关,且脂肪含
量的中位数等于20% B.人体脂肪含量与年龄正相关,且脂肪含
量的中位数小于20% C.人体脂肪含量与年龄负相关,且脂肪含
考点2 线性回归分析——师生共研
例 2 (2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过 程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位: cm).下面是检验员在一天内依次抽取的16个零件的尺寸:

高考数学一轮复习 第九章 算法初步、统计、统计案例 9.4 用样本估计总体课件 理

高考数学一轮复习 第九章 算法初步、统计、统计案例 9.4 用样本估计总体课件 理

月份 收入x 支出Y
1月份 12.3 5.63
2月份 14.5 5.75
3月份 15.0 5.82
4月份 17.0 5.89
5月份 19.8 6.11
6月份 20.6 6.18
• 根据统计资料,则( ) • A.月收入的中位数是15,x与Y有正线性相关关系 • B.月收入的中位数是17,x与Y有负线性相关关系 • C.月收入的中位数是16,x与Y有正线性相关关系 • D.月收入的中位数是16,x与Y有负线性相关关系
• 【答案】 (1)D (2)B
• 反思归纳 相关关系的直观判断方法就是作 出散点图,若散点图呈带状且区域较窄,说 明两个变量有一定的线性相关性,若呈曲线 型也是有相关性,若呈图形区域且分布较乱 则不具有相关性。
• 【变式训练】 (2016·长沙模拟)某公司在2015年上半年的收入x(单位:万元) 与月支出Y(单位:万元)的统计资料如表所示:
7
ti--t yi--y
(2)由-y =9.732≈1.331
i=1
及(1)得b^=
7
ti--t 2
2.89 = 28 ≈0.103,
i=1
a^=-y -b^-t ≈1.331-0.103×4≈0.92。 所以,y 关于 t 的回归方程为^y=0.92+0.10t。 将 2016 年对应的 t=9 代入回归方程得
第九章 算法初步、统计、统计案例
第四节 变量间的相关关系与统计案例
微知识 小题练 微考点 大课堂 微考场 新提升
•☆☆☆2017考纲考题考情☆☆☆
考纲要求
真题举例
命题角度
1.会作两个相关变量的数据的散点
图,会利用散点图认识变量间的相 2016,全国卷Ⅲ,18,12

2019年高考数学一轮复习学案 训练 课件(北师大版理科) 第9章 算法初步、统计与统计案例 第4节 变量间的相

2019年高考数学一轮复习学案 训练 课件(北师大版理科) 第9章 算法初步、统计与统计案例 第4节 变量间的相

第四节变量间的相关关系与统计案例[考纲传真] (教师用书独具).会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).了解回归分析的基本思想、方法及其简单应用.了解独立性检验(只要求×列联表)的思想、方法及其初步应用.(对应学生用书第页)[基础知识填充].两个变量的线性相关()正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.()负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.()线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线..回归方程()最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.()回归方程方程=+是两个具有线性相关关系的变量的一组数据(,),(,),…,(,)的回归方程,其中,是待定参数.错误!.回归分析()定义:对具有相关关系的两个变量进行统计分析的一种常用方法.()样本点的中心对于一组具有线性相关关系的数据(,),(,),…,(,),其中(,)称为样本点的中心.()相关系数当>时,表明两个变量正相关;当<时,表明两个变量负相关.的绝对值越接近于,表明两个变量的线性相关性越强.的绝对值越接近于,表明两个变量之间几乎不存在线性相关关系.通常大于时,认为两个变量有很强的线性相关性..独立性检验()分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.()列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量和,它们的可能取值分别为{,}和{,},其样本频数列联表(称为×列联表)为×列联表,其中=+++为样本容量.()独立性检验来判断“利用随机变量χ的方法称为独立性检验.”有关系两个分类变量[知识拓展] 的几何意义:体现平均增加或平均减少..由回归直线求出的数据是估算值,不是精确值.[基本能力自测].(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)()“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) ()通过回归直线方程=+可以估计预报变量的取值和变化趋势.( )()因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )()事件,关系越密切,则由观测数据计算得到的χ的观测值越大.( )[答案]()√()√()×()√.(教材改编)已知变量与正相关,且由观测数据算得样本平均数=,=,则由该观测数据算得的线性回归方程可能是( ).=+.=-.=-+.=-+[因为变量和正相关,排除选项,.又样本中心()在回归直线上,排除,选项满足.] .下面是一个×列联表。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

课时分层训练(五十七) 变量间的相关关系与统计案例A 组 基础达标 (建议用时:30分钟)一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确...的结论的序号是 ( ) A .①② B .②③ C .③④D .①④D [由正负相关性的定义知①④一定不正确.]2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是 ( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25A [相关指数R 2越大,拟合效果越好,因此模型1拟合效果最好.]3.第31届夏季奥林匹克运动会,中国获26金,18银,26铜共70枚奖牌居奖牌榜第二,并打破3次世界记录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A .平均数与方差B .回归直线方程C .独立性检验D .概率C [由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.]4.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y -b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B [由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).]5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n ad -a +bc +d a +cb +d,算得K 2=0-260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.(2017·西安质检)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.【导学号:31222370】68 [由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,即a =68.]7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2根据表中数据,得到K 2=-223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.5% [∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________℃.【导学号:31222371】68 [根据题意知x =18+13+10+-4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量为68度.]三、解答题9.(2017·石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2) 附:K 2=n ad -bc 2a +bc +d a +cb +d.[解] (1)人), 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 所以2×2列联表:5分(2)将列联表中数据代入公式可得:K 2=-2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关” .12分 10.为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下试验数据:(1)求y 关于t (2)利用(1)中的回归方程,预测t =8时的细菌繁殖个数. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=∑ni =1t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .[解] (1)由表中数据计算得,t =5,y =4,∑ni =1(t i -t )(y i -y )=8.5,∑ni =1(t i -t )2=10,2分b ^=∑ni =1t i -ty i -y∑ni =1t i -t2=0.85,a ^=y -b ^t =4-0.85×5=-0.25.所以回归方程为y ^=0.85t -0.25.5分 (2)将t =8代入(1)的回归方程中得 y ^=0.85×8-0.25=6.55.10分故预测t =8时,细菌繁殖个数为6.55千个.12分B 组 能力提升 (建议用时:15分钟)1.根据如下样本数据:得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0B [作出散点图如下:观察图象可知,回归直线y ^=bx +a 的斜率b <0,当x =0时,y ^=a >0.故a >0,b <0.] 2.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)________.附表:k =-230×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图9­4­5表中w i =x i ,w ]=8∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少?②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .[解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.4分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .8分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.12分。

相关文档
最新文档