2020届高考数学理一轮考点测试变量间的相关关系与统计案例
2020版高考数学一轮复习五十九11.3变量间的相关关系与统计案例理解析版新人教A版
核心素养提升练五十九变量间的相关关系与统计案例(30分钟60分)一、选择题(每小题5分,共25分)1.对于变量x,y有以下四个散点图,由这四个散点图可以判断变量x与y成负相关的是( )【解析】选B.对于A,散点图呈片状分布,不具相关性;对于B,散点图呈带状分布,且y随x的增大而减小,是负相关;对于C,散点图中y随x的增大先增大再减小,不是负相关;对于D,散点图呈带状分布,且y随x的增大而增大,是正相关.2.某考察团对全国10大城市居民人均工资水平x(千元)与居民人均消费水平y(千元)进行统计调查,y与x具有相关关系,回归方程为=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A.83%B.72%C.67%D.66%【解析】选A.由7.675=0.66x+1.562,得x≈9.262,所以×100%≈83%.3.(2018·衡水模拟)如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强【解析】选B.去掉D点后,相关性变强,模型拟合效果越好,故残差平方和变小.4.根据如下样本数据得到的回归方程为=x+,若=5.4,则x每增加1个单位,y就( )A.C.增加1个单位D.减少1个单位【解析】选B.由题意可得=×(3+4+5+6+7)=5,=×(4+2.5-0.5+0.5-2)=0.9,因为回归方程为=x+,=5.4,且回归直线过点(5,0.9),所以0.9=5+5.4,解得=-0.9,所以x每增加1个单位,y就减少0.9个单位.5.观察两个变量(存在线性相关关系)得如下数据:A. = x+1B. =xC. =2x+D. =x+1【解析】选B.根据表中数据,得= (-10-6.99-5.01-2.98+3.98+5+7.99+8.01)=0,= (-9-7-5-3+4.01+4.99+7+8)=0.所以两变量x,y间的线性回归方程过样本中心点(0,0),只有B选项符合.【变式备选】已知变量x与y正相关,且由观测数据算得样本平均数=3, =3.5,则由该观测数据算得的线性回归方程可能是( )A. =0.4x+2.3B. =2x-2.4C. =-2x+9.5D. =-0.3x+4.4【解析】选A.依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A,B得A正确.二、填空题(每小题5分,共15分)6.(2018·阜阳模拟)某班主任对全班30名男生进行了作业量多少的调查,数据如表:过________.【解析】计算得K2的观测值k=≈4.286>3.841,则推断犯错误的概率不超过0.05.答案:0.057.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:【解析】根据题意知==10,==40,因为回归直线过样本点的中心,所以=40-(-2)×10=60,所以=-2x+60,当x=-4时, =(-2)×(-4)+60=68,所以当气温为-4 ℃时,用电量约为68度.答案:68度8.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归方程为y=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的 1 000吨钢中,约有________吨钢是废品(结果保留两位小数).【解析】因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.答案:16.68【变式备选】经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程: =0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】x变为x+1, =0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.245三、解答题(每小题10分,共20分)9.已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在(90,100]内的有6人.(1)求n的值.(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析在犯错误的概率不超过0.1的前提下是否可以认为“本次测试的及格情况与性别有关”?【解析】(1)依题意得b=0.01,因为成绩在(90,100]内的有6人,所以n=60.(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,于是本次测试的及格情况与性别的2×2列联表如下:故在犯错误的概率不超过0.1的前提下不能认为“本次测试的及格情况与性别有关”.【变式备选】某养鸡场为检验某种药物预防某种疾病的效果,取100只鸡进行对比试验,得到如下列联表(表中部分数据丢失,a,b,d,e,f,g表示丢失的数据):(1)求出列联表中数据a,b,d,e,f,g的值.(2)能否在犯错误的概率不超过0.005的前提下认为药物有效?【解析】(1)因为a+b=50,2a=3b.所以a=30,b=20.由50+g=100,15+d=g,得g=50,d=35.所以,e=a+15=45,f=b+d=55.(2)由(1)可得K2的观测值k=≈9.091>7.879.因此,在犯错误的概率不超过0.005的前提下认为药物有效.10.(2018·重庆模拟)第96届(春季)全国糖酒商品交易会于2017年3月23日至25日在四川举办,展馆附近一家四川特色小吃店为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近5次交易会的参会人数x(万人)与店铺所用原材料数量y(袋),得到如下数据:(1)(2)若该店现有原材料12袋,据悉本次交易会大约有13万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?(参考公式: = =,=-)【解析】(1)由数据,求得==10,==25,(x i-)(y i-)=1×3+(-1)×(-2)+(-2)×(-5)+0+2×4=23,(x i-)2=12+(-1)2+(-2)2+02+22=10,由公式,求得=2.3, = -·=2,y关于x的线性回归方程为=2.3x+2.(2)由x=13,得=31.9,而31.9-12=19.9≈20,所以,该店应至少再补充原材料20袋.【变式备选】为了研究男羽毛球运动员的身高x(单位:cm)与体重y(单位:kg)的关系,通过随机抽样的方法,抽取5名运动员测得他们的身高与体重关系如下表:(1).(2)求回归直线方程=x+.【解析】(1)从这5个人中随机地抽取2个人的体重的基本事件有(74,73),(74,76),(74,75),(74,77),(73,76),(73,75),(73,77),(76,75),(76,77),(75,77). 满足条件的有(74,76),(74,77),(73,76),(73,75),(73,77),(75,77)6种情况,故2个人体重之差的绝对值不小于2 kg的概率为=.(2) =176, =75,===0.4,=-=4.6,所以=0.4x+4.6.(20分钟40分)1.(5分)已知x与y之间的几组数据如下表:(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )A. >b′,>a′B. >b′,<a′C. < b′,>a′D. <b′,<a′【解析】选C.过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示,显然<b′,>a′.2.(5分)(2018·汕头模拟)某厂家为了解销售轿车台数与广告宣传费之间的关系,得到如表统计数据表:根据数据表可得回归直线方程=x+,其中=2.4, = -,据此模型预测广告费用为9万元时,销售轿车台数为( )A.17【解析】选C.根据表中数据,计算=×(2+3+4+5+6)=4,=×(3+4+6+10+12)=7,且回归直线方程为=2.4x+,所以=-=7-2.4×4=-2.6,所以回归方程为=2.4x-2.6;当x=9时, =2.4×9-2.6=19,即据此模型预测广告费用为9万元时,销售轿车台数为19.3.(5分)已知回归直线斜率的估计值为 1.23,样本点的中心为点(4,5),则回归直线的方程为________.【解析】回归直线必过点(4,5),所以y-5=1.23(x-4),所以=1.23x+0.08.答案: =1.23x+0.08【变式备选】已知回归直线方程为=4.4x+838.19,则可估计x与y增长速度之比约为________.【解析】x与y增长速度之比为=.答案:4.(12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断在犯错误的概率不超过0.1的前提下能否认为“生产能手与工人所在的年龄组有关”. 【解析】(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,在样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2), (A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求的概率P=.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以=≈1.79,因为1.79<2.706,所以在犯错误的概率不超过0.1的前提下不能认为“生产能手与工人所在的年龄组有关”.5.(13分)某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.表1:无酒状态表2:(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数.(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+.(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?【解析】(1)依题意,得m=50-26,解得m=40,又m+n+36=100,解得n=24.故停车距离的平均数为15×+25×+35×+45×+55×=27.(2)依题意,可知=50, =60,x i y i=10×30+30×50+50×60+70×70+90×90=17 800,=102+302+502+702+902=16 500,所以==0.7,=60-0.7×50=25,所以回归直线方程为=0.7x+25.(3)由(1)知当y>81时认定驾驶员是“醉驾”.令>81,得0.7x+25>81,解得x>80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.【变式备选】为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.(1)(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.【解析】(1) =100+=100;=100+=100;因为==142, =,所以>,所以物理成绩更稳定.(2)由于x与y之间具有线性相关关系,所以==0.5, =100-0.5×100=50,所以线性回归方程为=0.5x+50.当=115时,x=130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.。
2020版高考数学理科一轮复习课件(北师大版):变量间的相关关系、统计案例
y=6.5x+17.5.
课前双基巩固
题组二 常错题
◆索引:混淆相关关系与函数关系致误;利用回归方程分析问题时,将所得的数据误认为是准 确值;忽视回归直线必过样本点的中心.
5.在一次对人体脂肪含量和年龄关系的研究中,研究
人员获得了一组样本数据,并制作成如图 10-69-2 所
到散点图如图 10-69-1②所示.由这两个散点图
可以判断变量 x 与 y
,u 与 v
.(填
正相关、负相关或不相关)
[答案] 负相关 正相关
[解析] 由这两个散点图可以判断, 变量 x 与 y 负相关,u 与 v 正相关.
图 10-69-1
课前双基巩固
3.[教材改编] 某医疗机构通过抽样调查(样本容量
x 16 17 18 19 y 50 34 41 31
由表中数据可得回归直线方程y=bx+a中的b=-5,根据该模
第69讲 UNIT 10
变量间的相关 关系、统计案 例
课前双基巩固│课堂考点探究│教师备用例题
考试说明
1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 (线性回归方程系数公式不要求记忆). 3.了解回归的基本思想、方法及其简单应用. 4.了解独立性检验的思想、方法及其初步应用.
6.设某大学的女生体重 y(单位:kg)与身高 x(单
位:cm)具有线性相关关系,根据一组样本数据
(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为 y=0.85x-85.71,则下列结论中不正确的
是
.(填序号)
变量间的相关关系、统计案例(十年高考)-2024版高中数学《五年高考三年模拟》
11.5变量间的相关关系、统计案例考点一变量间的相关关系1.(2020课标Ⅱ理,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得J1 20x i =60,J120y i =1200,J120(x i -)2=80,J120(y i -)2=9000,J120(x i -)(y i -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.−p(−p−p(−p,2≈1.414.解析(1)由已知得样本平均数=120J120y i =60,从而该地区这种野生动物数量的估计值为60×200=12000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数−p(−p−p(−p===.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.2.(2015课标Ⅰ,理19,文19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w J18(x i-x )2J18(w i-w )2J18(x i-x )(y i-y )J18(w i-w )(y i-y )46.6563 6.8289.8 1.61469108.8表中=,=18 J18.(1)根据散点图判断,y=a+bx 与y=c+d 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x,y 的关系为z=0.2y-x.根据(2)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v=α+βu 的斜率和截距的最小二乘估计分别为^=J1(−p(−pJ1(−p 2,^=-^.解析(1)由散点图可以判断,y=c+d 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w=,先建立y 关于w 的线性回归方程.由于^= J18(−p(−pJ18(−p 2=108.81.6=68,^=-^=563-68×6.8=100.6,所以y 关于w 的线性回归方程为^=100.6+68w,因此y 关于x 的回归方程为^=100.6+68.(6分)(3)(i)由(2)知,当x=49时,年销售量y 的预报值^=100.6+6849=576.6,年利润z 的预报值^=576.6×0.2-49=66.32.(9分)(ii)根据(2)的结果知,年利润z 的预报值^=0.2(100.6+68)-x=-x+13.6+20.12.所以当=13.62=6.8,即x=46.24时,^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.(12分)3.(2015重庆文,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t 12345储蓄存款y(千亿元)567810(1)求y 关于t 的回归方程^=^t+^;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程^=^t+^中,^= J1−nBJ12−n2,^=-^.解析(1)列表计算如下:i t i y i t i2t i y i 11515226412337921448163255102550153655120这里n=5,=1 J1t i =155=3,=1 J1y i =365=7.2.又l tt = J12-n 2=55-5×32=10,l ty = J1t i y i -n =120-5×3×7.2=12,从而^=B B =1210=1.2,^=-^=7.2-1.2×3=3.6,故所求回归方程为^=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为^=1.2×6+3.6=10.8(千亿元).4.(2014课标Ⅱ理,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y 2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:^= J1(−p(−pJ1(−p 2,^=-^.解析(1)由所给数据计算得=17×(1+2+3+4+5+6+7)=4,=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,J17(t i -)2=9+4+1+0+1+4+9=28,J17(t i -)(y i -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,^= J17(−p(−pJ17(−p 2=1428=0.5,^=-^=4.3-0.5×4=2.3,所求回归方程为^=0.5t+2.3.(2)由(1)知,^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.评析本题考查了回归直线方程的求解,注意回归直线恒过点(,)是关键,考查了回归系数^的几何意义.考查了学生的计算求解能力.考点二独立性检验1.(2021全国甲理,17,12分)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=oB−B)2(rp(rp(rp(rp,P(K2≥k)0.0500.0100.001k3.8416.63510.828.解析(1)因为甲机床生产的200件产品中有150件一级品,所以甲机床生产的产品中一级品的频率为150200= 34,因为乙机床生产的200件产品中有120件一级品,所以乙机床生产的产品中一级品的频率为120200=35.(2)根据2×2列联表中的数据,得K2=oB−B)2(rp(rp(rp(rp=400×(150×80−120×50)2270×130×200×200=40039≈10.256,因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.方法总结解决独立性检验问题的一般步骤:2.(2020新高考Ⅰ,19,12分)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2[0,50](50,150](150,475] PM2.5[0,35]32184(35,75]6812(75,115]3710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=oB−B)2(rp(rp(rp(rp,P(K2≥k)0.0500.0100.001k3.8416.63510.828.解析(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(4分) (2)根据抽查数据,可得2×2列联表:SO2[0,150](150,475]PM2.5[0,75]6416(75,115]1010(8分) (3)根据(2)的列联表得K2=100×(64×10−16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.(12分) 3.(2022全国甲文,17,12分,应用性)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:K2=oB−B)2(rp(rp(rp(rp,P(K2≥k)0.1000.0500.010k2.7063.8416.635解析(1)由题意可得A公司长途客车准点的概率P1=240260=1213,B公司长途客车准点的概率P2=210240=78.(2)因为K2=500×(240×30−20×210)2450×50×240×260≈3.205>2.706,所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.。
2020版高考数学(理)新精准大一轮课标通用版能力:第十一章 3 第3讲 变量间的相关关系统计案例 含解析
[基础题组练]1.根据如下样本数据:x 3 4 5 6 7 8 y4.02.50.50.50.40.1得到的线性回归方程为y =b x +a ,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:选B.根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^<0,由样本点(3,4.0)及(4,2.5)可知a ^>0,故选B.2.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D.因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.4.(2019·黑龙江哈尔滨模拟)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:年份(届)2014 2015 2016 2017 学科竞赛获省级一等奖 及以上的学生人数x 51 49 55 57 被清华、北大等世界名校10396108107根据上表可得回归方程y =b x +a 中的b 为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )A .111B .117C .118D .123解析:选B.因为x -=53,y -=103.5,所以a ^=y --b ^x -=103.5-1.35×53=31.95,所以回归直线方程为y ^=1.35x +31.95.当x =63时,代入解得y ^=117,故选B.5.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828下列结论正确的是( A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C .有99%以上的把握认为“生育意愿与城市级别有关” D .有99%以上的把握认为“生育意愿与城市级别无关”解析:选C.因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.6.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2457.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为________.解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:18.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i=21,则实数b 的值为________. 解析:令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t -=∑6i =1x 2i 6=72,y -=∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 答案:579.某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.优秀 非优秀 总计 甲班10(1)(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828解:(1)优秀 非优秀 总计 甲班 10 50 60 乙班 20 30 50 总计3080110(2)K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.10.(2019·福建泉州模拟)某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子停下所需要的距离),无酒状态与酒后状态下的试验数据分别列于下表.表1平均每毫升血液 酒精含量x (毫克) 10 30 50 70 90 平均停车距离y (米)3050607090(1)求a ,b 的值,并估计驾驶员无酒状态下停车距离的平均数; (2)根据最小二乘法,由表2的数据计算y 关于x 的回归方程y ^=b ^x +a ^;(3)该测试团队认为:若驾驶员酒后驾车的平均“停车距离”y 大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?⎝ ⎛⎭⎪⎪⎫附:回归方程y ^=b ^x +a ^中,b ^=∑ni =1x i y i -n x - y -∑ni =1x 2i-n x -2,a ^=y --b ^x - 解:(1)依题意,得610a =50-26,解得a =40,又a +b +26+8+2=100,解得b =24.故驾驶员无酒状态下停车距离的平均数为15×26100+25×40100+35×24100+45×8100+55×2100=27.(2)依题意,可知x -=50,y -=60,b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=10×30+30×50+50×60+70×70+90×90-5×50×60102+302+502+702+902-5×502=710,a ^=y --b ^x -=60-710×50=25, 所以回归直线方程为y ^=0.7x +25.(3)由(1)知,当y >81时,认定驾驶员是“醉驾”, 令y ^>81得0.7x +25>81,解得x >80.所以预测当每毫升血液酒精含量大于80毫克时为“醉驾”.[综合题组练]1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;45岁以下45岁以上总计 支持(2)若以458人参加某项活动.现从这8人中随机抽2人.①抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率; ②记抽到45岁以上的人数为X ,求随机变量X 的分布列及数学期望. 参考数据及公式:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)列联表如下:45岁以下45岁以上总计 支持 35 45 80 不支持 15 5 20 总计5050100因为K 2=100×(35×5-45×15)50×50×80×20=254=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人. ①抽到1人是45岁以下的概率为68=34,抽到1人是45岁以下且另一人是45岁以上的概率为C 16C 12C 28=37. 故所求概率为3734=47.②X =0,1,2.P (X =0)=C 26C 28=1528,P (X =1)=C16C 12C 28=1228=37,P (X =2)=C 22C 28=128.可得随机变量X 的分布列为 故E (X )=1×37+2×128=12.2.(2019·洛阳第一次联考)随着移动互联网的快速发展,基于互联网的共享单车应运而生.某市场研究人员为了了解共享单车运营公司M 的经营状况,对该公司6个月内的市场占有率进行了统计,并绘制了相应的折线图.(1)由折线图可以看出,可用线性回归模型拟合月度市场占有率y 与月份代码x 之间的关系.求y 关于x 的线性回归方程,并预测M 公司2017年4月份(即x =7时)的市场占有率.(2)为进一步扩大市场,公司拟再采购一批单车.现有采购成本分别为1 000元/辆和1 200元/辆的A ,B 两款车型可供选择,按规定每辆单车最多使用4年,但由于多种原因(如骑行频率等)会导致车辆使用年限各不相同.考虑到公司运营的经济效益,该公司决定先对两款车型的单车各100辆进行科学模拟测试,得到两款单车使用年限频数表如下:使用年限车型1年 2年 3年 4年 总计 A 20 35 35 10 100 B10304020100辆单车的使用年限都是整数,且以频率作为每辆单车使用年限的概率.如果你是M 公司的负责人,以每辆单车产生利润的期望值为决策依据,你会选择采购哪款车型?参考公式:回归直线方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x - y -∑ni =1x 2i -n x -2,a ^=y --b ^x -.解:(1)由数据计算可得x -=1+2+3+4+5+66=3.5,y -=11+13+16+15+20+216=16.由公式计算可得,b ^=2,a ^=16-2×3.5=9.所以月度市场占有率y 与月份代码x 之间的线性回归方程为y ^=2x +9. 当x =7时,y ^=2×7+9=23.故M 公司2017年4月份的市场占有率预计为23%.(2)法一:由频率估计概率,每辆A 款车可使用1年,2年,3年和4年的概率分别为0.2,0.35,0.35和0.1,所以每辆A款车产生利润的期望值为E(X)=(500-1 000)×0.2+(1 000-1 000)×0.35+(1 500-1 000)×0.35+(2 000-1 000)×0.1=175(元).由频率估计概率,每辆B款车可使用1年,2年,3年和4年的概率分别为0.1,0.3,0.4和0.2,所以每辆B款车产生利润的期望值为E(Y)=(500-1 200)×0.1+(1 000-1 200)×0.3+(1 500-1 200)×0.4+(2 000-1 200)×0.2=150(元).所以E(X)>E(Y),所以应该采购A款单车.法二:由频率估计概率,每辆A款车可使用1年,2年,3年和4年的概率分别为0.2,0.35,0.35和0.1,所以每辆A款车可使用年限的期望值为E(X)=1×0.2+2×0.35+3×0.35+4×0.1=2.35(年),所以每辆A款车产生利润的期望值为2.35×500-1 000=175(元).由频率估计概率,每辆B款车可使用1年,2年,3年和4年的概率分别为0.1,0.3,0.4和0.2,所以每辆B款车可使用年限的期望值为E(Y)=1×0.1+2×0.3+3×0.4+4×0.2=2.7(年),所以每辆B款车产生利润的期望值为2.7×500-1 200=150(元).所以应采购A款单车.。
2020版高考数学(文)一轮复习变量间的相关关系与统计案例
第三节变量间的相关关系与统计案例 一、基础知识批注——理解深一点1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2, a ^=y -b ^x .回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据. (3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1aba +bx 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.二、常用结论汇总——规律多一点(1)求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ).(2)根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.(3)根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.三、基础小题强化——功底牢一点(一)判一判(对的打“√”,错的打“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.( ) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.( ) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( ) 答案:(1)√ (2)× (3)× (4)√ (二)选一选1.已知变量x 和y 满足关系y ^=-0.1x +1,变量y ^与z 正相关.则下列结论中正确的是( )A .x 与y ^负相关,x 与z 负相关 B .x 与y ^正相关,x 与z 正相关 C .x 与y ^正相关,x 与z 负相关 D .x 与y ^负相关,x 与z 正相关 答案:A2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 答案:A (三)填一填3.已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.x 0 1 3 4 y2.24.34.86.7解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:2.64.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:x2 4 6 8 10y 3 6 7 10 12(1)请根据上表数据在网格纸中绘制散点图;(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示:(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.考法(二) 相关系数及应用[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55, 7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2.[解] 由折线图中数据和参考数据及公式得t =4,∑i=17(t i -t)2=28,∑i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^.2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x /℃ 17 13 8 2 月销售量y /件24334055由表中数据算出线性回归方程y ^=b ^x +a ^中的b ^=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:x 1 2 3 4 5 6 7 y601102103406601 0101 960根据以上数据,绘制了散点图.参考数据:yv∑i =17x i y i∑i =17x i v i100.54其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型.(2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d . ∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式 第二种生产方式(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(2)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题技法]2个明确(1)明确两类主体; (2)明确研究的两个问题 2个关键(1)准确画出2×2列联表; (2)准确求解K 23个步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算K 2的值;(3)查表比较K 2与临界值的大小关系,作统计判断[题组训练]1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:认为作业量大认为作业量不大总计 男生 18 9 27 女生 8 15 23 总计262450已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,P (K 2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.解析:因为K 2=50×(18×15-8×9)226×24×27×23≈5.059>5.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:未发病 发病 总计 未注射疫苗 20 x A 注射疫苗 30 y B 总计5050100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .临界值表:P (K 2≥k 0)0.05 0.01 0.005 0.001 k 03.8416.6357.87910.828解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M , 由已知得P (M )=y +30100=25, 所以y =10,则B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23≈0.67,注射疫苗发病率为1040=14=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.(3)因为K 2=100×(20×10-40×30)260×40×50×50≈16.67>10.828.所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.[课时跟踪检测]A 级——保大分专练1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:购买食品的年支出费用x /万元 2.092.152.502.842.92购买水果和牛奶的年支出费用y /万元1.251.301.501.701.75根据上表可得回归方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )A .1.795万元B .2.555万元C .1.915万元D .1.945万元解析:选A x =15×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =15×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中b ^=0.59,则a ^=y -b ^ x =0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A .从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B .对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大C .两个随机变量相关性越强,则相关系数的绝对值越接近于0D .在回归直线方程y ^=0.4x +12中,当解释变量x 每增加一个单位时,预报变量平均增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k = n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________________.解析:由表中数据得n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i -n t 2=55-5×32=10, ∑i =1nt i y i -n t y =120-5×3×7.2=12.从而b ^=∑i =1nt i y i -n t y∑i =1nt 2i -n t2=1210=1.2, a ^=y -b ^t =7.2-1.2×3=3.6, 故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).B 级——创高分自选1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.临界值表:P(K2≥k0)0.100.050.0250.010k0 2.706 3.841 5.024 6.635解:(1)“导学案”教学方式教学效果更佳.理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多.理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05.理由3:甲班样本数学成绩的中位数为68+722=70,乙班样本数学成绩的中位数为77+782=77.5.(2)2×2列联表如下:甲班乙班总计成绩优良101626成绩不优良10414总计202040由上表数据可得K2=40×(10×4-10×16)220×20×26×14≈3.956>3.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95. 解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x)2 ∑i =15(y i -y )2=625×2=0.9≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行,每周的周总利润为1×3 000-2×1 000=1 000(元).当50≤X≤70时,共有35周,此时有2台光照控制仪运行,每周的周总利润为2×3 000-1×1 000=5 000(元).当30<X<50时,共有5周,此时3台光照控制仪都运行,每周的周总利润为3×3 000=9 000(元).所以过去50周的周总利润的平均值为1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.。
2020年高考文科数学一轮总复习:变量间的相关关系、统计案例
2020年高考文科数学一轮总复习:变量间的相关关系、统计案例第3讲 变量间的相关关系、统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x -·y-∑n i =1x 2i -n x-2,a ^=y --b ^x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200解析:选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D. 又因为x =0时,y >0,所以应选A.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:C .99%D .99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.下面是一个2×2列联表解析:因为a +21=73,所以a =52.又因为a +2=b ,所以b =54. 答案:52、54已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.x 0 1 3 4 解析:由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6. 答案:2.6相关关系的判断(师生共研)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.对变量x,y有观测数据(x i,y i)(i=1,2,3,4,5),得表1;对变量u,v有观测数据(u i,v i)(i=1,2,3,4,5),得表2.由这两个表可以判断()表1:B.变量x与y负相关,u与v正相关C.变量x与y负相关,u与v负相关D.变量x与y正相关,u与v负相关解析:选D.由题可知,随着x的增大,对应的y值增大,其散点图呈上升趋势,故x 与y正相关;随着u的增大,v减小,其散点图呈下降趋势,故u与v负相关.线性回归方程及其应用(师生共研)(2019·石家庄质量检测(二))随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月促销费用x(万元)和产品销量y(万件)的具体数据.数r加以说明;(系数精确到0.001)(2)建立y 关于x 的回归方程y ^=b ^x +a ^(系数精确到0.01),如果该公司计划在9月份实现产品销量超6万件,预测至少需投入促销费用多少万元.(结果精确到0.01)参考数据:∑i =18 (x i -11)(y i -3)=74.5,∑i =18 (x i -11)2=340,∑i =18(y i -3)2=16.5,340≈18.44,16.5≈4.06,其中x i ,y i 分别为第i 个月的促销费用和产品销量,i =1,2,3, (8)参考公式:(i)样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2.(ii)对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a ^=y --b ^x -.【解】 (1)由题可知x -=11,y -=3,将数据代入r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,得r ≈74.518.44×4.06=74.574.866 4≈0.995.因为y 与x 的相关系数近似为0.995,说明y 与x 的线性相关性很强,从而可以用线性回归模型拟合y 与x 的关系.(需要突出“很强”,“一般”或“较弱”不给分)(2)将数据代入b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2,得b ^=74.5340≈0.219,则a ^=y --b ^x -≈3-0.219×11≈0.59.因为0.219≈0.22,所以y 关于x 的回归方程为y ^=0.22x +0.59. 由y ^=0.22x +0.59>6,解得x >24.59, 即至少需要投入促销费用24.59万元.线性回归分析问题的类型及解题方法(1)求线性回归方程①利用公式,求出回归系数b ^,a ^;②待定系数法:利用回归直线过样本点的中心求系数. (2)样本数据的相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2∑n i =1(y i -y -)2,反映样本数据的相关程度,|r |越大,则相关性越强.(2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x-2,a ^=y --b ^x -.解:(1)散点图如图所示:(2)依题意x -=15×(2+4+6+8+10)=6,y -=15×(3+6+7+10+12)=7.6,∑i =15x i 2=4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=272-5×6×7.6220-5×62=4440=1.1,所以a ^=7.6-1.1×6=1. 所以线性回归方程y ^=1.1x +1, 故当x =20时,y =23.独立性检验(师生共研)(2018·高考全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),【解】 (1)由茎叶图知m =79+812=80.列联表如下:(2)由于K 2=40(15×15-5×5)20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.(1)独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较K 2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题; ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K 2.(2019·广东七校联考)某淘宝店经过对“十一”七天假期的消费情况进行统计,发现在金额不超过1 000元的消费者中男女之比约为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表.女性消费情况:购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据以上统计数据填写如下2×2列联表,并回答能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d解:(1)女性消费的平均数为180×(100×5+300×10+500×15+700×47+900×3)=582.5(元).男性消费的平均数为120×(100×2+300×3+500×10+700×3+900×2)=500(元).虽然女性消费者的平均消费水平较高,但“女网购达人”的平均消费水平(为712元)低于“男网购达人”的平均消费水平为(780元),所以平均消费水平高的一方“网购达人”出手不一定更阔绰.(2)2×2列联表如下表:K 2=100×(50×15-30×5)55×45×80×20≈9.091.因为9.091>7.879,所以在犯错误的概率不超过0.005的前提下可以认为“是否为‘网购达人’与性别有关”.[基础题组练]1.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右解析:选D.由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:选C.根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.3.(2019·惠州市第二次调研)某商场为了了解毛衣的月销量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为________件.解析:由题中数据,得x -=10,y -=38,回归直线y ^=b ^x +a ^过点(x -,y -),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46.答案:464.有甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:利用列联表的独立性检验估计,则成绩与班级________(填“有关”或“无关”). 解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系. 由公式得K 2的观测值k =90×(10×38-7×35)217×73×45×45≈0.653<2.706,所以成绩与班级无关.答案:无关5.(2019·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)(2)K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.6.(2019·广州市高中综合测试(一))某地1~10岁男童年龄x i (单位:岁)与身高的中位数y i (单位:cm)(i =1,2,…,10)如下表:(2)某同学认为y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y ^=-0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -.解:(1)b ^=∑10i =1(x i -x -)(y i -y -)∑10i =1(x i -x -)2=566.8582.50≈6.871≈6.87, a ^=y --b ^x -=112.45-6.871×5.5≈74.66, 所以y 关于x 的线性回归方程为y ^=6.87x +74.66.(2)若回归方程为y ^=6.87x +74.66,当x =11时,y ^=150.23. 若回归方程为y ^=-0.30x 2+10.17x +68.07,当x =11时,y =143.64. |143.64-145.3|=1.66<|150.23-145.3|=4.93,所以回归方程y ^=-0.30x 2+10.17x +68.07对该地11岁男童身高中位数的拟合效果更好.[综合题组练]1.(2019·陕西省质量检测(一))基于移动互联网技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验.某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:占有率y 与月份代码x 之间的关系;(2)求y 关于x 的线性回归方程,并预测该公司2019年2月份的市场占有率.参考数据:∑6i =1(x i -x -)2=17.5,∑6i =1(x i -x -)(y i -y -)=35, 1 330≈36.5. 参考公式:相关系数r =;回归直线方程为y ^=b ^x +a ^,其中b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a ^=y --b ^x -.解:(1)作出散点图如下.y -=11+13+16+15+20+216=16,所以 i =16(y i -y -)2=76.所以r ==3517.5×76=351 330≈3536.5≈0.96.所以两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率y 与月份代码x 之间的关系.(2)b ^=∑6i =1 (x i -x -)(y i -y -)∑6i =1 (x i -x -)2=3517.5=2, x -=1+2+3+4+5+66=3.5,所以a ^=y --b ^x -=16-2×3.5=9.所以y 关于x 的线性回归方程为y ^=2x +9.2019年2月的月份代码为x =7,所以y ^=2×7+9=23, 所以估计该公司2019年2月份的市场占有率为23%.2.(综合型)(2019·郑州第一次质量预测)近年来郑州空气污染较为严重,现随机抽取一年(365天)内100天的空气中PM2.5指数的检测数据,统计结果如下:[0,100]内时对企业没有造成经济损失;当x 在区间(100,300]内时对企业造成的经济损失成直线模型(当PM2.5指数为150时造成的经济损失为500元,当PM2.5指数为200时,造成的经济损失为700元);当PM2.5指数大于300时造成的经济损失为2 000元.(1)试写出S (x )的表达式;(2)试估计在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元的概率; (3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)依题意,可得S (x )=⎩⎪⎨⎪⎧0,x ∈[0,100]4x -100,x ∈(100,300].2 000,x ∈(300,+∞)(2)设“在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元”为事件A , 由500<S ≤900,得150<x ≤250,频数为39,P (A )=39100.(3)根据题中数据得到如下2×2列联表:K 2的观测值k =100×(63×8-22×7)85×15×30×70≈4.575>3.841,所以有95%的把握认为空气重度污染与供暖有关.。
2020高三数学(人教版)一轮复习 变量的相关性与统计案例
线性回线方程与回归分析
(1)线性回线方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线的 距__离__的__平__方__和__最小的方法叫作最小二乘法.
②线性回归方程:方程 y=bx+a 是两个具有线性相关关系
的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方
当 r<0 时,表明两个变量负相关. |r|越接近 1,表明两个变量之间的线性相关程度越高; |r|越接近 0,表明两个变量之间的线性相关程度越低.
当 r=0 时,称两个变量 线性不相关 .
1.下列两个变量之间的关系是相关关系的是(
)
(A)正方体的棱长与体积
(B)单位面积的产量为常数时,土地面积与总产量
程,其中 a,b 是待定数.
n
n
(xi x)( yi y)
xi yi nx y
bˆ i1 n
aˆ
y
( xi
i 1
bˆx.
x)2
i1 n
xi2
2
nx
,
i 1
(2)回归分析 ①定义:对具有相关关系 的两个变量进行统计分析的一种常 用方法.
总计
a+b c+d n=a+b+c+d
(2)χ2的大小与变量A、B关联程度
①当χ2≤2.706时,可认为变量A,B是 没有关联的 ;
②当χ2>2.706时,有90%的把握判定变量A,B有关联;
③当χ2>3.841时,有95%的把握判定变量A,B有关联;
④当χ2>6.635时,有99%的把握判定变量A,B有关联. (3)独立性检验的一般步骤
2020年高考山东版高考理科数学 12.5 变量间的相关关系与统计案例
茎叶图、独 立性检验
中位数
线性回归分析 二次函数的最值
★★☆
2017 课标Ⅱ,18
频率分布直方 互斥事件的概率
图、独立性检验
分析解读 1.理解用回归分析处理变量相关关系的数学方法,理解最小二乘法.2.了解独立性检验的基本 思想,认识统计方法在决策中的作用.3.了解回归的基本思想方法及其简单应用.4.回归分析与独立性检验 在今后的高考中分值可能会提高.本节在高考中主要以选择题、解答题的形式呈现,分值约为 5 分或 12 分, 小题为容易题,解答题属中档题.
设备改造前样本频率分布直方图
备战 2020 高考
设备改造后样本的频数分布表
质量指标值 [15,20) [20,25) [25,30) [30,35) [35,40)
频数
4
36
96
28
32
[40,45] 4
(1)完成下面的 2×2 列联表,并判断是否有 99%的把握认为该企业生产的这种产品的质量指标值与设备改造
^ 54 - 4 × 2.5 × 5
∴������= 30 - 4 × 2.52 =0.8,
^
∴������=5-2.5×0.8=3,
^
∴������=0.8x+3,
^
当 x=8 时,������=0.8×8+3=9.4.
∴估计第 3 年 8 月份的利润为 9.4 百万元.
备战 2020 高考
方法 2 独立性检验
A.68 B.67 C.65 D.64
备战 2020 高考
答案 A
^
2.(2017 豫南九校 2 月联考,13)已知下表所示数据的回归直线方程为������=4x+242,则实数 a= . x23456 y 251 254 257 a 266
2020版高考数学新增分大一轮新高考第十一章 11.3 变量间的相关关系、统计案例 Word版含解析
§变量间的相关关系、统计案例最新考纲.通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.通过对典型案例的探究,了解独立性检验的基本思想、方法及其初步应用.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及简单应用..两个变量的线性相关()正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.()负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.()线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线..回归方程()最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.()回归方程方程=+是两个具有线性相关关系的变量的一组数据(,),(,),…,(,)的回归方程,其中,是待定参数..回归分析()定义:对具有相关关系的两个变量进行统计分析的一种常用方法.()样本点的中心对于一组具有线性相关关系的数据(,),(,),…,(,),其中(,)称为样本点的中心.()相关系数当>时,表明两个变量正相关;当<时,表明两个变量负相关.的绝对值越接近于,表明两个变量的线性相关性越强.的绝对值越接近于,表明两个变量之间几乎不存在线性相关关系.通常大于时,认为两个变量有很强的线性相关性..独立性检验()分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.()列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量和,它们的可能取值分别为{,}和{,},其样本频数列联表(称为×列联表)为×列联表总计++总计+++++构造一个随机变量=,其中=+++为样本容量.()独立性检验利用随机变量来判断“两个分类变量有关系”的方法称为独立性检验.概念方法微思考.变量的相关关系与变量的函数关系有什么区别?提示相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系..如何判断两个变量间的线性相关关系?提示散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断..独立性检验的基本步骤是什么?提示列出×列联表,计算值,根据临界值表得出结论..线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示()不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈。
2020年高考数学一轮总复习:变量间的相关关系与统计案例
2020年高考数学一轮总复习:变量间的相关关系与统计案例[基础梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点分布在从左下角到右上角的区域内;②负相关:从散点图上看,点分布在从左上角到右下角的区域内.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫作回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫作最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2=∑ni=1x i y i-nx y∑ni=1x2i-nx2,a^=y-b^x.其中,b^是回归方程的斜率,a^是在y轴上的截距.(4)样本相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:(2)K2统计量k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量).1.两种关系——函数关系与相关关系(1)区别①函数关系是一种确定性关系,相关关系是一种非确定性关系.②函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系.(2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.2.回归直线方程的两个关注点(1)样本数据点不一定在回归直线上,回归直线必过(x,y)点.(2)在回归直线方程y^=b^x+a^中,b^>0时,两个变量呈正相关关系;b^<0时,两个变量呈负相关关系.3.回归分析的意义回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.在线性回归模型y=bx+a+e中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量.4.独立性检验利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断标准:统计学研究表明:当K2≤2.706时,认为没有充分证据显示X与Y有关系;当K2>3.841时,有95%的把握说X与Y有关;当K 2>6.635时,有99%的把握说X 与Y 有关; 当K 2>10.828时,有99.9%的把握说X 与Y 有关. [四基自测]1.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:则y 对x 的线性回归直线方程为( ) A.y ^=2.3x -0.7 B.y ^=2.3x +0.7 C.y ^=0.7x -2.3 D.y ^=0.7x +2.3 答案:C2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( )A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200 答案:A3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________. 答案:5%4.为了研究某班学生的脚长x (cm)与身高y (cm)的关系,从该班中抽取10名学生,其脚长x 和身高y 的散点图如图所示,则y 与x 间________(有、没有)相关关系.答案:有5.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =1-13x 上,则R 2=________. 答案:1考点一 相关关系的判断◄考基础——练透 [例1] (1)下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费. A .①②⑤ B .①③⑥ C .④⑤⑥D .②⑥解析:①人的身高与视力无任何关系,故①不存在相关关系;②曲线上的点与该点的坐标之间,存在一一对应的关系,故②不存在相关关系; ③某农田的水稻产量与施肥量,两变量有关系,但不确定,故存在相关关系; ④某同学考试成绩与复习时间的投入量,两变量有关系,但不确定,故存在相关关系;⑤匀速行驶的汽车的行驶距离与时间,它们之间的关系是函数关系,故不存在相关关系;⑥商品的销售额与广告费,两变量有关系,但不确定,故存在相关关系. 答案:A(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A1.利用散点图判断两个变量是否有相关关系是比较简便的方法.(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.(2)如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(4)若呈圆形区域且分布较乱,则不具备相关性.2.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.(2019·镇江模拟)如图所示,有A,B,C,D,E5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D 组数据. 答案:D考点二 回归分析◄考能力——知法[例2] (1)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166D .170解析:x =22.5,y =160,a ^=160-4×22.5=70,则回归直线方程为y ^=4x +70,所以该学生的身高为4×24+70=166. 答案:C(2)(2019·泰安模拟)某商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:其中i =1,2,3,4,5,6,7.①以每天进店人数为横轴,每天商品销售件数为纵轴,画出散点图.②求回归直线方程.(结果保留到小数点后两位)(参考数据:∑7i =1x i y i =3 245,x =25,y =15.43,∑7i =1x 2i =5 075,7(x )2=4 375,7x y =2 700)③预测进店人数为80人时,商品销售的件数.(结果保留整数) 解析:①散点图如图所示.②因为∑7i =1x i y i =3 245,x =25,y =15.43, ∑7i =1x 2i =5 075,7(x )2=4 375,7x y =2 700. 所以b^=∑7i =1x i y i-7x y ∑7i =1x 2i-7(x )2≈0.78, a ^=y -b ^x =-4.07,所以回归直线方程是y ^=0.78x -4.07.③进店人数为80人时,商品销售的件数y =0.78×80-4.07≈58(件).线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b^,a ^. ②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^.1.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________.解析:n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2.又∑ni =1t 2i -nt 2=55-5×32=10, ∑ni =1t i y i-nt y =120-5×3×7.2=12. 从而b ^=∑ni =1t i y i -nt y ∑n i =1t 2i -nt 2=1210=1.2,a^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.62.(2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:^y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:^y=99+17.5 t(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解析:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为^y=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为^y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型^y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①看到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)考点三独立性检验◄考基础——练透[例3](1)(2019·南昌模拟)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.附表:由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是() A.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”C.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”D.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关”解析:由题意K2的观测值≈9.616>6.635,所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.答案:C(2)(2019·运城模拟)某科考试题中有甲、乙两道不同类型的选做题,且每道题满分为10分,每位考生需从中任选一题作答.①A同学将自己在该考试中历次的选题及得分情况统计如下,选甲题8次,得分分别为:6,10,10,6,6,10,6,10选乙题10次,得分分别为:5,10,9,8,9,8,10,8,5,8。
2020届高三数学(天津专用)一轮复习考点规范练53 变量间的相关关系、统计案例 (1)
考点规范练53 变量间的相关关系、统计案例一、基础巩固1.根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量整体呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K 2的观测值为6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系,因此在100个吸烟的人中必有99个患有肺病B.由独立性检验知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系时,我们说某人吸烟,则他有99%的可能患肺病C.若在统计量中求出在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确3.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计两科成绩得到如图所示的散点图(两坐标轴单位长度相同),用回归直线y ^=b ^x+a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A.线性相关关系较强,b 的值为3.25B.线性相关关系较强,b 的值为0.83C.线性相关关系较强,b 的值为-0.87D.线性相关关系太弱,无研究价值 4.两个随机变量x ,y 的取值如下表:若x ,y 具有线性相关关系,且y ^=b ^x+2.6,则下列四个结论错误的是( ) A.x 与y 是正相关B.当x=6时,y 的估计值为8.3C.x 每增加一个单位,y 大约增加0.95个单位D.样本点(3,4.8)的残差为0.565.“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:则下面的正确结论是( )A.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关” 6.若两个分类变量X 和Y 的2×2列联表如下:则在犯错误的概率不超过 的前提下认为X 与Y 之间有关系.7.某公司未来对一种新产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y ^=-4x+a ^,当产品销量为76件时,产品定价大致为 元. 8.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i=110x i =80,∑i=110y i =20,∑i=110x i y i =184,∑i=110x i 2=720.(1)求家庭的月储蓄y ^对月收入x 的线性回归方程y ^=b ^x+a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.二、能力提升9.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:附表:参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.001的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.001的前提下,认为“爱好该项运动与性别无关” 10.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y ^=b ^x+a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( ) A.b ^>b',a ^>a' B.b ^>b',a ^<a' C.b ^<b',a ^>a'D.b ^<b',a ^<a'11.在2019年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x+40,且m+n=20,则其中的n= .三、高考预测12.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填2×2列联表,并判断是否在犯错误的概率不超过0.05的前提下认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽取2人.①抽到1人是45岁以下时,求抽到的另一人是45岁及以上的概率;②记抽到45岁及以上的人数为X,求随机变量X的分布列及数学期望.参考数据:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.考点规范练53 变量间的相关关系、统计案例1.D 解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A 选项正确;2007年二氧化硫排放量较2006年降低了很多,B 选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C 选项正确; 自2006年以来我国二氧化硫年排放量与年份负相关,D 选项错误,故选D .2.C 解析 独立性检验只表明两个分类变量的相关程度,而不是事件是否发生的概率估计.3.B 解析 依题意,注意到题中的相关的点均集中在某条直线的附近,且该直线的斜率小于1,结合各选项知,应选B.4.D 解析 由表格中的数据可知选项A 正确;∵x =14(0+1+3+4)=2,y =14(2.2+4.3+4.8+6.7)=4.5,∴4.5=2b ^+2.6,即b ^=0.95,∴y ^=0.95x+2.6.当x=6时,y ^=0.95×6+2.6=8.3,故选项B 正确; 由y ^=0.95x ^+2.6可知选项C 正确;当x=3时,y ^=0.95×3+2.6=5.45,残差是5.45-4.8=0.65,故选项D 错误. 5.A 解析 由2×2列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得K 2的观测值k=100×(675-300)255×45×75×25≈3.030. 因为2.706<3.030,所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”,故选A.6.0.001 解析 K 2的观测值k=70×(5×10-40×15)245×25×20×50≈18.822>10.828,所以在犯错误的概率不超过0.001的前提下认为X 与Y 之间有关系. 7.7.5 解析 ∵x =6.5,y =80,∴a ^=80-(-4)×6.5,解得a ^=106,∴回归方程为y ^=-4x+106.当y=76时,76=-4x+106,∴x=7.5,故答案为7.5.8.解 (1)由题意知n=10,x =1n ∑i=1n x i =8010=8,y =1n ∑i=1ny i =2010=2,又∑i=1nx i 2-n x 2=720-10×82=80, ∑i=1nx i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y −b ^x =2-0.3×8=-0.4,故所求线性回归方程为y ^=0.3x-0.4.(2)由于变量y 的值随x 值的增加而增加(b ^=0.3>0),故x 与y 之间是正相关. (3)将x=7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元). 9.A 解析 依题意, 由K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),得K 2的观测值k=110×(40×30-20×20)260×50×60×50≈7.8.因为P (7.8≥6.635)=0.010,所以在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”,故选A.10.C 解析 由题意可知, b'=2,a'=-2,b ^=∑i=16(x i -x )(y i -y )∑i=16(x i -x )2=57.a ^=y −b ^x =136−57×72=-13, 故b ^<b',a ^>a',故选C. 11.10 解析 x =9+9.5+m+10.5+115=8+m5,y =11+n+8+6+55=6+n5,回归直线一定经过样本点中心(x,y ), 即6+n 5=-3.2(8+m5)+40,即3.2m+n=42. 又因为m+n=20, 即{3.2m +n =42,m +n =20, 解得{m =10,n =10.12.解 (1)由频率分布直方图,得调查的100人中45岁以下的人数为100×0.5=50,故45岁及以上的人数为50,可得2×2列联表如下:因为K 2=100×(35×5-50×50×80×20=4=6.25>3.841, 所以在犯错误的概率不超过0.05的前提下可以认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁及以上的应抽2人.①抽到1人是45岁以下的概率为6=3,抽到1人是45岁以下且另一人是45岁及以上的概率为C 61C 21C 82=37.故所求概率为3734=47.②由题知,X 的可能取值为0,1,2.则P (X=0)=C 62C 82=1528, P (X=1)=C 61C 21C 82=37,P (X=2)=C 22C 82=128.所以随机变量X 的分布列为X12P 152837128故E(X)=0×15+1×3+2×1=1.。
2020届高考数学一轮复习第10章统计与统计案例第49节变量间的相关关系、统计案例课件文
2.(2018 山东临沂一中月考)在两个变量 y 与 x 的回归模型中, 分别选择了四个不同的模型,它们的 R2 如下,其中拟合效果最好的 为( )
A.模型①的相关指数为 0.976 B.模型②的相关指数为 0.776 C.模型③的相关指数为 0.076 D.模型④的相关指数为 0.351
【答案】A
3.为了评价某个电视栏目的改革效果,在改革前后分别从居民 点抽取了 100 位居民进行调查,经过计算 K2≈0.99,根据这一数据分 析,下列说法正确的是( )
A.有 99%的人认为该电视栏目优秀 B.有 99%的人认为该电视栏目是否优秀与改革有关系 C.有 99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系
2.回归方程
(1)最小二乘法 使得样本数据点到它的样本回归线 距离的平方和最小 的方法
叫做最小二乘法.
(2)回归方程
^^
^
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,
^^
y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.
b^ =i∑=n1
(4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值 越大.( √ )
(5)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成 绩有关,某人数学成绩优秀,则他有 99%的可能物理成绩优秀.( × )
2.(2018 保定模拟)已知变量 x 和 y 满足关系 y=-0.1x+1,变量 y 与 z 正相关.下列结论中正确的是( )
^
^
(3)线性回归方程中:b>0 时,正相关;b<0 时,负相关.
1.(2018 广东湛江模拟)下列四个图各反映了两个变量的某种关 系,其中可以看作具有较强线性相关关系的是 ( )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
z= ln c+ kx.因为 z= 0. 3x+4,所以 ln c= 4,所以 c= e4.
二、高考小题
7.(2017 ·山东高考 ) 为了研究某班学生的脚长 x( 单位:厘米 ) 和身高 y( 单位:厘米 ) 的关系,从该班随机抽
取 10 名学生,根据测量数据的散点图可以看出
y 与 x 之间有线性相关关系.设其回归直线方程为
i=1
10i =1
10
1 10
∵ yi = 1600,∴
i=1
y
=
10
i
=
yi
1
=
160
.
又b^= 4,∴ a^= y - b^ x = 160-4×22. 5= 70.
∴回归直线方程为 y^= 4x+ 70. 将 x= 24 代入上式得 y^=4×24+ 70= 166. 故选 C. 8.(2017 ·全国卷Ⅲ ) 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2016 年 12 月期间月接待游客量 ( 单位:万人 ) 的数据,绘制了下面的折线图.
2014 年 1 月至
根据该折线图,下列结论错误的是 (
)
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7, 8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳
答案 A
解析 对于选项 A,由图易知月接待游客量每年 7, 8 月份明显高于 12 月份,故 A 错;对于选项 B,观察折线
A, B 两变量有更强的线性相关性.故选 D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有
99%以上的把握认为这个结论是成立的,则下列说法中正确的是
()
A. 100 个吸烟者中至少有 99 人患肺癌
B. 1 个人吸烟,那么这人有 99%的概率患有肺癌
1, 2,…, n) ,用最小二乘法建立的回归方程为 y^= 0. 85x- 85. 71,则下列结论中不正确的是 (
)
A. y 与 x 具有正的线性相关关系
B.回归直线过样本点的中心 ( -x , -y )
C.若该大学某女生身高增加 1 cm,则其体重约增加 0. 85 kg
D.若该大学某女生身高为 170 cm,则可断定其体重必为 58. 79 kg
A, B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数
甲
乙
丙
丁
0. 8 0. 7 0. 6 0. 8
r
2
8
9
5
m 106 115 124 103
1 / 13
则试验结果体现 A,B 两变量有更强的线性相关性的是 ( )
A.甲 B .乙 C .丙 D .丁
答案 D
解析 r 越大, m 越小,线性相关性越强,丁同学的试验结果体现
6.以模型 y= cekx 去拟合一组数据时,为了求出回归方程,设
z= ln y,其变换后得到线性回归方程
z=
0. 3x+ 4,则 析
因为
y
=
c
kx
e
,所以两边取对数,可得
ln
y= ln (
cekx) =ln
c+ ln e
kx
= ln
c+kx,令
z= ln
y,可得
图的变化趋势可知年接待游客量逐年增加,故
B 正确;对于选项 C, D,由图可知显然正确.故选 A.
三、模拟小题
9.(2018 ·合肥质检 ) 某公司一种型号的产品近期销售情况如下表:
月份 ( x) 销售额 y/ 万元
2
3
4
5
6
15. 1 16. 3 17. 0 17. 2 18.4
答案 C
解析 选项 D 显然错误.因为回归方程必过样本中心点,把点
(4 , 5) 代入选项 A,B, C 检验,满足的只有选
项 C.故选 C.
2.在一组样本数据 ( x1, y1) , ( x2, y2) ,…, ( xn, yn)( n≥2, x1, x2,…, xn 不全相等 ) 的散点图中,若所有样
^ y
=
b^ x+
a^.已知
10
10
xi = 225, y i = 1600, b^ =4.该班某学生的脚长为 24,据此估计其身高为 (
)
i =1
i =1
A. 160 B . 163 C . 166 D . 170 答案 C
2 / 13
解析
10
1 10
∵ xi = 225,∴ x =
xi = 22. 5.
2020 届高考数学理一轮 考点测试 变量间的相关关系与统计案
例
高考概览 高考在本考点的常考题型为选择、填空与解答题,分值为
5分, 12分,中、低等难度
考纲研读
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
答案 D
解析 由于线性回归方程中 x 的系数为 0.85,因此 y 与 x 具有正的线性相关关系,故 A 正确.又线性回归
方程必过样本点的中心 ( x , y ) ,因此 B 正确.由线性回归方程中系数的意义知, x 每增加 1 cm,其体重约增加
0. 85 kg ,故 C 正确.当某女生的身高为 170 cm 时,其体重估计值是 58. 79 kg ,而不是具体值,因此 D 不正确.
3.了解独立性检验的基本思想、方法及其简单应用
4.了解回归分析的基本思想、方法及其简单应用
一、基础小题
1.已知回归直线的斜率的估计值是 1.23,样本点的中心为 (4 , 5) ,则回归直线的方程是 (
)
A. y^= 1. 23x+ 4 B . y^ = 1. 23x+ 5
C. y^= 1. 23x+ 0. 08 D . y^= 0. 08x+1. 23
C.在 100 个吸烟者中一定有患肺癌的人
D.在 100 个吸烟者中可能一个患肺癌的人也没有
答案 D
解析 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.故选
D.
5.设某大学的女生体重 y( 单位: kg) 与身高 x( 单位: cm)具有线性相关关系,根据一组样本数据 ( xi , yi )( i =
1 本点 ( xi , yi )( i = 1, 2,…, n) 都在直线 y= x+ 1 上,则这组样本数据的样本相关系数为 ( )
2
1 A.- 1 B . 0 C .2 D . 1
答案 D
解析 由题设知,这组样本数据完全正相关,故其相关系数为
1.故选 D.
3.甲、乙、丙、丁四位同学各自对 r 与残差平方和 m,如下表: