高考数学一轮复习(共节).线性回归方程及应用
2025高考数学一轮复习-9.1.2-线性回归方程【课件】
(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出). 根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概 率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千 件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料 成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选 择100元还是90元,请说明理由.
因为 y =3860=45,
8
uiyi-8 u y
i=1
所以b^ =
8
u2i -8 u 2
i=1
=1831..45- 3-8×8×0.03.411×545=06.611=100,
则a^ = y -b^ u =45-100×0.34=11, 所以y^ =11+100u, 所以 y 关于 x 的回归方程为y^=11+10x0.
三、非线性回归问题
知识梳理
解非线性回归分析问题的一般步骤 有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据 画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图 象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量 进行变换,把问题转化为线性回归分析问题,使之得到解决.
n
v2i -n
v
2
i=1
i=1
解 ①当产品单价为100元,设订单数为m千件,因为签订9千件订单的 概率为0.8,签订10千件订单的概率为0.2, 所以E(m)=9×0.8+10×0.2=9.2, 所以企业利润为 100×9.2-9.2×190.20+21=626.8(千元). ②当产品单价为90元,设订单数为n千件, 因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E(n)=10×0.3+11×0.7=10.7,
高考数学复习典型题型专题讲解与练习94 一元线性回归模型及其应用
高考数学复习典型题型专题讲解与练习 专题94 一元线性回归模型及其应用题型一 求回归直线方程例1.(2022·甘肃·临泽县第一中学高二阶段练习(文))已知变量x 和y 正相关,则由如下表所示的观测数据算得的线性回归方程为【答案】B 【解析】 【分析】先求出样本的中心点的坐标,再代入选项检验即得正确答案. 【详解】 由题得12345543210,10x -----+++++==0.92 3.1 3.9 5.1 4.15 2.9 2.10.9010y -----+++++==,所以样本中心点的坐标为(0,0),代入选项检验得选B. 故答案为B 【点睛】(1)本题主要考查回归方程直线的性质,意在考查学生对该知识的掌握水平.(2) (,)x y 称为样本点的中心,回归直线过样本点的中心.这是回归方程的一个重要考点,要理解掌握并灵活运用.规律方法 求线性回归方程的一般步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)计算x -,y -,∑n i =1x 2i ,∑ni =1x i y i .(5)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑n i =1x i y i -n x - y -∑n i =1x 2i -nx -2,a ^=y --b ^x -.(6)写出线性回归方程y ^=b ^x +a ^.例2.(2019·新疆·乌鲁木齐市第二十中学高二期中)随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y (万元)有如表的数据资料:(1) 在给出的坐标系中作出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa 、ˆb ; (3)估计使用年限为12年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆn i i i n ii x y nxy bx nx==-=-∑∑, ˆˆay bx =-.) 【答案】(1)见解析; (2) 1.23b =0.08a =; (3)估计使用12年时,支出总费用是14.84万元.. 【解析】 【分析】(1)在坐标系中描点可得散点图;(2)代入公式可求;(3)根据方程代入x=12可得费用. 【详解】(1)散点图如图,由图知y 与x 间有线性相关关系.(2)∵4x =,5y =,51112.3i i i x y ==∑,52190i i x ==∑,∴2112.354512.31.2390541ˆ0b-⨯⨯===-⨯;5 1.2340.ˆ0ˆˆ8ay bx =-=-⨯=. (3)线性回归直线方程是 1.2308ˆ.0yx =+, 当12x =(年)时, 1.23120.0814.8ˆ4y =⨯+=(万元).即估计使用12年时,支出总费用是14.84万元. 【点睛】本题主要考查回归直线在生活中的应用,明确所给公式中各个模块的含义,代入公式可求.题目难度不大,侧重于应用性.例3.(2022·全国·高二单元测试)有一位同学家里开了一个小卖部,他为了研究气温对热茶销售的影响,经过统计,得到一个卖出热茶杯数与当天气温的对比表如下: 气温x/℃ -5 0 4 7 12 15 19 23 27 31 36热茶销售杯数y/杯 156 150 132 128 130 116 104 89 93 76 54(1)画出散点图;(2)你能从散点图中发现气温与热茶的销售杯数之间关系的一般规律吗? (3)如果近似成线性关系的话,请画出一条直线来近似地表示这种线性关系; (4)试求出回归直线方程;(5)利用(4)的回归方程,若某天的气温是2 ℃,预测这一天卖出热茶的杯数.【答案】(1)见解析;(2)见解析;(3)见解析;(4) 2.354774ˆ1.y x =-+;(5)143【解析】 【详解】分析:(1)以x 轴表示气温,以y 轴表示热茶杯数,可作散点图;(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少;(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系; (4)由题中所给的数据求得回归方程即可;(5)结合回归方程的预测作用和(4)中的结论整理计算即可求得最终结果. 详解:(1)以x 轴表示气温,以y 轴表示热茶杯数,可作散点图如下图所示.(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此热茶的销售杯数与气温是相关的,气温越高,卖出去的热茶杯数越少.(3)从散点图可以看出,这些点大致分布在一条直线附近,根据不同的标准可以画出不同的直线来近似地表示这种线性相关关系,如图所示.(4)因112i i 1169x ,x 411∑===为335,11i 11228y ,xiyi 1411∑===778. 所2169122814778-111111b 1694335-1111⨯⨯=⎛⎫⨯ ⎪⎝⎭^以≈-2.35, 1228169a 2.35147.74.1111=+⨯=^所以回归直线方程y 2.35x 147.74.=-+^为(5)由(4)的方程,当x=2,y 4.70147.74143.04,=-+=^时因此若某天的气温为2 ℃,这一天大约可以卖出143杯热茶.点睛:(1)正确运用计算^a ,^b 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.题型二 利用回归直线方程对总体进行估计例4.(2022·江西抚州·高二期末(理))保护生态环境,提倡环保出行,节约资源和保护环境,某地区从2016年开始大力提倡新能源汽车,每年抽样1000汽车调查,得到新能源汽车y 辆与年份代码x 年的数据如下表:(2)假设该地区2022年共有30万辆汽车,用样本估计总体来预测该地区2022年有多少新能源汽车.参考公式:回归方程y bx a =+斜率和截距的最小二乘估计公式分别为1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-.【答案】(1)219y x =+ (2)27900 【解析】【分析】(1)第一步分别算第x ,y 的平均值,第二步利用1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-即可得到方程.(2)由第一问的结果,带入方程即可算出预估的结果. (1)3x =,305070+100+110=725y ++=,1222222221130+250+370+4100+5110-5372==211+2+3+4+5-53ni ii ni i x y nx yb x nx==-⨯⨯⨯⨯⨯⨯⨯=⨯-∑∑,因为a y bx =-,所以72213=9a =-⨯,所以219y x =+(2)预测该地区2022年抽样1000汽车调查中新能源汽车数,当7x =时,217993y =⨯+=,该地区2022年共有30万辆汽车,所以新能源汽车93300000279001000N =⨯=. 规律方法 本题已知y 与x 是线性相关关系,所以可求出回归方程进行估计和预测.否则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使求出回归方程也毫无意义.例5.(2022·陕西·西安中学高二期中(理))偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科班平均分的差叫某科偏差(实际成绩-平均分=偏差).在某次考试成绩统计中,某老师为了对学生数学偏差x (单位:分)与物理偏差y (单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:(1)若x 与y 之间具有线性相关关系,求y 关于x 的线性回归方程;(2)若该次考试该数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.(下面是参考数据和参考公式)()()()()()()()()()818222222222120 6.515 3.513 3.53 1.520.550.510 2.518 3.532420151332510181256i ii ii x yx===⨯+⨯+⨯+⨯+⨯+-⨯-+-⨯-+-⨯-==+++++-+-+-=∑∑,回归直线方程为ˆˆˆy bx a =+,其中()()()1122211ˆˆˆnni i iii i nni ii i x y nxy x x y y b x nx x x ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑【答案】(1)11ˆ42yx =+ (2)94 【解析】 【分析】(1)根据最小二乘法即可求出y 关于x 的线性回归方程;(2)设该同学的物理成绩为ω,则物理偏差为91.5ω-,数学偏差为8,根据回归方程可知,1191.5842ω-=⨯+,即可解出.(1)由题意可得,20151332(5)(10)(18)582x +++++-+-+-==,()()()6.5 3.5 3.5 1.50.50.5 2.5 3.5988y +++++-+-+-==, 1222159324ˆ81285412568()2ni ii nii x y nxybxnx ==--⨯⨯===-⨯-∑∑,所以9151ˆˆ8422a y bx =-=-⨯=,故线性回归方程为11ˆ42yx =+. (2)由题意,设该同学的物理成绩为ω,则物理偏差为:91.5ω-. 而数学偏差为128-120=8,∴1191.5842ω-=⨯+,解得94ω=, 所以,可以预测这位同学的物理成绩为94.例6.(2022·广东揭阳·高二期末)从2018年1月1日起,广东、等18个保监局所辖地区将纳入商业车险改革试点范围,其中最大的变化是上一年的出险次数决定了下一年的保费倍率,具体关系如下表:有评估机构从以往购买了车险的车辆中随机抽取1000 辆调查,得到一年中出险次数的频数分布如下(并用相应频率估计车辆每年出险次数的概率):(1)求某车在两年中出险次数不超过2次的概率;(2)经验表明新车商业车险保费与购车价格有较强的线性相关关系,估计其回归直线方程为:1201600y x =+.(其中x (万元)表示购车价格,y (元)表示商业车险保费).李先生2016 年1月购买一辆价值20万元的新车.根据以上信息,试估计该车辆在2017 年1月续保时应缴交的保费,并分析车险新政是否总体上减轻了车主负担.(假设车辆下一年与上一年都购买相同的商业车险产品进行续保) 【答案】(1)0.8744;(2)3846元,减轻了车主负担. 【解析】 【分析】(1)利用互斥事件的概率公式列式计算即得;(2)求出下一年车险保费倍率X 的分布列,并求出期望,即可得出车主下一年的保费,并根据期望是否大于1得出结论. 【详解】(1)设某车在两年中出险次数为N , 则(2)(0)(1)(2)P N P N P N P N ≤==+=+=5005005003805001003803802210001000100010001000100010001000=⋅+⋅⋅+⋅⋅+⋅0.8744=, 所以某车在两年中出险次数不超过2次的概率为0.8744; (2)设该车辆2017 年的保费倍率为X ,则X 为随机变量,X 的取值为0.85 ,1,1.25 ,1.5 ,1.75 , 2, X 的分布列为:下一年保费倍率X 的期望为:()0.850.510.38 1.250.1 1.50.015 1.750.00420.0010.9615+E X =⨯⨯+⨯+⨯+⨯+⨯=,该车辆估计2017年应缴保费为:()1202016000.96153846⨯+⨯=元, 因0.96151<,则车险新政总体上减轻了车主负担.题型三 线性回归分析例7.(2022·山东·日照青山学校高二期末)共享单车进驻城市,绿色出行引领时尚,某市有统计数据显示,某站点6天的使用单车用户的数据如下,用两种模型①y bx a =+;②y a =分别进行拟合,得到相应的回归方程1ˆ10.7 3.4yx =+,2ˆ22.8y =,进行残差分析得到如表所示的残差值及一些统计量的值:(1)残差值的绝对值之和越小说明模型拟合效果越好,根据残差,比较模型①,②的拟合效果,应选择哪一个模型?并说明理由;(2)残差绝对值大于3的数据认为是异常数据,需要剔除,剔除异常数据后,重新求出(1)中所选模型的回归方程.(参考公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-) 【答案】(1)该选模型①,理由见解析 (2)111y x =+ 【解析】 【分析】(1)求出两模型的残差值的绝对值之和进行比较即可,(2)先剔除异常数据,然后利用回归方程的公式结合已知数据进行计算即可 (1)应该选择模型①模型①的残差值的绝对值之和为1.1+2.8+7.5+1.2+1.9+0.4=14.9 模型②的残差值的绝对值之和为0.3+5.4+4.3+3.2+1.6+3.8=18.6. ∵14.9<18.6,∴模型①的拟合效果较好,应该选模型①.(2)剔除异常数据,即剔除第3天的数据后,得()1 3.563 3.65x =⨯-=,()14164340.65y =⨯-=, 511049343920i ii x y==-⨯=∑,522191382i i x ==-=∑.∴51522159205 3.640.6189.2ˆ11825 3.6 3.617.25i ii ii x y xybxx ==--⨯⨯====-⨯⨯-∑∑, ˆˆ40.611 3.61ay bx =-=-⨯=. ∴y 关于x 的回归方程为111y x =+.规律方法 (1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.(2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. ②残差平方和法:残差平方和∑ni =1 (y i -y ^i )2越小,模型的拟合效果越好. ③决定系数法:R 2=1-∑ni =1(y i -y ^i )2∑ni =1 (y i -y -)2越接近1,表明回归的效果越好. 例8.(2022·河南·南阳中学高三阶段练习(文))2022年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.yx =+,模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7y x a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益;(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附: 刻画回归效果的相关指数()()22121ˆ1niii nii y yR y y ==-=--∑∑,且当2R 越大时,回归方程的拟合效果越好.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-4.1≈ 【答案】(1)对A 型材料进行应用改造的投入为17亿元时的直接收益为72.93(亿元); (2)投入17亿元比投入20亿元时收益小. 【解析】 【分析】(1)根据模型和相关系数公式计算比较即可,然后将x =17代入较好的模型即可预测直接收益;(2)根据回归方程过样本中心点(,x y )求出ˆa,再令x =20算出预测的直接收益,即可算出投入20亿元时的总收益,与(1)中的投入17亿元的直接收益比较即可. (1)对于模型①,对应的15222740485460=387y ++++++=,故对应的()772221171750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为21.314.472.9ˆ3y=≈(亿元).另解:本题也可以根据相关系数的公式,直接比较79.13和20.2的大小,从而说明模型②拟合精度更高、更可靠. (2) 当17x >时, 后五组的2122232425235x ++++==,68.56867.5+66+65675y ++==,由最小二乘法可得()ˆ670.72383.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1+574.172.93-⨯+=>,故投入17亿元比投入20亿元时收益小.例9.(2022·陕西·高新一中高三阶段练习(理))2022年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造.根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.yx =+,模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7y x a =-+.(1)根据表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益; (2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附:刻画回归效果的相关指数()()22121ˆ1ni i i nii y yR y y ==-=--∑∑,且当2R 越大时,回归方程的拟合效果越好 4.1≈.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-. 【答案】(1)2221R R >,模型②拟合精度更高、更可靠,收益为72.93;(2)投入17亿元比投入20亿元时收益小. 【解析】 【分析】(1)根据题意求得()1221i i y y =-∑,再根据2R 的计算公式,即可分别求得2212,R R ,则可判断不同模型的拟合度;(2)根据题意,求得回归直线方程,即可代值计算,求得预测值. (1)对于模型①,对应的15222740485460387y ++++++==,故对应的()12222111271750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为ˆ21.314.472.93y=≈. (2) 当17x >时, 后五组的212223242568.56867.5666523,6755x y ++++++++====,由最小二乘法可得67(0.7)238ˆ 3.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1574.172.93-⨯++=>,故投入17亿元比投入20亿元时收益小.题型四 残差分析与相关指数的应用例10.(2022·河北·藁城新冀明中学高二阶段练习)假定产品产量x (千件)与单位成本y (元/件)之间存在相关关系.数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归直线方程,对于单位成本70元/件时,预报产量为多少; (3)计算各组残差,并计算残差平方和; 【答案】(1)散点图见解析;(2)ˆ 1.8277.37yx =-+,4.050千件; (3)各组残差见解析,残差平方和为3.8182. 【解析】 【分析】(1)根据表中数据描点即可求解;(2)根据表中数据,求出x ,y ,612i i x =∑,61i i i x y =∑,代入公式求出线性回归方程的系数ˆb,进而求出ˆa即可得回归直线方程; (3)根据残差的定义及残差平方和公式即可求解. (1)解:散点图如下:(2) 解:因为2343453.56x +++++==,737271736968716y +++++==,61279ii x==∑,611481i ii x y==∑,所以6162221614816 3.571ˆ 1.82796 3.56i i i i ix yx ybx x==-⋅-⨯⨯==≈--⨯-∑∑,ˆˆ71 1.82 3.577.37ay bx =-=+⨯=, 所以回归直线方程为ˆ 1.8277.37yx =-+,令70y =,则70 1.8277.37x =-+,解得 4.050x ≈, 所以单位成本70元/件时,预报产量约为4.050千件. (3)解:各组残差分别为:()11173 1.822ˆ77.370.73ˆey y =--⨯+=-=-, ()22272 1.82377.370.0ˆˆ9ey y =--⨯+==-, ()33371 1.82477.370.9ˆˆ1ey y =--⨯+==-, ()44473 1.82377.37 1.0ˆˆ9ey y =--⨯+==-, ()55569 1.824ˆ77.37 1.09ˆey y =--⨯+=-=-, ()66668 1.825ˆ77.370.27ˆey y =--⨯+=-=-, 残差的平方和为()()()2222621220.730.090.91 1.09 1.090.27 3.2ˆ818ii i y y=--+++--==++∑. 规律方法 (1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.例11.(2022·河北·大名县第一中学高二阶段练习)随着中美贸易战的不断升级,越来越多的国内科技巨头加大了科技研发投入的力度.华为技术有限公司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x (亿元)与科技升级直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①:ˆ 4.111.8yx =+;模型②:ˆ14.4y=;当17x >时,确定y 与x 满足的线性回归方程为0.7y x a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①、②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对“麒麟”手机芯片科技升级的投入为17亿元时的直接收益. (附:刻画回归效果的相关指数,()()22121ˆ1niii nii y yR y y ==-=--∑∑ 4.1≈)(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小.附:用最小二乘法求线性回归方程ˆˆˆybx a =+的系数:()()()1122211ˆˆˆ,nni iii i i nniii i x ynx yxx y y bay bx xnx xx ====-⋅--===---∑∑∑∑ 【答案】(1)回归模型②,72.93(亿元);(2)投入20亿元时,公司的实际收益更大. 【解析】 【分析】(1)根据表中数据比较21R 和22R 可判断拟合效果,进而求出预测值; (2)求出,x y ,进而求出a ,得出回归方程得求出结果. 【详解】解:(1)由表格中的数据,182.479.2>,∴()()772211182.479.2iii i y y y y ==>--∑∑,∴()()772211182.479.211iit t y y y y ==-<---∑∑可见模型①的相关指数21R 小于模型②的相关指数22R . 所以回归模型②的拟合效果更好.所以当17x =亿元时,科技升级直接收益的预测值为ˆ21.314.421.3 4.114.472.93y=≈⨯-=(亿元). (2)当17x >时,由已知可得2122232425235x ++++==,68.56867.5666667.25y ++++==.∴0.767.20.72383.3a y x =+=+⨯=.∴当17x >时,y 与x 满足的线性回归方程为ˆ0.783.3yx =-+. 当20x时,科技升级直接收益的预测值为ˆ0.72083.369.3y=-⨯+=亿元.当20>亿元,x亿元时,实际收益的预测值为69.3574.3+=亿元72.93∴技术升级投入20亿元时,公司的实际收益更大.题型五非线性回归分析例12.(2022·全国·模拟预测)某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图,判断在推广期内,y a bx=+与x=⋅(c,d均为大于零的常数)哪一个y c d适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及题干中表格内的数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.参考数据:其中lg i i v y =,7117i i v v ==∑.参考公式:对于一组数据)()()(1122,,,,,,n n u v u v u v ⋅⋅⋅,其回归直线v u αβ=+的斜率和截距的最小二乘估计公式分别为1221ˆni i i nii uv nuvunuβ==-=-∑∑,ˆav u β=-. (3)推广期结束后,为更好地服务乘客,车队随机调查了100人次的乘车支付方式,得到如下结果: 已知该线路公交车票价2元,使用现金支付的乘客无优惠,使用公交卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据调查结果发现:使用扫码支付的乘客中有5人次乘客享受7折优惠,有10人次乘客享受8折优惠,有15人次乘客享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据所给数据,以事件发生的频率作为相应事件发生的概率,在不考虑其他因素的条件下,按照上述收费标准,试估计该车队一辆车一年的总收入.【答案】(1)x y c d =⋅适宜(2))(0.25ˆ 3.4710xy=⨯,活动推出第8天使用扫码支付的人次为347(3)199200元 【解析】 【分析】(1)根据散点图即可判断回归方程类型;(2)根据题意中的数据,利用最小二乘法求出ˆb ,进而求出ˆa,即可得出回归方程,令8x =求解即可;(3)根据题意分别求出享受7折优惠、8折优惠、9折优惠的收入,进而加起来即可. (1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型. (2)∵x y c d =⋅,∴两边同时取常用对数,得lg lg lg y c x d =+. 设lg a c =,lg b d =,则v a bx =+.∵4x =, 1.54v =,721140i i x ==∑,∴7172221750.1274 1.547ˆ0.2514074287i i i i i x v xvbx x==--⨯⨯====-⨯-∑∑,ˆˆ0.54av bx =-=,∴ˆ0.540.25v x =+,∴)(0.540.250.25ˆ10 3.4710xx y +==⨯,把8x =代入上式,得0.540.258 2.5420.54ˆ10101010347y+⨯===⨯=, ∴y 关于x 的回归方程为)(0.25ˆ 3.4710xy=⨯,活动推出第8天使用扫码支付的人次为347. (3)由题意,可知一个月中使用现金的乘客有1000人次,共收入100022000⨯=(元);使用公交卡的乘客有6000人次,共收入6000 1.69600⨯=(元).使用扫码支付的乘客有3000人次,其中,享受7折优惠的有500人次,共收入500 1.4700⨯=(元),享受8折优惠的有1000人次,共收入1000 1.61600⨯=(元),享受9折优惠的有1500人次,共收入1500 1.82700⨯=(元),故该车队一辆车一个月的收入为200096007001600270016600++++=(元).∴估计该车队一辆车一年的收入为1660012199200⨯=(元).规律方法求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.例13.(2022·黑龙江·哈尔滨市第六中学校高二期末)区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表注:参考数据5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =).附:样本()(),1,2,,i i x y i n =⋅⋅⋅的最小二乘法估计公式为1221ni ii nii x ynxy b xnx==-=-∑∑,a y bx =-(1)根据表中数据判断,y a bx =+与e dx y c =(其中e 2.71828=⋅⋅⋅,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由)(2)根据(1)的结果,求y 关于x 的回归方程;(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率. 【答案】(1)dx y ce = (2)0.75170.0591x y e -= (3)310【解析】【分析】(1)根据表中数据判断y 关于x 的回归方程为非线性方程;(2)令ln z y =,将y 关于x 的非线性关系,转化为z 关于x 的线性关系,利用最小二乘法求解;(3)利用相互独立事件的概率相乘求求解; (1)根据表中数据e dx y c =适宜预测未来几年我国区块链企业总数量. (2)e dx y c =,ln ln y dx c ∴=+,令ln z y =,则ln z dx c =+,5110.980 2.19655ii zz ====∑,5112345355ii xx =++++===∑由公式计算可知122140.457310.980.7517,5545ni ii n i i x znxzb x nx==-⨯==--=-∑∑ˆln 2.1960.751730.0591c z dx =-=-⨯=- ln 0.75170.0591y x ∴=-,即ln 0.75170.0591y x ∴=-,即0.75170.0591x y e -=所以y 关于x 的回归方程为0.75170.0591x y e -= (3)设甲公司获得“优胜公司”为A 事件. 则11123112113232352253210()P A ⨯+⨯⨯⨯+⨯⨯⨯==所以甲公司获得“优胜公司”的概率为310.例14.(2022·湖南·长沙一中高三阶段练习)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1-9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:现用by ax=+作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过50天训练后,每天解题的平均速度y约为多少秒?(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为23,已知在前3局中小明胜2局,小红胜1局.若每局不存在平局,请你估计小明最终赢得比赛的概率.参考数据(其中1iitx =)。
高三回归方程知识点汇总
高三回归方程知识点汇总回归方程是数学中重要的数学模型,用于描述变量之间的关系和进行预测。
在高三阶段,学生需要掌握回归分析的基本知识和技巧。
本文将对高三数学中回归方程的知识点进行全面汇总,并提供一些实例和应用场景供参考。
一、线性回归方程1.1 线性关系与线性回归方程线性关系指的是两个变量之间存在直线关系,可用一条直线来近似表示。
线性回归方程是线性关系的数学表达式,常用形式为 y = kx + b,其中 k 表示直线的斜率,b 表示直线在 y 轴上的截距。
1.2 最小二乘法最小二乘法是确定线性回归方程中斜率 k 和截距 b 的常用方法。
它通过最小化观测值与回归直线的拟合误差平方和,找到最佳的拟合直线。
1.3 直线拟合与误差分析直线拟合是利用线性回归方程将观测数据点拟合到一条直线上。
误差分析可以评估回归方程的拟合优度,常用指标有决定系数R²、平均绝对误差 MAE 等。
二、非线性回归方程2.1 非线性关系与非线性回归方程非线性关系指的是两个变量之间的关系不能用一条直线来近似表示,而是需要使用曲线或其他非线性形式进行描述。
非线性回归方程可以是多项式方程、指数方程、对数方程等形式。
2.2 最小二乘法拟合非线性回归方程与线性回归相似,最小二乘法也可以用于拟合非线性回归方程。
但由于非线性方程的复杂性,通常需要借助计算工具进行求解,例如利用数学软件进行非线性拟合。
2.3 模型选择和拟合优度检验在选择非线性回归模型时,需要综合考虑模型的拟合优度和实际应用的需求。
常见的方法包括比较不同模型的决定系数 R²、检验残差分布等。
三、应用实例3.1 人口增长模型以某地区的人口数据为例,通过拟合合适的回归方程,可以预测未来的人口增长趋势,为城市规划和社会发展提供决策依据。
3.2 经济增长模型回归方程可以用于分析经济数据,例如拟合国民生产总值与时间的关系,预测未来的经济增长态势,为政府制定经济政策提供参考。
3.3 科学实验数据分析在科学研究中,常常需要利用回归方程对实验数据进行拟合和分析。
高三数学一轮复习课件:线性回归方程
课堂互动讲练
(3)若由线性回归方程得到的估计数据与 所选出的检验数据的误差均不超过2人, 则认为得到的线性回归方程是理想的, 试问该小组在(2)中所得线性回归方程是 否理想?
课堂互动讲练
解:(1)设“抽到相邻2个月的数据”为事件 A.因为从6组数据中选取2组数据共有15 种情况,每种情况都是等可能出现的, 其中抽到相邻两个月的数据的情况有5种, 所以P(A)= = .4分 1 5 15 3
,a= y -b x .其中
a,b是由观察值按最小二乘法求得 的估计值 ,也叫 回归系数 .
三基能力强化
1.下列关系中,是相关关系的为 ________. ①学生的学习态度与学习成绩之间的关 系; ②教师的执教水平与学生的学习成绩之 间的关系;
三基能力强化
③学生的身高与学生的学习成绩之间的 关系; ④家庭的经济条件与学生的学习成绩之 间的关系. 答案:①②
(1)判断家庭平均收入与月平均生活支出是否相关? (2)若二者线性相关,求回归直线方程.
课堂互动讲练
【思路点拨】 利用散点图观察 收入x和支出y是否线性相关,若呈线性相 关关系,可利用公式来求回归系数,然 后获得回归直线方程.
课堂互动讲练
【解】 (1)作出散点图:
课堂互动讲练
观察发现各个数据对应的点都在一条 直线附近,所以二者呈线性相关关系. (2) = (0.8+1.1+1.3+1.5+1.5+ 1 1.8+2.0+ 2.2 +2.4+2.8)=1.74, x 10 = (0.7+1.0+1.2+1.0+1.3+1.5 1 +1.3+ 1.7 +2.0+2.5)=1.42, y 10
课堂互动讲练
i= 1 i i
∑ x y =0.8×0.7+1.1×1.0+1.3×1.2+
高考数学一轮复习专题05 回归直线方程(解析版)
概率与统计 专题五:回归直线方程一、知识储备 1.两个变量线性相关(1)散点图:将样本中n 个数据点(,)i i x y (i =1,2,…,n )描在平面直角坐标系中得到的图形. (2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据11(,)x y ,22(,)x y ,33(,)xy (,)n n x y .②设所求回归方程为y bx a =+,其中,a b 是待定参数. ③由最小二乘法得1122211()(),()nnii i ii i nniii i xx y y x ynx yb a y bx xx xnx ====---===---∑∑∑∑其中,b 是回归方程的斜率,a 是截距. 二、例题讲解1.(2022·哈尔滨市呼兰区第一中学校高三模拟预测(文))十三届全国人大三次会议表决通过了《中华人民共和国民法典》这部法律自2021年1月1日起施行,某市相关部门进行法律宣传,某宣传小分队记录了前5周每周普及宣传的人数与时间的数据,得到下表:(1)若可用线性回归模型拟合y 与x 的关系,求y 关于x 的线性回归方程; (2)利用(1)的回归方程,预测该宣传小分队第7周普及宣传(民法典)的人数.参考公式及数据:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆa y bx=-,()()51430i ii x x y y =--=∑.【答案】(1)4341y x =+;(2)预测该宣传小分队第7周普及宣传《民法典》的人数为342. 【分析】(1)求出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出y 关于x 的线性回归方程;(2)将7x =代入回归直线方程,可得出结果. 【详解】(1)由题意得()11234535x =++++=,()1901201702102601705y =++++=, ()()()()()()52222221132333435310i i x x=-=-+-+-+-+-=∑,所以()()()51521430ˆ4310iii i i x x y y bx x==--===-∑∑,所以ˆ17043341a y bx=-=-⨯=, 所以线性回归方程为4341y x =+;(2)由(1)知4341y x =+,令7x =,解得43741342y =⨯+=, 故预测该宣传小分队第7周普及宣传《民法典》的人数为342.2.(2022·合肥市第六中学高三模拟预测(文))树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(1)求y 关于x 的线性回归方程;(2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y bx a =+,其中()()()1122211n ni iiii i b nnixii i x y nxy x x y y xnx x ==-==---==--∑∑∑∑,a y bx =-.【答案】(1)ˆ 20.9y x =+;(2)12【分析】(1)由最小二乘法先求样本点中心(),x y ,再代入公式求ˆ2b=,即可得到答案; (2)先计算6棵A 树木中残差为零的有3棵,占比为3162=,即可得到答案;【详解】(1)由1(0.10.20.30.40.50.6)0.356x =⨯+++++=,1(1.1 1.3 1.6 1.5 2.0 2.1) 1.66y =⨯+++++=,610.1 1.10.2 1.30.3 1.60.4 1.50.5 2.00.6 2.1 3.71i ii x y==⨯+⨯+⨯+⨯+⨯+⨯=∑,6222222210.10.20.30.40.50.60.91ii x==+++++=∑,有62261216 3.7160.35 1.6ˆ20.9160.356i ii ii x yxybxx ==--⨯⨯===-⨯-∑∑,ˆˆ 1.6020.350.9ay bx =-=-⨯=, 故y 关于x 的回归方程为:ˆ 20.9yx =+. (2)当0.1x =时,ˆ20.10.9 1.1y=⨯+=,残差为1.1 1.10-=, 当0.2x =时,ˆ20.20.9 1.3y=⨯+=,残差为1.3 1.30-=, 当0.3x =时,ˆ20.30.9 1.5y=⨯+=,残差为1.6 1.50.1-=, 当0.4x =时,ˆ20.40.9 1.7y=⨯+=,残差为1.5 1.70.2-=-, 当0.5x =时,ˆ20.50.9 1.9y=⨯+=,残差为2.0 1.90.1-=, 当0.6x =时,ˆ20.60.9 2.1y=⨯+=,残差为2.1 2.10-=, 由这6棵A 树木中残差为零的有3棵,占比为3162=,∴这棵树木“长势标准”的概率为12.1.(2022·湖南师大附中高三月考)今年五月,某医院健康管理中心为了调查成年人体内某种自身免疫力指标,从在本院体检的人群中随机抽取了100人,按其免疫力指标分成如下五组:(10,20],(20,30],(30,40],(40,50],(50,60],其频率分布直方图如图1所示.今年六月,某医药研究所研发了一种疫苗,对提高该免疫力有显著效果.经临床检测,将自身免疫力指标比较低的成年人分为五组,各组分别按不同剂量注射疫苗后,其免疫力指标y与疫苗注射量x个单位具有相关关系,样本数据的散点图如图2所示.(1)健管中心从自身免疫力指标在(40,60]内的样本中随机抽取3人调查其饮食习惯,记X表示这3人中免疫力指标在(40,50]内的人数,求X的分布列和数学期望;(2)由于大剂量注射疫苗会对身体产生一定的副作用,医学部门设定:自身免疫力指标较低的成年人注射疫苗后,其免疫力指标不应超过普通成年人群自身免疫力指标平均值的3倍.以健管中心抽取的100人作为普通人群的样本,据此估计疫苗注射量不应超过多少个单位.附:对于一组样本数据()()()1122,,,,,,n nx y x y x y⋅⋅⋅,其回归直线ˆy bx a=+的斜率和截距的最小二乘估计值分别为()()()1122211,nniii ii i nniii i x x yy x ynxyb a y bx x x xnx====---===---∑∑∑∑. 【答案】(1)分布列见解析,125;(2)疫苗注射量不应超过80个单位. 【分析】(1)根据频率分布直方图分别求出自身免疫力指标在(40,50]内和在(50,60]内的人数,写出X 的可能取值,求出对应概率,即可写出分布列,再根据期望公式即可求得数学期望;(2)根据最小二乘法求得回归方程,然后求出免疫力指标的平均值,根据题意列出不等式,从而可得答案. 【详解】解:(1)由直方图知,自身免疫力指标在(40,50]内的人数为0.008101008⨯⨯=,在(50,60]内的人数为0.002101002⨯⨯=,则X 的可能取值为1,2,3.其中122130828282233101010177(1),(2),(3)151515C C C C C C P X P X P X C C C =========.所以X 的分布列为()177121231515155E X =⨯+⨯+⨯=. (2)由散点图知,5组样本数据(,)x y 分别为(10,30),(30,50),(50,60),(70,70),(90,90),且x 与y 具有线性相关关系. 因为50,60x y ==,则22222210303050506070709090550607103050709055010b ⨯+⨯+⨯+⨯+⨯-⨯⨯==++++-⨯,760502510a =-⨯=,所以回归直线方程为ˆ0.725yx =+. 由直方图知,免疫力指标的平均值为26402482152535455527100100100100100⨯+⨯+⨯+⨯+⨯=. 由27381ˆy≤⨯=,得0.72581x +≤,解得80x ≤. 据此估计,疫苗注射量不应超过80个单位.2.(2022·安徽师范大学附属中学(理))根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)的一个样本,5天内每天新接种疫苗的情况,如下统计表:(1)建立y 关于x 的线性回归方程;(2)假设全村共计2000名居民(均未接种过疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为:1221ˆi ii nii x ynxybxnx π==-=-∑∑,ˆˆay bx =-. 【答案】(1)222955y x =+;(2)7. 【分析】(1)根据公式求线性回归方程即可; (2)根据线性回归方程可设222955n a n ,求出67,S S ,与200080%1600⨯=比较即可求解. 【详解】 (1)1234535x ++++==,1015192328195y ++++==,则51522222222110305792140531922ˆ12345535i ii ii x y nxybxnx ==-++++-⨯⨯===++++-⨯-∑∑,222919355ˆa =-⨯=,故y 关于x 的线性回归方程222955y x =+. (2)设222955na n ,数列{}n a 的前n 项和为n S ,易知数列{}n a 是等差数列, 则()12222922291155558225n n n a a S n n n n⎛⎫+++ ⎪+⎝⎭=⋅=⋅=+, 因为6127.2S ,7163.8S , 所以6101272S =,7101638S =200080%1600⨯=(人),所以预测该村80%居民接种新冠疫苗需要7天.3.(2022·九龙坡·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:其中1,2,3,i =,时间变量i x 对应的机动车纯增数据为i y ,且通过数据分析得到时间变量x 与对应的机动车纯增数量y (单位:万辆)具有线性相关关系.(1)求机动车纯增数量y (单位:万辆)关于时间变量x 的回归方程,并预测2025~2030年间该市机动车纯增数量的值;附:回归直线方程y bx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211n ni iiii i nniii i x y nx y x x y y b xnxx x ====-⋅--==--∑∑∑∑;a y bx =-.(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的22⨯列联表: 根据上面的列联表判断,能否有95%的把握认为“对限行的意见与是否拥有私家车”有关. 附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.【答案】(1) 5.7 5.1y x =-,2025~2030年间,机动车纯增数量的值约为34.8万辆;(2)没有95%的把握认为“对限行的意见与是否拥有私家车有关”. 【分析】(1)根据最小二乘法求得线性回归方程,再求估计值即可; (2)根据列联表求得卡方观测值,再对照表即可得解. 【详解】 (1)由所以3x =,12y =,51132639415527237i ii x y=⨯+⨯+⨯+=⨯+⨯=∑.()12222222212375312575.755451234553ni ii ni i x y nx yb x nx==-⋅-⨯⨯====-++++-⨯-∑∑. 因为y bx a =+过点(),x y ,所以 5.7y x a =+,5.1a =-,所以 5.7 5.1y x =-.2025~2030年时,7x =,所以 5.77 5.134.8y =⨯-=, 所以2025~2030年间,机动车纯增数量的值约为34.8万辆. (2)根据列联表,由()()()()()22n ad bc K a b c d a c b d -=++++得观测值为()2220025 3.12510085251575100160084K ⨯⨯-⨯⨯=⨯⨯==,3.125 3.841<,所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.4.(2022·贵州贵阳·高三月考(理))据贵州省气候中心报,2022年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm ,其余均在50mmm 以上,局地超过100mm.若我省某地区2022年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x (x ∈N ,且09x ≤≤)表示是否下雨:当[]()0,x k k Z ∈∈时表示该地区下雨,当[]1,9x k ∈+时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下: 332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1)求出k 的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2021年该地区端午节当天降雨量(单位:mm )如表:经研究表明:从2016年到2021年,该地区端午节有降雨的年份的降雨量y 与年份t 具有线性相关关系,求回归直线方程y bt a =+.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:()()()1122211nniii ii i nniii i tty y t y nt yb tttnt====---==--∑∑∑∑,a y bt =-.【答案】(1)4, 25;(2)814955y t =-+,935mm .【分析】(1)由于该地区每一天下雨的概率均为50%,所以150%10k +=,从而可求出k 的值,在所给的20组数据中找出有两天小于等于k 的数,从而利用古典概型的概率公式可求出概率,(2)直接利用所给的数据和公式求出回归直线方程。
高考数学专题复习:一元线性回归模型及其应用
高考数学专题复习:一元线性回归模型及其应用一、单选题1.下表是某产品1~4月份销量(单位:百件)的一组数据,分析后可知,销量y 与月份)(17x x <<之间有较好的线性相关关系,其线性回归方程是0.6ˆˆ=-+yx a ,则预测5月份的销量是( )A .2B .1.5C .2.5D .1.62.某工厂为节能降耗,经过技术改造后,生产某种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)的对应数据如下表:根据上表提供的数据,求得y 关于x 的线性回归方程为0.35y bx =+,则b 的值为( ) A .0.3B .0.7C .3D .73.某种产品的投入x (单位:万元)与收入y (单位:万元)之间的关系如表:若已知y 与x 的线性回归方程为 6.517.5y x =+,那么当投入为4万元时,收入的随机误差为( )万元.(随机误差=真实值-预测值)A .-4.5B .4.5C .3.5D .-3.5 4.已知两个变量x 和y 之间的一组数据:则y 关于x 的线性回归方程一定经过点( )A .(3,6)B .(4,6.6)C .(4,7)D .(6,8.5)5.如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说法错误的是( )A .解释变量和预报变量是一次函数关系B .相关指数21R =C .残差平方和为0D .相关系数1r =6.下表是某厂1-4月份用水量(单位:百吨)的一组数据:经分析可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是ˆˆ0.7yx a =-+,则ˆa等于( ) A .5.1B .5.25C .5.3D .5.47.两个变量有线性相关关系且正相关,则回归直线方程中,ˆˆˆybx a =+的系数ˆb ( ) A .ˆ0b > B .ˆ0b < C .ˆ0b = D .ˆ1b=- 8.某单位做了一项统计,了解办公楼用电量y (度)与气温x (C )之间的关系,随机统计了四个工作日用电量与当天平均气温,并制作了对照表: C ) 用电量(度)由表中数据得到回归方程2y x a ∧∧=-+,则当平均气温气温为3-(C )时,预测用电量为( ) A .64度B .66度C .68度D .70度9.某校课题小组为了研究高一学生数学成绩和物理成绩的线性相关关系,在高一第二学期期中考试后随机抽取了5名同学(记为1,2,3,4,5)数学成绩和物理成绩(满分均为100分)如表所示:则y 关于x 的线性回归方程为( )A .1y x =-B .1y x =+ B .C .1382y x =+D .78y =10.已知两个线性相关变量x 与y 的统计数据如下表:由最小二乘法得到的回归直线方程是ˆ0.70.35y x =+,则表中实数m 的值为( ) A .4B .4.5C .4.55D .5.511.某同学为了了解自己的数学成绩与物理成绩的关系,列出了过去五次考试的数学与物理成绩,并作出了对照表:根据上表,利用最小二乘法得到它们的回归方程为 1.8y x a =+,据此模型预测,当该同学的数学成绩为95时,该同学物理成绩的估计值为( ) A .92B .95C .97D .10012.变量x ,y 之间有如下对应数据:已知变量y 对x 呈线性相关关系,且回归方程为ˆˆ1.4yx a =-+,则ˆa 的值是( ) A .3 B .3.5 C .17 D .17.5二、填空题13.具有线性相关关系的变量x ,y ,满足一组数据如表所示:若y 与x 的回归直线方程为3ˆ32yx =-,则m 的值是________. 14.已知关于x ,y 的一组数据:根据表中这五组数据得到的线性回归直线方程为ˆ0.280.16yx =+,则0.28n m -的值为________.15.已知经验回归方程ˆ21yx =-,则该方程在样本(3,4)处的残差为________. 16.对两个变量x ,y 进行回归分析. ①残差的平方和越小,模型的拟合效果越好;②相关系数r 的绝对值接近于0,两个随机变量的线性相关性越强;③在经验回归方程ˆ0.30.8yx =+中,当解释变量x 每增加1个单位时,相应变量y 平均增加0.3个单位;④某人研究儿子身高()cm y 与父亲身高()cm x 的关系,得到经验回归方程ˆ0.83928.957yx =+,当176cm x =时,ˆ177cm y ≈,即:如果一个父亲的身高为176cm ,则儿子的升高一定为177cm . 则以上结论中正确的序号为__________. 三、解答题17.某农场对单位面积化肥用量x (kg )和水稻相应产量Y (kg )的关系作了统计,得到数据如下:如果x 与Y 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为32kg 时水稻的产量大约是多少?(精确到0.01kg )18.一商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:其中1i =,2,3,4,5,6,7(参考数据:13245i i i x y ==∑,25x =,15.43y =,215075i i x ==∑)(1)求线性回归方程;(结果保留到小数点后两位)参考公式:1221ˆni ii nii x y nxybxnx==-=-∑∑,ˆay bx =- (2)预测进店人数为80人时,商品销售的件数.(结果保留整数)19.某个体服装店经营某种服装,在某周内每天获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系如下表所示.已知21280ii x ==∑,2145309ii y ==∑,13487i i i x y ==∑.(1)求x ,y ; (2)画出散点图;(3)求纯利y 与每天销售件数x 之间的回归直线方程(结果保留两位小数); (4)若该周内某天销售服装20件,估计可获纯利多少元.(精确到1元)注:1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-.20.某公司生产的一款新产品在2021年前5个月的销售情况如下表所示: (1)利用所给数据求月销售额y (万元)和月份x 之间的回归直线方程; (2)利用(1)中所求的方程预测该公司这款产品上半年的总销售额.参考公式:回归直线方程ˆˆˆybx a =+中,1221ˆˆˆ,ni ii nii x y nxyb a y bx xnx ==-==--∑∑,ˆˆa y bx=-. 参考数据:51772i i i x y ==∑,52155i i x ==∑.参考答案1.A 【分析】由数表求出月份x 与销量y 的平均数即得样本点的中心,进而求出ˆa,再经计算而得. 【详解】 由数表得1234 4.543 2.52.5,3.544x y ++++++====, 由此得样本点的中心(2.5,3.5),并且该点在回归直线0.6ˆˆ=-+yx a 上, 则有ˆ3.50.6 2.5a=-⨯+,解得ˆ5a =,即回归直线方程为0.65ˆy x =-+, 当5x =时,0.6552ˆy=-⨯+=, 所以预测5月份的销量是2. 故选:A 2.B【分析】先求出x ,y ,由线性回归方程为0.35y bx =+必过点(),x y 求解即可 【详解】34564.54x +++==, 2.534 4.53.54y +++==,由线性回归方程为0.35y bx =+必过点(),x y , 则3.5 4.50.35b =⨯+,解得0.7b =, 故选:B 3.D【分析】直接利用线性回归方程求出4x =时的估计值,再求误差即可 【详解】取4x =,得 6.517.543.5y x =+=,∴当投入为4万元时,随机误差4043.5 3.5=-=-, 故选:D . 4.B【分析】利用回归直线过样本中心点(),x y 即可求解 【详解】 因为1345745x ++++==,45789 6.65y ++++==, 所以线性回归方程一定经过数据的样本中心(4,6.6). 故选:B . 5.C【分析】根据散点图得这两个变量线性相关,由此可判断各选项. 【详解】样本点都落在一条斜率为非0实数的直线上,这条直线就是回归直线,它们的相关关系是一次函数,相关指数21R =,相关系数r 满足1r =,残差的平方和为0. 故选:C . 6.B【分析】先求出样本中心点(),x y ,将该点的坐标代入回归方程可求得ˆa的值 【详解】 由题意得()()111234 2.5, 4.543 2.5 3.544x y =+++==+++=. ∴样本中心为()2.5,3.5. ∵回归直线过样本中心,∴ˆ3.50.7 2.5a=-⨯+, 解得ˆ 5.25a=. 故选:B . 7.A【分析】直接利用回归直线方程的相关性,通过直线的斜率即可判断 【详解】由回归直线方程的相关性可知, 当ˆ0b>时,回归直线方程是正相关, 当ˆ0b<时,回归直线方程是负相关, 故选:A. 8.B【分析】解出样本中心点,代入回归方程解出a ∧确定回归方程,再将-3代入即可解得. 【详解】 1813101104x ++-==,24343864404y +++==,代入回归方程得:402060a a ∧∧=-+⇒=,∴x =-3时,预测电量为ˆ66y=. 故选:B. 9.C 【分析】根据表格中的数据求得数据的样本中心,结合选项和回归直线必过样本中心,即可求解. 【详解】由表格中的数据,可得7476767678765x ++++==,7575767777765y ++++==, 即数据的样本中心()76,76,因为()76,76满足回归直线方程,结合选项可得1ˆ382y x =+, 即y 关于x 的线性回归方程为:1ˆ382y x =+, 故选:C . 10.B【分析】根据题意,结合回归直线方程一定经过样本中心点(),x y ,即可求解. 【详解】由题意得, 4.5x =,9.54my +=, 因回归直线方程是ˆ0.70.35yx =+,所以回归直线方程是9.50.7 4.50.354m+=⨯+, 计算得 4.5m =. 故选:B. 11.C 【分析】求出样本中心点的坐标,代入回归直线方程,可求得a 的值,然后将95x =代入回归直线方程即可得解. 【详解】由表格中的数据可得8891899092905x ++++==,8286908993885y ++++==,回归直线经过样本点中心()90,88,代入回归直线方程可得1.89088a ⨯+=,可得74a =-,当数学成绩95x =时,物理成绩的估计值为 1.8957497y =⨯-=. 故选:C. 12.D【分析】根据回归方程过点(),x y ,代入回归方程,求ˆa的值. 【详解】5x =,10.5y =,样本中心点)(5,10.5代入回归方程ˆˆ1.4y x a =-+, 得ˆ 1.410.5 1.4517.5ay x =+=+⨯=. 故选:D 13.4【分析】根据题中数据计算变量的平均值,代入方程求解出参数. 【详解】 根据题意,0123311884244m m x y +++-++++====, 代入回归直线方程得:83334422m m +=⨯-∴= 故答案为:4. 14.0.44【分析】根据表格中的数据求得样本中心,把样本中心点代入回归直线方程,即可求解. 【详解】由题意,根据表格中的数据,可得13451355m mx +++++==,0.50.6 1.4 1.5455n n y +++++==,即样本中心为134(,)55m n++, 则4130.280.1655n m ++=⨯+,即40.28(13)0.8n m +=⨯++, 解得0.280.44n m -=. 故答案为:0.44 15.-1【分析】先求出3x =时,y 的值,即得解. 【详解】因为当x =3时,y =2×3-1=5, 所以方程在样本(3,4)处的残差是4-5=-1. 故答案为:1- 16.①③【分析】根据残差和相关系数的意义判定①②;根据线性回归方程的意义判定③④. 【详解】根据残差的定义,可知①正确;相关系数绝对值越接近于1,线性相关性越强,故②错误;由回归方程的意义,根据回归方程的解释变量的系数为0.3, 变量y 平均增加0.3个单位, 故③正确;回归方程是表示一种统计规律,具有随机的不确定性,不能说一定是,故④错误; 故答案为:①③.17. 4.75256.79Y x =+,408.79kg .【分析】作出散点图,可知x 与Y 之间具有线性相关关系,然后根据表中的数据结合公式求出回归直线方程,再把32x =代入回归方程可求得答案【详解】由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:由图容易看出,x 与Y 之间有近似的线性关系,或者说,可以用一个回归直线方程Y bx a =+来反映这种关系,由计算器求得ˆ 4.75b≈、2579ˆ 6.a ≈, Y 对x 的回归直线方程为,把32x =代入,得 4.7532256.79408.79Y =⨯+=.计算结果表示,当单位面积化肥用量为32kg 时水稻的产量大约是408.79kg .18.(1)ˆ0.78 4.07y x =-;(2)58件.【分析】(1)根据已知数据求出回归方程的系数,得回归方程;(2)80x =代入回归方程计算可预测值.【详解】(1)由题意1221ˆn i ii n i i x y nxy b xnx ==-=-∑∑2324572515.430.785075725-⨯⨯=≈-⨯, ˆ15.430.7825 4.07ay bx =-=-⨯=, 所以线性回归方程是ˆ0.78 4.07yx =-; (2)在(1)的方程中令80x =,则0.7880 4.0758.3358y =⨯-=≈.19.(1)6x =,5597y =;(2)作图见解析;(3) 4.7551.36y x =+;(4)146元. 【分析】(1)由表格数据计算平均值即可;(2)坐标系中将表格数据作为点坐标,描点即可;(3)利用最小二乘法公式求回归方程系数,写出回归直线方程;(4)由(3)所得回归方程估计周内某天销售服装20件的获利值.【详解】(1)345678967x ++++++==,6669738189909155977y ++++++==; (2)散点图如图所示.(3)由散点图知y 与x 具有线性相关关系,设回归直线方程为y bx a =+. ∵721280i i x ==∑,72145309i i y ==∑,713487i i i x y ==∑,6x =,5597y =,∴25593487761337 4.752807628b -⨯⨯===-⨯,5596 4.7551.367a =-⨯≈, ∴回归直线方程为 4.7551.36y x =+;(4)当20x 时, 4.752051.36146y =⨯+≈.∴该周内某天的销售量为20件时,估计这天可获纯利146元.20.(1)ˆ14.8 2.8y x =-;(2)294(万元).【分析】(1)首先求,x y ,根据参考公式,结合数据,求ˆb ,ˆa ,即可求得回归直线方程;(2)代入6x =,即可得到上半年的总销售额的预报值.【详解】解析(1)依题意,()11234535x =++++=,1(1625375575)41.65y =++++=. 故27725341.6ˆ14.85553b -⨯⨯==-⨯,ˆˆ41.614.83 2.8a y bx =-=-⨯=-,故月销售额y (万元)和月份x 之间的回归直线方程为ˆ14.8 2.8yx =-. (2)当6x =时,代入回归方程中得ˆ86y=(万元).因此可预测上半年的总销售额为162537557586294+++++=(万元).。
高考数学理一轮复习 X1-4正态分布、线性回归精品课件
备选例题1 设随机变量ξ服从正态分布:ξ~ N(1,4),试求:
(1)P(0<ξ≤2); (2)求常数C,使P(ξ≤C)=32·P(ξ>C).
参考数据:Φ(0)=0.5,Φ(1)=0.8413,Φ(2) =0.9772,Φ(0.5)=0.6915,Φ(1.88)= 0.9697,Φ(3)=0.9987.
2.小概率事件是指事件发生的概率很小的事, 通常认为这些情况在一次试验中几乎是不可 能发生的.
3.统计中假设检验的基本思想:根据小概率 事件在一次试验中几乎不可能发生的原理和 从总体中抽测的个体的数值,对事先所作的 统计假设作出判断,是拒绝假设,还是接受 假设.
4.利用线性回归方程,可由一个变量的值预 测或控制另一个变量的值.借助计算器,特 别是含统计的计算器,能简化手工的计算, 迅速得出正确结果.
(函数Φ(x0)实际上是正态总体N(0,1)的累积分
布函数),即Φ(x0)=
.
(5)两个重要公式:ⅰ.Φ(-x)=1Φ(x)
-
;
Φ(a)
ⅱ.P(a<ξ<b)=Φ(b)-
. 小于
(6)对于任一正态分布总体N(μ,σ2)来说,取
值 x的概率为F(x)=Φ(
).
(7)假设检验的基本思想
ⅰ.提出统计假设,如假设随机变量服从正态 分布等;
5.“回归”和“相关”含义是不同的:如果 两个变量中的一个变量是人为可以控制、非 随机的,另一变量的变化是随机的且随着控 制变量的变化而变化,则这两变量间的关系 就称为回归关系;若两个变量都是随机的, 则称它们之间的关系为相关关系,在本教材 中,两者不加区别.
方法规律·归纳
题型 一
正态分布的基本运算
思维 提示
①P(x<x0)=Φ(x0); ②Φ(x0)=1-Φ(-x0);
高三线性回归方程知识点
高三线性回归方程知识点线性回归是数学中的一种方法,用于建立一个自变量与因变量之间的关系。
在高三数学中,线性回归方程是一个重要的知识点。
本文将介绍高三线性回归方程的基本概念、推导过程以及应用范围。
一、基本概念1. 线性回归方程线性回归方程,也叫作线性回归模型,表示自变量x和因变量y之间的关系。
它可以用如下的一般形式表示:y = β0 + β1x + ε其中,y表示因变量,x表示自变量,β0和β1表示模型中的参数,ε表示误差项。
2. 参数估计线性回归方程中的参数β0和β1需要通过观测数据进行估计。
常用的方法是最小二乘法,即通过最小化实际观测值和预测值之间的差异,来得到最优的参数估计值。
二、推导过程1. 求解参数通过最小二乘法,可以得到线性回归方程中的参数估计值。
具体推导过程包括以下几个步骤:(1)确定目标函数:将观测值和预测值之间的差异平方和作为目标函数。
(2)对目标函数求偏导:对目标函数分别对β0和β1求偏导,并令偏导数为0。
(3)计算参数估计值:根据求得的偏导数为0的方程组,解出β0和β1的值。
2. 模型拟合度评估在得到参数估计值之后,需要评估线性回归模型的拟合度。
常用的指标包括相关系数R和残差平方和SSE等。
相关系数R可以表示自变量和因变量之间的线性相关程度,取值范围在-1到1之间,越接近1表示拟合度越好。
三、应用范围线性回归方程在实际问题中有广泛的应用,例如经济学、统计学、社会科学等领域。
它可以用来分析自变量和因变量之间的关系,并预测未来的结果。
1. 经济学应用在线性回归模型中,可以将自变量设置为经济指标,例如GDP、通货膨胀率等,将因变量设置为某一经济现象的数值。
通过构建线性回归方程,可以分析不同经济指标对经济现象的影响,为经济决策提供参考依据。
2. 统计学应用线性回归方程是统计学中的一项重要工具。
通过对观测数据的拟合,可以得到参数估计值,并进一步分析自变量和因变量之间的关系。
统计学家可以利用线性回归分析建立统计模型,为实验数据的解释提供更为准确的结论。
高考数学一轮复习第10章算法初步与统计第4课时线性回
(4)某同学研究卖出的热饮杯数y与气温 x(℃)之间的关系,得 回归方程 y =-2.352x+147.767,则气温为2 ℃时,一定可卖出 143杯热饮. (5)事件X,Y关系越密切,则由观测数据计算得到的K2的观 测值越大. (6)由独立性检验可知,在犯错误的概率不超过1%的前提下 认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他 有99%的可能物理优秀.
∧
直线方程: y =0.254x+0.321.由回归直线方程可知,家庭年收入 每增加1万元,年饮食支出平均增加________万元.
2 n ( ad - bc ) 构造一个随机变量 K 2 = , ( a+ b)( c+d )(a + c)( b +d )
其中 n=a+b+ c+d 为样本容量.
(3)独立性检验. 利用随机变量 K2 来确定是否能有一定把握认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验.
1.判断下面结论是否正确(打“√”或“×”). (1)相关关系与函数关系都是一种确定性的关系,也是一种 因果关系. (2)“名师出高徒”可以解释为教师的教学水平与学生的水 平成正相关关系. (3)只有两个变量有相关关系,所得的回归模型才有预测价 值.
答案
C
解析 由已知,变量 x,y 成负相关,排除 A,B. ∵回归直线 - 必过点(x,y),经验算可知,选项 C 满足.
4.(2018· 河南开封一模)下列说法错误的是(
)
A.自变量取值一定时,因变量的取值带有一定随机性的两 个变量之间的关系叫做相关关系 B.在线性回归分析中,相关系数 r 的值越大,变量间的相 关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其 模型拟合的精度越高 D.在回归分析中,R2 为 0.98 的模型比 R2 为 0.80 的模型拟 合的效果好
2022版高考数学一轮复习第10章第3讲线性回归与独立性检验训练含解析
第十章 第3讲[A 级 基础达标]1.若回归直线方程为y ^=3-2x ,则变量x 增加一个单位,y ( ) A .平均增加3个单位 B .平均增加2个单位 C .平均减少3个单位 D .平均减少2个单位【答案】D2.(2020年南昌模拟)已知一组样本数据点(x 1,y 1),(x 2,y 2),(x 3,y 3),…,(x 6,y 6),用最小二乘法得到其线性回归方程为y ^=-2x +4,若数据x 1,x 2,x 3,…,x 6的平均数为1,则y 1+y 2+y 3+…+y 6等于( )A .10B .12C .13D .14【答案】B3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12D .1【答案】D4.如果根据是否爱吃零食与性别的列联表得到K 2≈5.852,所以判断是否爱吃零食与性别有关,那么这种判断犯错的可能性不超过( )A .2.5%B .0.5%C .1%D .0.1%P (K 2≥k )0.100 0.050 0.025 0.010 0.001 k2.7063.8415.0246.63510.8285.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%【答案】D【解析】因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费额y =0.6×5+1.2=4.2(元),所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.6.(2020年成都模拟)某公司一种新产品的销售额y 与宣传费用x 之间的关系如表:已知销售额y 与宣传费用x 具有线性相关关系,并求得其回归直线方程为y ^=b ^x +9,则b ^的值为________.【答案】6.5【解析】由表中数据,得x =0+1+2+3+45=2,y =10+15+20+30+355=1105=22,又回归直线方程y ^=b ^x +9过样本中心点(2,22),得22=2b ^+9,解得b ^=132=6.5.7.(2020年滦南期末)2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天销售量及其价格进行调查,5家商场的售价x (元)和销售量y (件)之间的一组数据如下表所示:y =-3.2x +a ,则a =________.【答案】40 【解析】根据题意:x -=9+9.5+10+10.5+115=10,y -=11+10+8+6+55=8,因为y -=-3.2x +a ,所以a =3.2×10+8=40.8.(2020年六安期末)“埃博拉病毒”在西非的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).【答案】95%【解析】由题中数据可得:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100(10×30-40×20)250×50×30×70=10021≈4.762>3.841,根据临界值表可得:犯错误的概率不超过0.05.即有95%的把握认为“小动物是否感染与服用疫苗有关”.故答案为95%.9.(2020年南阳月考)2021年将在日本东京举办第32届夏季奥林匹克运动会,简称为“奥运会”.为了解不同年龄的人对“奥运会”的关注程度,某机构随机抽取了年龄在20~70岁之间的100人进行调查.经统计,“年轻人”与“中老年人”的人数之比为2∶3.(1)的把握认为是否关注“奥运会”与年龄段有关;(2)现采用分层抽样的方法从中老年人中选取6人进行问卷调查.若再从这6人中选取2人进行面对面询问,求事件“选取的2人中至少有1人关注奥运会”的概率.K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)“年轻人”共有100×25=40(人),“中老年人”共有100×35=60(人),由此填写列联表如下:根据表中数据,计算K 2=100(30×40-20×10)240×60×50×50=503≈16.67>10.828,所以有99.9%的把握认为是否关注“奥运会”与年龄段有关. (2)用分层抽样法选取6位中老年人中有4人不关注,2人关注, 则所求概率为p =1-C 24C 26=35.10.(2020年湖南雅礼中学月考)近年来,国资委党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某扶贫小组为更好地执行精准扶贫政策,为某扶贫县制定了具体的扶贫政策,并对此贫困县从2015年到2019年的居民家庭人均纯收入(单位:百元)进行统计,数据如下表:(1)求人均纯收入y (2)是否有99.9%的把握认为村民的年龄与对扶贫政策的满意度具有相关性?参考公式:回归直线y ^=a +bx 中斜率和截距的最小二乘估计公式分别为:b ^=∑n =1ix i y i -n x - y-∑n =1ix 2i -n x -2=∑n =1i(x i -x -)(y i -y -)∑n =1i(x i -x -)2,a =y --b x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解:(1)依题意:t =15×(1+2+3+4+5)=3,y =15×(5.8+6.6+7.2+8.8+9.6)=7.6,故∑i =15(t i -t )2=4+1+0+1+4=10,∑i =15(t i -t )(y i -y )=(-2)×(-1.8)+(-1)×(-1)+0×(-0.4)+1×1.2+2×2=9.8,b =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2=0.98,所以a =y -b t =7.6-0.98×3=4.66. 所以y ^=0.98t +4.66. (2)依题意,完善表格如下:计算得K 2k 2=300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828,故有99.9%的把握认为村民的年龄与扶贫政策的满意度具有相关性.[B 级 能力提升]11.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b ^x +a ,其中b ^=0.76,a =y -b ^x .据此估计,该社区一户年收入为15万元的家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【答案】B【解析】由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,所以a ^=8-0.76×10=0.4,所以当x =15时,y ^=0.76×15+0.4=11.8(万元).12.(2020年九江期末)针对“中学生追星问题”,某校团委对“中学生性别和追星是否有关”作了一次调查,其中女生人数是男生人数的12,男生追星的人数占男生人数的13,女生追星的人数占女生人数的23,若有95%的把握认为中学生追星与性别有关,则男生至少有______人.参考数据及公式如下:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .【答案】30【解析】设男生人数为x ,由题意得列联表如下:计算K 2=32x ·⎝⎛⎭⎫13x ·16x -23x ·13x 2x ·12x ·23x ·56x=320x >3.841,解得x >20×3.8413. 又x =6k ,k ∈N *,所以x min =30,即有95%的把握认为中学生追星与性别有关时,男生至少有30人.13.(一题两空)(2020年吉林模拟)2019年末至2020年初,某在线教育公司为了适应线上教学的快速发展,近5个月加大了对该公司的网上教学使用软件的研发投入,过去5个月资金投入量x (单位:百万元)和收益y (单位:百万元)的数据如下表:若y 与x 的线性回归方程为y =3x +a ,则a =________,资金投入量为16百万元时,该月收益的预报值为________百万元.【答案】8.04 56.04 【解析】由题意得x =2+4+8+10+125=7.2,y -=14.21+20.31+31.18+37.83+44.675=29.64,所以a =y --b ^x =29.64-3×7.2=8.04.所以y 关于x 的回归方程为y ^=3x +8.04.把x =16代入回归方程得y ^=3×16+8.04=56.04,故预报值为56.04百万元.14.新型冠状病毒爆发以来,各地高度重视新型冠状病毒感染的肺炎的防控和卫生健康监督检查工作,务必将督导检查落实到位.某地对8个工厂的生产车间进行了“原料采购加工标准”和“卫生标准”的检查和评分,其评分情况如下表所示:(1)已知x 与y 之间具有线性相关关系,求y 关于x 的线性回归方程;(2)现从8个被检查的工厂中任意抽取两个组成一组,若两个工厂的“原料采购加工标准”和“卫生标准”的评分均超过80分,则组成“对比标兵工厂”,求该组被评为“对比标兵工厂”的概率.参考公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y --b ^x ;参考数据:∑i =18x i y i =53 844,∑i =18x 2i =55 656.解:(1)由题意,得x =18×(100+95+93+83+82+75+70+62)=82.5,y =18×(86.5+83.5+83.5+81.5+80.5+79.5+77.5+76.5)=81.125,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=53 844-8×82.5×81.12555 656-8×82.52=14.所以a ^=y -b ^x =81.125-14×82.5=60.5.所以y 关于x 的线性回归方程为y ^=14x +60.5.(2)从8个中任取2个,共有C 28=28个基本事件.“原料采购加工标准”和“卫生标准”的评分均超过80分有C 25=10种情况,故所求的概率为p =1028=514.15.(2020年新课标Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x)2=80,∑i =120 (y i -y -)2=9 000,∑i =120(x i -x )(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y -)∑i =1n(x i -x )2∑i =1n(y i -y -)2,2≈1.414.解:(1)已知∑i =120y i =1 200,所以20个样区野生动物数量的平均数为120∑i =120y i =60,所以该地区这种野生动物数量的估计值为60×200=12 000. (2)因为∑i =120(x i -x)2=80,∑i =120(y i -y)2=9 000,∑i =120(x i -x )(y i -y )=800,所以r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2=80080×9 000=8006002=223≈0.94.(3)更合理的抽样方法是分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.[C 级 创新突破]16.(2020年日照期末)某种疾病可分为Ⅰ、Ⅱ两种类型,为了解该疾病类型与性别的关系,在某地区随机抽取了患该疾病的病人进行调查,其中男性人数为z ,女性人数为2z ,男性患Ⅰ型病的人数占男性病人的56,女性患Ⅰ型病的人数占女性病人的13.与“性别”有关,则男性患者至少有多少人?(2)某药品研发公司欲安排甲、乙两个研发团队来研发此疾病的治疗药物,两个团队各至多安排2个接种周期进行试验.每人每次接种花费m (m >0)元.甲团队研发的药物每次接种后产生抗体的概率为p ,根据以往试验统计,甲团队平均花费为-2mp 2+6m ;乙团队研发的药物每次接种后产生抗体的概率为q ,每个周期必须完成3次接种,若一个周期内至少出现2次抗体,则该周期结束后终止试验,否则进入第二个接种周期.假设两个研发团队每次接种后产生抗体与否均相互独立.若p =2q ,从两个团队试验的平均花费考虑,该公司应选择哪个团队进行药品研发? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)根据题意填写列联表如下;则k 2=3z ⎝⎛⎭⎫5z 6·4z 3-z 6·2z 32z ·2z ·3z 2·3z 2=2z 3>7.879,解得z >11.818 5,由z 6∈N *,且z3∈N *,所以z 的最小值为12,即男性患者至少有12人. (2)设甲研发试验品花费为X ,则EX =-2mp 2+6m . 设乙研发试验品花费为Y ,则Y 的可能取值为3m,6m , 所以P (Y =3m )=C 23·q 2(1-q )+q 3=-2q 3+3q 2, P (Y =6m )=1+2q 3-3q 2.11 所以EY =3m ·(-2q 3+3q 2)+6m ·(1+2q 3-3q 2)=6mq 3-9mq 2+6m .因为p =2q ,所以EY -EX =6mq 3-9mq 2+6m +2mp 2-6m =6mq 3-9mq 2+2mp 2=6mq 3-mq 2=mq 2(6q -1).①当0<q <16时,6q -1<0,因为m >0,所以mq 2(6q -1)<0,所以EX >EY ,乙团队试验的平均花费较少,所以选择乙团队进行研发;②当16<q <1时,6q -1>0,因为m >0,所以mq 2(6q -1)>0,所以EX <EY ,甲团队试验的平均花费较少,所以选择甲团队进行研发;③当q =16时,mq 2(6q -1)=0,所以EX =EY ,甲团队试验的平均花费和乙团队试验的平均费用相同,从两个团队试验的平均花费考虑,该公司选择甲团队或乙团队进行研发均可.。
高考数学一轮复习全套课时作业9-2线性回归分析与统计案例
作业9.2线性回归分析与统计案例一、单项选择题1.甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m ,如下表:则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性()A .甲B .乙C .丙D .丁2.某工厂某产品产量x(千件)与单位成本y(元)满足回归直线方程y ^=77.36-1.82x ,则以下说法中正确的是()A .当产量为1千件时,单位成本为75.54元B .当产量为2千件时,单位成本为73.72元C .产量每增加1000件,单位成本约下降1.82元D .产量每减少1000件,单位成本约下降1.82元3.(2021·郑州质检)某研究机构对儿童记忆能力x 和识图能力y 进行统计分析,得到如下数据:由表中数据,求得线性回归方程为y ^=45x +a ^.若某儿童的记忆能力为12,则他的识图能力约为()A .9.2B .9.5C .9.8D .104.(2021·济宁邹城市模拟)2020年初,新型冠状病毒(COVID -19)引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:可得y 关于x 的二次回归方程为y ^=6x 2+a ,则此回归模型第4周的残差(实际值与预报值之差)为()A .5B .4C .1D .05.(2021·长春质检)某学校为了采取治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为()A .0.1%B .0.5%C .99.5%D .99.9%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.6.(2021·衡水中学模拟)某公司某型号无人机以其小巧轻便、高效机动、影像清晰、智能化、用途广等突出特点,得到广大用户的青睐,该型号无人机近5年销售量数据统计如下表所示.根据表中的数据用最小二乘法求得y 关于x 的线性回归方程为y ^=6.5x +t ,则可以预测2022年该型号无人机的销量大约为()A .50万件B .54.5万件C .55万件D .58万件7.(2021·运城市高三模拟)根据散点图,对两个具有非线性关系的相关变量x ,y 进行回归分析,设u =lny ,v =(x -4)2,利用最小二乘法,得到线性回归方程为u ^=-0.5v +2,则变量y 的最大值的估计值是()A .eB .e 2C .ln2D .2ln28.(2021·保定市易县中学高三模拟)下图是某市2014年到2020年贫困户的户数y(单位:万户)与时间t 的条形图(时间t 的取值1,2,…,7依次对应2014年至2020年).若y 关于t 的线性回归方程为y ^=-0.5t +a ,则a =()A .2.2B .4.2C .6.2D .6.4二、多项选择题9.(2021·山东泰安二中等校联考)设某中学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n)用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该中学某个女生的身高增加1cm ,则其体重约增加0.85kgD .若该中学某个女生的身高为160cm ,则可断定其体重必为50.29kg10.(2021·合肥肥东县高三调研)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),图1为选取的15名志愿者身高与臂展的折线图,图2为身高与臂展所对应的散点图,并求得其回归方程为y ^=1.16x -30.75,以下结论中正确的是()A .15名志愿者身高的极差小于臂展的极差B .15名志愿者身高和臂展成正相关关系C .可估计身高为190厘米的人臂展大约为189.65厘米D .身高相差10厘米的两人臂展都相差11.6厘米三、填空题与解答题11.已知具有相关关系的两个变量x ,y 的一组观测数据如下表所示,若据此利用最小二乘法得到回归方程y ^=0.7x +0.35,则m =________.12.(2021·江苏省马坝高中高二期中)为了判断高中二年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K 2≥3.841)≈0.05,P(K 2≥5.024)≈0.025.则认为是否选修文科与性别有关系出错的可能性为________.13.(2021·山东德州期末)某研究性学习小组研究学生玩手机对学习的影响,部分统计数据如下表:经计算K 2的值,则有________%的把握认为玩手机对学习有影响.附:14.用指数模型y =c·e kx 去拟合一组数据时,为了求出回归方程,设z =lny ,变换后得到线性回归直线方程z =0.3x +4,则常数c 的值为________,k 的值为________.15.(2021·重庆市高三二诊)近几年来,热饮越来越受到年轻人的欢迎.一个研究性学习小组为了研究气温对热饮销售的影响,统计了学校门口一个热饮店在2019年1月份某6天白天的平均气温和热饮销售量,得到以下数据:(1)求销售量y 关于气温x 的回归直线方程,若某天白天的平均气温为16℃,估计当天的热饮销售量;(2)根据表格中的数据计算R 2(精确到0.001),由此解释平均气温对销售量变化的影响.16.已知由样本数据点集合{(x i ,y i )|i =1,2,…,n},求得的回归直线方程为y ^=1.5x +0.5,且x -=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线l 的斜率为1.2,则()A .变量x 与y 具有负相关关系B .去除后的回归方程为y ^=1.2x +1.4C .去除后y 的估计值增加速度变快D .去除后相应于样本点(2,3.75)的残差为0.0517.(2021·辽宁大连市高三第三次模拟)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A ,B ,C 三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A ,B ,C 三种样式玩偶的概率相同.某同学已经有了A 样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为“购买该款盲盒与性别有关”?(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第2周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求线性回归方程,再用第1,3周的数据进行检验.①请用第4,5,6周的数据求出y 关于x 的线性回归方程y ^=b ^x +a ^;②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?女生男生总计购买未购买总计作业9.2线性回归分析与统计案例参考答案1.答案D 解析|r|越大,m 越小,线性相关性越强.故选D.2.答案C 解析令f(x)=77.36-1.82x ,因为f(x +1)-f(x)=77.36-1.82(x +1)-77.36+1.82x =-1.82,所以产量每增加1000件,单位成本约下降1.82元.故选C.3.答案B解析由表中数据得x -=7,y -=5.5,由点(x -,y -)在直线y ^=45x +a ^上,得a ^=-110,即线性回归方程为y ^=45x -110.所以当x =12时,y ^=45×12-110=9.5,即他的识图能力约为9.5.故选B.4.答案A解析设t =x 2,则t -=15(1+4+9+16+25)=11,y -=15(2+17+36+93+142)=58,a =58-6×11=-8.所以y ^=6x 2-8.令x =4,得e ^4=y 4-y ^4=93-6×42+8=5.故选A.5.答案C解析因为K 2的观测值k =50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.6.答案B 解析x -=0+1+2+3+45=2,y =10+15+20+30+355=22.又因为直线y ^=6.5x +t 过点(2,22),故6.5×2+t =22,解得t =9.故预测2022年该型号无人机的销量大约为y ^=6.5×7+9=54.5(万件).故选B.7.答案B解析将u =lny ,v =(x -4)2代入线性回归方程u ^=-0.5v +2得:lny =-0.5(x -4)2+2,即y =e -0.5(x -4)2+2,当x =4时,-0.5(x -4)2+2取到最大值2,因为y =e x 在R 上单调递增,所以当x =4时,y =e -0.5(x -4)2+2取到最大值e 2.故选B.8.答案C解析本题考查线性回归方程.依题意,得t -=1+2+…+77=4,y -=5.6+5.2+4.8+4.4+3.4+3.3+2.77=4.2,所以4.2=-0.5×4+a ,所以a =6.2.故选C.9.答案ABC解析本题考查线性回归方程的理解和应用.由最小二乘法建立的回归方程可知,回归直线y ^=0.85x -85.71一定过样本点的中心(x -,y -),因此B 正确;由x 的系数0.85>0可知变量y 与x 具有正的线性相关关系,因此A 正确;由x 的系数为0.85可知,若某个女生的身高增加1cm ,则其体重约增加0.85kg ,因此C 正确;当某个女生的身高为160cm 时,体重约为50.29kg ,不是一定为50.29kg ,因此D 不正确.故选ABC.10.答案ABC解析身高极差大约为18,臂展极差大约为23,故A 正确;很明显根据散点图象以及回归直线得到,身高矮臂展就会短一些,身高高臂展就长一些,故B 正确;身高为190厘米,代入回归方程可得到臂展估计值等于189.65厘米,但是不是准确值,故C 正确;身高相差10厘米的两人臂展的估计值相差11.6厘米,但并不是准确值,回归方程上的点并不都是准确的样本点,故D 不正确.故选ABC.11.答案3解析x -=3+4+5+64=4.5,y -=2.5+m +4+4.54=11+m4,所以样本点的中心为因为回归方程为y ^=0.7x +0.35,样本点的中心在回归直线上,所以11+m 4=0.7×4.5+0.35,解得m =3.12.答案5%解析根据表中的数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,因为4.844>3.841,所以认为是否选修文科与性别有关系出错的可能性为5%.13.答案99.5解析本题考查独立性检验的应用.由表中数据,计算K 2的观测值k =30×(4×2-8×16)212×18×20×10=10,且10>7.879,则有99.5%的把握认为玩手机对学习有影响.14.答案e 40.3解析因为y =c·e kx ,所以两边取对数,可得lny =ln(c·e kx )=lnc +kx ,由z =lny ,可得z =lnc +kx ,又z=0.3x +4,∴lnc =4,c =e 4,k =0.3.15.答案(1)y ^=-3x +150102杯(2)R 2≈0.967,平均气温解释了96.7%的销售量变化(或销售量变化有96.7%是由平均气温引起的)解析(1)由题知,x -=5,y -=135,从而x -20361013y 161146138133120112x i -x --7-5-2158y i -y-26113-2-15-23∑6i =1(x i -x -)(y i -y -)=(-7)×26+(-5)×11+(-2)×3+1×(-2)+5×(-15)+8×(-23)=-504,∑6i =1(x i -x -)2=(-7)2+(-5)2+(-2)2+12+52+82=168,则b ^=∑6i =1(x i -x -)(y i -y -)∑6i =1(x i -x -)2=-504168=-3,a ^=y --b ^x -=135-(-3)×5=150.所以,销售量y 关于气温x 的回归直线方程为:y ^=-3x +150.当x =16时,y ^=-3×16+150=102.因此,某天白天的平均气温为16℃时,估计可以卖出102杯热饮.(2)x -20361013y 161146138133120112y ^156150141132120111y i -y^5-4-311∑6i =1(y i -y ^i )2=52+(-4)2+(-3)2+12+02+12=52,∑6i =1(y i -y -)2=262+112+32+(-2)2+(-15)2+(-23)2=1564.R 2=1-∑6i =1(y i -y ^i )2∑6i =1(y i -y -)2=1-521564≈0.967.所以,平均气温解释了96.7%的销售量变化(或销售量变化有96.7%是由平均气温引起的).16.答案B解析因为去除误差较大的两点后重新求得的回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 错误;当x -=3时,y -=3×1.5+0.5=5,故样本点的中心是(3,5),且去除数据点(1.2,2.2)和(4.8,7.8)后,样本点的中心还是(3,5),又∵去除数据点(1.2,2.2)和(4.8,7.8)后重新求得的回归直线l 的斜率为1.2,故5=3×1.2+a ,解得a =1.4,即回归直线方程为y ^=1.2x +1.4,故B 正确;因为1.5>1.2,所以去除后y 的估计值增加速度变慢,故C 错误;因为y ^=1.2×2+1.4=3.8,所以y -y ^=3.75-3.8=-0.05,故D 错误.17.答案(1)29(2)填表见解析,有95%的把握认为“购买该款盲盒与性别有关”(3)①y ^=2.5x +14.5②可靠解析(1)由题意,基本事件空间为Ω={(A ,A),(A ,B),(A ,C),(B ,A),(B ,B),(B ,C),(C ,A),(C ,B),(C ,C)},其中基本事件的个数为9个,设事件D 为:“他恰好能收集齐这三种样式”,则D ={(B ,C),(C ,B)},其中基本事件的个数为2,所以他恰好能收集齐这三种样式的概率为P(D)=29.(2)补充2×2列联表如下:女生男生总计购买402060未购买7070140总计11090200则K 2=200×(40×70-20×70)260×140×110×90≈4.714.又因为4.714>3.841,故有95%的把握认为“购买该款盲盒与性别有关”.(3)①由数据,求得x -=5,y -=27.由公式求得b ^=(4-5)(25-27)+(5-5)(26-27)+(6-5)(30-27)(4-5)2+(5-5)2+(6-5)2=52,a ^=27-52×5=14.5,所以y 关于x 的线性回归方程为y ^=2.5x +14.5.②当x =1时,y ^=2.5×1+14.5=17,|17-16|<2;当x =3时,y ^=2.5×3+14.5=22,|22-23|<2.所以,①中所得到的线性回归方程是可靠的.。
【2022 高考数学一轮复习(学科版)】考点32 线性回归方程与列联表(讲解) (解析版)
考点32 回归方程与独立性检验【思维导图】【常见考法】考法一 回归方程1.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程77.36 1.82y x =-,则以下说法中正确的是( )A .当产量为1千件时,单位成本为75.54元B .当产量为2千件时,单位成本为73.72元C .产量每增加1000件,单位成本约下降1.82元D .产量每减少1000件,单位成本约下降1.82元【答案】C【解析】令()77.36 1.82f x x =-,因为()()()177.36 1.82177.36 1.82 1.82f x f x x x +-=-+-+=-, 所以产量每增加1000件,单位成本约下降1.82元.故选:C2.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元 D .105万元【答案】B【解析】由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50),∴ˆ5075a =⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+.当10x =时,710158ˆ5y =⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元.故选B .3.某企业为了参加上海的进博会,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据(i x ,i y )(1,2,,6i =⋅⋅⋅),如表所示:已知611806i i y y ===∑.(1)求q 的值;(2)已知变量x ,y 具有线性相关关系,求产品销量y (件)关于试销单价x (元)的线性回归方程ˆˆˆy bx a =+;(3)用ˆi y表示用正确的线性回归方程得到的与i x 对应的产品销量的估计值,当ˆ1i i y y -≤时,将销售数据(i x ,i y )称为一个“好数据”,现从6个销售数据中任取2个,求抽取的2个销售数据中至少有一个是“好数据”的概率.参考公式:()()()1122211ˆnni iiii i nniii i x y nx y x x y y bxnxx x =-==---==--∑∑∑∑,ˆˆay bx =-. 【答案】(1)90;(2)ˆ4106y x =-+;(3)45. 【解析】(1)由611806i i y y -==∑,得8483807568806q +++++=,解得90q =. (2)经计算,613050i ii x y-=∑, 6.5x =,621271i i x -=∑,所以230506 6.580ˆ42716 6.5b-⨯⨯==--⨯, ˆ804 6.5106a=+⨯=,所以所求的线性回归方程为ˆ4106y x =-+. (3)由(2)知,当14x =时,1ˆ90y =;当25x =时,2ˆ86y =;当36x =时,3ˆ82y =;当47x =时,4ˆ78y=;当58x =时,5ˆ74y=;当69x =时,6ˆ70y =.与销售数据对比可知满足ˆ1i i y y -≤(1,2,,6i =⋅⋅⋅)的共有3个:()4,90,()6,83,()8,75.从6个销售数据中任取2个的所有可能结果有2665C 152⨯==(种),其中2个销售数据中至少有一个是“好数据”的结果有112333C C C 33312+=⨯+=(种),于是抽取的2个销售数据中至少有一个是“好数据”的概率为124155=. 考法二 非线性回归方程1.某同学的父亲决定今年夏天卖西瓜赚钱,根据去年6月份的数据统计连续五天内每天所卖西瓜的个数与温度之间的关系如下表:(1)求这五天内所卖西瓜个数的平均值和方差;(2)求变量x,y 之间的线性回归方程,并预测当温度为30 °C 时所卖西瓜的个数.附:b ̂=∑x i y i ni=1−nx̅y̅∑x i 2n i=1−nx̅2,a ̂=y ̅−b ̂x̅(精确到0.1). 【答案】(1)26,27.2(2)y ̂=2.2x −51,15 【解析】(1)y ̅=15×(20+22+24+30+34)=26,方差为s 2=15×[(20−26)2+(22−26)2+(24−26)2+(30−26)2+(34−26)2]=27.2. (2)x̅=15×(32+33+35+37+38)=35,∑x i 25i=1=6 151,∑x i y i 5i=1=4 608, 所以b ̂=∑x i y i 5i=1−5x̅y ̅∑x i 25i=1−5x̅2=4 608−5×35×266 151−5×352=5826≈2.2,a ̂=y ̅−b ̂x̅=26−2.2×35=−51, 所以回归直线方程为y ̂=2.2x −51,当x =30时,y =15,所以预测当温度为30 °C 时所卖西瓜的个数为15.2.某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量()y g 与尺寸()mm x 之间近似满足关系式b y c x =⋅(b ,c 为大于0的常数).按照某指标测定,当产品质量与尺寸的比在区间()0.302,0.388内时为优等品.现随机抽取6件合格产品,测得数据如下:(1)现从抽取的6件合格产品中再任选2件,求选中的2件均为优等品的概率; (2)根据测得数据作了初步处理,得相关统计量的值如下表:根据所给统计量,求y 关于x 的回归方程. 附:对于样本(),(1,2,,6)i i v u i =,其回归直线u b v a =⋅+的斜率和截距的最小二乘法估计公式分别为:()()()1122211ˆnniii i i i nniii i v v u u v u nv ubv v vnv ====---==--∑∑∑∑,ˆˆa u bv=-, 2.7183e ≈.【答案】(1)15;(2)0.5ˆyex =. 【解析】(1)由已知,优等品的质量与尺寸的比(0.302,0.388)yx∈ 则随机抽取的6件合格产品中,有3件为优等品,记为a ,b ,c , 有3件为非优等品,记为d ,e ,f ,现从抽取的6件合格产品中再任选2件,基本事件为:(,),(,),(,),(,)a b a c a d a e (, ),(, ),(, ),(,),(,),(,)a f b c b d b e b f c d(,),(,),(,),(,),(,)c e c f d e d f e f ,选中的两件均为优等品的事件为(,),(,),(,)a b a c b c ,所以所求概率为31155=. (2)对b y c x =⋅两边取自然对数得ln ln ln y c b x =+令ln ,ln i i i i v x u y ==,则u b v a =⋅+,且ln a c = 由所给统计量及最小二乘估计公式有:11222175.324.618.360.271ˆ101.424.660.542ni i nii v u nuvbvnv ==--⨯÷====-÷-∑∑ 118.324.62ˆˆ16au bv ⎛⎫-⨯ ⎪⎝⎭=-==, 由ˆˆln ac =得ˆc e =, 所以y 关于x 的回归方程为0.5ˆyex =.3.为响应党中央“扶贫攻坚”的号召,某单位指导一贫困村通过种植紫甘薯来提高经济收入.紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数成增长的趋势.下表给出了2017年种植的一批试验紫甘薯在温度升高时6组死亡的株数: C )死亡数经计算:611266i i x x ===∑,611336i i y y ===∑,61()()557i i i x x y y =--=∑,621()84i i x x =-=∑,621()3930ii y y =-=∑,621()23.6ˆ64i i y y=-=∑,8.0653167e ≈,其中i x ,i y 分别为试验数据中的温度和死亡株数,1,2,3,4,5,6i =.(1)若用线性回归模型,求y 关于x 的回归方程^^^y b x a =+(结果精确到0.1);(2)若用非线性回归模型求得y 关于x 的回归方程0.23030.06ˆxye =,且相关指数为20.9522R =.(i)试与(1)中的回归模型相比,用2R 说明哪种模型的拟合效果更好;(ii )用拟合效果好的模型预测温度为35C 时该紫甘薯死亡株数(结果取整数).附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归直线ˆˆv u αβ∧=+的斜率和截距的最小二乘估计分别为:121()()()ni i i ni i u u v v u u β∧==--=-∑∑,a v u β∧∧=-;相关指数为:22121()1()ni i i niii v v R v v ∧==-=--∑∑.【解析】(Ⅰ)由题意得,()()()121557= 6.6384ˆni i i n i i x x y y b x x ==--=≈-∑∑∴ˆa =33−6.63⨯26=−139.4,∴y 关于x 的线性回归方程为:ˆy =6.6x −139.4.(注:若用ˆ 6.6b≈计算出18.6ˆ3a =-,则酌情扣1分) (Ⅱ) (i )线性回归方程ˆy =6.6x −138.6对应的相关指数为:()()6221621236.641110.06020.93983930ˆi i i i i i y yR y y ==-=-=-≈-=-∑∑,因为0.9398<0.9522,所以回归方程0.2303ˆ0.06xye =比线性回归方程ˆy =6.6x −138.6拟合效果更好.(ii )由(i )知,当温度35x C =时,0.2303358.06050.060.060.063167190ˆye e ⨯==≈⨯≈, 即当温度为35︒C 时该批紫甘薯死亡株数为190.考法三 独立性检验1.为大力提倡“厉行节约,反对浪费”,某市通过随机调查100名性别不同的居民是否做到“光盘”行动,得到如下列联表:经计算()()()()()223.03n ad bc K a b c d a c b d -=≈++++. 附表:参照附表,得到的正确结论是()A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’行动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’行动与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别无关”【答案】CK≈,【解析】由题意可知2 3.03<<,结合临界值表可知2.706 3.03 3.841因而在犯错误的概率不超过10%的前提下,认为“该市居民能否做到‘光盘’行动与性别有关”,或表述为有90%以上的把握认为“该市居民能否做到‘光盘’行动与性别有关”;结合选项可知,C为正确选项,故选:C.2.2020年寒假,因为“新冠”疫情全体学生只能在家进行网上学习,为了研究学生网上学习的情况,某学校随机抽取100名学生对线上教学进行调查,其中男生与女生的人数之比为9:11,抽取的学生中男生有30人对线上教学满意,女生中有10名表示对线上教学不满意.(1)完成22⨯列联表,并回答能否有90%的把握认为“对线上教学是否满意与性别有关”;(2)从被调查的对线上教学满意的学生中,利用分层抽样抽取5名学生,再在这5名学生中抽取2名学生,作线上学习的经验介绍,求其中抽取一名男生与一名女生的概率.附:()()()()()22n ad bcKa b c d a c b d⋅=++++.【答案】(1)填表见解析;有90%的把握认为“对线上教学是否满意与性别有关”;(2)35.【解析】(1)22⨯列联表如下:又()22100301045153.03 2.70675254555K⨯-⨯=≈>⨯⨯⨯,这说明有90%的把握认为“对线上教学是否满意与性别有关”.(2)方法一:由题可知,从被调查中对线上教学满意的学生中,利用分层抽样抽取5名学生, 其中男生2名,设为A 、B ;女生3人设为,,a b c ,则从这5名学生中抽取2名学生的基本事件有:(),A B ,(),A a ,(),A b ,(),A c ,(),B a ,(),B b ,(),B c ,(),a b ,(),a c ,(),b c ,共10个基本事件,其中抽取一名男生与一名女生的事件有(),A a ,(),A b ,(),A c ,(),B a ,(),B b ,(),B c ,共6个基本事件,根据古典概型,从这5名学生中抽取一名男生与一名女生的概率为63105=. 方法二:由题可知,从被调查中对线上教学满意的学生中,利用分层抽样抽取5名学生,其中男生2名,设为;女生3人,根据古典概型,从这5名学生中抽取一名男生与一名女生的概率为11222563105C C C == 3.“微信运动”是一个类似计步数据库的公众账号,用户只需以运动手环或手机协处理器的运动数据为介,然后关注该公众号,就能看见自己与好友每日行走的步数,并在同一排行榜上得以体现.现随机选取朋友圈中的50人记录了他们某一天的走路步数,并将数据整理如下:规定:人一天行走的步数超过8000步时被系统评定为“积极性”,否则为“懈怠性”.(1)填写下面22⨯列联表(单位:人),并根据列联表判断是否有90%的把握认为“评定类型与性别有关”;附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. (2)为了进一步了解“懈怠性”人群中每个人的生活习惯,从步数在3001~6000的人群中再随机抽取3人,求选中的人中男性人数超过女性人数的概率. 【答案】(1)列联表见解析;没有90%的把握认为“评定类型与性别有关”;(2)310. 【解析】(1)22⨯列联表如下:根据列联表中的数据,得的观测值2K 的观测值()225020810120.231 2.70630203218K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有90%的把握认为“评定类型与性别有关”.(2)由已知可得从步数在3001~6000的人群有男性2人,女性3人.设步数在3001~6000中的男性的编号为1,2,女性的编号为a ,b ,c .设选中的人中男性人数超过女性人数为事件A .选取三人的所有情况为()1,2,a ,()1,2,b ,()1,2,c ,()1,,a b ,()1,,a c ,()1,,b c ,()2,,a b ,()2,,a c ,()2,,b c ,(),,a b c ,共10种情况.符合条件的情况有()1,2,a ,()1,2,b ,()1,2,c ,共3种情况.故所求概率为()310P A =. 4.为了提高生产效益,某企业引进一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取100件产品进行质量检测,所有产品质量指标值均在(]15,45以内,规定质量指标值大于30的产品为优质品,质量指标值在(]15,30以内的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标如频数分布表所示.(1)请分别估计新、旧设备所生产的产品优质品率;(2)优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有95%的把握认为“产品质量高低与新设备有关”;(3)已知每件产品的纯利润y(单位:元)与产品质量指标t的关系式为2,30451,1530tyt<≤⎧=⎨<≤⎩.若每台新设备每天可以生产1000件产品,买一台新设备需要80万元,请估计至少需要生产多少天才可以收回设备成本.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)估计新、旧设备所生产的产品优质品率分别为70%、55%;(2)列联表见解析,有95%的把握认为“产品质量高低与新设备有关”,理由见解析;(3)471.【解析】(1)估计新设备所生产的产品优质品率为302515100%70%100++⨯=, 估计旧设备所生产的产品优质品率为()50.060.030.02100%55%⨯++⨯=;(2)根据题中所给数据可得到如下22⨯列联表:()22220030557045 4.8 3.84110075125K ⨯⨯-⨯==>⨯⨯, 因此,有95%的把握认为“产品质量高低与新设备有关”;(3)新设备所生产的产品的优质品率为0.7,∴每台新设备每天所生产的1000件产品中,估计有10000.7700⨯=件优质产品,有300件合格品,⨯+⨯=(元),则每台新设备每天所生产的产品的纯利润为700230011700÷≈(天),因此,估计至少需要471天方可收回成本.8000001700471。
第22讲线性回归方程讲义-高三艺考数学一轮复习
第22讲:线性回归方程【课型】复习课【教学目标】1.了解相关关系、散点图,会判断两变量是否成线性相关关系2.能利用最小二乘法求线性回归方程的两个系数【预习清单】【基础知识梳理】1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. :在一个统计数表中,为了更清楚地看出x 和y 是否具有相关关系,常将x 的取值作为横坐标,将y 的相应取值作为纵坐标,在直角坐标中描点(xi ,yi )(i =1,2,…,n),这样的图形叫做散点图.3.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y =b x +a ,其中b =∑n i =1x i y i -n x -·y -∑n i =1x 2i-n x -2,a =y --b x -. (4)注意:①自变量x 每增加1个单位,函数值平均增加或减少b 个单位。
②所以线性回归方程均过点(x -,y -).(x -,y -)称为样本中心点。
【引导清单】考向一:相关关系的判断例1:已知变量x 和y 满足关系yx +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】因为yx +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =by +a ,b >0,则z =by +abx +b +a ,故x 与z 负相关.考向二:线性回归方程及其应用例2:已知具有相关关系的两个变量x ,y 的几组数据如下表所示:x 2 4 6 8 10y 3 6 7 10 12(1)请根据上表数据在网络纸中绘制散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =b x +a ,并估计当x =20时y 的值.参考公式:b =∑n i =1x i y i -n x - y -∑n i =1x 2i-n x -2,a =y --b x -.【解】(1)散点图如图所示:(2)依题意x -=15×(2+4+6+8+10)=6,y -=15×,∑=51i x i 2=4+16+36+64+100=220,∑=51i x i y i =6+24+42+80+120=272,b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=272-5×6×220-5×62=4440,所以a ^×y ^x +1,故当x =20时,y =23. 【训练清单】【变式训练1】对变量x ,y 有观测数据(x i ,y i )(i =1,2,3,4,5),得表1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,3,4,5),得表2.由这两个表可以判断( ) x 与y 正相关,u 与v 正相关 B .变量x 与y 负相关,u 与v 正相关 C .变量x 与y 负相关,u 与v 负相关D .变量x 与y 正相关,u 与v 负相关【解析】选D.由题可知,随着x 的增大,对应的y 值增大,其散点图呈上升趋势,故x 与y 正相关;随着u 的增大,v 减小,其散点图呈下降趋势,故u 与v 负相关.【变式训练2】从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑=101i i x =80,∑=101i i y =20,ii i y x ∑=101=184,∑=1012i i x y 关于月收入x 的线性回归方程为y =b x +a ,(1)判断变量x 与y 正相关还是负相关(2)y 关于x 的线性回归方程y =b x +a ,若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是多少千元?【解析】(1)由题意,知n =10,x =110∑=101i i x =8,y =110∑=101i i y =2,∴b ^=184-10×8×2720-10×82=0.3,a ^×8=-0.4,∴y ^x -0.4,∵0.3>0,∴变量x 与y 正相关.(2)当x =7时,y ^×7-0.4=1.7(千元).【巩固清单】( )【解析】球的表面积与体积是函数关系.2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( )A.y =-10x +200B.y =10x +200C.y =-10x -200D.y =10x -200x 1 2 3 4 5 y u 1 2 3 4 5 v 25 20 21 15 13【解析】选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D.又因为x =0时,y >0,所以应选A.3.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )【解析】观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.4.改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y x ,地级市y x ,县城y x ,农村y x ,则四个区域中,大学入学率年增长率最快的区域是( )A .省城B .地级市C .县城D .农村【解析】四条回归直线,斜率最大的是省城,故选A.5.对于下列表格所示的五个散点,已知求得的回归直线方程为y xm 的值为( )A.8 C .8.4【解析】依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m 5×200-155,解得m =8.6.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b ,a =y --b x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )万元 B .万元 万元 D .万元【解析】 由题意知,x =85=10,y -=错误!=8,所以错误!×,所以当x =15时,y ^×15+0.4=11.8(万元).7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y x ,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】x 变为x +1,y ,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.8.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^x +a^,则a ^=________. x 0 1 3 4y【解析】由已知得x =2,y ,因为回归方程经过点(x ,y ),所以a ×2=2.6.9.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,x 196 197 200 203 204 y 1 3 6 7 m收入x (万元) 支出y (万元)y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.【解析】令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t=∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 10(1)求y (2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.【解析】 (1)由表中数据计算得,t -=5,y -=4,5.8))((t 51i i =--∑=y y t i,10)(t 251i i =-∑=t ,85.0105.8)(t))((t 251i i 51i i ==---=∑∑==t y y t b i ,a =y --b t -=-0.25. 所以回归方程为y ^t -0.25.(2)将t =8代入(1)的回归方程中得y ^×t =8时,细菌繁殖个数为6.55千个.。
高考线性回归知识点
高考线性回归知识点线性回归是高考数学中的一个重要知识点,它是一种统计学上常用的方法,用于分析两个变量之间的线性关系。
在高考中,线性回归经常被应用于解决实际问题和预测未知数据。
本文将介绍线性回归的基本概念、公式以及应用示例,帮助大家更好地理解和应用这一知识点。
一、线性回归的基本概念线性回归是建立一个自变量X和一个因变量Y之间的线性关系模型,通过最小化实际观测值与模型预测值之间的误差,来拟合和预测因变量Y的值。
线性回归的模型可以表示为:Y = β0 + β1*X + ε其中,Y是因变量,X是自变量,β0是截距,β1是斜率,ε是误差项,代表模型无法准确拟合数据的部分。
二、线性回归的公式1. 简单线性回归如果模型中只有一个自变量X,称为简单线性回归。
简单线性回归的公式为:Y = α + βX + ε其中,α表示截距,β表示斜率,ε为误差项。
我们利用给定的数据集,通过最小二乘法来估计α和β的值,从而得到一条最佳拟合直线。
2. 多元线性回归如果模型中有多个自变量X1、X2、X3...,称为多元线性回归。
多元线性回归的公式为:Y = α + β1*X1 + β2*X2 + β3*X3 + ... + ε同样,我们利用最小二乘法来估计α和每个β的值,从而得到一个最佳拟合的平面或超平面。
三、线性回归的应用示例线性回归在实际问题中有广泛的应用。
下面通过一个简单的例子来说明线性回归的具体应用过程。
例:某城市的房价与面积的关系假设我们要研究某个城市的房价与房屋面积之间的关系。
我们收集了一些房屋的信息,包括房屋的面积和对应的价格。
我们可以使用线性回归来建立一个房价和面积之间的模型,从而预测未知房屋的价格。
1. 数据收集首先,我们收集了一些房屋的面积和价格数据,得到一个数据集。
2. 模型建立根据数据集,我们可以建立一个线性回归模型:价格= α + β*面积+ ε通过最小二乘法,估计出α和β的值。
3. 模型评估为了评估模型的好坏,我们需要计算误差项ε。
人教版高考总复习一轮数学精品课件 主题四 概率与统计 第十章 第二节 数据分析——回归模型及其应用
残差分析
称为__________.
五、刻画回归效果的方式
1.残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出
的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明
拟合效果越好.
2.残差平方和法
越小
越大
残差平方和 ∑ − ො 2 ,残差平方和______,模型拟合效果越好;残差平方和______,模
=1
型拟合效果越差.
3.利用2 刻画回归效果
决定系数2 是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量刻画预报
变量的能力.
∑ −ො 2
主题四 概率与统计
第十章 统计与成对数据的统计分析
第二节 数据分析——回归模型及其应用
1
1 强基础 知识回归
1.结合具体实例,了解一元线性回归模型的含义.
课标 2.了解模型参数的统计意义,了解最小二乘法原理.
解读 3.了解非线性回归模型.
4.会通过分析残差和利用2 判断回归模型的拟合效果.
01
高,即选项D正确.故选D.
强基础 知识回归
知识梳理
一、变量的相关关系
1.相关关系
(1)两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这
相关关系
种关系称为__________.
正相关
负相关
(2)相关关系的分类:________和________.
2.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18、统计18.4 线性回归方程及应用【知识网络】1.能通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
2.了解线性回归的方法;了解用最小二乘法研究两个变量的线性相关问题的思想方法;会根据给出的线性回归方程系数公式建立线性回归方程(不要求记忆系数公式)。
【典型例题】[例1](1)为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值为s与t,那么下列说法正确的是()A.直线l1和l2一定有公共点(s,t) B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2D.直线l1和l2必定重合(2)工人工资(元)依劳动生产率(千元)变化的回归方程为ˆy=50+80x,下列判断正确的是()A.劳动生产率为1000元时,工资为130元B.劳动生产率提高1000元时,工资提高80元C.劳动生产率提高1000元时,工资提高130元D.当月工资250元时,劳动生产率为2000元(3)下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究。
其中正确的命题为()A.①③④B。
②④⑤C。
③④⑤D。
②③⑤(4)一家保险公司调查其总公司营业部的加班程度,收集了10周中每周加班工作时间y (小时)与签发新保单数目x的数据如下表,则用最小二乘法估计求出的线性回归方程是___________。
(5)上题中,若该公司预计下周签发新保单1000张,则需要加班的时间是。
[例2]其中x(血球体积,mm),y(血红球数,百万).①画出上表的散点图;②求出回归直线并且画出图形。
[例3]要分析学生初中升学的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩(如下表):(2)若某学生入学数学成绩80分,试估计他高一期末数学考试成绩.[例出散点图;(2)商品零售额与商品流通费率具有线性相关关系吗?如果商品零售额是20万元,那么能否预测此时流通费率是多少呢?【课内练习】1. 下列两个变量之间的关系哪个不是函数关系 ( )A .角度和它的余弦值B 。
正方形边长和面积C .正n边形的边数和它的内角和D 。
人的年龄和身高 2. 下列变量之间的关系是函数关系的是 ( )A .已知二次函数c bx ax y ++=2,其中a ,c 是已知常数,取b 为自变量,因变量是这个函数的判别式ac b 42-=∆B .光照时间和果树的亩产量C .降雪量和交通事故发生率D .每亩用肥料量和粮食亩产量 3. 下列命题叙述正确的是 ( )A .任何两个变量都可以用一元线性回归关系进行合理的描述B .只能采用最小二乘法对一元线性回归模型进行参数估计C .对于一个样本,用最小二乘法估计得到的一元线性回归方程参数估计值是唯一的D .任何两个相关关系的变量经过变换后都可以化为一元线性回归关系4. 设线性回归直线方程ˆˆya bx =+,现将y 的单位由cm 变为m ,x 的单位由ms 变为s ,则在新的线性回归直线方程y ab x **=+中,( )A .0.1b b *= B .b b *= C .10b b *=D .100b b *=5. 若施肥量x 与水稻产量y 的线性回归直线方程ˆˆ2505yx =+,当施肥量为80Kg 时,预计水稻产量为___________.6. 某保险公司收集了10周中工作的加班时间y 与签订新保单数目x ,用最小二乘法求出线性回归方程为ˆˆ0.120.0036yx =+.若公司预签订新保单1000张,估计需加班 _________小时.7. 如果你想作一个反对抽烟的电视公益广告的播放次数与看电视的中学生戒烟率的数据散点图,作为x 轴的变量应为 。
8.试求出回归直线方程9.在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x之间相应的一组观求腐蚀深度y对腐蚀时间x的回归直线方程,并解释回归系数的意义.10.年底的四年里,该地区这种病的新发病人数总共多少?18、统计18.4 线性回归方程及应用A 组1. 设有一个直线回归方程为 ˆˆ32yx =- ,则变量x 增加一个单位时 ()A .y 平均增加 2个单位B 。
y 平均增加 3 个单位C .y 平均减少 2 个单位D 。
y 平均减少 3个单位2. 回归直线方程的系数a ,b 的最小二乘法估计使函数Q (a ,b )最小,Q 函数指 ( )A .21()niii y a bx =--∑ B 。
1ni ii y a bx=--∑C .i i y a bx --D 。
2()i i y a bx --3. 对于给定的两个变量的统计数据,下列说法正确的是 ( ) A .都可以分析出两个变量的关系 B .都可以用一条直线近似表示两者关系来估计总体的均值 C .都可以作出散点图 D .都可以用确定的表达式表示两者的关系4. 某种机器购置后运营年限x 与当年增加利润y 的统计分析知具备线性相关关系,回归方种为ˆˆ10.47 1.3yx =-,估计这种机器使用 年最合算。
5. 给出下列关系:①正方体的体积与棱长 ②角的度数和它的正弦值 ③单产为常数时,土地面积和总产量 ④日照时间与棉花亩产量 ⑤体重与身高 其中属于函数关系的有 。
6.问题物件的多寡,随机器运转的速度而变化,左面表格中的数据是几次试验的结果.那么当速度为10(转/秒)时,是否可以预知每小时生产有问题物件数呢?若实际生产中所允许的每小时最大问题物件数为10,那么机器的速度不得超过多少转/秒?7.假设儿子身长与父亲身长适合一元线性回归模型,观察了10对英国父子身长(英寸)8.我们知道营业税税收总额y与社会消费品零售总额x有关.为能从社会消费品零售总额去预测营业税税收总额,需要了解两者的关系.现收集如下11组全国相关数据(单位:亿元)(1)画出营业税税收总额y与社会消费品零售总额x间散点图;(2用最小二乘法求营业税税收总额y与社会消费品零售总额x之间线性回归直线方程.(3)试估计2005年社会消费品零售总额增长在12%~14%,营业税税收总额y大致会增长多少?18、统计18.4 线性回归方程及应用B 组1. 回归直线方程的系数a ,b 的最小二乘法估计使函数Q (a ,b )最小,则下列正确答案是 ( )A .1221ni ii nii x y nx yb xnx==-=-∑∑B 。
1ni ii Q y a bx==--∑C .a y bx =+D 。
1221ni i i ni i n x y x y b n x x==-=-∑∑2. 两个变量成负相关关系时,散点图的特征是 ( ) A .点散布特征为从左下角到右上角区域 B .点散布在某带形区域内 C .点散布在某圆形区域内 D .点散布特征为从左上角到右下角区域内3. 某考察团对全国10大声调进行职工人均平均工资x 与居民人均消费y 进行统计调查,y 与x 具有相关关系,回归方程为ˆˆ0.66 1.562y x =+(单位:千元)。
若某城市居民消费水平为7.675,估计该城市消费额占人均工资收入的百分比为 ( )A .66%B 。
72.3%C 。
67.3%D 。
83% 4. 下列关系中: ①吸烟有害健康 ②粮食产量与施肥量 ③乌鸦叫,没好兆 ④名师出高徒 不具有相关关系的是 。
5. 现有一个身高预测体重的回归方程;体重预测值=4(磅/英寸) 身高-130磅.期中体重和身高分别以磅和英寸为单位。
如果将它们分别以kg 、cm 的单位(1英寸≈2.5cm ,1磅≈0.45kg ) .回归方程应该是____________________________________.6.(1)画出散点图;(2)最小二乘法求月产品的总成本y (万元)与该月产量x (万件)之间线性回归直线方程.7. 试证明:①22211()nni i i i x x x nx ==-=-∑∑;②11()()n ni i i i i i x x y y x y nx y ==--=-∑∑。
8. 下栏的表格是某省20个县城2007年的一份统计资料,其中i x 表示第i 个县城在2007年建成的新住宅面积(单位:103m 2),y 表示第i 个县城在2007年的家具销售量(万元) 。
若此县城在2008年预计新建成的住宅面积为350×103m 2,则可以大体估计出此县城当年可销售家具多少万元?参考答案18.4 线性回归方程及应用【典型例题】[例1](1)A .提示:线性回归直线方程为ˆy=a +bx ,而a =y bx -,即a =t -bs ,t =a +bs .∴(s ,t )在回归直线上,即直线l 1和l 2必有公共点(s ,t )。
(2)B .提示:回归直线斜率为80,所以x 每增加1,ˆy增加80,即劳动生产率提高1千元时,工资提高80元。
(3)C .(4)x y 003585.01181.0ˆ+=。
提示:10102111762,()129786010i i i i x x x x ====-=∑∑,4653))((,85.2101=--=∑=i i i y y x x y 。
(5)3.7小时。
提示:将x=1000代入上面公式即可。
[例2]①②10=x37.7)72.855.620.649.990.599.650.752.930.653.6(101=+++++++++=y12210.13ni ii nii x y nxyb xnx ==-==-∑∑, 1.29a y bx =-=,所以所求回归直线的方程为ˆ0.13 1.29y x =+ .图形如下xx[例3](1)从入学成绩(x )与高一期末考试成绩(y )两组变量的散点图看,这两组变量尚具有线性关系.通过计算知76,70==y x ,∑∑===-=--1012101,2474)(,1894))((i i i ix x y y x x∑==-10122056)(i y y ,所以x b y a b -==,76556.041067.22=,因此所求的线性回归方程是yˆ=22.410 67+0.765 56x ;(2)若某学生入学数学成绩为80分,代入上式可求得,84≈y 分,即这个学生高一期末数学成绩预测值为84分.[例4] (1)散点图如图所示.(2)散点图显示出商品流通费率和商品零售额的变化关系并不是直线型,而是一条递减的双曲线型.两者之间不具有线性相关关系.但经济理论和实际经验都可说明,流通费率决定于商品零售额,体现着经营的规模效益,因此可以拟合一个以商品销售额为自变量(X ),流通费率为因变量(Y )的双曲线回归模型:Xb a Y1ˆ⨯+=,为了求模型中的a 和b 两个参数,令1X X'=,是上述模型转换为线性模型:ˆYa bX '=+,这样我们就可以运用线性回归的知识加以解决了. 将转化后的有关数据列表如下:代入公式得:4.60,4377.0=-=b a ,从而线性回归方程为ˆ0.437760.4Y X '=-+.将1X X'=回代得60.4ˆ0.4377YX =-+. 于是当X =20(万元)时,5823.2ˆ=Y (%).【课内练习】1. D 。