高考数学复习点拨-非线性回归问题
2025高考数学一轮复习-9.1.2-线性回归方程【课件】
(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出). 根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概 率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千 件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料 成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选 择100元还是90元,请说明理由.
因为 y =3860=45,
8
uiyi-8 u y
i=1
所以b^ =
8
u2i -8 u 2
i=1
=1831..45- 3-8×8×0.03.411×545=06.611=100,
则a^ = y -b^ u =45-100×0.34=11, 所以y^ =11+100u, 所以 y 关于 x 的回归方程为y^=11+10x0.
三、非线性回归问题
知识梳理
解非线性回归分析问题的一般步骤 有些非线性回归分析问题并不给出函数,这时我们可以根据已知数据 画出散点图,与学过的各种函数(幂函数、指数函数、对数函数等)的图 象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量 进行变换,把问题转化为线性回归分析问题,使之得到解决.
n
v2i -n
v
2
i=1
i=1
解 ①当产品单价为100元,设订单数为m千件,因为签订9千件订单的 概率为0.8,签订10千件订单的概率为0.2, 所以E(m)=9×0.8+10×0.2=9.2, 所以企业利润为 100×9.2-9.2×190.20+21=626.8(千元). ②当产品单价为90元,设订单数为n千件, 因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E(n)=10×0.3+11×0.7=10.7,
非线性回归方程经典题型-打印
非线性回归方程经典题型一、解答题(本大题共16小题,共192.0分)1. 一只药用昆虫的产卵数y 与一定范围内的温度x 有关,现收集了该种药用昆虫的6经计算得:x =16∑x i 6i=1=26,y =16∑y i 6i=1=33,∑(6i=1x i −x)(y i −y)=557,∑(6i=1x i −x)2=84,∑(6i=1y i −y)2=3930,线性回归模型的残差平方和∑(6i=1y i−y ^i )2=236.64,e8.0605≈3167,其中x i ,y i 分别为观测数据中的温度和产卵数,i =1,2,3,4,5,6.(Ⅰ)若用线性回归模型,求y 关于x 的回归方程y =bx +a(精确到0.1); (Ⅱ)若用非线性回归模型求得y 关于x 的回归方程为y ^=0.06e 0.2303x ,且相关指数R 2=0.9522.(i)试与(Ⅰ)中的回归模型相比,用R 2说明哪种模型的拟合效果更好.(ii)用拟合效果好的模型预测温度为35∘C 时该种药用昆虫的产卵数(结果取整数). 附:一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计为b ^=ni=1i −x)(y i −y)∑(n x −x)2,a ^=y −b ^x ;相关指数R 2=1−n i=1i ^i 2∑(n y −y)2.2. 对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =ce dx 拟合,得到回归方程分别为y ^(1)=0.24x −8.81,y ^(2)=1.70e 0.022x ,作残差分析,如表:(Ⅱ)根据残差比较模型①,②的拟合效果,决定选择哪个模型;(Ⅲ)残差大于1kg 的样本点被认为是异常数据,应剔除,剔除后对(Ⅱ)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…(x n ,y n ),其回归直线y =bx +a 的斜率和截距的最小二乘法估计分别为b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2,a ^=y .−b ^x ..3. 某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y =c ⋅x b (b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)内时为优等品.现随机抽取6件合格产品,测得数据如下: 尺寸x(mm) 38 48 58 68 78 88 质量y(g) 16.8 18.8 20.7 22.4 24 25.5 质量与尺寸的比yx0.4420.3920.3570.3290.3080.290(1)现从抽取的6件合格产品中再任选2件,求恰有一件优等品的概率;(2)根据测得数据作出如下处理:令v i =lnx i ,u i =lny i ,得相关统计量的值如下表:∑v i 6i=1u i∑v i 6i=1∑u i 6i=1∑v i 26i=175.3 24.6 18.3 101.4 (ⅰ)根据所给统计量,求y 关于x 的回归方程;(ⅰ)已知优等品的收益z(单位:千元)与x ,y 的关系为z =2y −0.32x ,当优等品的质量与尺寸之比为e8时,求其收益的预报值.(精确到0.1)附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b ⋅v +a 的斜率和截距的最小二乘估计公式分别为:b ^=∑(n i=1v i −v)∑(n i=1v i −u)2=∑v i n i=1u i −nvu∑v i 2n i=1−nv2,a ^=u −b ^v ,e ≈2.7182.4. 某公司为评估两套促销活动方案(方案1运作费用为5元/件;方案2的运作费用为2元/件),在某地区部分营销网点进行试点(每个试点网点只采用一种促销活动方案),运作一年后,对比该地区上一年度的销售情况,制作相应的等高条形图如图所示.(1)请根据等高条形图提供的信息,为该公司今年选择一套较为有利的促销活动方案(不必说明理由);(2)已知该公司产品的成本为10元/件(未包括促销活动运作费用),为制定本年度该地区的产品销售价格,统计上一年度的8组售价x i (单位:元/件,整数)和销量y i (单位:件)(i =1,2,…,8)如下表所示:售价x 3335 37 39 41 43 45 47 销量y 840800 740 695 640 580 525 460 ①请根据下列数据计算相应的相关指数R 2,并根据计算结果,选择合适的回归模型进行拟合;②根据所选回归模型,分析售价x 定为多少时?利润z 可以达到最大.y ^=−1200lnx +5000 y ^=−27x +1700 y ^=−13x 2+1200∑(8i=1y i −y ^i )249428.74 11512.43 175.26∑(8i=1y i −y .)2 124650(附:相关指数 R 2=1−∑(n i=1y i −y ^i )2∑(n i=1y i−y)2)5. 二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z =lny3.002.482.081.861.481.10下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关数加以说明;(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(b^、a ^小数点后保留两位有效数字). (3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程y ^=b ^x +a^中斜率和截距的最小二乘估计公式分别为: b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2=∑x i n i=1y i −nxy ∑x i2ni=1−nx 2,a ^=y .−b ^x .,r =∑(n i=1x i −x)(y i −y)√∑(n i=1x i −x)2∑(n i=1y i −y)2.参考数据:∑x i 6i=1y i =187.4,∑x i 6i=1z i =47.64,∑x i 26i=1=139,√∑(6i=1x i −x .)2=4.18,√∑(6i=1y i −y .)2=13.96,√∑(6i=1z i −z .)2=1.53,ln1.46≈0.38,ln0.7118≈−0.34.6. 为了调查历城区城乡居民人民生活水平,随机抽取了10个家庭,得到第i(i =1,2,…,10)个家庭月收入x i (单位:千元)与月流动资金y i (单位:千元)的数据资料如下表:∑x i 10i=1∑y i 10i=1∑ωi 10i=1∑x i 10i=1y i∑ωi 10i=1y ii i (Ⅰ)求方程y =d +c √x ;(Ⅱ)已知某家庭9月收入为9千元,该家庭计划用当月流动资金购置价格为499元的九阳豆浆机,问计划能否成功?附:对一组数据(x i ,y i )(i =1,2,…,10),其回归直线y =b ^x +a ^的最小二乘法估计为b =∑x i n i=1y i −nxy∑x i 2n i=1−n(x)2,a =y .−bx ..7. 近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图1所示的频率分布直方图.在图1对使用时间的分组中,将使用时间落入各组的频率视为概率.(1)若在该交易市场随机选取3辆2017年成交的二手车,求恰有2辆使用年限在(8,16]的概率;(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中x(单位:年)表示二手车的使用时间,y(单位:万元)表示相应的二手车的平均交易价格. ①由散点图判断,可采用y =e a+bx 作为该交易市场二手车平均交易价格y 关于其使用年限x 的回归方程,相关数据如下表(表中Y i =lny i ,Y =110∑Yi 10i=1):试选用表中数据,求出关于的回归方程;②该汽车交易市场拟定两个收取佣金的方案供选择. 甲:对每辆二手车统一收取成交价格的5%的佣金;乙:对使用8年以内(含8年)的二手车收取成交价格的4%的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的10%的佣金.假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金. 附注:①对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑u i n i=1v i −nuv∑u i 2n i=1−nu2,α^=v −β^u ;②参考数据:e 2.95≈19.1,e 1.75≈5.75,e 0.55≈1.73,e −0.65≈0.52,e −1.85≈0.16.8. 近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表1所示: 1根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内,y =a +bx 与c ⋅d x (c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由); (2)根据(1)的判断结果及表1中的数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下 表2:车队为缓解周边居民出行压力,以万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有1万人次乘车,根据给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要n(n ∈N n )年才能开始盈利,求n 的值. 参考数据:其中其中υi =lgy i ,υ=17∑υi 7i=1参考公式:对于一组数据(u i ,υi ),(u 2,υ2),…,(u n ,υn ),其回归直线υ̂=a ̂+β̂u 的斜率和截距的最小二乘估计公式分别为:β̂=∑u i ni=1υi −nuυ∑u i 2n i=1−nu2,a ̂=υ−β̂u . 9. 某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量y(g)与尺寸x(mm)之间近似满足关系式y =c ⋅x b (b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(e 9,e7)内时为优等品.现随机抽取6件合格产品,测得数据如下: 尺寸x(mm) 38 48 58 68 78 88 质量y(g)16.818.8 20.7 22.4 24 25.5 质量与尺寸的比yx 0.4420.3920.3570.3290.3080.290(1)现从抽取的6件合格产品中再任选3件,记ξ为取到优等品的件数,试求随机变量ξ的分布列和期望;(2)根据测得数据作了初步处理,得相关统计量的值如下表:∑(6i=1lnx i ⋅lny i )∑(6i=1lnx i )∑(6i=1lny i )∑(6i=1lnx i )275.3 24.6 18.3 101.4(i)根据所给统计量,求y 关于x 的回归方程;(ii)已知优等品的收益z(单位:千元)与x ,y 的关系为z =2y −0.32x ,则当优等品的尺寸x 为何值时,收益z 的预报值最大?附:对于样本(v i ,u i )(i =1,2,…,n),其回归直线u =b ⋅v +a 的斜率和截距的最小二乘估计公式分别为:b ^=∑(n i=1v i −v)(u i −u)∑(n i=1v i −v)2=∑v i n i=1u i −nvu∑v i 2n i=1−nv2,a ^=u −b ^v ,e ≈2.7182.10. 经统计,2015年,某公路在部分界桩附近发生的交通事故次数如下表:把界桩公里数记为,公里数记为,,数据绘成的散点图如图所示,以x 为解释变量、交通事故数y 为预报变量,建立了两个不同的回归方程y (1)=29.9+50.2×1x 和y (2)=33.9+125.9e −x 表述x ,y 二者之间的关系. (Ⅰ)计算R 2的值,判断这两个回归方程中哪个拟合效果更好?并解释更好的这个拟合所对R 2的意义;(Ⅱ)若保险公司在每次交通事故中理赔60万元的概率为0.01,理赔2万元的概率为0.19,理赔0.2万元的概率为0.8,利用你得到的拟合效果更好的这一个回归方程,试预报这一年在界桩1040公里附近处发生的交通事故的理赔费(理赔费精确到0.1万元).附:对回归直线y =α̂+β̂x ,有R 2=1−∑(n i=1y i −y ^i )2∑(n i=1y i −y)2.一些量的计算值:表中:y ̂i (1)=29.9+50.2×1x i ,y ^i (2)=33.9+125.9e −x i ,140=0.025,e −40≈0.11. x(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y =−0.30x 2+10.17x +68.07.经调查,该地11岁男童身高的中位数为145.3cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程y ^=a ^+b ^x 中的斜率和截距的最小二乘估计公式分别为:b ^=n i=1i −x)(y i −y)∑(n x −x)2,a ^=y −b ^x .12. 某互联网公司为了确定下一季度的前期广告投入计划,收集了近期前期广告投入量x(单位:万元)和收益y(单位:万元)的数据.对这些数据作了初步处理,得到了下面的散点图(共21个数据点)及一些统计量的值.为了进一步了解广告投入量x 对收益y 的影响,公司三位员工①②③对历史数据进行分析,查阅大量资料,分别提出了三个回归方程模型:表中u i =lnx i ,v i =√x i ,参考数据:√2=1.41,√10=3.16. 表一x y∑(21i=1x i −x)2∑(21i=1x i −x)(y i−y) ∑(21i=1y i −y)240 62770 250200表二μ̂ ∑(21i=1μi −μ)2∑(21i=1μi−μ)(y i −y)v∑(21i=1(v i −v)2∑(21i=1v i−v)(y i −y)3.600.499.806.35.0030.00(1)根据散点图判断,哪一位员工提出的模型不适合用来描述x 与y 之间的关系?简要说明理由.(2)根据据(1)的判断结果及表中数据,在余下两个模型中分别建立收益y 关于投入量x 的关系,并从数据相关性的角度考虑,在余下两位员工提出的回归模型中,哪一个是最优模型(即更适宜作为收益y 关于投入量x 的回归方程)?说明理由: 附:对于一组数据(x 1,y 1),(x 2,y 2),……,(x n ,y n ),其中回归直线y ^=b ^x +a ^的斜率,截距的最小二乘估计以及相关系数分别为:b ̂=∑(ni=1x i −x)(y i −y)∑(n i=1x i−x)2,a ̂=y −b ̂x,r =∑(n i=1x i −x)(y i −y)√∑(n i=1x i −x)2∑(n i=1y i −y)2,其中r 越接近于是,说明变量x 与y 的线性相关程度越好.13. 在冬季,由于受到低温和霜冻的影响,蔬菜的价格会随着需求量的增加而上升,已知某供应商向饭店定期供应某种蔬菜,日供应量x 与单价y 之间的关系,统计数据如表所示:日供应量x(kg) 38 48 58 68 78 88 单价y(元/kg)16.818.820.722.42425.5(Ⅰ)根据上表中的数据得出日供应量x 与单价y 之间的回归方程为y =ax b ,求a ,b 的值;(Ⅱ)该地区有14个饭店,其中10个饭店每日对蔬菜的需求量在60kg 以下(不含60kg),4个饭店对蔬菜的需求量在60kg 以上(含60kg),则从这14个饭店中任取4个进行调查,记这4个饭店中对蔬菜需求量在60kg 以下的饭店数量为X ,求X 的分布列及数学期望. 参考公式及数据:对一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ̂=∑x i ni=1y i −nxy ∑x i 2n i=1nx2,a ^=y −b ^x ∑(6i=1lnx i ⋅lny i )∑(6i=1lnx i )∑(6i=1lny i )∑(6i=1lnx i )273.524.6 18.3 101.414. 某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元.经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y(万元)近似满足关系式y =C 1⋅2C 2x ,其中C 1,C 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k ∑(5i=1k i −k)2∑(5i=1y i −y)2∑(5i=1x i −x)(y i −y)∑(5i=1x i −x)(k i −k) 2.31.23.14.621其中k i =log 2y i ,k =15∑k i 5i=1(Ⅰ)估计该市2018年人均可支配年收入;(Ⅱ)求该市2018年的“专项教育基金”的财政预算大约为多少?附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2)…,(u n ,v n ),其回归直线方程v ∧=βu ∧+α的斜率和截距的最小二乘估计分别为β∧=∑(n i=1u i −u)(vv i −v)∑(n i=1u i −u)2,α∧=v −β∧u②2−0.7 2−0.3 20.1 21.7 21.8 21.9 0.60.81.13.23.53.7315. 参加数学选修课的同学,对某公司的一种产品销量与价格进行了统计,得到如下数据和散点图:定价x(元/kg) 10 20 30 40 50 60 年销量y(kg)1150 643 424 262 165 86 z =2lny14.112.912.111.110.28.9下列数据计算时可供参考:∑(6i=1x i −x)(y i −y)=−34580∑(6i=1x i −x)(z i −z)=−175.5e 6=403.43∑(6i=1y i −y)2=776840∑(6i=1y i −y)(z i −z)=3465.2e 5=148.41(Ⅰ)根据散点图判断出y 与x 和z 与x 分别是正相关还是负相关,再比较判断y 与x 和z 与x 哪一对具有较强的线性相关性?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及相关数据,选择合理模型建立y 关于x 的回归方程.(方程中的系数均保留两位有效数字).(Ⅲ)根据由(Ⅱ)得到的回归方程,计算当定价x =30时的残差.附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线的斜率和截距的最小二乘估计分别为:b ∧=n i=1i −x)⋅(y i −y)∑(n x −x)2a ∧=y −b ∧x16. 为落实“精准扶贫”战略,某县决定利用扶贫资金帮扶具有地方特色的传统手工业发展.扶贫项目组利用数据分析技术,模拟扶贫项目的未来预期,模拟结果显示,项目投资x(万元)和产品利润y(万元)关系如表所示:分析发现用模型y =bx 利润的关系.设t i =x i 2(i =1,2,3,4,5),t =15∑t i 5i=1,对数据初步处理得到下面一些统计量的值:y =b x +a(回归系数四舍五入,小数点后保留两位数字); (II)该扶贫项目用于支付工人劳动所得资金总额用公式w =y −1.2x 计算(其中x 为项目投资,y 为产品利润,单位:万元),并以(I)中所求回归方程预报产品利润,当工人劳动所得资金总额不少于120万元时,则认为该项目可以完成“脱贫”任务.假设政府投入该项目的扶贫资金(单位:万元)可以是区间[45,80]内的任意整数值,求可以完成“脱贫”任务的概率.附:对于具有线性相关的一组数据(x i ,y i )(i =1,2,…n),其回归方程为y ^=b ^x +a^. 其中:b ^=n i=1i −x)(y i −y)∑(n x −x)2x =1n ∑x i,n i=1y =1n ∑y in i=1.答案和解析【答案】1. 解:(Ⅰ)依题意,n =6,b ^=6i=1i −x)(y i −y)∑(6x −x)2=55784≈6.6, a ≈33−6.6×26=−138.6 ∴y 关于x 的线性回归方程为y =6.6x −138.6(Ⅱ) ( i )利用所给数据,∑(6i=1y i −y ^i )2=236.64,∑(6i=1y i −y)2=3930得, 线性回归方程y =6.6x −138.6 的相关指数R 2=1−6i=1i ^i 2∑(6y −y)2=1−236.643930≈1−0.0602=0.9398.∵0.9398<0.9522,因此,回归方程y ^=0.06e 0.2303x 比线性回归方程y ^=6.6x −138.6拟合效果更好; (ii)由( i )得温度x =35∘C 时,y ̂=0.06e 0.2303×35=0.06×e 8.0605 又∵e 8.0605≈3167, ∴y ^≈0.06×3167≈190(个)所以当温度x =35∘C 时,该种药用昆虫的产卵数估计为190个.2. 解:(Ⅰ)根据残差分析,把x =80代入y ^(1)=0.24x −8.81得y ^(1)=10.39.10−10.39=−0.39.所以表中空格内的值为−0.39.(Ⅱ)模型①残差的绝对值和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的绝对值和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.2.62<3.7, 所以模型①的拟合效果比较好,选择模型①.(Ⅲ)残差大于1kg 的样本点被剔除后,剩余的数据如表由公式:b ^=∑(n i=1x i −x)(y i −y)∑(n i=1x i −x)2,a ^=y .−b ^x ..得回归方程为y =0.24x −8.76.3. 解:由已知,优等品的质量与尺寸的比在区间(e 9,e7)内,即yx ∈(0.302 , 0.388)则随机抽取的6件合格产品中,有3件为优等品A 1,A 2,A 3,3件为非优等品B 1,B 2,B 3 现从任选2件,共有(A 1,A 2)、(A 1,A 3)、(A 1,B 1)、(A 1,B 2)、 (A 1,B 3)、(A 2,A 3)、(A 2,B 1)、(A 2,B 2)、(A 2,B 3)、 (A 3,B 1)、(A 3,B 2)、(A 3,B 3)、(B 1,B 2)、(B 1,B 3)、(B 2,B 3)15种方法 设任选2件恰有一件优等品为事件C ,则事件C 包含(A 1,B 1)、(A 1,B 2)、 (A 1,B 3)、(A 2,B 1)、(A 2,B 2)、(A 2,B 3)、(A 3,B 1)、 (A 3,B 2)、(A 3,B 3)共9种方法由古典概型有P(C)=915=35,故所求概率为35(2)解:对y =c ⋅x b (b,c >0)两边取自然对数得lny =lnc +blnx 由v i =lnx i ,u i =lny i ,得u =b ⋅v +a ,且a =lnc (ⅰ)根据所给统计量及最小二乘估计公式有b ^=75.3−24.6×18.3÷6101.4−24.62÷6=0.270.54=12a ^=u −b ^v =(18.3−12×24.6)÷6=1,得a ^=lnc ^=1,故c ^=e所求y 关于x 的回归方程为y =e ⋅x 12(ⅰ)由(ⅰ)可知,y ^=e ⋅x 12,则z ^=2e √x −0.32x当y^x=ex 12x=√x=e8,即√x =8, x =64时 得收益的预报值z ^=16e −0.32×64≈23.0(千元).4. 解:(1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2.(2)①由已知数据可知,回归模型y ^=−1200lnx +5000对应的相关指数R 12=0.6035;回归模型y ^=−27x +1700对应的相关指数R 22=0.9076; 回归模型y ^=−13x 2+1200对应的相关指数R 32=0.9986.因为R 32>R 22>R 12,所以采用回归模型y ^=−13x 2+1200进行拟合最为合适. ②由(1)可知,采用方案1的运作效果较方案2好, 故年利润z =(−13x 2+1200)(x −15),,当x ∈(0,40)时,z =(−13x 2+1200)(x −15)单调递增; 当x ∈(40,+∞)时,z =(−13x 2+1200)(x −15)单调递减, 故当售价x =40时,利润达到最大.5. 解:(1)由题意,计算x .=16×(2+3+4+5+6+7)=4.5,z .=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑x i 6i=1z i =47.64,√∑(6i=1x i −x .)2=4.18, √∑(6i=1z i −z .)2=1.53,∴r =∑n i=1i i √∑(n i=1x i −x)2∑(n i=1y i−y)2=47.64−6×4.5×24.18×1.53=−6.366.3954(或−6.366.40) ≈−0.99;∴z 与x 的相关系数大约为0.99,说明z 与x 的线性相关程度很高; (2)利用最小二乘估计公式计算b ̂=∑x i ni=1y i −nxy ∑x i2n i=1−nx 2=47.64−6×4.5×2139−6×4.52=−6.3617.5≈−0.36, ∴â=z .−b ̂x .=2+0.36×4.5=3.62, ∴z 与x 的线性回归方程是z ∧=−0.36x +3.62, 又z =lny ,∴y 关于x 的回归方程是y ∧=e −0.36x+3.62; 令x =9,解得y ∧=e −0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元; (3)当y ∧≥0.7118时,e −0.36x+3.62≥0.7118=e ln0.7118=e −0.34, ∴−0.36x +3.62≥−0.34, 解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年. 6. 解:(Ⅰ)由y 与x 满足函数模型y =d +c √x ,则y =d +cω, ω.=∑ωi 10i=110=8,y .=∑y i 10i=110=2,则c =∑ωi 10i=1y i −10×ωy∑ωi 210i=1−10×ω2=184−10×8×2720−10×82=0.3,则d =y .−cω.=2−0.3×8=0.4,∴y =−0.4+0.3√x ;(Ⅱ)由(Ⅰ)可知:当x =9时,则y =−0.4+0.3×3=0.5,∴当某家庭9月收入为9千元,该家庭计划用当月流动资金500元,大于499元, ∴当月收入为9千元时,当月流动资金能成功购置价格为499元的九阳豆浆机. 7. 解:(1)由频率分布直方图知,该汽车交易市场2017年成交的二手车使用时间在(8,12]的频率为0.07×4=0.28,使用时间在(12,16]的频率为0.03×4=0.12.所以在该汽车交易市场2017年成交的二手车随机选取1辆,其使用时间在(8,16]的概 率为0.28+0.12=0.4,…(2分)所以所求的概率为P =C 320.42⋅(1−0.4)=0.288;…(3分)(2)①由y =e a+bx 得lny =a +bx ,则Y 关于x 的线性回归方程为Y =a +bx ,…(4分)由于b ̂=10i=1i −x)(Y i −Y)∑(10x −x)2=∑x i 10i=1Y i −10x⋅Y ∑x i 210i=1−10x2=79.75−10×5.5×1.9385−10×5.52=−0.3, â=Y −β̂⋅x =1.9−(−0.3)×5.5=3.55, 则Y 关于x 的线性回归方程为Y^=3.55−0.3x ,……………………………(6分) 所以y 关于x 的回归方程为y ^=e 3.55−0.3x ;………………………(7分)②根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测: 使用时间在(0,4]的频率为0.05×4=0.2,对应的成交价格的预测值为e 3.55−0.3×2=e 2.95≈19.1; 使用时间在(4,8]的频率为0.09×4=0.36,对应的成交价格预测值为e 3.55−0.3×6=e 1.75≈5.75; 使用时间在(8,12]的频率为0.07×4=0.28,对应的成交价格的预测值为e 3.55−0.3×10=e 0.55≈1.73; 使用时间在(12,16]的频率为0.03×4=0.12,对应的成交价格的预测值为e 3.55−0.3×14=e −0.65≈0.52; 使用时间在(16,20]的频率为0.01×4=0.04,对应的成交价格的预测值为e 3.55−0.3×18=e −1.85≈0.16;……………………(9分) 若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75+0.28×1.73+0.12×0.52+0.04×0.16)×5% =0.32166≈0.32万元;若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75)×4%+(0.28×1.73+0.12×0.52+0.04×0.16)×10% =0.29092≈0.29(万元);……………………(11分)因为0.32>0.29,所以采用甲方案能获得更多佣金. ……………(12分)8. 解:(1)根据散点图判断,y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)∵y =c ⋅d x ,两边同时取常用对数得:1gy =1g(c ⋅d x )=1gc +1gd ⋅x ;设1gy =v ,∴v =1gc +1gd ⋅x ,∵x =4,v =1.55,∑X i 27i=1=140,∴lgd =∑7i=1x i v i −7xv∑x i 27i=1−7x2=50.12−7×4×1.54140−7×42=728=0.25,把样本中心点(4,1.54)代入v =1gc +1gd ⋅x ,得:lgd =0.54,∴v̂=0.54+0.25x ,∴1gy =0.54+0.25x , ∴y 关于x 的回归方程式:y ̂=100.54+0.25x =100.54(100.54)x =3.47(100.54)x ;把x =8代入上式:∴ŷ=100.54+0.25×8=102.54=102×100.54=347; 活动推出第8天使用扫码支付的人次为3470; (3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;P(Z =2)=0.1;P(Z =1.8)=0.3×12=0.15;P(Z =1.6)=0.6+0.3×13=0.7;P(Z =1.4)=0.3×16=0.05所以,一名乘客一次乘车的平均费用为:2×0.1+1.8×0.15+1.6×0.7+1.4×0.05=1.66(元)由题意可知:1.66×1×12⋅n −0.66×12⋅n −80>0,n >203,所以,n 取7;估计这批车大概需要7年才能开始盈利.9. 解:(1)由已知,优等品的质量与尺寸的比在区间(e 9,e 7)内.即yx ∈(0.302,0.388).则随机抽取的6件合格产品中,有3件为优等品,3件为非优等品.现从抽取的6件合格产品再任选3件,则取到优等品的件数ξ=0,1,2,3. P(ξ=0)=C 30C 33C 63=120,P(ξ=1)=C 31C 32C 63=920,P(ξ=2)=C 32C 31C 63=920,P(ξ=3)=C 33C 30C 63=120.E(ξ)=0×120+1×920+2×920+3×120=32. (2)解:对y =c ⋅x b (b,c >0)两边取自然对数得lny =lnc +blnx .令v i =lnx i ,u i =lny i .得u =b ⋅v +a.且a =1nc . (i)根据所给统计量及最小二乘估计公式有:b ̂=∑v i ni=1u i −nvu ∑v i 2n i=1−nv2=75.3−24.6×18.3÷6101.4−24.62÷6=0.270.54=12, a ^=u −b ^v =(18.3−12×24.6)÷6=1,得a ^=ln c ^=1,c ^=e ,所求y 关于x 的回归方程为y =e ⋅x 12. (ii)由(i)可知y =e ⋅x 12,则z ^=2e √x −0.32x . 由优等品质量与尺寸的比ŷx=ex 12x=√x ∈(e 9,e7)⇒√x ∈(7,9),即x ∈(49,81). 当t =√x =e0.32≈8.5∈(7,9)时,z ^取最大值.即优等品的尺寸x ≈72.3(mm),收益z ^的预报值最大.10. 解:(Ⅰ)y (1)=29.9+50.2×1x 拟合时,R 12=1−0.8751821≈0.9995; y (2)=33.9+125.9e −x 拟合时,R 22=1−48.41821≈0.9734 ∵0.9995>0.9734,∴y (1)=29.9+50.2×1x 比y (2)=33.9+125.9e −x 拟合效果更好,R 12=1−0.8751821≈0.9995,表明界桩公里数解释了99.95%的交通事故发生次数的变化;(Ⅱ)界桩1040公里取x =40,由y (1)=29.9+50.2×140≈31.16,每次交通事故的理赔费=60×0.01+2×0.19+0.2×0.8=1,14万元,∴预报这一年在界桩1040公里附近处发生的交通事故的理赔费为31.16×1.14≈35.5万元.11. 解:(1)由题意,x =5.5,y =112.45,b ^=n i=1i −x)(y i −y)∑(n x −x)2=566.8582.50≈6.87, a ^=y −b ^x =112.45−6.87×5.5≈74.67; ∴y 关于x 的线性回归方程y =6.87x +74.67;(2)某同学认为,y =px 2+qx +r 更适宜作为y 关于x 的回归方程类型,他求得的回归方程是y =−0.30x 2+10.17x +68.07.当x =11时,代入回归方程是y =−0.30x 2+10.17x +68.07.可得y =142.74; 当x =11时,代入回归方程是y =6.87x +74.67;可得y =150.24; 由11岁男童身高的中位数为145.3cm .可得回归方程是y =6.87x +74.67计算的误差比较大.故回归方程是y =−0.30x 2+10.17x +68.07模拟合效果更好. 12. 解:(1)根据散点图判断,员工①提出的模型不适合, 因为散点图中x 与y 之间不是线性关系;(2)令v =√x ,先建立y 关于v 的线性回归方程, 由于d ∧=21i=1i −v)(y i −y)∑(21v −v)2=30.005.00=6,∴c ∧=y −d ∧v =62−6×6.3=24.2; ∴y 关于v 的线性回归方程为y ∧=24.2+6v , 因此模型②为y 2∧=24.2+6√x ;同理,令u =lnx ,建立y 关于u 的线性回归方程; f ∧=21i=1i −u)(y i −y)∑(21u −u)2=9.800.49=20,e ∧=y −f ∧u =62−20×3.60=−10, ∴y 关于u 的线性回归方程为y ∧=−10+20u , 因此模型③为y 3∧=−10+20lnx ; (i)模型②中,相关系数为 r 2=21i=1i −v)(y i −y)√∑(i=1v i −v)∑(i=1y i −y)=√5×200=310√10≈0.3×3.16=0.948; 模型③中,相关系数为 r 3=21i=1i −u)(y i −y)√∑(i=1u i −u)2∑(i=1y i −y)2=√0.49×200=710√2≈0.7×1.41=0.987; 可得1>r 3>r 2,说明变量u 与y 的线性相关程度更好, 即模型③为y 3∧=−10+20lnx 更为准确,模型③为最优模型.13. 解:(I)对y =ax b 两边同取对数得lny =blnx +lna ,令v =lnx ,u =lny ,得u =bv +lna∴b =∑v i 6i=1u i −6vu∑v i 26i=1−6v2=75.3−4.1×18.3101.4−6×4.12=12,∴lna =18.36−12×24.66=1,即a =e .(II)由题意知,X 的所有可能取值为0,1,2,3,4.P(X =0)=C 44C 144=11001,P(X =1)=C 43C 101C 144=401001,P(X =0)=C 42C 102C 144=2701001,P(X =1)=C 41C 103C 144=4801001,P(X =1)=C 104C 144=2101001.∴X 的分布列为∴E(X)=1×401001+2×2701001+3×4801001+4×2101001=207.14. 解:(Ⅰ)因为x =15(13+14+15+16+17)=15所以:∑(5i=1x i −x)2=(−2)2+(−1)2+12+22=10;关系式y =C 1⋅2C 2,其中k i =log 2y i 得:k =log 2C 1⋅2C 2x , ∴k =log 2C 1+C 2x ,所以C 2=5i=1i −x)(k i −k)∑(5x −x)2=110∴log 2C 1=k −C 2x =1.2−110×15=−0.3所以C 1=2−0.3=0.8 所以y =0.8×2x10当x =18时,2018年人均可支配年收入y =0.8×21.8=2.8(万)(Ⅱ)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200000×7%=14000人一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人 2018年人均可支配收入比2017年增长0.8×21.8−0.8×21.70.8×21.7=20.1−1=0.1=10%所以2018年该市特别困难的中学生有2800×(1−10%)=2520人, 很困难的学生有4200×(1−20%)+2800×10%=3640人 一般困难的学生有7000×(1−30%)+4200×20%=5740人所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=1624万.15. 解:(Ⅰ)根据散点图(1)知y 与x 是负相关, 根据散点图(2)知z 与x 是负相关;散点图(2)中各点都集中在一条直线附近, 即z 与x 具有较强的线性相关性;(Ⅱ)由x =16×(10+20+30+40+50+60)=35, z =16×(14.1+12.9+12.1+11.1+10.2+8.9)=11.55, ∴b ∧=6i=1i −x)(z i −z)∑(6x −x)2=−175.51750≈−0.10,由a ∧=z −b ∧x =11.55−(−0.10)×35=15.05≈15,∴z 关于x 的回归方程是z ∧=15−0.10x , 则y 关于x 的回归方程为y ∧=e z 2=e 12(15−0.10x), 即y ∧=e 12(15−0.10x);(Ⅲ)x =30时,y ∧=e 12×(15−0.10×30)=e 6=403.43,当定价x =30时的残差为|403.34−424|≈11. 16. 解:(I)由题意,t =2700,y =192,∑(5i=1t i −t)2=10140000,∑(5i=1t i −t)(y i −y)=586000; ∴b ∧=5i=1i −t)(y i −y)∑(5i=1t −t)2=58600010140000≈0.06;∴a ∧=y −b ∧t =192−0.06×2700=30, 又t =x 2,∴回归方程为y ∧=0.06x 2+30;(II)由w =y −1.2x ,y =0.06x 2+30,∴w =0.06x 2−1.2x +30, 令w ≥120,得0.06x 2−1.2x +30≥120, 解得x ≤−30或x ≥50, ∴取x ≥50;又政府投入该项目的扶贫资金是区间[45,80]内的任意整数值,满足题意的x ≥50; ∴所求的概率为P =80−50+180−45+1=3136.【解析】1. 本题考查了线性回归方程的应用问题,也考查了相关指数的应用问题,是难题. (Ⅰ)求出n 的值,计算相关系数,求出回归方程即可;(Ⅱ)(i)根据相关指数的大小,即可比较模型拟合效果的优劣;(ii)代入求值计算即可. 2. (Ⅰ)根据残差分析,把x =80代入y^(1)=0.24x −8.81得y ^(1)=10.39.10−10.39=−0.39,即可求表中空格内的值;(Ⅱ)求出残差的绝对值和,即可得出结论;(Ⅲ)确定残差大于1kg 的样本点被剔除后,剩余的数据,即可求出回归方程. 本题考查回归方程、残差分析,考查学生的计算能力,属于中档题.3. (1)由题意首先确定ξ的取值,然后求解相应的分布列和数学期望即可;(2)(i)结合题中所给的数据计算回归方程即可;(ii)结合计算求得的回归方程得到收益函数,讨论函数的最值即可求得最终结果.本题考查离散型随机变量的分布列,回归方程的计算及其应用等,重点考查学生对基础概念的理解和计算能力,属于中等题.4. (1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2. (2)①求出相关指数,比较可得结论;②由(1)可知,采用方案1的运作效果较方案2好,故年利润z =(−13x 2+1200)(x −15),利用导数的方法,可得结论.本题考查相关指数,考查等高条形图,考查导数知识的运用,属于中档题.5. (1)由题意计算x .、z .,求出相关系数r ,判断z 与x 的线性相关程度;(2)利用最小二乘估计公式计算b ^、a ^,写出z 与x 的线性回归方程, 求出y 关于x 的回归方程,计算x =9时y ∧的值即可;(3)利用线性回归方程求出y ∧≥0.7118时x 的取值范围,即可得出预测结果.本题考查了线性回归方程与线性相关系数的求法与应用问题,计算量大,计算时要细心. 6. (Ⅰ)求得样本中心点(ω.,y .),根据最小二乘法即可求得c 和d ,即可求得y =d +c √x ;(Ⅱ)当x =9时,代入即可求得y ,与0.499比较大小,即可判断答案.本题考查线性回归方程的应用,考查最小二乘法求线性回归方程,考查计算能力,属于中档题.7. (1)由频率分布直方图求得对应的频率,用频率估计概率即可计算所求的概率;(2)①由y =e a+bx 得lny =a +bx ,求出Y 关于x 的线性回归方程,再写出y 关于x 的回归方程;②根据频率分布直方图和①中的回归方程,对成交的二手汽车预测;再分别计算采用甲、乙两种方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金值.本题考查了频率分布直方图与线性回归方程的应用问题,是难题.8. (1)通过散点图,判断y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)通过对数运算法则,利用回归直线方程相关系数,求出回归直线方程,然后求解第8天使用扫码支付的人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;求出概率,计算期望,然后推出结果.本题考查了线性回归方程的求法及应用,数学期望的应用,考查计算能力,属于基础题.9. (1)由题意首先确定ξ的取值,然后求解相应的分布列和数学期望即可;(2)(i)结合题中所给的数据计算回归方程即可;(ii)结合计算求得的回归方程得到收益函数,讨论函数的最值即可求得最终结果.本题考查离散型随机变量的分布列,回归方程的计算及其应用等,重点考查学生对基础概念的理解和计算能力,属于中等题.10. (Ⅰ)计算R 2的值,即可得出结论;(Ⅱ)求出界桩1040公里取x =40,由y (1)=29.9+50.2×140≈31.16,每次交通事故的理赔费=60×0.01+2×0.19+0.2×0.8=1,14万元,即可得出结论. 本题考查回归方程,考查拟合效果,考查学生的计算能力,属于中档题.11. (1)由题意求出x ,y ,∑x i 210i=1,∑x i 10i=1y i ,代入公式求值,从而得到回归直线方程;(2)将x =11代入回归方程是y =−0.30x 2+10.17x +68.07和(1)问中的方程,得到的结果与145.3cm 比较,即可判断本题考查了线性回归方程的求法及应用,属于基础题.12. (1)根据散点图判断员工①提出的模型不适合,散点图中的点不是线性关系;(2)令v =√x ,建立y 关于v 的线性回归方程,得模型②的线性回归方程; 令u =lnx ,建立y 关于u 的线性回归方程,得模型③的线性回归方程;计算模型②中相关系数r 2,模型③相关系数r 3,比较即可得出结论.本题考查了线性回归方程的应用问题,也考查了相关系数的应用问题,是中档题. 13. (I)对y =ax b 两边同取对数得lny =blnx +lna ,令v =lnx ,u =lny ,得u =bv +lna ,利用计算公式即可得出.(II)由题意知,X 的所有可能取值为0,1,2,3,4.利用超几何分布列计算公式即可得出.。
高考数学二轮复习考点知识与题型专题讲解13---非线性回归问题(解析版)
高考数学二轮复习考点知识与题型专题讲解13 非线性回归问题【典型题型1】 二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据:下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测当某辆A 型号二手车使用年数为9年时售价约为多少;(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.【解析】解 (1)由题意,知x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2,又i z i =47.64,=4.18, =1.53,∴r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,∴z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, ∴a ^=z -b ^x =2+0.36×4.5=3.62,∴z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,∴y 关于x 的回归方程是y ^=e-0.36x +3.62.令x =9,得y ^=e-0.36×9+3.62=e0.38,∵ln 1.46≈0.38,∴y ^≈1.46.即预测当某辆A 型号二手车使用年数为9年时售价约为1.46万元.(3)当y ^≥0.711 8, 即e-0.36x +3.62≥0.711 8=eln 0.711 8≈e-0.34时,则有-0.36x +3.62≥-0.34,解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年. 【方法总结】 非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.【典型题型2】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)的数据进行了初步处理,得到如图所示的散点图及一些统计量的值.注:表中w i =x i ,w =18i .(1)根据散点图判断,y ^=a ^+b ^x 与y ^=c ^+d ^x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 之间的关系为z ^=0.2y -x ,根据(2)的结果回答下列问题. ①当年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?【解析】解 (1)由散点图可以判断,y ^=c ^+d ^x 适宜作为年销售量y 关于年宣传费x 的回归方程模型.(2)令w =x ,先建立y 关于w 的线性回归方程. 由于d ^=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x. (3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2×(100.6+68x)-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【典型题型3】取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2009年至2018年,该景点的旅游人数y (万人)与年份x 的数据:模型①:由最小二乘法公式求得y 与x 的线性回归方程5081697=+ˆ..yx ; 模型②:由散点图的样本点分布,可以认为样本点集中在曲线=bx y ae 的附近. (1)根据表中数据,求模型②的回归方程=ˆbx yae .(a 精确到个位,b 精确到001.). (2)根据下列表中的数据,比较两种模型的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测2021年该景区的旅游人数(单位:万人,精确到个位).①对于一组数据1(v ,1)w ,2(v ,2)w ,⋯,(n v ,)n w ,其回归直线αβ=+ˆˆˆwv 的斜率和截距的最小二乘法估计分别为121βαβ==--==--∑∑()()ˆˆ,()nii i nii ww v v w v vv . ②刻画回归效果的相关指数221211==-=--∑∑()()nii i n ii yy R yy .③参考数据:546235≈.e ,14342≈..e .表中101110===∑,i i ii ulny u u.【解析】解:(1)对=bx y ae 取对数,得=+lny bx lna , 设=u lny ,=c lna ,先建立u 关于x 的线性回归方程.1011021900010883==--==≈-∑∑()().ˆ.()ii i ii xx u u bxx , 6050108555456546=-≈-⨯=≈ˆˆ.....cu bx ,546235=≈≈ˆ.ˆc a e e .∴模型②的回归方程为011235=.ˆx ye ; (2)由表格中的数据,有3040714607>,即101022113040714607==>--∑∑()()iii i yy yy ,即10102211304071460711==-<---∑∑()()iii i yy yy ,∴2212<R R ,模型①的相关指数21R 小于模型②的22R ,说明回归模型②的拟合效果更好.2021年时,13=x ,预测旅游人数为0111314323523523542987⨯==≈⨯=..ˆ.y e e (万人).【典型题型4】近年来,随着国家综合国力的提升和科技的进步,截至2018年底,中国铁路运营里程达13.2万千米,这个数字比1949年增长了5倍;高铁运营里程突破2.9万千米,占世界高铁运营里程的60%以上,居世界第一位.如表截取了20122016-年中国高铁密度的发展情况(单位:千米/万平方千米).已知高铁密度y 与年份代码x 之间满足关系式=(b y ax a ,b 为大于0的常数).若对=b y ax 两边取自然对数,得到=+lny blnx lna ,可以发现lny 与lnx 线性相关.(1)根据所给数据,求y 关于x 的回归方程ˆ(lna ,ˆb 保留到小数点后一位);(2)利用(1)的结论,预测到哪一年,高铁密度会超过30千米/万平方千米.参考公式:设具有线性相关系的两个变量x ,y 的一组数据为(i x ,1=)(i y i ,2,⋯⋯)n ,则回归方程ˆˆˆybx a =+的系数:121==--=-∑∑()()ˆ()nii i nii xx y y b xx ,=-ˆay bx .参考数据:515092=-≈∑.ii i lnxlny lnx lny ,5221516=-≈∑()().ii lnx lnx ,515=≈∑ii lnx,5114=≈∑ii lny,274≈.,3034≈.ln .【解析】解:(1)对00=>>(,)b y ax a b 两边取自然对数,得=+lny blnx lna ; 令=i i v lnx ,=i i u lny ,1=i ,2,3,⋯,n ; 得u 与v 具有线性相关关系,计算51522150920575165==-===-∑∑.ˆ..i i i ii v uvubvv ,140575122255=-=-⨯=ˆ..lna u bv , ∴06≈ˆ.b,22≈≈.lna , ∴0622=+ˆ..u v ,故y 关于x 的回归方程为0622+=..ˆlnx y e , 即2206=..ˆye x ; (2)在(1)的回归方程中,0622+=..lnx y e ,高铁密度超过30千米/万平方千米; 即062230+>..lnx e ,06223034+>≈...lnx ln ,2>lnx .274>≈.x e ,即8=x 时,高铁密度超过30千米/万平方千米; 所以预测2019年,高铁密度超过30千米/万平方千米.【典型题型5】近年来,随着互联网技术的快速发展,共享经济覆盖的范围迅速扩张,继共享单车、共享汽车之后,共享房屋以“民宿”、“农家乐”等形式开始在很多平台上线.某创业者计划在某景区附近租赁一套农房发展成特色“农家乐”,为了确定未来发展方向,此创业者对该景区附近六家“农家乐”跟踪调查了100天.得到的统计数据如下表,x 为收费标准(单位:元/日),t 为入住天数(单位:),以频率作为各自的“入住率”,收费标准x 与“入住率”y 的散点图如图(1)若从以上六家“农家乐”中随机抽取两家深入调查,记ξ为“入住率”超过0.6的农家乐的个数,求ξ的概率分布列;(2)令ln z x =,由散点图判断ˆˆˆybx a =+与ˆˆy bz a =+哪个更合适于此模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程.(ˆb结果保留一位小数) (3)若一年按365天计算,试估计收费标准为多少时,年销售额L 最大?(年销售额365L =⋅入住率⋅收费标准x )参考数据:1221ˆ,ni i i ni i x y nx y b x nx ==-⋅=-∑∑621,200,0.45,32500,ˆˆ0i i a y bx x y x ==-===∑615.1,12.7,i i i z y z =≈≈∑6231158.1,148.4i i z e =≈≈∑【解析】(1)ξ的所有可能取值为0,1,2.则()0P ξ==2426C C 62,155==()1124268115C C P C ξ⋅===,()2P ξ==2226C C 115= ξ∴的分布列(2)由散点图可知ˆˆybz a =+更适合于此模型. 其中6162216 1.070.52.0ˆ46i i i ii z y zy bz z ==--==≈--∑∑,ˆ3ˆˆay bz =-= 所求的回归方程为0.5ˆ3ylnx =-+ (3)()3650.53L lnx x =-+=3651095.2xlnx x -+ 365365365322L lnx =--+⨯'令505148.4L lnx x e =⇒=⇒=≈' ∴若一年按365天计算,当收费标准约为148.4元/日时,年销售额L 最大,最大值约为27083元.【典型题型6】噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量(单位:2/W cm )之间的关系,将测量得到的声音强度1D 和声音能量i I (i =1,2…,10)数据作了初步处理,得到如图散点图及一些统计量的值.表中lg i i W I =,110i i W W ==∑。
高考数学冲刺策略非线性回归分析与模型选择
高考数学冲刺策略非线性回归分析与模型选择高考数学冲刺策略:非线性回归分析与模型选择在高考数学的备考中,非线性回归分析与模型选择是一个重要且具有一定难度的考点。
对于即将迎来高考的同学们来说,掌握有效的冲刺策略至关重要。
首先,我们来了解一下什么是非线性回归分析。
简单来说,非线性回归分析是处理变量之间非线性关系的一种统计方法。
与我们常见的线性关系不同,非线性关系的表达式更加复杂,可能是指数形式、对数形式、幂函数形式等等。
在高考中,常见的非线性模型有指数模型、对数模型、幂函数模型等。
以指数模型为例,比如 y = aebx ,其中 a 和 b 是待确定的参数。
在解决这类问题时,我们通常会通过对等式两边取对数,将其转化为线性形式,然后再进行参数的估计。
那么,在冲刺阶段,如何更好地掌握非线性回归分析与模型选择呢?第一步,要熟练掌握各种非线性模型的形式和特点。
这就需要我们对教材中的相关内容进行深入复习,弄清楚每个模型适用的情况。
比如,当数据呈现出快速增长或衰减的趋势时,可能适合使用指数模型;而当数据的增长或减少速度逐渐变慢时,对数模型可能更为合适。
第二步,要多做练习题。
通过大量的练习,我们可以更加熟悉不同类型的题目,提高解题的速度和准确性。
在做题的过程中,要注意总结解题的方法和技巧。
比如,对于给定的数据,如何通过观察初步判断可能适合的模型类型;如何利用给定的条件和数据进行参数的估计等等。
第三步,学会利用数学软件或工具辅助分析。
在现代科技的帮助下,我们可以利用一些数学软件,如 Matlab、SPSS 等,来对数据进行处理和分析。
这不仅可以提高我们的效率,还能让我们更加直观地看到数据的分布和模型的拟合效果。
第四步,注重思维的培养。
非线性回归分析不仅仅是计算和公式的运用,更需要我们具备逻辑思维和分析问题的能力。
在面对复杂的问题时,要能够冷静思考,从多个角度去分析和解决问题。
在实际解题中,模型选择是一个关键的环节。
我们需要根据数据的特点和问题的背景,合理地选择模型。
高考总复习二轮数学精品课件 专题4 概率与统计 培优拓展(七) 非线性回归问题
0.778
(2 )
(2 )(|2 )
0.2×0.8
P(A2|C)=
=
=
,
()
()
0.778
(3 )
(3 )(|3 )
0.6×0.75
P(A3|C)= () =
= 0.778 ,
()
因为 0.6×0.75>0.2×0.84>0.2×0.8,
所以可判断该航班飞往其他地区的可能性最大.
率的估计值分别为80%和75%,试解决以下问题:
①现从2023年在该机场起飞的航班中随机抽取一个,求该航班准点放行的
概率;
②若2023年某航班在该机场准点放行,判断该航班飞往A地、B地、其他
地区等三种情况中的哪种情况的可能性最大,说明你的理由.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 v=α+βu 的斜率和截距
指标之一.某机场自2012年起采取相关策略优化各个服务环节,运行效率不
断提升.以下是根据近10年年份数xi与该机场飞往A地航班放行准点率
yi(i=1,2,…,10)(单位:%)的统计数据所作的散点图及经过初步处理后得到
的一些统计量的值.
x
y
2017.5
80.4
10
∑
t
1.5
其中 ti=ln(xi-2012), =
147.700
^
= − ≈-3.849,
=1
^
所以 w 关于 x 的经验回归方程为=-3.849+0.272x,
^
因此 y 关于 x 的非线性经验回归方程为 =e-3.849+0.272x.
本 课 结 束
最新高考数学复习点拨-非线性回归问题
非线性回归问题两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。
分析非线性回归问题的具体做法是: (1)若问题中已给出经验公式,这时可以将变量x 进行置换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种已知函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量置换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法.例1 在彩色显影中,由经验可知:形成染料光学密度y 与析出银的光学密度x 由公式e bxy A =(b <0)表示,现测得实验数据如下:试求对的回归方程.分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为ebxy A =(b <0)类型,我们只要通过所给的11对样本数据求出A 和b ,即可确定x 与y 的相关关系的曲线方程.解:由题意可知,对于给定的公式e bxy A =(b <0)两边取自然对数,得ln ln b y A x=+. 与线性回归方程对照可以看出,只要取1u x=,ln v y =,ln a A =,就有v a bu =+,这是v 对u 的线性回归直线方程,对此我们再套用相关性检验,求回归系数b 和a . 题目中所给数据由变量置换1u =,ln v y =变为如表所示的数据:由于|r |=0.998>0.602,可知u 与v 具有很强的线性相关关系. 再求得0.146b =-,0.548a =,∴v =0.5480.146u -,把u 和v 置换回来可得0.146ln 0.548y x=-, ∴0.1460.1460.1460.5480.548e1.73xxxy eee---===,∴回归曲线方程为0.1461.73exy -=.点评:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤.(2)求出y 对x 的回归方程. 解析:(1)作出散点图如图1所示.(2)由散点图看出样本点分布在一条指数型曲线e bxy c =(c >0)的周围,则ln ln y bx c =+.令ln ln z y a c ==,,则z bx a =+.相应的散点图如图2. 从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由表中数据得到线性回归方程为0.69 1.115z x =+.因此 细菌的繁殖个数对温度的非线性回归方程为0.69 1.115e x y +=.点评:通过作散点图看出,本题是一个非线性回归问题,通过变量置换转化为线性回归问题求解的.值得注意的是,本题的数据与回归曲线是拟合得相当好的,这表明确定性关系(如公式、函数关系式)和相关关系之间并没有一条不可逾越的鸿沟.由于有实验误差、测量误差等存在,变量之间的确定性关系往往通过相关关系表现出来;反过来,在有些问题中,可以研究相关关系来深入了解变量变化的内在规律,从而找到它们的确定性关系.。
2023年高考数学复习:非线性回归问题
通过变量间的相关关系对两个变量进行统计分析是数学的重要应 用,其中非线性回归问题具有十分重要的现实意义.
例 (2021·武汉模拟)近年来,明代著名医药学家李时珍的故乡黄冈市蕲 春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主 要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃) 有关,现收集了蕲艾的13组观测数据,得到如下的散点图: 现根据散点图利用 y=a+b x或 y =c+dx建立 y 关于 x 的非线性回归 方程,令 s= x,t=1x得到如下数据:
^
2 230.8-20=2 210.8,所以z≤2 210.8,
当且仅当x=20时等号成立, 所以当温度为20℃时蕲艾的利润最大.
能力 提升
非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数. (3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.
解 先建立v关于x的线性回归方程. 由y=eλx+t,得ln y=t+λx,即v=t+λx.
12
xi- x vi- v
^ i=1
由于λ=
12
xi- x 2
=71740≈0.018,
i=1
^
^
t= v -λ x =4.20-0.018×20=3.84,
^
所以 v 关于 x 的线性回归方程为v=0.02x+3.84,
i=1
14
(1)设(ui,yi)的相关系数为r1,(xi,vi)的相关系数为r2,请从相关系数的角 度,选择一个拟合程度更好的模型;
解 r1=
12
ui- u yi- y
非线性回归
非线性回归一、可化为线性回归的曲线回归在实际问题当中,有许多回归模型的被解释变量y 与解释变量x 之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为线性关系,利用线性回归求解未知参数,并作回归诊断。
如下列模型。
εββ++=x e y 10-------(1) εββββ+++++=p p x x x y 2210--------(2)εe ae y bx =--------------------(3) ε+=bx ae y -------------(4)对于(1)式,只需令x e x ='即可化为y 对x '是线性的形式εββ+'+=x y 10,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。
对于(2)式,可以令1x =x ,2x =2x ,…, p x =p x ,于是得到y 关于1x ,2x ,…, p x 的线性表达式εββββ+++++=p p x x x y 22110对与(3)式,对等式两边同时去自然数对数,得ε++=bx a y ln ln ,令 y y ln =',a ln 0=β,b =1β,于是得到y '关于x 的一元线性回归模型: εββ++='x y 10。
对于(4)式,当b 未知时,不能通过对等式两边同时取自然数对数的方法将回归模型线性化,只能用非线性最小二乘方法求解。
回归模型(3)可以线性化,而(4)不可以线性化,两个回归模型有相同的回归函数bx ae ,只是误差项ε的形式不同。
(3)式的误差项称为乘性误差项,(4)式的误差项称为加性误差项。
因而一个非线性回归模型是否可以线性化,不仅与回归函数的形式有关,而且与误差项的形式有关,误差项的形式还可以有其他多种形式。
乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为t y 本身是异方差的,而t y ln 是等方差的。
新教材高中数学第8章第2课时回归分析及非线性回归模型pptx课件新人教A版选择性必修第三册
2.在两个变量y与x的回归模型中,分别选择了4个不同的模型,它
们的决定系数R2如下,其中拟合效果最好的模型是(
2为0.98
A.模型1的决定系数R
√
B.模型2的决定系数R2为0.80
C.模型3的决定系数R2为0.50
D.模型4的决定系数R2为0.25
A
[R2越大拟合效果越好.]
)
3.从某省“双一流”大学中随机选出8名女大学生,得到其身高
残差图
观测值等,这样作出的图形称为______.在残差图中,残差点比较
均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的
带状区域的宽度____,说明模型拟合精度越高.
越窄
残差
(3)残差分析:____是随机误差的估计结果,通过对残差的分析可以
判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据
建立两个变量间的非线性经验回归方程.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)残差平方和越接近0,线性回归模型的拟合效果越好.
(√ )
(2)在画两个变量的散点图时,响应变量在x轴上,解释变量在y轴
上.
( × )
(3)R2越小,线性回归模型的拟合效果越好.
( × )
(4)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ )
和幂函数模型的求解过程.(数学运算、数学建模)
01
必备知识·
情境导学探新知
设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如表
所示:
第x天
1
4
9
16
25
36
49
高度y/cm
0
4
7
9
高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)
高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
非线性回归
数学学习的基本方法是 思考、总结、练习
在解决实际应用问题时;常遇到一些非线性回 归问题 对于这类问题;常采用适当的变量代换;把 问题转化为线性回归问题;求出线性回归模型后回 代;得到非线性回归方程
数学学习的基本方法是 思考、总结、练习
问题2:
一只红铃虫的产卵数 y 和温度 x 有关,现收集了 7组观测数据:
试建立 y 关于 x 的回归方程
1画出散点图
数学学习的基本方法是 思考、总结、练习
数学学习的基本方法是 思考、总结、练习
样本点没有分布在某个带形区域内;那么两个变量之 间不呈线性相关关系;不能直接利用线性回归方程来建立 两个变量之间的关系
对于非线性回归问题;常采用适当的变量代换;把问题 转化为线性回归问题;求出线性回归模型后代回;得到非线 性回归方程
得到一只红铃虫的产卵数 y 和温度 x 的非线性回归方程:
yˆ2 0.367x2 202.543
数学学习的基本方法是 思考、总结、练习
3利用残差分析;判定回归模型的拟合效果
n
y
i
yˆ i
2
R 2 1 i1 n yi y2
i 1
课堂小结
数学学习的基本方法是 思考、总结、练习
1 本节课解决了什么问题
数学学习的基本方法是 思考、总结、练习
2确定回归类型;求非线性回归方程
■ 回归模型1 —— 指数函数型
① 观察:样本点分布在某一条指数函数曲线 y c1 ec2x 的周围,其中 c1,c2 是待定参数
② 变量代换:令 z ln y , 变换后样本点应该分布在直线 z bx a 的周围 其中 a ln c1,b c2
③ 新数据及散点图:
数学学习的基本方法是 思考、总结、练习
高考数学一轮复习专题06 非线性回归方程(原卷版)
概率与统计 专题六:非线性回归方程一、知识储备当经验回归方程并非形如y bx a =+(,a b R ∈)时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:建立非线性经验回归模型的基本步骤1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 . 二、例题讲解1.(2022·全国高三专题练习(文))人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑. (1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.2.(2022·全国高三专题练习(文))有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2021年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2021年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:根据以上数据,回答下面问题.(1)甲同学用曲线y bx a =+来拟合,并算得相关系数10.97r =,乙同学用曲线dxy ce =来拟合,并算得转化为线性回归方程所对应的相关系数10.99r =,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于y 的回归方程(系数精确到0.01).参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令()()()8820.1411ln ,0.84, 6.50, 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑三、实战练习1.(2022·山东菏泽·高三二模)“十四五”是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主现代化国家新征程、向第二个百年奋斗目标进军的第一个五年,实施时间为2022年到2025年.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x (单位:亿元)对年盈利额y (单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额i x 和年盈利额i y ()1,2,,10i =数据进行分析,建立了两个函数模型:2y x αβ=+;e x t y λ+=,其中α,β ,λ,t 均为常数,e 为自然对数的底数令2,ln i ii i u x v y ==()1,2,,10i =,经计算得如下数据:26x =,215y =,680u =, 5.36v =,()2101100i i x x=-=∑,()102122500ii u u =-=∑,()()101260i ii u uy y =--=∑,()21014ii y y =-=∑,()21014i i v v=-=∑,()()10118i i i x x v v =--=∑,问:(1)请从相关系数的角度,分析哪一个模型拟合度更好?(2)根据(1)的选择及表中数据,建立,y 关于x 的回归方程(系数精确到0.01)(3)若希望2022年盈利额y 为500亿元,请预测2022年的研发资金投入额x 为多少亿元?(结果精确到0.01)附:①相关系数r()()niix x yy --∑回归直线y bx a =+中:121()()()niii nii x x yy b x x ==--=-∑∑,a y bx =-参考数据:ln 20.693=,ln5 1.609=.2.(2022·重庆高三三模)近几年,快递业的迅速发展导致行业内竞争日趋激烈.某快递网点需了解一天中收发一件快递的平均成本y (单位:元)与当天揽收的快递件数x (单位:千件)之间的关系,对该网点近5天的每日揽件量i x (单位:千件)与当日收发一件快递的平均成本i y (单位;元)(i =1,2,3,4,5)数据进行了初步处理,得到下面的散点图及一些统计量的值.表中i i w x =,5115i i w w ==∑. (1)根据散点图判断,y a bx =+与dy c x=+哪一个适宜作为y 关于x 的回归方程类型?并根据判断结果及表中数据求出y 关于x 的回归方程;(2)各快递业为提高快递揽收量并实现总利润的增长,除了提升服务质量、提高时效保障外,价格优惠也是重要策略之一.已知该网点每天揽收快递的件数x (单位:千件)与单件快递的平均价格t (单位;元)之间的关系是()252512x t t =-≤≤,收发一件快递的利润等于单件的平均价格减去平均成本,根据(1)中建立的回归方程解决以下问题:①预测该网点某天揽收2000件快递可获得的总利润;②单件快递的平均价格t 为何值时,该网点一天内收发快递所获利润的预报值最大?附:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为()()()121nii i nii uu v vuuβ==--=-∑∑,v u αβ=-.3.(2022·安徽蚌埠二中高三模拟预测(文))自从新型冠状病毒爆发以来,美国疫情持续升级,以下是美国2021年4月9日-12月14日每隔25天统计1次共计11次累计确诊人数(万).(1)将4月9日作为第1次统计,若将统计时间序号作为变量x ,每次累计确诊人数作为变量x ,得到函数关系()0,0bxy aea b =>>,对上表的数据作初步处理,得到部分数据已作近似处理的一些统计量的值6x =,603.09y =,1111ln 5.9811i i y ==∑,()()11115835.70i i i x y x y =--=∑,()1121110i i x x=-=∑,()1121ln ln 11.90i i y y=-=∑,()()111ln ln 35.10iii x x y y =--=∑, 4.0657.97e≈, 4.0758.56e ≈, 4.0859.15e ≈,根据相关数据,确定该函数关系式(参数a ,b 的取值精确到0.01);(2)为了了解患新冠肺炎与年龄的关系,已知某地曾患新冠肺炎的老年、中年、青年的人数分别为45人,30人,15人,按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少有一人是老年人的概率.参考公式:线性回归方程y bx a =+中,()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;4.(2022·贵州(理))某二手车交易市场对2021年某品牌二手车的交易进行了统计,得到如图所示的频率分布直方图和散点图.用x 表示该车的使用时间(单位:年),y 表示其相应的平均交易价格(单位:万元).(Ⅰ)已知2021年在此交易市场成交的该品牌二手车为100辆,求使用时间在[]12,20的车辆数; (Ⅱ)由散点图分析后,可用bx a y e +=作为此交易市场上该种车辆的平均交易价格y 关于其使用时间x 的回归方程.表中ln z y=,1110i i z z ==∑.根据上述相关数据,求y 关于x 的回归方程.附:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为:1221ˆni i i nii u vnuv unu β==-=-∑∑,ˆˆv u αβ=-.5.(2022·河南洛阳市·高三二模(理))某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量()g y 与尺寸()mm x 之间近似满足关系式b y c x =⋅(b 、c 为大于0的常数).按照某项指标测定,当产品质量与尺寸的比在区间(),0.302,0.38897e e ⎛⎫≈ ⎪内时为优等品.现随机抽取6件合格产品,测得数据如下:(1)现从抽取的6件合格产品中再任选3件,记ξ为取到优等品的件数,试求随机变量ξ的期望; (2)根据测得数据作了初步处理,得相关统计量的值如表:(i )根据所给统计量,求y 关于x 的回归方程;(ii )已知优等品的收益z (单位:千元)与x 、y 的关系为20.32z y x =-,则当优等品的尺寸x 为何值时,收益z 的预报值最大? 附:对于样本()(),1,2,,n i i v u i =,其回归直线u b v a =⋅+的斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn niii i i i nniii i v v u u v unvu bv v vnv====---==--∑∑∑∑,a u bv =-, 2.7182e ≈.6.(2022·全国(文))2021年新型冠状病毒肺炎疫情席卷金球,我国在全力保障口罩、防护服等医疗物资供给基础上,重点开展医疗救治急需的呼吸机、心电监护仪等医疗设备的组织生产和及时供应,统筹协调医用物资生产企业高速生产,支援世界各国抗击肺炎疫情.我市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1目~9月9日连续9天的呼吸机日生产量为i y (单位:百台..,1,2,,9i =),数据作了初步处理;得到如图所示的散点图.注:图中日期代码1~9分别对应9月1日~9月9日;表中iy i z e =,1919i i z z ==∑(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;(2)由散点图分析,样本点都集中在曲线ln()y bt a =+的附近,求y 关于t 的方程ln()y bt a =+,并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.参考公式:回归直线方程是ˆˆv βμα=+;1122211()()()()innii i ii i n nii i v v v n vn μμμμβμμμμ====---==--∑∑∑∑, ˆˆv αβμ=-, 参考数据:5148.4e ≈.7.(2022·全国高三专题练习)某公司为了了解年研发资金投人量x (单位:亿元)对年销售额y (单位:亿元)的影响.对公司近12年的年研发资金投入量i x 和年销售额i y 的数据,进行了对比分析,建立了两个函数模型:①2y x αβ=+,②2x t y e +=,其中α、β、λ、t 均为常数,e 为自然对数的底数.并得到一些统计量的值.令2i i u x =,ln (1,2,,12)i i y i ν==,经计算得如下数据:(1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程;②若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:相关系数:()()ni i x x y y r --=∑ˆˆˆya bx =+中公式分别为:121()()ˆ()niii nii x x yy b x x ==--=-∑∑,ˆˆay bx =-; 参考数据:308477=⨯9.4868,4499890e ≈.8.(2022·四川达州·高三二模(理))在能源和环保的压力下,新能源汽车将成为未来汽车的发展方向.我国大力发展新能源汽车的生产和销售.某市近6年的新能源汽车保有量数据如下表(1)从这6年中任意选取两年,求这两年中仅有1年的新能源汽车保有量大于4万辆的概率;(2)用函数模型(0)dx y ce c =>对两个变量x ,y 的关系进行拟合,根据表中数据求出y 关于x 的回归方程(条数精确到0.01).参考数据: 3.5x =, 4.1y =,62191i i x ==∑;设61ln , 1.16,31.89i i i i i t y t x t ====∑.参考公式:回归直线ˆˆv a u β=+的斜率和截距的最小二乘估计公式分别为:0.351221ˆˆˆ,,0.7047ni i ni i i u v nuvav u e unu ββ-==-==-≈-∑∑.9.(2022·陕西高三二模(理))为了迎接十四运,提高智慧城市水平,西安公交公司近期推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表下所示:根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内,y a bx =+与x y c d =⋅(,c d 均为大于零的常数),哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表1中的数据,建立y 与x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:西安公交六公司车队为缓解周边居民出行压力,以90万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠.预计该车队每辆车每个月有2万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,请你估计这批车辆需要几年(结果取整数年)才能盈利?参考数据:其中其中lg i i v y =,7117i i v v ==∑,参考公式:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线ˆˆv u αβ=+的斜率和截距的最小二乘估计公式分别为:1221ˆni i i nii u v nu vunu β==-⋅=-∑∑,ˆˆv u αβ=-.10.(2022·吉林高三模拟预测(文))全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x (百万元)与收益y (百万元)的数据统计如下:根据数据特点,甲认为样本点分布在指数型曲线2bx a y +=的周围,据此他对数据进行了一些初步处理.如下表:其中2log i i z y =,7117i i z z ==∑.(1)请根据表中数据,建立y 关于x 的回归方程(系数ˆb精确到0.1); (2)①乙认为样本点分布在直线y mx n =+的周围,并计算得回归方程为ˆ8.253yx =+,以及该回归模型的决定系数(即相关指数)20.893R =乙,试比较甲乙两人所建立的模型,谁的拟合效果更好?②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1) 附:对于一组数据()()()1122,,,,,,n n u v u v u v ⋯,其回归直线方程ˆˆˆvu βα=+的斜率和截距的最小二乘法估计分别为()()()1122211ˆn ni i i i i i nniii i u u v v u v n u u un μνβμ====---==--∑∑∑∑,ˆˆανβμ=-,决定系数:()()22121ˆ1ni i nii v vR v v ==-=--∑∑.参考数据:2log 5 2.3≈.11.(2022·江西(文))每年的4月23日是联合国教科文组织确定的“世界读书日”,又称“世界图书和版权日”.从进入大数据时代以来,人们阅读方式发生了改变,数字媒体阅读方式因为便携,容量大等优点越来越被大众接受,下表是国际数据公司(IDC )研究的全球近6年每年数字媒体阅读产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21e c xy c =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y关于年份序号x 的回归方程类型,试求此回归方程;(2)根据(1)中的回归方程,预计2024年全世界数字媒体阅读产生的数据量是2022年的多少倍?并说明理由.(参考数据:e 2.718≈ 1.648≈,结果精确到0.1)参考数据:回归方程ˆˆˆy a bx =+中,斜率最小二乘法公式为()()()121ˆni i i nij x x y y bxx ==--=-∑∑1221ni ii nii x ynxyxnx ==-=-∑∑,ˆˆa y bx =-.12.(2022·山东济宁一中高三开学考试)某公司对某产品作市场调研,获得了该产品的定价x (单位:万元/吨)和一天销售量y (单位:吨)的一组数据,制作了如下的数据统计表,并作出了散点图.表中1z x=0.45≈ 2.19. (1)根据散点图判断,ya bx =+与1y c k x -=+⋅哪一个更适合作为y 关于x 的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果,试建立y 关于x 的回归方程;(3)若生产1吨该产品的成本为0.20万元,依据(2)的回归方程,预计定价为多少时,该产品一天的利润最大,并求此时的月利润.(每月按30天计算,计算结果保留两位小数)(参考公式:回归方程y bx a =+,其中()()()1122211n niii ii i nniii i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-)。
第六章 非线性回归
实例2:曲线回归
散点图: 90 80 70 60 50 40 30 20 10 0 0
y
20
40
60
x
80
100
采用对数曲线模型:y a b ln x
实例2:曲线回归 对数曲线模型直线化
令: x' ln x
则: y a b ln x
化为: y a bx'
实例2:曲线回归
归,图形是曲面。)
第一节 可以转化为直线 的曲线回归
第一节 可转化为直线的曲线回归 一、
第一节 可转化为直线的曲线回归 二、
第一节 可转化为直线的曲线回归
三、
第一节 可转化为直线的曲线回归
四、S形曲线(Logistic曲线)
1. 基本形式
2. 图形
y
1
k aebx
k
第一节 可转化为直线的曲线回归
G 为F 函数的梯度
t 满足Qe(β)<Qe (β0)的正实数
第二节 不可转化为直线的曲线回归
3.常用计算迭代方向的方法
1)Gauss 高斯-牛顿法(缺省方法)
(一阶偏导数)
2)Newton 牛顿法(一、二阶偏导数) 3)Marquardt 麦夸特法(一阶偏导数) 4)Gradient 梯度法(最速下降法)
SPxy xy x y/ n
308.515 10516.114 / 7 66.805
SSx x2 x2 / n
2275 105 2 / 7 700
实例1:曲线回归
b SPxy 66.808 0.0954 SSx 700
第一节 可转化为直线的曲线回归
第 11 种曲线模型: y=a+b*ln(x) 第 12 种曲线模型: y=a+b*√x 第 13 种曲线模型: y=x/(a+bx) 第 14 种曲线模型: y=a*(x^b) 第 15 种曲线模型: y=a*(b^√x) 第 16 种曲线模型: y=1/(a+b*ln(x)) 第 17 种曲线模型: y=1/(a+b*√x) 第 18 种曲线模型: y=a*exp(b/x) 第 19 种曲线模型: y=L+K/(1+a*exp(bx)) 第 20 种曲线模型:y=b0+b1*x+b2*x*x 第 21 种曲线模型:y=b0+b1*x+b2*x*x+b3*x*x*x
人教A版高中数学选修233.非线性回归分析教学PPT课件
身高
180 175 170 165 160 155 150
32 34 36 38 40 42
选变量
画散点图
选模型
估计参数
一元线性模型建立过程
解:选取脚码为解释变量x,身高为预报变量y
180 175 170 165 160 155 150
30
身高
身高 线性 (身高)
35
40
45
假设线性回归方程为 :ŷ=bx+a
合作探究——能力提升
通过适当变换,将下列函数转化成线性型函数
⑴ 幂函数曲线 y=axb
合作探究——能力提升
⑴ 幂函数曲线 y=axb 处理方法:两边取自然对数得:lny=lna+blnx; 再令 u=_______,
v=________, c=________. 得到线性函数u=bv+c 。
合作探究——能力提升
分析和预测
最小二乘法
提出问题
一只红铃虫的产卵数y与温度x 有关,现收集了7组观测数据如下:
温度x 21 23 25 27 29 32 35 产卵数y 7 11 21 24 66 115 325
试建立y与x之间的回归方程; 预测温度为28℃时红铃虫的产卵数目。
问题解决
建立什么样的函数模型?
人教A版高中数学选修233.非线性回归 分析教 学PPT 课件
通过适当变换,将下列函数转化成线性型函数
(2)指数曲线 y=aebx
b
(3)倒指数函数 y ae x
(4) 对数曲线 y=a+blnx
课堂小结
1 怎样建立回归模型? 2 化未知为已知的数学思想
课外阅读
1、华尔街根据民众情绪抛售股票; 2、对冲基金依据购物网站的顾客评论,分析企业产 品销售状况; 3、银行根据求职网站的岗位数量,推断就业率; 4、投资机构搜集并分析上市企业声明,从中寻找破 产的蛛丝马迹; 5、美国疾病控制和预防中心依据网民搜索,分析全 球范围内流感等病疫的传播状况;
非线性回归方程、相关性分析专题 高考数学
并求出线性回归方程.
(4)分析拟合效果:通过计算________或画________图来判断拟合效果.
(5)根据相应的变换,写出________方程.
试卷讲评课件
3.常见的变换
(1)已知函数y = ln bx + a ,左右两边同时取e的指数,得________,
选取函数y = m ⋅ x k m>0, k>0 作为年广告费用x和年利润额y的回归
类型.令u = lnx, v = lny,则v = lnm + ku,则对数据作出如下处理:
令ui = lnxi , vi = lnyi ,得到相关数据如表所示:
试卷讲评课件
10
10
10
10
i=1
i=1
i=1
i=1
令t =________,得________
(2)已知函数y = kx −1 + c,令t =________,得________
(3)已知函数y = ebx+a ,左右两边同时取e的对数,得________,令t =
________,得________
(4)已知函数y = aebx ,左右两边同时取e的对数,得________,令t =_
过0.6的农家乐的个数,求ξ的概率分布列;
+ a与ොy = bz
+ a哪个更合适于
模型(给出判断即可,不必说明理由)?并根据你的判断结果求回归方程;
(ොa,b的结果精确到0.1)
试卷讲评课件
(3)根据第(2)问所求的回归方程,试估计收费标准为多少时,100天销
有效的控制.其中,各大药物企业积极投身到新药的研发中.汕头某药企
高中数学选择性必修三 第二课时 非线性回归模型及其应用
第二课时非线性回归模型及其应用课标要求素养要求1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果. 通过学习回归模型的应用,提升数学运算及数据分析素养.新知探究在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.问题具有相关关系的两个变量的线性回归方程为y^=b^x+a^.预测值y^与真实值y 一样吗?预测值y^与真实值y之间误差大了好还是小了好?提示不一定;越小越好.1.残差的概念对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 2.刻画回归效果的方式 (1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好. (2)残差平方和法残差平方和∑ni =1 (y i -y ^i )2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差. (3)利用R 2刻画回归效果决定系数R 2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.R 2=1-∑ni =1(y i -y ^i )2∑n i =1 (y i -y -)2,R 2越大,即拟合效果越好,R 2越小,模型拟合效果越差.拓展深化[微判断]1.残差平方和越接近0, 线性回归模型的拟合效果越好.(√)2.在画两个变量的散点图时, 响应变量在x 轴上,解释变量在y 轴上.(×) 提示 在画两个变量的散点图时, 响应变量在y 轴上,解释变量在x 轴上. 3.R 2越小, 线性回归模型的拟合效果越好.(×) 提示 R 2越大, 线性回归模型的拟合效果越好. [微训练]1.在残差分析中, 残差图的纵坐标为__________.答案 残差2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R 2分别如下表:甲 乙 丙 丁 R 20.980.780.500.85哪位同学建立的回归模型拟合效果最好?解 R 2越大,表示回归模型的拟合效果越好,故甲同学建立的回归模型拟合效果最好. [微思考]在使用经验回归方程进行预测时,需要注意哪些问题?提示 (1)经验回归方程只适用于所研究的样本的总体;(2)所建立的经验回归方程一般都有时效性;(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果好,超出这个范围越远,预报的效果越差;(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.题型一 线性回归分析【例1】 已知某种商品的价格x (单位:元/件)与需求量y (单位:件)之间的关系有如下一组数据:x 14 16 18 20 22 y1210753求y 对x 的回归直线方程,并说明回归模型拟合效果的好坏.解 x -=15(14+16+18+20+22)=18, y -=15(12+10+7+5+3)=7.4,∑5i =1x 2i =142+162+182+202+222=1 660,∑5i =1x i y i=14×12+16×10+18×7+20×5+22×3=620, 所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=620-5×18×7.41 660-5×182=-1.15, a^=7.4+1.15×18=28.1, 所以所求回归直线方程是y ^=-1.15x +28.1. 列出残差表:所以∑5i =1 (y i -y ^i )2=0.3, ∑5i =1(y i -y -)2=53.2, R 2=1-∑5i =1 (y i -y ^i )2∑5i =1 (y i -y -)2≈0.994,所以回归模型的拟合效果较好.规律方法 (1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.(2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和∑ni =1 (y i -y ^i )2越小,模型的拟合效果越好. ③决定系数法:R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y -)2越接近1,表明回归的效果越好.【训练1】 某地区2011年到2017年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2011 2012 2013 2014 2015 2016 2017 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为解 (1)由所给数据计算得t -=17× (1+2+3+4+5+6+7)=4,y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1(t i -t -)2 =9+4+1+0+1+4+9=28,∑7i =1(t i -t -) (y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, b ^=∑7i =1(t i -t -) (y i -y -)∑7i =1(t i -t -)2=1428=0.5,a ^=y --b ^ t -=4.3-0.5×4=2.3, 所以所求回归方程为y ^=0.5t +2.3.(2)由(1)知b^=0.5>0,故2011年到2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2020年的年份代号t =10代入(1)中的回归方程,得y ^=0.5×10+2.3=7.3.故预测该地区2020年农村居民家庭人均纯收入为7.3千元.题型二 残差分析与相关指数的应用【例2】 假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求R 2,并说明(2)中求出的回归模型的拟合程度. 解 (1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,又x -=30.36,y -=43.5,∑5i =1x 2i=5 101.56,x - y - =1 320.66,x -2=921.729 6,∑5i =1x i y i=6 746.76. 则b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2≈0.29,a ^=y --b ^ x -≈34.70.故所求的回归直线方程为y ^=0.29x +34.70. 当x =56.7时,y ^=0.29×56.7+34.70=51.143. 故估计成熟期有效穗为51.143.(3)由y ^i =b ^x i+a ^,可以算得e ^i =y i -y ^i 分别为e ^1=0.35,e ^2=0.718,e ^3=-0.5,e ^4=-2.214,e ^5=1.624,残差平方和:∑5i =1e ^2i ≈8.43. (4) ∑5i =1 (y i -y -)2=50.18,故R 2≈1-8.4350.18≈0.832.所以(2)中求出的回归模型的效果较好.规律方法 (1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.【训练2】 为研究质量x (单位:g)对弹簧长度y (单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:(1)作出散点图并求回归直线方程; (2)求出R 2并说明回归模型拟合的程度; (3)进行残差分析.解 (1)散点图如图所示.样本点分布在一条直线附近,y 与x 具有线性相关关系.由表中数据,得x -=16×(5+10+15+20+25+30)=17.5,y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑6i =1x 2i = 2 275,∑6i =1x i y i=1 076.2. 计算得b^≈0.183,a ^≈6.285. 故所求回归直线方程为y ^=6.285+0.183x . (2)列表如下:y i -y ^i0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y --2.237-1.367 -0.5370.4131.4132.313可得∑6i =1 (y i -y ^i )2≈0.013 18, ∑6i =1(y i -y -)2≈14.678 3. 所以R 2=1-0.013 1814.678 3≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正错误,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系. 题型三 非线性回归分析【例3】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -)∑8i =1(w i -w -)·(y i -y -)46.65636.8289.81.61 469108.8表中w i =x i ,w -=18∑8i =1w i . (1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程; (3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x . 根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u -)(v i -v -)∑ni =1(u i -u -)2,a ^=v --β^u -. 解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑8i=1(w i-w-)(y i-y-)∑8i=1(w i-w-)2=108.81.6=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6(t),年利润z的预报值z^=576.6×0.2-49=66.32(千元).②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.【训练3】下表为收集到的一组数据:y 711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.解(1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1,c2为待定的参数.(2)对y=c1e c2x两边取对数,得ln y=ln c1+c2x,令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784求得回归直线方程为z^=0.272x-3.849,^=e0.272x-3.849.∴y残差y i711212466115325 y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.675 (3)当x=40时,y^=e0.272×40-3.849≈1 131.一、素养落地1.通过本节课的学习,进一步提升数学运算及数据分析素养.2.当根据给定的样本数据得到的散点图并不是分布在一条直线附近时,就不能直接求其回归直线方程了,这时可根据得到的散点图,选择一种拟合得最好的函数,常见的函数有幂函数、指数函数、对数函数等,然后进行变量置换,将问题转化为线性回归分析问题.二、素养训练1.下列两个变量之间的关系不是函数关系的是()A.角度和它的余弦值B.正方形的边长和面积C.正n边形的边数和内角度数和D.人的年龄和身高解析函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.答案 D2.(多选题)关于残差图的描述正确的是()A.残差图的横坐标可以是样本编号B.残差图的横坐标也可以是解释变量或预报变量C.残差点分布的带状区域的宽度越窄相关指数越小D.残差点分布的带状区域的宽度越窄残差平方和越小解析残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,R2的值越大,故描述错误的是C.答案ABD3.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得回归直线方程y ^=b ^x +a ^中的b ^=-5,据此模型预测当零售价为14.5元时,每天的销售量为( ) A .51个 B .50个 C .54个D .48个解析 由题意知x -=17.5,y -=39,代入回归直线方程得a ^=126.5,126.5-14.5×5=54,故选C. 答案 C4.在研究硝酸钠的溶解度时,观察它在不同温度(x )的水中溶解度(y )的结果如下表:由此得到回归直线的斜率是__________. 解析 x -=15(0+10+20+50+70)=30,y -=15(66.7+76.0+85.0+112.3+128.0)=93.6,由公式b ^=∑5i =1 (x i -x -)(y i -y -)∑5i =1(x i -x -)2可得b^≈0.880 9.答案 0.880 95.在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y 与x 之间的回归方程. 解 由数值表可作散点图如图,根据散点图可知y 与x 近似地呈反比例函数关系, 设y ^=k x ,令t =1x ,则y ^=kt ,原数据变为:t 4 2 1 0.5 0.25 y1612521由置换后的数值表作散点图如下:由散点图可以看出y 与t 呈近似的线性相关关系,列表如下:I t i y i t i y i t 2i 1 4 16 64 16 2 2 12 24 4 3 1 5 5 1 4 0.5 2 1 0.25 5 0.25 1 0.25 0.062 5 ∑7.753694.2521.312 5所以t -=1.55,y -=7.2.所以b ^=∑5i =1t i y i -5t - y -∑5i =1t 2i -5t -2≈4.134 4,a ^=y --b ^t -≈0.8. 所以y ^=4.134 4t +0.8.所以y 与x 之间的回归方程是 y ^=4.134 4x +0.8.基础达标一、选择题1.已知某地财政收入x 与支出y 满足回归方程y ^=b ^x +a ^+e i (单位:亿元)(i =1,2,…),其中b ^=0.8,a ^=2,|e i |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( ) A .10亿元 B .9亿元 C .10.5亿元D .9.5亿元解析 y ^=0.8×10+2+e i =10+e i , ∵|e i |<0.5,∴9.5<y ^<10.5. 答案 C2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 答案 A3.在回归分析中,R 2的值越大,说明残差平方和( ) A .越大B .越小C .可能大也可能小D .以上均错解析 因为R 2=1-∑n i =1 (y i -y ^i )2∑n i =1 (y i -y -)2,所以当R 2越大时,∑n i =1 (y i -y ^i )2越小,即残差平方和越小. 答案 B4.若一函数模型为y =sin 2α+2sin α+1,为将y 转化为t 的回归直线方程,则需作变换t 等于( ) A .sin 2 α B .(sin α+1)2 C.⎝ ⎛⎭⎪⎫sin α+122D .以上都不对解析 因为y 是关于t 的回归直线方程,实际上即y 是关于t 的一次函数,又因为y =(sin α+1)2,若令t =(sin α+1)2,则可得y 与t 的函数关系式为y =t ,此时变量y 与变量t 是线性相关关系. 答案 B5.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和∑ni =1(y i -y ^i )2如下表:甲乙丙丁散点图残差平方和115106124103哪位同学的试验结果体现拟合A ,B 两变量关系的模型拟合精度高( ) A .甲 B .乙 C .丙D .丁解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中∑n i =1(y i -y -)2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些. 答案 D 二、填空题6.某种产品的广告支出费用x (单位:万元)与销售额y (单位:万元)的数据如下表:已知y 关于x 的线性回归方程为y ^=6.5x +17.5,则当广告支出费用为5万元时,残差为__________万元.解析 当x =5时,y ^=6.5×5+17.5=50,表格中对应y =60,于是残差为60-50=10(万元). 答案 107.某商场为了了解某品牌羽绒服的月销售量(单位:件)与月平均气温x (单位:℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y ^=b ^x +a ^中的b ^≈-2.气象部门预测下个月的平均气温约为 6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.解析 由表格中数据可得x -=17+13+8+24=10,y -=24+33+40+554=38.又∵b ^≈-2,∴a ^=y --b ^ x -≈38+2×10=58,∴y ^=-2x +58.当x =6时,y ^=-2×6+58=46. 答案 468.在研究气温和热茶销售杯数的关系时,若求得决定系数R 2≈0.85,则表明气温解释了__________的热茶销售杯数变化,而随机误差贡献了剩余的__________,所以气温对热茶销售杯数的效应比随机误差的效应大得多. 解析 由决定系数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%. 答案 85% 15% 三、解答题9.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10i =1x i y i =184,∑10i =1x 2i =720. (1)求家庭的月储蓄y 关于月收入x 的线性回归方程y ^=b ^x +a ^; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解 (1)由题意知n =10,x -=1n ∑10i =1x i =110×80=8,y -=1n ∑10i =1y i =110×20=2,所以b ^=∑10i =1x i y i -n x - y - ∑10i =1x 2i -nx -2=184-10×8×2720-10×82=2480=0.3, a ^=y --b ^x -=2-0.3×8=-0.4,故所求线性回归方程为y ^=0.3x -0.4.(2)将x =7代入回归方程,可以预测家庭的月储蓄约为y ^=0.3×7-0.4=1.7(千元).10.为了研究甲型H1N1中的某种细菌随时间x 变化的繁殖个数y ,收集数据如下:天数x 1 2 3 4 5 6 繁殖个数y612254995190求y 对x 的回归方程. 解 作出散点图如图(1)所示.由散点图看出样本点分布在一条指数型曲线y =c e bx 的周围,则ln y =bx +ln c . 令z =ln y ,a =ln c ,则z =bx +a .x 1 2 3 4 5 6 z1.792.483.223.894.555.25相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由表中数据得到线性回归方程为z ^=0.69x +1.112.因此细菌的繁殖个数对温度的非线性回归方程为y ^=e 0.69x +1.112.能力提升11.若对于变量x ,y 的10组统计数据的回归模型中,计算R 2=0.95,又知残差平方和为120.55,那么∑10i =1(y i -y -)2的值为( )A .241.1B .245.1C .2 411D .2 451解析 由题意知残差平方和∑10i =1(y i -y ^i )2=120.55,又R 2=1-∑10i =1 (y i -y ^i )2∑10i =1 (y i -y -)2=0.95,所以∑10i =1 (y i -y -)2=2 411.答案 C12.某电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt (b <0)表示,现测得时间t (s)时的电压U (V)如下表:t /s 0 1 2 3 4 5 6 7 8 9 10 U /V100755540302015101055试求:电压U 对时间t 的回归方程(提示 对公式两边取自然对数,把问题转化为线性回归分析问题).解 对U =A e bt 两边取对数得ln U =ln A +bt ,令y =ln U ,a =ln A ,x =t ,则y =a +bx ,y 与x 的对应数据如下表:x 0 1 2 3 4 5 6 7 8 9 10 y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点图,如图所示,从图中可以看出,y 与x 具有较好的线性相关关系,由表中数据求得x -=5,y -≈3.045,由公式计算得b ^≈-0.313,a ^=y --b ^x -=4.61,所以y 对x 的线性回归方程为y ^=-0.313x +4.61.所以ln U ^=-0.313t +4.61,即U ^=e -0.313t +4.61=e -0.313t ·e 4.61,因此电压U 对时间t 的回归方程为U ^=e -0.313t ·e 4.61.创新猜想13.(多选题)如图四个散点图中,适合用线性回归模型拟合其中两个变量关系的是()A.①B.②C.③D.④解析由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.答案AC14.(多选题)下列说法正确的是()A.残差的绝对值越小,回归方程的拟合效果越好B.残差平方和越小,决定系数R2越大C.决定系数R2可以大于1D.通过经验回归方程得到的预报值是响应变量的可能取值的平均值,不一定是响应变量的精确值解析R2的计算公式,知B正确,C错误;A,D均正确.答案ABD。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非线性回归问题
两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。
分析非线性回归问题的具体做法是: (1)若问题中已给出经验公式,这时可以将变量x 进行置换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.
(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种已知函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量置换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法.
例1 在彩色显影中,由经验可知:形成染料光学密度y 与析出银的光学密度x 由公式
e b x
y A =(b <0)表示,现测得实验数据如下:
试求对的回归方程.
分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为e
b x
y A =(b <0)类型,我们只要通过所给的11对样本数据求出A 和b ,即可确定x 与y 的相关关系的曲线方程.
解:由题意可知,对于给定的公式e b
x
y A =(b <0)两边取自然对数,得ln ln b y A x
=+. 与线性回归方程对照可以看出,只要取1
u x
=
,ln v y =,ln a A =,就有v a bu =+,这是v 对u 的线性回归直线方程,对此我们再套用相关性检验,求回归系数b 和a . 题目中所给数据由变量置换1
u =
,ln v y =变为如表所示的数据:
由于|r |=0.998>0.602,可知u 与v 具有很强的线性相关关系.
再求得0.146b
=-$,$0.548a =, ∴v
=$0.5480.146u -,把u 和v 置换回来可得$0.146
ln 0.548y x
=-, ∴$
0.146
0.1460.1460.5480.548
e 1.73x
x
x
y e
e
e
-
-
-
===g ,
∴回归曲线方程为$
0.146
1.73e x
y -
=.
点评:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤.
例2 为了研究某种细菌随时间x 变化的繁殖个数,收集数据如下:
天数x 1 2 3 4 5 6 繁殖个数y
6
12
25
49
95
190
(1)作出这些数据的散点图; (2)求出y 对x 的回归方程. 解析:(1)作出散点图如图1所示.
(2)由散点图看出样本点分布在一条指数型曲线e bx
y c =(c >0)的周围,则
ln ln y bx c =+.
令ln ln z y a c ==,,则z bx a =+.
x
1 2 3 4 5 6 z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图2. 从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
由表中数据得到线性回归方程为0.69 1.115z
x =+$.因此 细菌的繁殖个数对温度的非线性回归方程为$0.69 1.115e x y +=.
点评:通过作散点图看出,本题是一个非线性回归问题,通过变量置换转化为线性回归
问题求解的.值得注意的是,本题的数据与回归曲线是拟合得相当好的,这表明确定性关系(如公式、函数关系式)和相关关系之间并没有一条不可逾越的鸿沟.由于有实验误差、测量误差等存在,变量之间的确定性关系往往通过相关关系表现出来;反过来,在有些问题中,可以研究相关关系来深入了解变量变化的内在规律,从而找到它们的确定性关系.。