一元线性回归方程的应用
对“一元线性回归方程在标准曲线上的应用”的补充研究
防水, 2 010 ( 2) : 41- 42 .
� � � � � � � � � � � � � � � � 2 黄海 , 罗友丰 , 陈志 英, 等. 10.0 统计 分 � � � 析 .北京: 人民邮电出版社, 2001 , 2.
验误差为 0;=0 �1 时, 与
性, 值愈接近 1, 与 之间线性关系愈好 � 利用三 次曲线相关系数为 =0.999 04 , 而该文中的相关系数 才为 0.997 9,因而三次曲线的相关系数 更接近于
� � 2
述数据进行三次拟合 , 可得回归方程:
-5 2 -8 3
� � � � � =16 6 .021+ 0. 001 76 -1.424 10 + 9.701 10 关系该文仅介绍了一元线性回归的方法, 一元线性回
� � � 10 16 中 国建筑防水
39
检测技术
根据回归方程可得其拟合曲线, 见图 1 �
� � � 中在 (23 0.6 ) � 相对湿度 (90 2 ) % 时, 水蒸气通过 Z L
A : A
某中空玻璃用丁基热熔密封胶进入干燥剂的速度数
� , -� � 据见表 1, 其中横坐标 为时间/ , 纵坐标 为质量 /
.B �A � , -
, 作散点图, 经分析, 其变化趋势应服从三次曲线分 布, 方程为:
检测技术
对 "一 元 线 性 回 归 方 程 在 标 准 曲 线 上 的应用" 的补充研究
范加冬, 张令刚
( 中国矿业大学力学与建ቤተ መጻሕፍቲ ባይዱ工程学院土木工程系, 江苏 徐州 221006)
摘要: 变量间的相互关系有时较为复杂, 一元线性 回归仅能描 述很少的一种情况�在 �一元线性回归方程在标准曲线上的应 用� 一文 的基础上 , 运用 曲线拟合 对数据进行 重新回 归, 结果 显示曲线拟合比一元线性回归精 度更高� 应用范围更广, 更适 用于在材料性能检测与试验研 究过程中准确寻找 变量间的相 关关系� 关键词: 一元线性回归; 曲线拟合; 标准曲线; 相互关系 文章编号: 1007-497X(2010 ) -16 -0039-02 中图分类号: TU 502+ . 4 文献标识码: A �A � / / F J ,
8.2一元线性回归模型及其应用(2)课件-2022-2023学年高二下学期数学人教A版(2019)选
i1
i1
n
n
[( yi y) b(xi x)][( y bx) a] ( y bx a) [( yi y) b(xi x)]
i1
i1
n
n
( y bx a)( ( yi y) b (xi x))
i1
i1
( y bx a)[(n y n y) b(nx nx)] 0
i1
i1
i1
i1
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
n
( xi x)( yi y)
b i1 n
( xi x)2
i 1
新知探索
3.最小二乘法
n
n
(xi x)( yi y)
xi yi nx y
b i1
n
(xi x)2
aˆ
i 1
ˆy bˆx
新知探索
问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y 关于父亲身高x的经验回归方程.
ˆy 0.839x 28.957
1). 当x=176时,y 177 ,如果一位父亲身高为176cm,他儿子长大后
身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子 身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲 的身高不能完全决定儿子的身高,不过,我们可以作出推测,当 父亲的身高为176cm时,儿子身高一般在177cm左右.
n
因此可用 yi -(bxi a)来刻画各样本观测数据与直线y=bx+a的整体接近程度. i 1
新知探索
n
| yi (bxi a) |
i 1
n
残差平方和:Q(a,b) yi (bxi a)2 i1
8.2 一元线性回归模型及其应用教案
8.2 一元线性回归模型及其应用一、教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.二、教学重难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.三、教学过程(一)新课导入(幻灯片)上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x 只能解释部分y 的变化. 同学们考虑一下,随机变量e 的均值是多少?方差又是多少? 活动设计:学生思考回答问题.设计意图:说明研究随机误差e 的必要性,通过研究随机误差e 可以分析预报值的可信度. 提出问题:既然可以用随机变量e 的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢? 活动结果:可以采用抽样统计的思想,通过随机变量e 的样本来估计σ2的大小. 设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体.探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢? 学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值. 由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,这个和称作残差平方和. 类比样本方差估计总体方差的思想,可以用 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析. 设计目的:通过问题诱思,引入残差概念.(二)探索新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据. 活动结果:提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论.活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散. 提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论. 活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^ 2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:相关指数提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果?22121()1()nii i n ii yy R yy ==-=--∑∑学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R2.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整?学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1 一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据. 根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96. 残差数据如下表:(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据. 变练演编例2 在一段时间内,某种商品的价格x (元)和需求量y (件)之间的一组数据为:求出y 对x 的回归方程,并说明拟合效果的好坏. 解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7. 故y 对x 的回归方程为y ^=-2.35x +87.7,列表:y i -y ^i 1.2 -0.1 -2.4 0.3 1 y i -y10.64.6-2.4-4.4-8.4相关指数R 2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 非线性回归分析2.现收集了一只红铃虫的产卵数y 和温度xoC 之间的7组观测数据列于下表:1)试建立产卵数y 与温度x 之间的回归方程;并预测温度为28oC 时产卵数目。
第三节 利用一元线性回归方程进行预测和控制
若记 ( x )
1 (x x) t ( n 2) S 1 n Lxx 2
2
ˆ ( x ) , y2 ( x ) y ˆ (x) y1 ( x ) y
y
ˆ (x) y1 ( x ) y
ˆx ˆa ˆb y
ˆ0 y
y
ˆ (x) y2 ( x ) y
取随机变量
T
ˆ0 y0 y 1 ( x0 x ) 2 S 1 n Lxx
S剩 ˆx ˆ0 a ˆb 其中,S , y 0 n 2 可以证明:当i ~ N(0 , 2) (i=1,2 , … ,n ) 且相互独立时,随机变量T服从自由度为n-2的 t分布 对给定的置信度1-,作概率等式 P{| t | t ( n 1)} 1 ,
y
y2
y 2 ( x) y ( x) ( x)
M
y a b x y1 ( x) y( x) ( x)
y1
0
N
x1
x2
x
(b 0 )
, y2 处分别画两条水平线, 它们分别交曲线 从 y1
y1 ( x)、 y2 ( x) 于N、M ,再过这两点分别画垂线交x 轴
第九章
§9.3
一元线性回归
利用一元线性回归方程进行 预测和控制
一、预测 1、点预测 就是对x=x0时y的精确值y0=a+bx0+0作出点估 ˆx 计,即将x=x0代入回归方程,求得 y ˆ0 a ˆb 0 ˆ 0 作为y0的估计值,这就是点预 将y 测。 2、区间预测 就是区间估计,即在给定的置信度下求出精 确值y0的置信区间,称为y0的区间预测。
一元线性回归方程的应用
第四节一元线性回归方程的应用回归方程最主的应用就是用它进行估计或预测。
只要r2≠1,估计误差就不可避免。
因而在应用回归方程时,需要对估计的误差以及与之相联系的一些问题有所了解。
一、回归方程的建立与预测(或估计)对于一组X、Y的数据,我们可以建立回归方程,有了y对X的回归方程,也就找到了X与y之间变化的数量关系,对于任意一个X值都可估计出与之对应的y值。
一)回归方程的建立例下面是20名工作人员的智商和某一次技术考试成绩,根据这个结果求出考试成绩对智商的回归方程。
如果另有一名工作人员智商为120,则估计一下若让他也参加技术考试,将会得多少分?解:经检验两者具有线性关系计算得:X与Y的均值:107 71标准差:13.69 11.63 r=0.86代入公式则回归方程为:NO 智商X成绩Y估计Y'NO智商X成绩Y估计Y'1 89 55 57.86 11 84 53 54.212 97 74 63.7 12 121 82 81.223 126 87 84.87 13 97 58 63.74 87 60 56.4 14 101 60 66.625 119 71 79.76 15 92 67 60.056 101 54 66.62 16 110 80 73.197 130 90 87.79 17 128 85 86.338 115 73 76.84 18 111 73 73.929 108 67 71.73 19 99 71 65.1610 105 70 69.54 20 120 90 80.49二)回归方程的检验1.方差分析法SSR=1997.48 SST=2705.14 SSE=707.66F=MSR/MSE=(SSR/dfR)/(SSE/dfE)= 1997.48 /(707.66/18)=50.81查表F(1,18)=8.28(0.01) 或 4.41(0.05) 结果显著2.回归系数法SX=13.69 SY=11.63 b=0.73 r=0.86三)用回归方程进行预测若X=120,代入回归方程得=80.5就是说,这位工作人员虽没参加技术考试,但根据他的智商,估计其技术考试的分数应该为80.5。
8.2 一元线性回归模型及其应用 学案-【新教材】2020-2021学年人教A版(2019)高中数学
知识点一 一元线性回归模型称⎩⎪⎨⎪⎧Y =bx +a +e ,E e =0,D e =σ2为Y 关于x 的一元线性回归模型.其中Y 称为________或________变量,x称为自变量或解释变量,a 称为________参数,b 称为________参数;e 是Y 与bx +a 之间的随机误差,如e =0,那么Y 与x 之间的关系就可以用一元线性函数模型来描述. 知识点二最小二乘法 线性回归方程与最小二乘法将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称________________,其图形称为经验回归________,这种求经验回归方程的方法叫最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .知识点三残差与残差分析 残差对于响应变量Y ,通过观测得到的数据称为________,通过经验回归方程得到的y ^称为________值,观测值减去预测值称为________. 残差分析残差是随机误差的估计结果,残差的分析可以判断模型刻画数据效果和判断原始数据中是否存在可疑数据等,称为残差分析.知识点四对模型刻画数据效果的分析 残差图法残差图中,如残差比较________地集中在以横轴为对称轴的水平带状区域内,说明经验回归方程较好地刻画两个变量的关系. 残差平方和法残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越________.1.十四五发展纲要提出要推进能源革命,建设清洁低碳、安全高效的能源体系,加快发展非化石能源,大力提升风电、光伏发展规模,有序发展海上风电.海上风电相比与陆上风电有着一定的优势,海上风电可装的风机更大,风资源利用率更高,近几年我国海上风电事业发展良好.下面是近五年我国海上风电发展情况表和对应的散点图.2016-2020年中国海上风电新增装机容量及累计装机容量表(单位:万千瓦)(1)为了分析中国海上风电装机容量的情况,建立了ˆubt a =+和ˆv dt c =+两个线性回归模型,你认为用哪个线性回归模型更可靠?并说明理由.(2)根据(1)的判断结果及表中数据,求出回归方程,并根据这个回归模型回答下列问题: ①2021年我国海上风电新增装机容量的预测值是多少?②预计至少要到哪一年,我国海上风电累计装机容量超过2000万千瓦? 参考数据:参考公式:回归方程ˆˆˆybx a =+中()()()1122211ˆˆˆ,n niii ii i nniii i x x y y x y nxyb ay bx x x xnx ====---===---∑∑∑∑. 2.2017年开始,小李在县城租房开了一间服装店,每年只卖甲品牌和乙品牌的服装.小李所租服装店每年的租金如下表:根据以往的统计可知,每年卖甲品牌服装的收入为6.70.3x +万元,卖乙品牌服装的收入为9.80.2x +万元.(I )求y 关于x 的线性回归方程;(II )由(I )求得的回归方程预测此服装店2021年的利润为多少.(年利润=年收入-年租金)参考公式:在线性回归方程ˆˆˆybx a =+中,()()()1122211ˆn ni iiii i nni i i i x y nx y x x y y b x nx x x ====---==--∑∑∑∑,ˆˆay bx =-. 3.新疆拥有巨大的植棉气候优势,日照时间长,光线充足,生长周期长,昼夜温差大,常年供不应求,品质属于世界顶级,植保无人机、打包采棉机、残膜回收机、智能深翻犁、……,这些智能机器,受到越来越多新疆棉农的青睐,新疆棉花生产早已经实现高度机械化,即使在忙碌的采摘季节,也不需要大量的“采棉工”,下表是新疆长绒棉近年来产量表:(1)根据表中数据,建立y 关于x 的线性回归方程y bx a =+; (2)根据线性回归方程预测2021年新疆长绒棉的年产量.附:对于一组数据()11,x y ,()22,x y ,…,(),n n x y ,其回归直线方程y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.(参考数据:()()612.8iii x x yy =--=∑,计算结果保留到小数点后两位)4.某蛋糕店制作的蛋糕尺寸有6,8,10,12,14,16(单位:英寸)六种,根据日常销售统计,将蛋糕尺寸)、平均月销量y (个)以及成本和单价的数据整理得到如下的表格.(1)求该蛋糕店销售蛋糕的平均月利润(利润=销售收入一成本);(2)根据题中数据,从y a bx =+与()211y c d x =+-两个模型中选择更合适的,建立y 关于x 的回方程(系数精确到0.01).参考公式:对于一组数据()()()()112233,,,,,,..,,n n u v u v u v u v ,其回归直线方程v u βα=+的针率和截距的最小二乘法分别是()()()121niii nii u u v v v u u β==--==-∑∑,v u αβ=-参考数据:()()()266112,70iiii i y y x x x x ==--=--=∑∑,()()()26611160,600i i i i i y y t t t t==--=--=∑∑,6116i i t t ==∑5.FEV 1(一秒用力呼气容积)是肺功能的一个重要指标.为了研究某地区10~15岁男孩群体的FEV 1与身高的关系,现从该地区A 、B 、C 三个社区10~15岁男孩中随机抽取600名进行FEV 1与身高数据的相关分析.(1)若A 、B 、C 三个社区10~15岁男孩人数比例为1:3:2,按分层抽样进行抽取,请求出三个社区应抽取的男孩人数.(2)经过数据处理后,得到该地区10~15岁男孩身高x (cm )与FEV 1y (L )对应的10组数据(,)i i x y (i =1,2,…,10),并作出如图散点图:经计算得:1021()1320ii x x =-≈∑,1021()3i i y y =-≈∑,x = 152,y =2.464,(,)i i x y (i =1,2,…,10)的相关系数r ≈0.987.①请你利用所给公式与数据建立y 关于x 的线性回归方程,并估计身高160cm 的男孩的FEV 1的预报值y 0. ②已知,若①中回归模型误差的标准差为s ,则该地区身高160cm 的男孩的FEV 1的实际值落在(y 0-3s ,y 0+3s )内的概率为99.74%.现已求得s =0.1,若该地区有两个身高160cm 的12岁男孩M 和N ,分别测得FEV 1值为2.8L 和2.3L ,请结合概率统计知识对两个男孩的FEV 1指标作出一个合理的推断与建议.附:样本(x i ,y i )(i =1,2,…,n )的相关系数r ()()niix x y y --=∑其回归方程y a bx =+的斜率和截距的最小二乘法估计分别为121()()ˆ()niii nii x x yy bx x ==--=-∑∑,a y bx =-,10.5≈.6.区块链技术被认为是继蒸汽机、电力、互联网之后下一代颠覆性的核心技术.区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式.某5G 科技公司对2020年1月份至6月份某款5G 产品的销售量及销售单价进行了调查,销售单价x 和销售量y 之间的一组数据如下表所示:(1)由散点图可知变量x ,y 具有线性相关关系,根据1至6月份的数据,求出y 关于x 的回归直线方程; (2)预计在今后的销售中,月销售量与月销售单价仍然服从(1)中的关系,若该种产品的成本是350元/件,那么该产品的月销售单价应定为多少元才能获得最大月利润?(注:利润=销售收入-成本)参考公式和数据:()()6114iii x x y y =--=-∑,y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.参考答案1.(1)模型ˆu bt a =+更可靠,理由见解析;(2)①363;②2023年.【详解】(1)模型ˆubt a =+更可靠. 原因:从散点图可以看出,左边的散点图上的点比右边散点图上的点更集中在一条直线的附近,说明变量u 和t 具有更强的线性相关关系. (2)依题意得1234535t ++++==,31691402193061535u ++++==,521149162555ii t==++++=∑,512995i i i t u ==∑,所以5152215299553153700ˆ70555910i i i i i t u tubtnt ==--⨯⨯====-⨯-∑∑,则ˆˆ15370357a u bt=-=-⨯=-, 所以ˆ7057ut =-; ①当6t =时,2021年我国海上风电新增装机容量的预测值是706ˆ57363u=⨯-=. ②当7t =时,2022年我国海上风电新增裝机容量的预测值是707ˆ57433u=⨯-=. 当8t =时,2023年我国海上风电新增装机量的预测值是708ˆ57503u=⨯-= 因为83836343316342000++=<,838363433503163450321372000+++=+=>; 所以预计至少要到2023年,我国海上风电累计装机量超过2000万千瓦.2.(I )ˆ 4.224.5y x =+;(II )14.45万元.【详解】命题意图 本题考查线性回归方程. 解析(I )根据表中数据,计算可得12342.54x +++==,29333642354y +++==,41421i ii x y x y =-=∑,422214304 2.55ii xx =-=-⨯=∑414221421ˆ 4.254i ii ii x y x ybxx ==-∴===-∑∑, ˆˆ35 4.2 2.524.5ay bx ∴=-=-⨯=, y ∴关于x 的线性回归方程为ˆ 4.224.5y x =+(II )将5x =代入回归方程得ˆ 4.2524.545.5y =⨯+=(千元).预测第5年卖甲品牌服装的收入为8.2万元,卖乙品牌服装的收入为10.8万元,∴预测2021年的利润为8.210.8 4.5514.45+-=(万元).3.(1)0.16 6.44y x =+;(2)约为7.56百万吨. 【详解】(1)由题意,根据表格中熟记,可得1234563.56x +++++==,6.6 6.777.17.27.476y +++++==,()()()()6222222212.5 1.50.50.5 1.5 2.517.5i i x x=-=-+-+-+++=∑,所以()()()1212.8ˆ0.1617.5niii ni i x x y y bx x==--===-∑∑, 又由70.16 3.5 6.44a y bx =-=-⨯=,所以y 关于x 的线性回归方程为0.16 6.44y x =+.(2)由(1)可得,当年份为2021年时,年份代码为7x =, 此时0.167 6.447.56y =⨯+=.所以可预测2021年新疆长绒棉年产量约为7.56百万吨. 4.(1)6570元;(2)()215.110.2711y x =--. 【详解】解:(1)根据题意,该蛋糕店销售蛋糕的平均月利润为93012501580151001310081005670⨯+⨯+⨯+⨯+⨯+⨯=元;(2)由表中的数据可知x 与y 之间不是线性关系,所以选()211y c d x =+-,设2(11)t x =-,则y c dt =+,()1135912151513812,(25911925)663y t =+++++==+++++= 16040.2760ˆ015d-==-≈-,4351215.11153c y dt =-≈+⨯≈ 所以15.110.27y t =-因此y 关于x 的回归方程为()215.110.2711y x =--.5.(1)A :100人,B :300人,C :200人;(2)①0.047 4.68y x =-,2.84,②答案见解析. 【详解】(1)A 社区抽取人数:16001006⨯=人;B 社区抽取人数:36003006⨯=人; C 社区抽取人数:26002006⨯=人; (2)①对比b 与r 的公式,得:210.047()i i x x b ====-=≈∑, ∴ 2.4640.047152 4.68a =-⨯=-.∴所求的线性回归方程为0.047 4.68y x =-,而当x =160时,预计y 0=0.047×160-4.68=2.84; ②∴s =0.1,则y 0 - 3s =2.84 - 3×0.1=2.54,y 0+3s =2.84+3×0.1=3.14.∴该地区身高160cm 的男孩的FEV 1的实际值落在区间(2.54,3.14)内的概率为99.74%,即该地区身高160cm 的男孩的EFV 1值不在这个区间内的概率极小,仅有0.26%,M 的EFV 1值落在这个区间内,我们推断他的EFV 1是正常的,N 的EFV 1值低于该区间的下限,我们推断他的EFV 1是不正常的,建议他去找一下不正常的原因. 6.(1)20250y x =-+;(2)800元. 【详解】解:(1)根据表中数据,可得1(98.88.68.48.28)8.56x =⨯+++++=,1(687580838490)806y =⨯+++++=,()622222221(98.5)(8.88.5)(8.68.5)(8.48.5)(8.28.5)(88.5)0.7i i x x=-=-+-+-+-+-+-=∑.因为()()6114iii x x y y =--=-∑,所以()()()6162114200.7iii ii x x y y b x x ==--==-=--∑∑,80208ˆ.5250ˆa y bx =-=+⨯=, 所以y 关于x 的线性回归方程为20250y x =-+.(2)设该产品的月销售单价为x 百元,月利润为z 百万元,则由( 3.5)z x y =-,得2( 3.5)(25020)20320875z x x x x =--=-+-,所以当8x =时,max 405z =(百万元),所以月销售单价应定为800元,才能获得最大月利润.。
一元线性回归分析案例
数学3——统计内容
再冷的石头,坐上三年也会暖 !
1. 画散点图
2. 了解最小二乘法的思想
3. 求回归直线方程
y=bx+a
4. 用回归直线方程解决应用问题
课题:选修2-3 8.5 回归分析案例
复习 变量之间的两种关系
再冷的石头,坐上三年也会暖 !
问题1:正方形的面积y与正方形的边长x之间
选修2-3——统计案例
5. 引入线性回归模型
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
7. 了解相关指数 R2 和模型拟 合的效果之间的关系
8. 了解残差图的作用 9. 利用线性回归模型解决一类
非线性回归问题 10. 正确理解分析方法与结果
课题:选修2-3 8.5 回归分析案例
再冷的石头,坐上三年也会暖 !
课题:选修2-3 8.5 回归分析案例
解:(1)列出下表,并计算
再冷的石头,坐上三年也会暖 !
i
1
2
3
4
5
6
7
8
9
10
xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10400 36000 39900 32745 22785 18090 25500 39155 47940 15125
现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?
课题:选修2-3 8.5 回归分析案例
第八章8.2一元线性回归模型及其应用PPT课件(人教版)
三、非线性回归
例3 下表为收集到的一组数据: x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 (1)作出x与y的散点图,并猜测x与y之间的关系;
解 作出散点图如图,从散点图可以看出x 与y不具有线性相关关系,根据已有知识可 以发现样本点散布在某一条指数函数型曲线 y=c1ec2x的周围,其中c1,c2为待定的参数.
年份
2015 202X 202X 202X 202X
时间代号t
1
2
3
4
5
储蓄存款y(千亿元) 5
6
7
8
10
(1)求 y 关于 t 的经验回归方程y^=b^ t+a^ ;
n
tiyi-n t y
i=1
参考公式:b^ =
n
t2i -n
t2
,a^ =
y
-b^
t
i=1
解 由题意可知,n=5, t =1nn ti=155=3, i=1
来比较两个模型的拟合效果,R2 越 大 ,模型
n
yi- y 2
i=1
拟合效果越好,R2 越 小 ,模型拟合效果越差.
思考 利用经验回归方程求得的函数值一定是真实值吗? 答案 不一定,他只是真实值的一个预测估计值.
思考辨析 判断正误
SI KAO BIAN XI PAN DUAN ZHENG WU
知识点四 对模型刻画数据效果的分析
1.残差图法
在残差图中,如果残差比较均匀地集中在以 横轴为对称轴的水平带状
区域内 ,则说明经验回归方程较好地刻画了两个变量的关系.
2.残差平方和法
n
(yi-y^i)2
残差平方和 i=1
2022年秋高中数学第八章成对数据的统计分析8.2一元线性回归模型及其应用8.2.2一元线性回归模型
5 , 则 b^ =
i=1
i=1
5
uiyi-5 u y
i=1
≈4.13,a^= y -b^ u ≈0.8.
5
u2i -5 u 2
i=1
从而得到 y 关于 u 的经验回归方程为^y=4.13u+0.8,则 y 关于 x 的回 归方程为^y=4.x13+0.8.
| 素养达成 |
1.检验回归模型的拟合效果一般有三种方法: (1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建 立模型的拟合效果.其步骤是:计算残差、画残差图、在残差图中分析 残差特性.
5
yi-^yi2
i=1
R2=1-
≈0.994,
5
yi- y 2
i=1
所以回归模型的拟合效果很好.
题型2 非线性回归
下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出 x 与 y 的散点图,并猜测 x 与 y 之间的关系;
(2)建立 x 与 y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报 x=40 时 y 的值.
n
(2)残差平方法: (yi- y i)2 表示残差平方和,残差平方和越小,模
i=1
型的拟合效果越好;残差平方和越大,模型的拟合效果越差.
n
yi-^yi2
i=1
(3)R2 法:通过公式 R2=1-
计算 R2,R2 越大,模型的拟
n
yi- y 2
i=1
合效果越好;R2 越小,模型的拟合效果越差. 2.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验
第十三章 一元线性回归
变量之间存在关系的两种类型: 确定性关系(函数关系) 不确定性关系(相关关系)
函数关系
1.
2.
3.
是一一对应的确定关系:一 个(或多个)确定的自变量 的值对应一个确定的因变量 的值。 y 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 x 各观测点落在一条线上
l xy = ( x x)( y y ) = xy N x y
则:a = y b x
b = l xy / l xx
步骤:1、由变量x求 x来自l xx (自方差) 2、由变量y求 y,l yy 3、由x、y求l xy (协方差) 4、求a、b ˆ 5、写出方程:y = a + bx
【例】有15个学生,数学和物理成绩列于表内, 现想求一个物理成绩对数学成绩的一元回归方 程。
23 8 40 19 60 69 21 66 15 46 26 32 30 58 28 22 23 33 41 57 7 57 37 68 27 41 20 30
数学(x) 31 物理(y) 32
解:
1.
2.
3.
相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
2023届高考数学复习 第47讲 数据分析 —— 一元线性回归模型及其应用(共34张PPT)
3,b∧=01.01=0.01,a∧= y -b∧ x =0.5-0.03=0.47.所以经验回归方程为∧y=0.01x+0.47,则
当 x=6 时,y=0.53.所以预测小李该月 6 号打 6h 篮球的投篮命中率为 0.53.
知识聚焦
1. 一元线性回归模型:EY=eb=x+0,a+Dee,=σ2 称为 Y 关于 x 的一元线性回归模型.其
y)如下表所示:
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出 y 关于 x 的经验回归方程为∧y=0.7x+a∧,据此计算出样本(4,3)
处的残差为-0.15,则表中 m 的值为( B )
A. 3.3
B. 4.5
C. 5
D. 5.5
【解析】 由题意可知,在样本(4,3)处的残差为-0.15,则∧y=3.15,即 3.15=0.7x +a∧,解得a∧=0.35,即∧y=0.7x+0.35,又 x =3+4+4 5+6=4.5,且经验回归方程过样本 中心点( x , y ),则 y =0.7×4.5+0.35=3.5,则 y =2.5+34+4+m=3.5,解得 m=4.5.
残差分析
(2021·佛山二模)H 市某企业坚持以市场需求为导向,合理配置生产资源,不
断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量 x(单位:吨)与
相应的生产总成本 y(单位:万元)的五组对照数据.
产量 x(件)
1
2
3
4
5
生产总成本 y(万元)
3
7
8
10
12
(1) 根据上述数据,若用最小二乘法进行线性模拟,试求 y 关于 x 的经验回归方程∧y
一元线性回归模型案例
第二章一元线性回归模型案例一、中国居民人均消费模型从整体上考察中国居民收入与消费支出的关系。
表给出了1990年不变价钱测算的中国人均国内生产总值(GDPP)与以居民消费价钱指数(1990年为100)所见的人均居民消费支出(CONSP)两组数据。
表中国居民人均消费支出与人均GDP(单位:元/人)年份CONSP GDPP年份CONSP GDPP19781990197919911980 19921981 19931982 19941983 19951984 19961985 19971986 19981987 19991988 200019891) 成立模型,并分析结果。
输出结果为:对应的模型表达式为:=+201.1070.3862CONSP GDPP20.9927,2859.23,0.55===R F DW从回归估量的结果能够看出,拟合度较好,截距项和斜率项系数均通过了t查验。
中国人均消费增加10000元,GDP增加3862元。
二、线性回归模型估量表给出黑龙江省伊春林区1999年16个林业局的年木材采伐量和相应砍木剩余物数据。
利用该数据(1)画散点图;(2)进行OLS回归;(3)预测。
表年剩余物y林业局名年木材剩余物y t(万m3)年木材采伐量x t(万m3)乌伊岭东风新青红星五营上甘岭友好翠峦乌马河美溪大丰南岔带岭朗乡桃山双丰合计(1)画散点图先输入横轴变量名,再输入纵轴变量名得散点图(2)OLS估量弹出方程设定对话框取得输出结果如图:由输出结果能够看出,对应的回归表达式为:ˆ0.76290.4043t t yx =-+20.9129,146.7166, 1.48R F DW === (3)x=20条件下模型的样本外预测方式 第一修改工作文件范围将工作文件范围从1—16改成1—17确信后将工作文件的范围改成包括17个观测值,然后修改样本范围将样本范围从1—16改成1—17打开x的数据文件,利用Edit+/-给x的第17个观测值赋值为20将Forecast sample选择区把预测范围从1—17改成17—17,即只预测x=20时的y的值。
一元线性回归方程
n
n
避免其偏离差(有正误差、负误差)相互抵消,采用偏离差平方和 Q(a ,b) ( yi yi )2
i 1
i 1
( yi a bxi )2(也称残差平方和)来刻画观测值(xi ,yi )与直线 y a bx 的偏离程度 . 一般
所说的回归直线就是使 Q(a ,b) 最小的直线,求所需回归直线的截距和斜率,就转化成了求使
Lxx (4)写出回归(估计)方程 y a bx .
一元线性回归方程
1.2 线性相关关系的显著性检验
从以上建立回归直线方程的过程不难看出,用最小二乘法所建立的回归直线方程,只是通 过一组样本观察值 (xi ,yi ) (i 1,2 , ,n) 来建立的 . 变量 x 与 y 之间是否存在线性关系,或者 其线性关系是否显著,还需进行检验.常用的线性相关关系的显著性检验有两种方法,即 F 检 验法和相关系数检验法 . 在此仅介绍相关系数检验法 .
0, 0.
即nan b a i1 xi
n
n
xi yi ,
i 1
i 1
n
n
b xi2 xi
i 1
i 1
yi
,取
x
y
1 n 1 n
n
i 1 n
i 1
xi , yi .
一元线性回归方程
n
n
n
n xi yi xi yi
n
xi yi nx y
b
解之得
i 1
,
即Q(a ,b) Lyy (1 R2 ) .
一元线性回归方程
n
n
因为Q(a ,b) ( yi yi )2 0 ,Lyy ( yi y)2 0 ,
i 1
一元线性回归方程在千斤顶校验中的应用
一元线性回归方程在千斤顶校验中的应用
一元线性回归方程可以用来校验千斤顶的精度。
千斤顶的精度可以用一元线性回归方程来表示,即:
Y = aX + b
其中,Y表示千斤顶的实际重量,X表示千斤顶的标定重量,a表示千斤顶的精度,b表示千斤顶的偏差。
在校验千斤顶的精度时,可以采用一元线性回归方程,将实际重量和标定重量作为自变量,求出a和b的值,从而判断千斤顶的精度。
如果a的值接近1,则表明千斤顶的精度较高;如果a的值接近0,则表明千斤顶的精度较低。
8.2一元线性回归模型及其应用(1)课件-2022-2023学年高二下学期数学人教A版(2019)选
新知探索
4).问题4: 各种随机因素都是独立的,有些因素又无法量化. 你能否考虑到这些随 机因素的作用, 用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?
Y bx a e,
E
(e)
0,
D(e)
σ
2
.
①
可以解释为父亲身高为 xi的所有男大学生身高组成一
个子总体,该子总体的均值为bxi a ,即该子总体的 均值与父亲的身高是线性函数关系.
而对于父亲身高为 xi 的某一名男大学生,他的身高 yi 并
不一定为 bxi a ,它不仅是该子总体的一个观测值,这 个观测值与均值有一个误差项 ei yi (bxi a) .
变1 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对 应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图; (2)求回归直线方程.
练习巩固
解 (1)散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
练习巩固
(2)列出下表,并用科学计算器进行有关计算.
新知探索
问题6:你能结合具体实例解释产生模型①中随机误差项的原因吗? 产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、 生活环境、饮食习惯和锻炼时间等.
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是 什么,可以利用一元线性回归模型来近似这种关系,这种近似
2020_2021新教材高中数学第八章成对数据的统计分析8.2一元线性回归模型及其应用课件新人教A版
有5名学生的数学和化学成绩如表所示:
学生学科
A B CDE
数学成绩(x) 87 76 73 66 63
化学成绩(Y) 78 66 71 64 61
(1)如果Y与x具有相关关系,求经验回归方程 = x+ ;
(2)预测如果某学生数学成绩为79分,他的化学成绩为多少?(结果取整数)
n
(xi- x )(yi- y )
=1-(-2.8)2+(-01..625)1 2+0.52+1.52+22 =1-01.56.5718 ≈0.9587. (4)经验回归方程 =1.23x+0.08,所以当 x=10 年时, =1.23×10+0.08=12.38(万 元), 即估计使用 10 年时维修费是 12.38 万元.
【类题通法】建立线性回归模型的基本步骤: (1)确定研究对象,明确解释变量和响应变量; (2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关 系等); (3)由经验确定回归方程的类型; (4)按一定的规则估计回归方程的参数; (5)对所建立的模型进行残差分析,判断拟合效果.
【解析】由题意e为随机变量,e称为随机误差.根据随机误差的意义,可得E(e) =0. 答案:0
主题2 经验回归方程的求解 如何对具有线性相关关系的两个变量进行分析?
提示:对具有线性相关关系的变量,利用回归分析的方法进行研究.其步骤为 画散点图,求经验回归直线方程,并利用经验回归方程对模型刻画数据的效果 进行分析,借助残差分析对模型进行改造,使我们能够根据改进模型作出符合 实际的预测和决策.
为研究质量x(单位:克)对弹簧长度Y(单位:厘米)的影响,对不同质量的6个物 体进行测量,数据如表所示:
x 5 10 15 20 25 30 y 7.25 8.12 8.95 9.90 10.9 11.8
8.2一元线性回归模型及其应用(学生版) 讲义-2021-2022学年人教A版(2019)高中数学选
一元线性回归模型及其应用一、一元线性回归模型与函数模型一元线性回归模型:我们称⎩⎨⎧Y =bx +a +e ,E e =0,D e =σ2为Y 关于x 的一元线性回归模型,其中,Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差.二、最小二乘法和经验回归方程最小二乘法:我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计,其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .(1)经验回归方程y ^=b ^x +a ^必过点(x ,y ).(2)b ^的常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2.三、利用经验回归方程进行预测(1)判断两个变量是否线性相关:可以利用经验,也可以画散点图. (2)求经验回归方程,注意运算的正确性.(3)根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的误差. 四、残差及残差分析1.残差:对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.2.残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.五、对数函数模型y =c 1+c 2ln x 对数函数模型y =c 1+c 2ln x 的求法 (1)确定变量,作出散点图.(2)根据散点图,做出y =c 1+c 2ln x 的函数选择.(3)变量置换,令z =ln x ,通过变量置换把问题转化为=1+2z 的经验回归问题,并求出经验回归方程=1+2z .(4)根据相应的变换,写出=1+2ln x 的经验回归方程. 六、残差平方和与决定系数R 2 1.残差平方和法残差平方和 i =1n(y i -i )2越小,模型的拟合效果越好.2.决定系数R 2可以用R 2=1-来比较两个模型的拟合效果,R 2越大,模型拟合效果越好,R 2越小,模型拟合效果越差.七、指数函数模型y=αeβx(α>0)指数函数型y=e bx+a回归问题的处理方法(1)函数y=e bx+a的图象,如图所示.(2)处理方法:两边取对数得ln y=ln e bx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.八、幂函数模型y=αxβ(α>0)考点一样本中心解小题【例1】(2021·江西赣州市)某产品在某零售摊位上的零售价x(元)与每天的销售量y(个)统计如下表:x16171819y50m3431据上表可得回归直线方程为 6.4151=-+,则上表中的m的值为( )y xA.38B.39C.40D.41【练1】(2021·广西钦州市)据统计,某产品的市场销售量y(万台)与广告费用投入x(万元)之间的对应数据的散点图如图所示,由图可知y与x之间有较强的线性相关关系,其线性同归方程是0.3=+,则a的值是( )y x aA.2.5B.3C.3.5D.4考点二一元线性方程【例2】(2021·兴义市第二高级中学)在2010年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y 11 10 8 6 5通过分析,发现销售量y 对商品的价格x 具有线性相关关系,求 (1)销售量y 对商品的价格x 的回归直线方程; (2)若使销售量为12,则价格应定为多少.附:在回归直线ˆˆy bxa =+中1221ˆni ii nii x y nxyb xnx ==-=-∑∑,ˆˆay bx =-【练2】(2021·福建福州市·高二期末)为了研究某班男生身高和体重的关系,从该班男生中随机选取6名,得到他们的身高和体重的数据如下表所示: 编号 1 2 3 4 5 6 身高()cm x 165 171 167 173 179 171 体重()kg y62m64747466在收集数据时,2号男生的体重数值因字迹模糊看不清,故利用其余5位男生的数话得到身高与体重的线性回归方程为11y b x a =+.后来得到2号男生的体重精准数值m 后再次计算得到线性回归方程为22y b x a =+. (1)求回归方程11y b x a =+;(2)若分别按照11y b x a =+和22y b x a =+来预测身高为180cm 的男生的体重,得到的估计值分别为1w ,2w ,且212w w -=,求m 的值;(3)BMI 指数是目前国际上常用的衡量人体胖瘦程度以及是否健康的一个标准,其中BMI 指数在24到27.9之间的定义为超重.通过计算可知这6人的BMI 指数分别为:22.8,27.4,22.9,24.7,23.1,22.6,现从这6人中任选2人,求恰有1人体重为超重的概率.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-.考点三 非一元线性方程【例3】(2020·全国高二课时练习)在一次抽样调查中测得5个样本点,得到下表及散点图.x0.250.512 4y1612 521(1)根据散点图判断y a bx =+与1y c k x -=+⋅哪一个适宜作为y 关于x 的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立y 与x 的回归方程;(计算结果保留整数) (3)在(2)的条件下,设=+z y x 且[)4,x ∈+∞,试求z 的最小值.参考公式:回归方程ˆˆˆybx a =+中,()()()1122211ˆn niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【练3】(2020·全国高三专题练习)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =212C xC ⋅,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).yk521()ii kk =-∑521()ii yy =-∑51()()iii x x y y =--∑ 51()()iii x x kk =--∑2.3 1.23.14.6 2 1其中5211log ,5===∑i i i i k y k k(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少?附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程y a βμ=+的斜率和截距的最小二乘估计分别为121()()ˆ,()βαβ==--==--∑∑niii nii u u v v v u u ②2-0.7 2-0.3 20.1 21.7 21.8 21.9 0.6 0.81.1 3.2 3.5 3.73课后练习1.(2021高三上·天河月考)下列表述中,正确的个数是()①将一组数据中的每一个数据都加上同一个常数后,方差不变;②设有一个回归方程ŷ=3−5x,变量x增加1个单位时,y平均增加5个单位;③设具有相关关系的两个变量x,y的相关系数为r,那么|r|越接近于0,x,y之间的线性相关程度越高;④在一个2×2列联表中,根据表中数据计算得到K2的观测值k,若k 的值越大,则认为两个变量间有关的把握就越大.A. 0B. 1C. 2D. 32.(2021·菏泽模拟)下列说法错误的是()A. 用相关指数R2来刻画回归效果,R2越小说明拟合效果越好B. 已知随机变量X~N(5,σ2),若P(x<1)=0.1,则P(x≤9)=0.9C. 某人每次投篮的命中率为3,现投篮5次,设投中次数为随机变量5Y.则E(2Y+1)=7D. 对于独立性检验,随机变量K2的观测值k值越小,判定“两分类变量有关系”犯错误的概率越大3.(2021高三上·顺德月考)“绿水青山就是金山银山”,某城市发起了“减少碳排放行动”,通过增加植树面积,逐步实现碳中和,为调查民众对减碳行动的参与情况,在某社区随机调查了90位市民,每位市民对减碳行动给出认可或不认可的评价,得到如图所示的列联表、经计算K2的观测值k=9,则可以推断出()认可不认可40岁以下20 2040岁以上(含40岁) 40 10附:P(K2≥k0)0.010 0.005 0.001k0 6.635 7.879 10.828A. 该社区居民中约有99%的人认可“减碳行动”B. 该社区居民中约有99.5%的人认可“减碳行动C. 在犯错率不超过0.005的前提下,认为“减碳行动"的认可情况与年龄有关D. 在犯错率不超过0.001的前提下,认为“减碳行动"的认可情况与年龄有关精讲答案【例1】【答案】D 【解析】由题意1617181917.54x +++==,50343111544m m y ++++==, 所以115 6.417.51514m +=-⨯+,解得41m =.故选:D . 【练1】【答案】A 【解析】由题可知:24568344455,455x y ++++++++==== 将,x y 代入线性回归方程可得:40.35 2.5a a =⨯+⇒=故选:A【例2】【答案】(1) 3.240y x =-+ (2) 8.75【解析】(1)由题意知10x =,8y =, ∴99958063555108 3.28190.25100110.25121ˆ5100b ++++-⨯⨯==-++++-⨯,8( 3.2)1040a =--⨯=, ∴线性回归方程是 3.240y x =-+;(2)令 3.24012y x =-+=,可得8.75x =,∴预测销售量为12件时的售价是8.75元.【练2】【答案】(1)1413741515y x =-;(2)80m =;(3)815【解析】(1)()11651671731791711715x =⨯++++=, ()16264747466685y =⨯++++=, 所以()()1536161248112i ii x xy y =--=+++=∑,()2153616464120i i x x =-=+++=∑, 所以()()()1121551121412015i ii ii x x y y x x b ==--===-∑∑,11141374681711515a yb x =-=-⨯=-, 所以1413741515y x =-. (2)根据题意,将180x =代入方程1413741515y x =-得1114615w =, 所以2111461176221515w w =+=+=, 所以221176ˆˆ18015b a =⨯+, ① 另一方面,6名男生的身高的平均值为'171x =,体重的平均值为340'6m y +=, 所以22340ˆˆ1716m b a +=⨯+, ② ()()1636161248112i i i x x y y =--=+++=∑,()2163616464120ii x x =-=+++=∑, 所以()()()21626114ˆ15i i i i i x x y y b x x ===-=--∑∑, ③ 综合①②③即可得:21344ˆ15a =-,80m =. (3)设这6人分别记为,,,,,A B C D E F ,其中,B D 表示体重超标的两人,则从这6人中任选2人,所有的可能情况为:,,,,,,,,,,,,,,AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF ,共15种,其中恰有1人体重为超重有:,,,,,,,AB AD BC BE BF CD DE DF ,共8种, 所以恰有1人体重为超重的概率为:815P =. 【例3】【答案】(1)1y c k x -=+⋅;(2)41y x=+;(3)6. 【解析】(1)由题中散点图可以判断,1y c k x -=+⋅适宜作为y 关于x 的回归方程;(2)令1t x -=,则y c kt =+,原数据变为 t 42 1 0.5 0.25 y 16 12 5 2 1由表可知y 与t 近似具有线性相关关系,计算得4210.50.25 1.555t ++++==, 16125217.25y ++++==, 222222416212150.520.2515 1.557.238.4544210.50.255 1.559.3k ⨯+⨯+⨯+⨯+⨯-⨯⨯==≈++++-⨯, 所以,7.24 1.551c y kt =-=-⨯=,则41y t =+.所以y 关于x 的回归方程是41y x=+. (3)由(2)得41z y x x x=+=++,[)4,x ∈+∞, 任取1x 、24x ≥,且12x x >,即124x x >≥, 可得()()()21121212121212124444411x x z z x x x x x x x x x x x x -⎛⎫⎛⎫⎛⎫-=++-++=-+-=-+ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭()()1212124x x x x x x --=,因为124x x >≥,则120x x ->,1216>x x ,所以,12z z >,所以,函数41z x x =++在区间[)4,+∞上单调递增,则min 44164z =++=. 【练3】 【答案】(1)2.8万元;(2)1 624万元.【解析】(1)因为x =15×(13+14+15+16+17)=15,所以521()i i x x =-∑=(-2)2+(-1)2+02+12+22=10.由k =2log y 得k =log 2C 1+C 2x , 所以1221()()1,10()n ii i nii x x k k C x x ==--==-∑∑ 2log C 1=k -C 2x =1.2-110×15=-0.3, 所以C 1=2-0.3=0.8,所以y =100.82x ⨯.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元).即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200000×7%=14000人,一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人,2018年人均可支配收入比2017年增长1.8 1.71.70.820.820.82⨯-⨯⨯=20.1-1=0.1=10%, 所以2018年该市特别困难的中学生有2800×(1-10%)=2520人.很困难的学生有4200×(1-20%)+2800×10%=3640人,一般困难的学生有7000×(1 -30%)+4200×20%=5740人.所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=16240000(元)=1624(万元).练习答案1.【答案】 C【考点】极差、方差与标准差,变量间的相关关系,独立性检验的基本思想,回归分析的初步应用,相关系数【解析】①将一组数据中的每一个数据都加上同一个常数C后D(X+C)= D(X),方差不变,正确;②设有一个回归方程ŷ=3−5x,变量x增加1个单位时,y平均减少5个单位,错误;③设具有相关关系的两个变量x,y的相关系数为r,那么|r|越接近于1,x,y之间的线性相关程度越高,错误;④在一个2×2列联表中,根据表中数据计算得到K2的观测值k,若k 的值越大,两个变量有关系的出错概率越小,则认为两个变量间有关的把握就越大,正确.故答案为:C【分析】利用已知条件结合方差的性质,得出将一组数据中的每一个数据都加上同一个常数C后D(X+C)=D(X),方差不变;再利用已知条件结合回归方程的应用得出一个回归方程ŷ=3−5x,变量x增加1个单位时,y平均减少5个单位;利用已知条件结合相关系数与x,y之间的线性相关程度判断的关系得出具有相关关系的两个变量x,y的相关系数为r,那么|r|越接近于1,x,y之间的线性相关程度越高;利用已知条件结合K2的观测值k的值越大,两个变量有关系的出错概率越小,则认为两个变量间有关的把握就越大,从而找出正确的个数。
高考数学总复习考点知识讲解与提升练习70 一元线性回归模型及其应用
高考数学总复习考点知识讲解与提升练习专题70 一元线性回归模型及其应用考点知识1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=i=1n(x i-x)(y i-y)i=1n(x i-x)2i=1n(y i-y)2.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,其中⎩⎪⎨⎪⎧b ^=i =1n(x i -x )(y i -y )i =1n(x i-x )2,a ^=y -b ^x .(2)残差:观测值减去预测值称为残差. 常用结论1.经验回归直线过点(x ,y ).2.求b ^时,常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误. 思考辨析判断下列结论是否正确(请在括号中打“√”或“×”) (1)相关关系是一种非确定性关系.(√)(2)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(3)经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√) 教材改编题1.在对两个变量x ,y 进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(x i ,y i ),i =1,2,…,n ;③求经验回归方程;④根据所收集的数据绘制散点图. 则下列操作顺序正确的是() A .①②④③B.③②④① C .②③①④D.②④③① 答案D解析根据回归分析的思想,可知对两个变量x ,y 进行回归分析时,应先收集数据(x i ,y i ),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释. 2.对于x ,y 两变量,有四组成对样本数据,分别算出它们的样本相关系数r 如下,则线性相关性最强的是()A .-0.82B .0.78C .-0.69D .0.87 答案D解析由样本相关系数的绝对值|r |越大,变量间的线性相关性越强知,各选项中r =0.87的绝对值最大.3.某单位为了了解办公楼用电量y (度)与气温x (℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:由表中数据得到经验回归方程y ^=-2x +a ^,当气温为-4℃时,预测用电量约为() A .68度B .52度C .12度D .28度 答案A解析由表格可知x =10,y =40,根据经验回归直线必过(x ,y )得a ^=40+20=60,∴经验回归方程为y ^=-2x +60,因此当x =-4时,y ^=68.题型一成对数据的相关性例1(1)(2023·保定模拟)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据:根据表格中的数据求得经验回归方程为y ^=b ^x +a ^,则下列说法中正确的是()A.a ^>0,b ^>0 B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0 答案B解析由已知数据可知y 随着x 的增大而减小,则变量x 和y 之间存在负相关关系,所以b ^<0.又x =15×(3+4+5+6+7)=5,y =15×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5b ^+a ^,所以a ^=1.1-5b ^>0.(2)(2022·大同模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程y ^=b ^1x +a ^1,样本相关系数为r 1;方案二:剔除点(10,21),根据剩下的数据得到经验回归方程y ^=b ^2x +a ^2,样本相关系数为r 2.则()A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0 答案D解析根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些; 方案二中,剔除离群值,线性相关性强些; 所以样本相关系数-1<r 2<r 1<0. 思维升华 判定两个变量相关性的方法(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1(1)某公司2017~2022年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如表所示:根据统计资料,则利润中位数() A.是16,x与y有正相关关系B.是17,x与y有正相关关系C.是17,x与y有负相关关系D.是18,x与y有负相关关系答案B解析由题意知,利润中位数是16+182=17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定答案C解析由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为x ,y 负相关,所以-r 1>-r 2,即r 1<r 2. 题型二回归模型命题点1一元线性回归模型例2(2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:(1)在给出的坐标系中画出上表数据的散点图;(2)根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^; (3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?参考公式及数据:①b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,②∑i =15x i y i =0.9,∑i =15x 2i =0.55.解(1)如图所示.(2)由表格数据可得x =15×(0.1+0.2+0.3+0.4+0.5)=0.3,y =15×(0.2+0.35+0.5+0.65+0.8)=0.5,所以b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2=0.9-5×0.3×0.50.55-5×0.3×0.3=1.5, a ^=y -b ^x =0.5-1.5×0.3=0.05,故y ^=1.5x +0.05.(3)设利率需上升x 个百分点,由(2)得,0.625×2=1.5x +0.05,解得x =0.8, 所以预测利率需上升0.8个百分点. 命题点2非线性回归模型例3(2023·保山模拟)某印刷企业为了研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些统计量的值.表中u i =1x i ,u =17∑i =17u i .(1)根据散点图判断y =a +bx 与y =c +dx哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据求出y 关于x 的经验回归方程;(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80000元(假设能够全部售出).附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其经验回归方程v ^=β^ω+α^的斜率和截距的最小二乘估计分别为β^=i =1n (ωi -ω)(v i -v )i =1n(ωi -ω)2,α^=v -β^ω.解(1)由散点图判断y =c +d x更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程.(2)先建立y 关于u 的经验回归方程得y ^=c ^+d ^u ,由于d ^=i =17(u i -u )(y i -y )i =17(u i -u )2=70.7=10,故c ^=y -d ^u =3.5-10×0.2=1.5,所以预测y 关于u 的经验回归方程为y ^=1.5+10u ,从而y 关于x 的经验回归方程为y ^=1.5+10x.(3)假设印刷x 千册,依据题意得9x -⎝ ⎛⎭⎪⎫1.5+10x x ≥80,解得x ≥12,所以预测至少应该印刷12 000册图书,才能使销售利润不低于80 000元. 思维升华 求经验回归方程的步骤跟踪训练2(2022·南充模拟)某特色餐馆开通了某APP 的外卖服务,在一周内的某特色菜外卖份数x (单位:份)与收入y (单位:元)之间有如下的对应数据:(1)在给出的坐标系中画出数据散点图;(2)请根据以上数据用最小二乘法求出收入y 关于份数x 的经验回归方程; (3)据此估计外卖份数为12时,收入为多少元.参考数据公式:∑i =15x 2i =145,∑i =15x i y i =1380,b ^=i =1n(x i -x )(y i -y )i =1n(x i -x )2=∑i =1nx i y i -n xy∑i =1nx 2i -n x2,a ^=y -b ^x .解(1)作出散点图如图所示.(2)由表格数据得,x =2+4+5+6+85=5,y =30+40+60+50+705=50,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5,因此,所求经验回归方程为y ^=6.5x +17.5.(3)当x =12时,y ^=12×6.5+17.5=95.5,即外卖份数为12时,预测收入为95.5元. 题型三残差分析例4(1)(多选)下列说法正确的是()A .在经验回归方程y ^=-0.85x +2.3中,当解释变量x 每增加1个单位时,响应变量y ^平均减少2.3个单位B .在经验回归方程y ^=-0.85x +2.3中,相对于样本点(1,1.2)的残差为-0.25 C .在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好 D .若两个变量的决定系数R 2越大,表示残差平方和越小,即模型的拟合效果越好 答案BCD解析对于A ,根据经验回归方程,当解释变量x 每增加1个单位时,响应变量y ^平均减少0.85个单位,故A 错误;对于B ,当解释变量x =1时,响应变量y ^=1.45,则样本点(1,1.2)的残差为-0.25,故B 正确;对于C ,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C 正确;对于D ,由决定系数R 2的意义可知,R 2越大,表示残差平方和越小,即模型的拟合效果越好,故D 正确.(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:根据表中数据,得出y 关于x 的经验回归方程为y ^=0.28x +a ^,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m =________. 答案1.4解析由题设,1.5-y ^=1.5-(0.28×5+a ^)=-0.06,可得a ^=0.16.又x =1+2+3+4+55=3,y =0.5+0.6+1+m +1.55=3.6+m 5,所以0.28×3+0.16=3.6+m5, 可得m =1.4.思维升华 检验回归模型的拟合效果的两种方法(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果. (2)R 2分析:通过公式计算R 2,R 2越大,残差平方和越小,模型的拟合效果越好;R 2越小,残差平方和越大,模型的拟合效果越差. 跟踪训练3(1)下列命题是真命题的为()A .经验回归方程y ^=b ^x +a ^一定不过样本点B .可以用样本相关系数r 来刻画两个变量x 和y 线性相关程度的强弱,r 的值越小,说明两个变量线性相关程度越弱C .在回归分析中,决定系数R 2=0.80的模型比决定系数R 2=0.98的模型拟合的效果要D .残差平方和越小的模型,拟合的效果越好 答案D解析对于A ,经验回归方程不一定经过其样本点,但一定经过(x ,y ),所以A 是假命题;对于B ,由样本相关系数的意义,当|r |越接近0时,表示变量y 与x 之间的线性相关程度越弱,所以B 是假命题;对于C ,用决定系数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好,所以C 是假命题;对于D ,由残差的统计学意义知,D 是真命题. (2)两个线性相关变量x 与y 的统计数据如表:其经验回归方程是y ^=b ^x +40,则相应于点(9,11)的残差为________. 答案-0.2解析因为x =15×(9+9.5+10+10.5+11)=10,y =15×(11+10+8+6+5)=8,所以8=10b ^+40,解得b ^=-3.2,所以y ^=-3.2x +40,当x =9时,y ^=11.2, 所以残差为11-11.2=-0.2.课时精练1.下列有关线性回归的说法,不正确的是()A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.任一组数据都有经验回归方程答案D解析根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;具有相关关系的成对样本数据才有经验回归方程,所以D不正确.2.对于样本相关系数,下列说法错误的是()A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数r∈[-1,1]D.样本相关系数越大,成对样本数据的线性相关程度也越强答案D解析样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.3.(2023·运城模拟)在线性回归模型中,变量x 与y 的一组样本数据对应的点均在直线y =12x +1上,R 2=1-i =1n(y i -y ^i )2i =1n (y i -y )2,则R 2等于() A.14 B.12 C .1 D.52 答案C解析因为样本数据对应的点均在一条直线上, 所以R 2=1.4.(多选)某工厂研究某种产品的产量x (单位:吨)与所需某种材料y (单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据可得经验回归方程为y ^=0.7x +a ^,则下列四个说法中正确的为()A.变量x 与y 正相关 B .y 与x 的样本相关系数r <0C.a ^=0.35D .当产量为8吨时,预测所需材料约为5.95吨 答案ACD解析因为经验回归方程y ^=0.7x +a ^, 所以变量x 与y 呈正相关,所以样本相关系数r >0,故A 正确,B 错误; 由表格可得x =3+4+6+74=5,y =2.5+3+4+5.94=3.85, 则0.7×5+a ^=3.85,解得a ^=0.35,故C 正确;所以经验回归方程为y ^=0.7x +0.35,当x =8时,y ^=0.7×8+0.35=5.95,即产量为8吨时,预测所需材料约为5.95吨,故D 正确.5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm ,根据这10名志愿者的数据求得臂展u 关于身高v 的经验回归方程为u ^=1.2v -34,则下列结论正确的是()A .这10名志愿者身高的极差小于臂展的极差B .这10名志愿者的身高和臂展呈负相关C .这10名志愿者臂展的平均值为176.2 cmD .根据经验回归方程可估计身高为160 cm 的人的臂展为158 cm 答案AD解析对于选项A ,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A 正确; 对于选项B ,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B 错误;对于选项C ,因为这10名志愿者身高的平均值为176cm ,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C 错误;对于选项D ,若一个人的身高为160 cm ,则由经验回归方程u ^=1.2v -34,可得这个人的臂展的估计值为158 cm ,故D 正确.6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y 和色差x 之间满足线性相关关系,且y ^=0.8x +a ^,现有一对测量数据为(30,23.6),则该数据的残差为()A.-0.96B .-0.8C .0.8D .0.96 答案C解析由题意可知,x =21+23+25+274=24,y =15+18+19+204=18,将(24,18)代入y ^=0.8x +a ^,即18=0.8×24+a ^,解得a ^=-1.2,所以y ^=0.8x -1.2,当x =30时,y ^=0.8×30-1.2=22.8, 所以该数据的残差为23.6-22.8=0.8.7.某智能机器人的广告费用x (万元)与销售额y (万元)的统计数据如表所示:根据此表可得经验回归方程为y ^=5x +a ^,据此模型预测广告费用为8万元时销售额为________万元. 答案57解析由表格,得x =2+3+5+64=4,y =28+31+41+484=37, 所以37=5×4+a ^,即a ^=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =2e 2x +1的图象附近,设z =ln y ,将其变换后得到经验回归方程为z =mx +n ,则mn =________. 答案2ln2+2解析由z =ln y ,则ln y =ln2e 2x +1,即z =ln2+lne 2x +1=ln2+2x +1,则z =2x +ln2+1,故m =2,n =ln2+1,所以mn =2ln2+2.9.假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:已知∑i =15x 2i =90,∑i =15y 2i ≈140.8,∑i =15x i y i =112.3,79≈8.9,2≈1.4.(1)求x ,y ;(2)计算y 与x 的样本相关系数r (精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2).解(1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5.0.(2)∑i =15x i y i -5x y =112.3-5×4×5=12.3,∑i =15x 2i -5x 2=90-5×42=10,∑i =15y 2i -5y2≈140.8-5×52=15.8,所以r =∑i =15x i y i -5x y∑i =15x 2i -5x2∑i =15y 2i -5y2≈12.310×15.8=12.32×79≈12.31.4×8.9≈0.987,r 接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性. 10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:并计算得∑10i =1x 2i =0.038,∑10i =1y 2i =1.6158,∑10i =1x i y i =0.2474. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01); (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2),1.896≈1.377.解(1)样本中10棵这种树木的根部横截面积的平均值x =0.610=0.06(m 2),样本中10棵这种树木的材积量的平均值y =3.910=0.39(m 3), 据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m 2,平均一棵的材积量为0.39 m 3.(2)r=∑i=110xiyi-10x y(∑i=110x2i-10x2)(∑i=110y2i-10y2)=0.2474-10×0.06×0.39 (0.038-10×0.062)×(1.6158-10×0.392)=0.01340.0001896≈0.01340.01377≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,又已知树木的材积量与其根部横截面积近似成正比,可得0.060.39=186Y,解得Y=1209.则该林区这种树木的总材积量的估计值为1209m3.11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y 关于x的经验回归方程为y^=6x2+a^,则下列说法正确的是()A.a^=4B.a^=-8C .此回归模型第4周的残差为5D .估计第6周治愈人数为220 答案BC解析设t =x 2,则y ^=6t +a ^,由已知得t =15×(1+4+9+16+25)=11,y =15×(2+17+36+93+142)=58,所以a ^=58-6×11=-8,故A 错误,B 正确; 在y ^=6x 2-8中,令x =4, 得y ^4=6×42-8=88,所以此回归模型第4周的残差为y 4-y ^4=93-88=5,故C 正确; 在y ^=6x 2-8中,令x =6, 得y ^6=6×62-8=208,故D 错误.12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:并求得y 与x 的经验回归方程为y ^=0.011x +a ^,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为N ;注射疫苗后仍被感染的人数记为n ,则估计该疫苗的有效率为________.(疫苗的有效率为1-n N,结果保留3位有效数字) 答案0.818解析 由表格中的数据可得x =500,y =5,故a ^=5-0.011×500=-0.5,故N =0.011×10 000-0.5=110-0.5=109.5≈110,而n =20,故疫苗的有效率为1-20110≈0.818.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 7,y 7)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,7)都在曲线y =a ln(x -1895)+12.15附近波动,经计算i =17(x i -1895)=210.77,i =17y i =73.50,i =17ln(x i -1895)=23.10,则实数a 等于()A .-0.5B .0.5C .-1D .1 答案A解析因为17i =17ln(x i -1895)=23.107=3.3,17i =17y i =73.507=10.5,所以10.5=3.3a +12.15,解得a =-0.5.14.(多选)已知由样本数据(x i ,y i )(i =1,2,3,…,10)组成的一个样本,得到经验回归方程为y ^=2x -0.4,且x =2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是() A .相关变量x ,y 具有正相关关系B .去除两个歧义点后,新样本中变量x j (j =1,2,…,8)的平均值变大C .去除两个歧义点后的经验回归方程为y ^1=3x -3 D .去除两个歧义点后,样本数据(4,8.9)的残差为0.1 答案ABC解析对于A ,因为经验回归直线的斜率大于0,所以相关变量x ,y 具有正相关关系,故A 正确;对于B ,将x =2代入y ^=2x -0.4得y =3.6,则去除两个歧义点后,得到新的相关变量的平均值分别为X =2×10-(-2+2)8=52,Y =3.6×10-(1-1)8=92,故B 正确;对于C ,a ^=92-3×52=-3,新的经验回归方程为y ^1=3x -3,故C 正确;对于D ,当x =4时,y ^1=3×4-3=9,残差为8.9-9=-0.1,故D 错误.。
简单线性相关(一元线性回归分析)
第十三讲简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。
回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。
如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求(一)一元线性回归模型1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示:Y=A+BX+方程中的 A 、B 是待定的常数,称为模型系数,是残差,是以X预测Y 产生的误差。
两个变量之间拟合的直线是:y a bxy 是y的拟合值或预测值,它是在X 条件下 Y 条件均值的估计a 、b 是回归直线的系数,是总体真实直线距,当自变量的值为0 时,因变量的值。
A、B 的估计值, a 即 constant 是截b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:y x为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位( Z XjXj),因变量 Y 的标准差的平均变化。
S j由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y 的重要性。
(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。
自变量 X 值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。
(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为 1 个自变量)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四节一元线性回归方程的应用回归方程最主的应用就是用它进行估计或预测。
只要r2≠1,估计误差就不可避免。
因而在应用回归方程时,需要对估计的误差以及与之相联系的一些问题有所了解。
一、回归方程的建立与预测(或估计)对于一组X、Y的数据,我们可以建立回归方程,有了y对X的回归方程,也就找到了X与y之间变化的数量关系,对于任意一个X值都可估计出与之对应的y值。
一)回归方程的建立例下面是20名工作人员的智商和某一次技术考试成绩,根据这个结果求出考试成绩对智商的回归方程。
如果另有一名工作人员智商为120,则估计一下若让他也参加技术考试,将会得多少分?解:经检验两者具有线性关系计算得:X与Y的均值:107 71标准差:13.69 11.63 r=0.86代入公式则回归方程为:NO 智商X成绩Y估计Y'NO智商X成绩Y估计Y'1 89 55 57.86 11 84 53 54.212 97 74 63.7 12 121 82 81.223 126 87 84.87 13 97 58 63.74 87 60 56.4 14 101 60 66.625 119 71 79.76 15 92 67 60.056 101 54 66.62 16 110 80 73.197 130 90 87.79 17 128 85 86.338 115 73 76.84 18 111 73 73.929 108 67 71.73 19 99 71 65.1610 105 70 69.54 20 120 90 80.49二)回归方程的检验1.方差分析法SSR=1997.48 SST=2705.14 SSE=707.66F=MSR/MSE=(SSR/dfR)/(SSE/dfE)= 1997.48 /(707.66/18)=50.81查表F(1,18)=8.28(0.01) 或 4.41(0.05) 结果显著2.回归系数法SX=13.69 SY=11.63 b=0.73 r=0.86三)用回归方程进行预测若X=120,代入回归方程得=80.5就是说,这位工作人员虽没参加技术考试,但根据他的智商,估计其技术考试的分数应该为80.5。
如果有几位智商等于120的工作人员,实际参加考试,不一定每个人的分数都是80.5(20号被试就是90分),因此,这个80.5应理解为智商等于120的工作人员技术考试的代表值。
如X=97,代入回归方程得63.7,而事实上,数据中有两人X=97,而其实际y值分别为74和58。
衡量y值在估计值上下波动的统计量用以为中心的y值的标准差,即误差的标准差:一元线性回归的基本假设之一是:与每个X值对应的y值构成正态分布的子总体,且各个子总体方差相等。
因此回归线上下各一个Syx的区间内应包括所有数据个数的68%,回归线上下各2个Syx的区间内应包括所有数据个数的95.44%当X=97时,估计值是63.7,尽管实际上它对应的值不一定为63.7,但63.7±2×6.27区间内一定包括了95.44%个对应y值的个数。
Syx(Y值以Y的估计值为中心的标准差)与Sy(Y值以Y的均值为中心的标准差)的关系:若不考虑自由度或样本容量很大时,y值以为中心的标准差Syx:Syx(Y值以Y的估计值为中心的标准差)与Sy(Y值以Y的均值为中心的标准差)的关系:若考虑自由度时,Syx四)回归方程的预测区间预测区间:利用求出的回归方程进行预测,当X=97时y的预测值为63.7,曾指出虽然实际上X=97时,y不一定为63.7,但63.7±2×6.77(即51.16~76.24)区间内一定包括了与X=97对应的Y值个数的95.44%,或者说有95.44%的y值均在此范围之间。
当不需要考虑自由度或样本容量很大时,y值以为中心的标准差为:y值以为中心的标准差为将本例数据代入并计算得:Syx=5.94 Sy=11.63 Syx<Sy说明在回归线上下波动比在平均线上下波动要小。
若考虑自由度:本题,当X=97时,Yo的区间:五)真值的预测区间利用求出的回归方程进行预测,当X=97时y的预测值为63.7,曾指出虽然实际上X=97时,y不一定为63.7,但有95.44%的y值均在51.16~76.24之间。
这个估计是针对样本回归方程y=0.73X-7.11而言的,也就是说,这个估计范围只考虑了y值在回归方程上下的波动,并不考虑回归方程的变动,其实,回归方程因样本的不同也要发生变动,如果再抽取20个工作人员作为另一个样本,那么求出来的智商与技术考试成绩的回归方程就不一定是y=0.73X-7.11,因此,63.7并不能真正作为与X=97所对应y值的代表值,它只是在y=0.73X-7.11情况下算出的代表值。
设与某个X值(以Xp表示)对应的yp的真正值为y0(简称真值或理论值),那么,从Xp 来预测真值y0时,误差将来自两个方面。
一是yp以为中心的变异;二是为样本回归线本身的变异,即的变异。
因此,误差的标准差应该是两方面变异的合成。
由于与Syx不同,它是考虑到不同抽样时的误差标准差,因此,可以称作误差标准误,或称估计的标准误。
根据区间估计的原理,真值y0有95%的可能落在区间(服从的是自由度为N-2的t分布)。
真值的置信区间为:(注意:由于用样本标准差代替总体标准差,因而是t分布,这里自由度用N-2)本题,当X=97时,Yo的区间:当样本容量N比较大时,公式:其中的根号部分一般近似等于1,因而常常略去根号部分,即:这时预测区间的两条端线近似地成为直线预测区间的形态。
方程置信区间、真值预测区间、回归方程例根据表提供的统计数字,建立某地区居民对某产品的需求量与居民收入的回归方程。
解:1.散点图今需求量为因变量Y,居民收人为自变量X,根据表的数据,绘制两个变量之间的散点图.可以看出,二者之间呈线性关系,采用最小二乘法建立线性回归方程.采用最小二乘法建立线性回归方程.2.对模型进行各种检验1)t检验:根据显著水平a=0.05,自由度df=14,查t分布表得t0.05/2=2.1448。
由tb=64.2069> t0.05/2=2.1448表明回归系数b是显著的,居民收入与居民对某产品的需求量之间存在线性关系。
2)F检验根据显著水平a=0.05,df1=1,df2=14,查F分布表得到F0.05(1,14)=4.60。
由于F=4122.53>F0.05(1,14)=4.60表明回归方程的F检验通过,回归方程的回归效果显著。
可以验证:F=t2,Fa=ta/2,所以在一元线性回归中,F检验与t检验的结果相同。
3)拟合程度测定r2值很接近于1,表明回归直线对样本数据点的拟合程度很高。
(4)估计标准误差Syx。
由前面的计算,表明回归标准误差较小。
3.用回归方程进行预测根据自变量x的取值估计或预测因变量y的取值.估计或预测的类型:点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计1)利用回归方程进行估计和预测(点估计)对于自变量x的一个给定值x0,根据回归方程得到因变量y 的一个估计值。
点估计值有:y 的平均值的点估计y 的个别值的点估计在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同。
将自变量的预测值X0代人回归模型式所得到的因变量Y的值,作为与X0相对应的Y0的预测,就是点预测。
可以证明是无偏预测。
y 的平均值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的平均值,就是平均值的点估计。
根据估计的回归方程得y 的个别值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值,就是个别值的点估计比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。
根据估计的回归方程得2)利用回归方程进行估计和预测(区间估计)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计。
对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间,区间估计有两种类型置信区间估计预测区间估计对于与X0相对应的值Y0,=a+bX可以作为Y0=a+bX+e的一个点估计值。
但不同的样本会得到不同的a、b,因此,与Y0之间总存在一定的抽样误差。
因此,Y0的概率为1-a的预测区间为当x0取值在均值附近,n又比较大时,可以近似地认为因而Y0的概率为1-a的预测区间为实际应用时,常常采用这一区间作为因变量Y相对应于自变量X0的回归预测区间。
y 的平均值的置信区间估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间,这一估计区间称为置信区间。
E(y0) 在1-a置信水平下的置信区间为:y 的个别值的预测区间估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间。
y0在1-a置信水平下的预测区间为:4.回归系数和回归方程的意义及性质b 的意义a 的意义的意义的意义的意义的意义为残差:点到直线的纵向距离。
5.回归问题的区间估计回归系数的可信区间估计估计值的可信区间估计个体Y值的容许区间估计可信区间与容许区间示意(confidence band & tolerance band)6.影响区间宽度的因素置信水平 (1 - a)区间宽度随置信水平的增大而增大数据的离散程度 (s)区间宽度随离散程度的增大而增大样本容量区间宽度随样本容量的增大而减小用于预测的 xp与`x的差异程度区间宽度随 xp与`x 的差异程度的增大而增大置信区间、预测区间、回归方程六)回归分析与相关分析的综合运用(书)回归分析与相关分析是研究变量与变量之间相互关系的一种数理统计方法,一般情况下,回归分析与相关分析通常结合起来运用。
具体步骤如下:将成对资料绘制散点图,从散点图的分布形状判断X 下Y 是否有线性关系。
建立回归模型回归方程的显著性检验。
用显著性检验的结果,判断回归模型变量间的线性关系是否非常显著。
测定系数说明Y 的变异由X 解释的比例,用于判断回归模型的拟合程度。
计算回归估计标准误差Syx根据建立的回归模型进行预测,估计真值的预测区间。
应注意的问题:回归结果的好坏、意义的大小、应用的价值与范围,既决定于理论也决定于方法,因而,一定要准确理解回归理论,正确运用回归分析方法。