线性回归方程——非线性方程转化为线性方程
2023年高考数学复习:非线性回归问题
通过变量间的相关关系对两个变量进行统计分析是数学的重要应 用,其中非线性回归问题具有十分重要的现实意义.
例 (2021·武汉模拟)近年来,明代著名医药学家李时珍的故乡黄冈市蕲 春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主 要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃) 有关,现收集了蕲艾的13组观测数据,得到如下的散点图: 现根据散点图利用 y=a+b x或 y =c+dx建立 y 关于 x 的非线性回归 方程,令 s= x,t=1x得到如下数据:
^
2 230.8-20=2 210.8,所以z≤2 210.8,
当且仅当x=20时等号成立, 所以当温度为20℃时蕲艾的利润最大.
能力 提升
非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数. (3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.
解 先建立v关于x的线性回归方程. 由y=eλx+t,得ln y=t+λx,即v=t+λx.
12
xi- x vi- v
^ i=1
由于λ=
12
xi- x 2
=71740≈0.018,
i=1
^
^
t= v -λ x =4.20-0.018×20=3.84,
^
所以 v 关于 x 的线性回归方程为v=0.02x+3.84,
i=1
14
(1)设(ui,yi)的相关系数为r1,(xi,vi)的相关系数为r2,请从相关系数的角 度,选择一个拟合程度更好的模型;
解 r1=
12
ui- u yi- y
常见非线性回归模型
常见非线性回归模型1.简非线性模型简介非线性回归模型在经济学研究中有着广泛的应用。
有一些非线性回归模型可以通过直接代换或间接代换转化为线性回归模型,但也有一些非线性回归模型却无法通过代换转化为线性回归模型。
柯布—道格拉斯生产函数模型y AKL其中L和K分别是劳力投入和资金投入, y是产出。
由于误差项是可加的,从而也不能通过代换转化为线性回归模型。
对于联立方程模型,只要其中有一个方程是不能通过代换转化为线性,那么这个联立方程模型就是非线性的。
单方程非线性回归模型的一般形式为y f(x1,x2, ,xk; 1, 2, , p)2.可化为线性回归的曲线回归在实际问题当中,有许多回归模型的被解释变量y与解释变量x之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为线性关系,利用线性回归求解未知参数,并作回归诊断。
如下列模型。
(1)y 0 1e x(2)y 0 1x2x2p x p(3)y ae bx(4)y=alnx+b对于(1)式,只需令x e x即可化为y对x是线性的形式y01x,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。
对于(2)式,可以令x1=x,x2=x2,⋯,x p=x p,于是得到y关于x1,x2,⋯, x p 的线性表达式y 0 1x12x2 pxp对与(3)式,对等式两边同时去自然数对数,得lnylnabx ,令y lny, 0 lna, 1 b,于是得到y关于x的一元线性回归模型:y 0 1x。
乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为yt本身是异方差的,而lnyt是等方差的。
加性误差项模型认为yt是等方差的。
从统计性质看两者的差异,前者淡化了y t值大的项(近期数据)的作用,强化了y t值小的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则对近期数据拟合得效果较好。
影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。
(整理)计量经济学第四章非线性回归模型的线性化
(整理)计量经济学第四章⾮线性回归模型的线性化第四章⾮线性回归模型的线性化以上介绍了线性回归模型。
但有时候变量之间的关系是⾮线性的。
例如 y t = α 0 + α11βt x + u t y t = α 0 t x e 1α+ u t上述⾮线性回归模型是⽆法⽤最⼩⼆乘法估计参数的。
可采⽤⾮线性⽅法进⾏估计。
估计过程⾮常复杂和困难,在20世纪40年代之前⼏乎不可能实现。
计算机的出现⼤⼤⽅便了⾮线性回归模型的估计。
专⽤软件使这种计算变得⾮常容易。
但本章不是介绍这类模型的估计。
另外还有⼀类⾮线性回归模型。
其形式是⾮线性的,但可以通过适当的变换,转化为线性模型,然后利⽤线性回归模型的估计与检验⽅法进⾏处理。
称此类模型为可线性化的⾮线性模型。
下⾯介绍⼏种典型的可以线性化的⾮线性模型。
4.1 可线性化的模型⑴指数函数模型y t = t t ubx ae + (4.1)b >0 和b <0两种情形的图形分别见图4.1和4.2。
显然x t 和y t 的关系是⾮线性的。
对上式等号两侧同取⾃然对数,得Lny t = Lna + b x t + u t (4.2)令Lny t = y t *, Lna = a *, 则y t * = a * + bx t + u t (4.3) 变量y t * 和x t 已变换成为线性关系。
其中u t 表⽰随机误差项。
010203040501234XY 1图4.1 y t =tt u bx ae+, (b > 0) 图4.2 y t =t+, (b < 0)⑵对数函数模型y t = a + b Ln x t+ u t(4.4)b>0和b<0两种情形的图形分别见图4.3和4.4。
x t和y t的关系是⾮线性的。
令x t* = Lnx t, 则y t = a + b x t* + u t(4.5)变量y t和x t* 已变换成为线性关系。
图4.3 y t = a + b Lnx t + u t , (b > 0) 图4.4 y t = a + b Lnx t + u t , (b < 0)⑶幂函数模型y t= a x t b t u e(4.6) b取不同值的图形分别见图4.5和4.6。
多元线性回归模型习题及答案
多元线性回归模型习题及答案TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-多元线性回归模型一、单项选择题1.在由30n =的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定系数为,则调整后的多重决定系数为( D )2.下列样本模型中,哪一个模型通常是无效的(B )A. i C (消费)=500+i I (收入)B. d i Q (商品需求)=10+i I (收入)+i P (价格)C. s i Q (商品供给)=20+i P (价格)D. iY (产出量)=0.6i L (劳动)0.4i K (资本)3.用一组有30个观测值的样本估计模型01122t t t t y b b x b x u =+++后,在的显着性水平上对1b 的显着性作t 检验,则1b 显着地不等于零的条件是其统计量t 大于等于( C )A. )30(05.0tB. )28(025.0tC. )27(025.0tD. )28,1(025.0F4.模型t t t u x b b y ++=ln ln ln 10中,1b 的实际含义是( B )A.x 关于y 的弹性B. y 关于x 的弹性C. x 关于y 的边际倾向D. y 关于x 的边际倾向 5、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( C )A.异方差性B.序列相关C.多重共线性D.高拟合优度6.线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...)t H b i k ==时,所用的统计量 服从( C )(n-k+1) (n-k-2)(n-k-1) (n-k+2)7. 调整的判定系数 与多重判定系数 之间有如下关系( D ) A.2211n R R n k -=-- B. 22111n R R n k -=--- C. 2211(1)1n R R n k -=-+-- D. 2211(1)1n R R n k -=---- 8.关于经济计量模型进行预测出现误差的原因,正确的说法是( C )。
高一数学必修三课件第章线性回归方程
01
02
03
变量
在某一过程中可以取不同 数值的量。
自变量
能够影响其它变量,而又 不受其它变量影响的变量 。
因变量
依赖于其它变量,而又不 能影响其它变量的变量。
散点图及其特点
散点图
用点的密度和变化趋势表示两指 标之间的直线和曲线关系的图。
特点
能直观表现出影响因素和预测对 象之间的总体关系趋势。
线性回归方程定义
通过绘制自变量和因变量的散点图,观察数据点 分布形态,若呈现非线性形态,则可能存在非线 性关系。
曲线拟合
根据散点图形态,选择合适的曲线类型进行拟合 ,如二次曲线、指数曲线、对数曲线等。
3
变换自变量或因变量
通过对自变量或因变量进行变换,如取对数、平 方、开方等,将非线性关系转化为线性关系。
可化为线性关系非线性模型
一致性
随着样本量的增加,线性回归方程 的系数估计值会逐渐接近真实值。
预测值与置信区间估计
预测值
根据回归方程和给定的自 变量值,可以计算出因变 量的预测值。
置信区间
通过构造置信区间,可以 对预测值进行区间估计, 表示预测值的可靠程度。
置信水平
置信水平表示了置信区间 包含真实值的概率,常用 的置信水平有95%和99% 。
在数据采集过程中,可能存在某些自变量 被重复测量或高度相关的情况。
变量设计问题
样本量问题
在变量设计时,可能存在某些自变量之间 存在固有的高度相关性。
当样本量较小而自变量较多时,也容易出 现多重共线性问题。
识别和处理多重共线性方法
观察自变量间的相关系数
如果两个自变量间的相关系数很高,则可能存在多重共线性 。
案例二
线性回归计算方法及公式
• 多 元 线 性 回 归 分 析 的 作 用
• 回 归 分 析 中 自 变 量 的 选 择
一般地,设某事件D发生(D=1)的概 率P依赖于多个自变量(x1,x2, …,xp),且
P(D=1)=e Bo+B1X1+…+BpXp /(1+e Bo+B1X1+…+BpXp ) 或
Logit(P) = Bo+B1X1+…+Bp X p 则称该事件发生的概率与变量间关系符合多元 Logistic回归或对数优势线性回归。
和多元线性回归分析一样,在Logistic回 归分析中也须对自变量进行筛选。方法 和多元线性回归中采用的方法一样,有 向后剔除法、向前引入法及逐步筛选法 三种。筛选自变量的方法有wald检验、 Score test、likelihood ratio test(wald chisquare test)三种。
• 逐步引入-剔除法(stepwise selection) 先规定两个阀值F引入和F剔除,当候选变 量中最大F值>=F引入时,引入相应变量; 已进入方程的变量最小F<=F剔除时,剔 除相应变量。如此交替进行直到无引入 和无剔除为止。(计算复杂)
多元线性回归方程的作用
• 因素分析 • 调整混杂因素的作用 • 统计预测
X的取值在正负无穷大之间;F( 用Logistic分布函数这一特征,将其应用到临床 医学和流行病学中来描述事件发生的概率。
第3章 线性回归与非线性回归
Yt B1 B2 X t ut
假设 u t u t -1 v t -1 1 其中,v满足OLS假定,并且 是已知的。
Yt 1 B1 B2 X t 1 ut 1
方程(9 - 2)的两边同时乘以 , 得到 :
Yt -1 B1 B2 X t -1 u t -1
View/Residual Tests/Heteroskedasticity Tests 或者 eq01.hettest(type=Glejser) c car pmg pop rgnp
斯皮尔曼(Spearman)秩相关检验。 戈德费尔德-匡特(Goldfeld-Quandt)检验 巴特莱特(Bartlett)检验 匹克(Peak)检验 布鲁尔什-培甘(Breusch-Pagan)检验 CUSUMSQ检验
在方程定义窗口的定义栏中输入: 线性化方法:ls log(Y) c log(K) log(L) 非线性方法:ls Y=c(1)*K^c(2)*L^c(3)
有时遇到估计结果不符合常规或显示出无法收敛 的错误信息时,需要设定选项重新估计。 (1)初始值(Start Value) 初始值是EViews进行第一次迭代计算时参数所取 的数值。这个值保存在与回归函数有关的系数向 量中。回归函数必须定义初始值。例如如果回归 函数包含表达式1/C (1),就不能把C (1)的初始值 设定为0,同样如果包含表达式LOG (C (2)),那C (2)必须大于零。
建模过程仍是先打开方程定义窗口,在定义栏中输 入模型的非线性表达式即可。不同的是有时候可能 迭代无法收敛,则需要通过修改选项设置来重新估 计。 与例3.6比较,可以看出,线性化与NLS法的参数估 计值完全一样,统计量输出相同,这是由于线性化 仅改变了变量的形式,而NLS法也没有改变y和1/x 的线性关系,在这两种情况下进行最小二乘估计对 于待估参数来说是等价的。
一元线性回归模型及其应用
题型二 一元线性回归模型的应用
[探究发现]
(1)残差平方和与R2有怎样的关系?
n
yi-^yi2
i=1
提示:R2=1-
,即残差平方和越小,R2 越大.
n
yi--y 2
i=1
(2)R2的大小对模型的拟合效果有怎样的影响?
提示:R2越大,说明残差平方和越小,即模型的拟合效果越好.
[学透用活] [典例2] 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5 组数据如下:
解:(1) x =16×(8+8.2+8.4+8.6+8.8+9)=8.5, y =16×(90+84+83+80+75+68)=80, ^a= y +20 x =80+20×8.5=250, 所以经验回归方程为^y=-20x+250. (2)工厂获得的利润 z=(x-4)y=-20x2+330x-1 000, 由二次函数知识可知当 x=343时,zmax=361.25(元). 故该产品的单价应定为 8.25 元.
2.一元线性回归模型参数的最小二乘估计 (1)经验回归方程:
对于一组具有线性相关关系的成对样本数据(x1,y1),(x2,y2),…,(xn,yn),
n
xi--x yi--y
n xiyi-n-x -y
i=1
i=1
由最小二乘法得^b=
=
,
n
xi--x 2
n x2i -n-x 2
i=1
i=1
^a=-y -^b-x .
(二)基本知能小试
1.判断正误
(1)在一元线性回归模型中,e 是 bx+a 预报真实值 y 的随机误差,它是一个
可观测的量.
()
(2)用最小二乘法求出的^b可能是正的,也可能是负的. (3)残差平方和越大,线性回归模型的拟合效果越好. (4)经验回归方程^y=^bx+^a必过点(-x ,-y =1 076.2.
第23讲 非线性回归方程(解析版)
第23讲 非线性回归方程一、必备秘籍当经验回归方程并非形如y bx a =+(,a b R ∈)时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 . 二、例题讲解1.(2021·全国高三专题练习(文))人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,16i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1) 1.520.38x y e +=;(2)见解析. 【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解(2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解 【详解】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c x y c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x z z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.所以 1.520.38ln z x y =+=, 所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍. 【点睛】关键点点睛:对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.((11ii nj x b ===∑∑再直接选择数据,字母x 没有((11n ii nj x b ===∑∑参考数据总选择需要的数据代入计算。
线性回归方程——非线性方程转化为线性方程
资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载线性回归方程——非线性方程转化为线性方程地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容线性回归方程——非线性方程转化为线性方程例1.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z (单位:千元)的影响,对近8年的宣传费xi和年销售量yii=1,2,⋯,8数据作了初步处理,得到下面的散点图及一些统计量的值.表中wi=xi ,w =18 i=18wi.(I)根据散点图判断,y=a+bx与y=c+dx,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;(III)已知这种产品的年利润z与x,y的关系为z=0.2y-x ,根据(II)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu 的斜率和截距的最小二乘估计分别为:β=i=1n(ui-u)(vi-v)i=1n(ui-u)2,α=v-βu.【答案】(Ⅰ)y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型;(Ⅱ)y=100.6+68x;(Ⅲ)(i)答案见解析;(ii)46.24千元.【解析】(I)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(II)令w=x,先建立y关于w的线性回归方程,由于d=i=18(wi-w)(yi-y)i=18(wi-w)2=108.81.6=68,∴c=y-dw=563−68×6.8=100.6,∴y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68x.(III)(ⅰ)由(II)知,当x=49时,年销售量y的预报值y=100.6+6849=576.6,年利润z的预报值为z=576.6×0.2-49=66.32.(ⅱ)根据(II)的结果知,年利润z的预报值z=0.2(100.6+68x)-x=-x+13.6x+20.12,所以当x=13.62=6.8,即x=46.24时,z取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.例2.某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元。
利用典例分析非线性回归方程
183XUE SHU ZHENG MING利用典例分析非线性回归方程周培红(泉州第一中学,福建 泉州 362000)一、回归分析法所谓回归分析的方法,是指在大量掌握观察数据的基础上,利用数学统计方法构造自变量与因变量之间的回归关系的函数式(称为回归方程式)。
在回归分析中,由因变量与自变量之间因果关系的函数表达式来判断是非线性的还是线性的,分为非线性回归分析和线性回归分析。
在解题中线性回归分析法是最常用的分析方法,可以利用数学手段,将遇到非线性回归问处理方法:两边取对数:㏑y=㏑ɑ+b ㏑x,再设'ln 'y yx x== ,则原方程变成y'=㏑ɑ+bx',再根据一次线性回归模型的方法得出㏑ɑ和b。
(2)幂函数曲线y=ɑx b处理方法:两边取对数得:㏑y=㏑ɑ+b ㏑x,再设'ln 'ln y yx x== ,则变原方程为y'=㏑ɑ+bx',再依据一次线性回归模型的方法得出㏑ɑ和b。
(3)倒指数曲线bxy ae=处理方法:两边取自然对数得:ln ln by a x=+,再设'ln 1'y y x x ==,则变原方程为y'=㏑ɑ+bx',再依据一次线性回归模型的方法得出㏑ɑ和b。
(4)对数曲线 y=ɑ+b ㏑x处理方法:设''ln y y x x== ,则原来的方程变成y'=ɑ+bx',再依据一次线性回归模型的方法得出ɑ和b。
三、典型分析近日,有一旅游公司打算推出支付宝支付和微信支付旅游活动,计划安排一段时间的推广期,通过推广期内较大的优惠力度,使越来越多的人开始使用微信支付。
某景点统计了在活动推出一周内每天有多少人次使用微信,活动推出的天数用x 表示,每天使用微信支付的人次用y 表示,得到如下统计数据:x 1234567y601102103406601 0101 960y v 71iii x y=∑71i ii x v=∑100.546212.5425 35078.123.47根据以上数据,绘制了散点图。
线性回归方程
一、线性回归方程1、线性回归方程是利用数理统计中的回归分析,来确定两种或两种以上变数相互依赖的定量关系的一种统计分析方法之一。
线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。
按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
在统计学中,线性回归方程是利用最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
这种函数是一个或多个称为回归系数的模型参数的线性组合。
只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
2、在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。
这些模型被叫做线性模型。
最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。
不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。
像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
3、理论模型给一个随机样本(Yi ,Xi1,…,Xip),i=1,…,n,,一个线性回归模型假设回归子Yi 和回归量Xi1,…,Xip之间的关系是除了X的影响以外,还有其他的变数存在。
我们加入一个误差项(也是一个随机变量)来捕获除了Xi1,…,Xip之外任何对Yi的影响。
所以一个多变量线性回归模型表示为以下的形式:,i=1,…,n,其他的模型可能被认定成非线性模型。
一个线性回归模型不需要是自变量的线性函数。
线性在这里表示Yi的条件均值在参数里是线性的。
例如:模型在和里是线性的,但在里是非线性的,它是的非线性函数。
4、数据和估计区分随机变量和这些变量的观测值是很重要的。
通常来说,观测值或数据(以小写字母表记)包括了n个值(y i,x i1,…,x ip),i=1,…,n。
我们有p+1个参数,,需要决定,为了估计这些参数,使用矩阵表记是很有用的。
线性回归方程——非线性方程转化为线性方程
线性回归方程——非线性方程转化为线性方程例1.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费x i 和年销售量y i (i =1,2,⋯,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x̅ y ̅ w ̅46.6 563 6.8289.81.61469108.8表中w i =√x i ,w ̅ =18∑w i 8i=1.(I )根据散点图判断,y =a +bx 与y =c +d √x ,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);(II )根据(I )的判断结果及表中数据,建立y 关于x 的回归方程;(III )已知这种产品的年利润z 与x ,y 的关系为z =0.2y −x ,根据(II )的结果回答下列问题: (i )年宣传费x =49时,年销售量及年利润的预报值是多少? (ii )年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β̂=∑(u i −u)(v i −v)ni=1∑(u i −u)2ni=1,α̂=v −β̂u . 【答案】(Ⅰ)y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型;(Ⅱ)y ̂=100.6+68√x ;(Ⅲ)(i)答案见解析;(ii)46.24千元.【解析】(I )由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II )令w =√x ,先建立y 关于w 的线性回归方程,由于d ̂=∑(w i −w)(y i −y)8i=1∑(w i −w)28i=1=108.81.6=68, ∴ĉ=y −d ̂w =563−68×6.8=100.6, ∴y 关于w 的线性回归方程为y ̂=100.6+68w , 因此y 关于x 的回归方程为y ̂=100.6+68√x .(III )(ⅰ)由(II )知,当x =49时,年销售量y 的预报值y ̂=100.6+68√49=576.6, 年利润z 的预报值为ẑ=576.6×0.2−49=66.32.(ⅱ)根据(II )的结果知,年利润z 的预报值ẑ=0.2(100.6+68√x)−x =−x +13.6√x +20.12, 所以当√x =13.62=6.8,即x =46.24时,ẑ取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.例2.某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元。
非线性回归
非线性回归一、可化为线性回归的曲线回归在实际问题当中,有许多回归模型的被解释变量y 与解释变量x 之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为线性关系,利用线性回归求解未知参数,并作回归诊断。
如下列模型。
εββ++=x e y 10-------(1) εββββ+++++=p p x x x y 2210--------(2) εe ae y bx =--------------------(3) ε+=bx ae y -------------(4)对于(1)式,只需令x e x ='即可化为y 对x '是线性的形式εββ+'+=x y 10,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。
对于(2)式,可以令1x =x ,2x =2x ,…, p x =p x ,于是得到y 关于1x ,2x ,…, p x 的线性表达式εββββ+++++=p p x x x y 22110对与(3)式,对等式两边同时去自然数对数,得ε++=bx a y ln ln ,令 y y ln =',a ln 0=β,b =1β,于是得到y '关于x 的一元线性回归模型: εββ++='x y 10。
对于(4)式,当b 未知时,不能通过对等式两边同时取自然数对数的方法将回归模型线性化,只能用非线性最小二乘方法求解。
回归模型(3)可以线性化,而(4)不可以线性化,两个回归模型有相同的回归函数bx ae ,只是误差项ε的形式不同。
(3)式的误差项称为乘性误差项,(4)式的误差项称为加性误差项。
因而一个非线性回归模型是否可以线性化,不仅与回归函数的形式有关,而且与误差项的形式有关,误差项的形式还可以有其他多种形式。
乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为t y 本身是异方差的,而t y ln 是等方差的。
可转化为线性的非线性回归模型
(2)双曲函数模型
双曲函数模型的一般形式为: 1
令
Yi*
1 Yi
,
X
* i
1 Xi
Yi
1 Xi
ui
则可将原模型化为标准的线性回归模型
Yi*
X
* i
ui
6
(2) 多项式回归模型
多项式回归模型通常用于描述生产成本函数,其一
般形式为:
Yi
0
1X i
2
X
2 i
......
(4)双对数模型
双对数模型的应用非常广泛,其原因在于,由于回归
线是一条直线(Y和X都是对数形式),所以它的斜率为
一常数。
1
dy* dx*
d (ln y) d (ln x)
y / x /
y x
E
由于这个特殊的性质,双对数模型又称为不变弹性模 型。
例:美国咖啡需求:1970-1980
美国咖啡消费(Y)与平均真实零售价格(X) 数据,(X=名义价格/食品与饮料的消费者价 格指数,1967年=100),求咖啡消费函数。
各参数的线性函数。
但是,在众多的经济现象中,分析经济变量之间的关系,
根据某种经济理论和对实际经济问题的分析,所建立的经济模
型往往不符合上面的线性要求,即模型是非线性的,称为非线
性模型(Non-linear Model)。
说明
在实际经济活动中,经济变量的关系是复杂的,直接 表现为线性关系的情况并不多见。
p : 0.0000 0.0000
p(F ) 0.0000
第四节 非线性回归模型的参数估计 (赵)
(2)利用NLS命令也可以估计可线性化的非线性回归 模型;例如,对于倒数变换模型和对数函数模型,可 以直接键入: NLS NLS Y=C(1)+C(2)/X Y=C(1)+C(2)*log(X)
但迭代估计是一种近似估计,并且参数初始值和误差 精度的设定不当还会直接影响模型的估计结果。因此, 对于可线性化的非线性模型,最好还是将其转化成线 性模型进行估计。
我国国有工业企业生产函数( )。例 例6 我国国有工业企业生产函数(例4续)。例4中曾估计 出我国国有独立核算工业企业的线性生产函数, 出我国国有独立核算工业企业的线性生产函数,现建立 Cobb-Dauglas)生产函数: C-D(Cobb-Dauglas)生产函数: 转化成线性模型进行估计: (1)转化成线性模型进行估计: 在模型两端同时取对数, 在模型两端同时取对数,得: lny=lnA+αlnL+βlnK+ε 因此, Eviews软件的命令窗口中依次键入以下命令 软件的命令窗口中依次键入以下命令: 因此,在Eviews软件的命令窗口中依次键入以下命令: GENR LNY = log(Y) GENR LNL = log(L) GENR LNK = log(K) LS LNY C LNL LNK
例6 我国国有工业企业生产函数(例4续)。例4中曾 估计出我国国有独立核算工业企业的线性生产函数, 现建立C-D(Cobb-Dauglas)生产函数:
Y = ALα K β eε
(方法1)转化成线性模型进行估计: 在模型两端同时取对数,得:
ln y = ln a + α ln 窗口中点击Procs\ Make Equation; (2)在弹出的方程描述对话框中输入非线性回归 模型的具体形式: Y= C(1)*(X-C(2))/(X-C(3)) (3)选择估计方法为最小二乘法后点击OK。 说明: (1)在方程描述窗口中点击按纽Options,可以设置迭 代估计的最大迭代次数(Max Iterations)和误差精度 (Convergence),以便控制迭代估计的收敛过程。
新教材高中数学第4章第2课时相关系数与非线性回归学案含解析新人教B版选择性必修第二册
新教材高中数学新人教B版选择性必修第二册:第2课时相关系数与非线性回归学习任务核心素养1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算,它有什么作用?[提示]略.(1)定义:统计学里一般用r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2=∑ni=1x i y i-n x-y-(∑ni=1x2i-n x-2)(∑ni=1y2i-n y-2)来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 D [r 的绝对值越接近1,相关性越强,故选D .] 知识点2 非线性回归方程如果具有相关关系的两个变量x ,y 不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测. 拓展:常见的非线性回归方程的转换方式如下:曲线方程曲线(曲线的一部分)变换公式 变换后的线性函数 y =ax bc =ln av =ln x u =ln y u =c +b vy =a e bxc =ln a u =ln yu =c +bxy =a e b xc =ln av =1xu =ln yu =c +b vy =a +b ln xv =ln x y =a +b v到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y =a +bxB .y =c +d xC .y =m +nx 2D .y =p +qc x (q >0)B [散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .]类型1 相关系数的性质【例1】 (1)相关变量x ,y 的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程y ^=b ^1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:y ^=b ^2x +a ^2,相关系数为r 2,则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0(2)设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线方程的回归系数为b ^,回归截距是a ^,那么必有( )A .b ^与r 的符号相同 B .a ^与r 的符号相同 C .b ^与r 的符号相反D .a ^与r 的符号相同(1)D (2)A [(1)由散点图得负相关,所以r 1,r 2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r |更接近1,所以-1<r 2<r 1<0.(2)由公式可知b ^与r 的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强). (2)相关系数(绝对值越大,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A .DB .EC .FD .AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E 到直线的距离最远,所以去掉点E ,余下的5个点所对应的数据的相关系数最大.]类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:x2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0已知∑5i =1x 2i =90,∑5i =1y 2i ≈140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4.(1)计算y 与x 之间的相关系数(精确到0.001),并求出回归直线方程; (2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)∵x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3,∑5i =1x 2i -5x -2=90-5×42=10, ∑5i =1y 2i -5y -2=140.8-125=15.8,所以r =12.310×15.8=12.3158=12.32×79≈12.31.4×8.9≈0.987.又b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=112.3-5×4×590-5×42=1.23.a ^=y --b ^x -=5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即假设使用10年时,维修费用约为12.38万元. [跟进训练]2.某厂的生产原料耗费x (单位:百万元)与销售额y (单位:百万元)之间有如下的对应关系:x2468y 30 40 50 70(1)计算x 与y 之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少? [解] (1)画出(x ,y )的散点图如图所示,由图可知x ,y 有线性关系.x -=5,y -=47.5,∑4i =1x 2i =120,∑4i =1y 2i =9 900,∑4i =1x i y i =1 080,故相关系数r =∑4i =1x i y i -4x -y-(∑4i =1x 2i -4x -2)(∑4i =1y 2i -4y -2)=1 080-4×5×47.5(120-4×52)(9 900-4×47.52)≈0.982 7.b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=1 080-4×5×47.5120-4×52=6.5, a ^=y --b ^x -=47.5-6.5×5=15. 故回归直线方程为y ^=6.5x +15. (2)由回归直线方程知, 当y ^≥80,即6.5x +15≥80时, x ≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x 12 3y 3 5.99 12.01①y =3×2x -1;②y =log 2x ;③y =4x ;④y =x 2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x12345678y 112 61 44.5 35 30.5 28 25 24观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y =a +bx 和指数函数模型y =c e dx 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为y ^=96.54e-0.2x,ln y 与x 的相关系数r 1=-0.94.参考数据⎝⎛⎭⎫其中u i =1x i: ∑8i =1u i y iu -u -2∑8i =1u 2i ∑8i =1y i∑8i =1y 2i0.61×6 185.5e -2 183.4 0.34 0.115 1.53 360 22 385.561.40.135(1)(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u 1,υ1),(u 2,υ2),…,(u n ,υn ),其回归直线υ=α^+β^u 的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i υi -n u -υ-∑n i =1u 2i -n u-2,a ^=υ--β^u -,相关系数r =∑ni =1u i υi -n u -υ-⎝⎛⎭⎫∑ni =1u 2i -n u-2⎝⎛⎭⎫∑ni =1υ2i -n υ-2[思路点拨] (1)首先可令u =1x 并将y =a +bx 转化为y =a +bu ,然后根据题目所给数据以及线性回归方程的相关公式计算出b ^以及a ^,即可得出结果;(2)计算出反比例函数模型的相关系数r 并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果. [解] (1)令u =1x ,则y =a +b x 可转化为y =a +bu ,因为y -=3608=45,所以b ^=∑8i =1u i y i -8u -y-∑8i =1u 2i -8u-2=183.4-8×0.34×451.53-8×0.115=610.61=100,则a ^=y --b ^u -=45-100×0.34=11, 所以y ^=11+100u ,所以y 关于x 的回归方程为y ^=11+100x .(2)y 与1x的相关系数为:r 2=∑8i =1u i y i -n u -y-⎝⎛⎭⎫∑8i =1u 2i -8u -2⎝⎛⎭⎫∑8i =1y 2i -8y-2=610.61×6 185.5≈0.99.因为|r 1|<|r 2|,所以用反比例函数模型拟合效果更好, 当x =10时,y =10010+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x 千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E (x )=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×⎝⎛⎭⎫1009.2+21=626.8(千元). ②当产品单价为90元,设订单数为y 千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E (y )=10×0.3+11×0.7=10.7, 所以企业利润为90×10.7-10.7×⎝⎛⎭⎫10010.7+21=638.3(千元). 故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 201286.44.43z =ln y3.00 2.48 2.08 1.86 1.48 1.10下面是z 关于(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少? (b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139,∑6i =1 (x i -x-)2≈4.18,∑6i =1(y i -y -)2=13.96,∑6i =1(z i -z -)2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x-2,a ^=y --b ^x -.r =∑n i =1 (x i -x -)(y i -y -)∑n i =1(x i -x-)2∑ni =1(y i -y -)2,x -,y -为样本平均值.[解] (1)由题意,计算x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑6i =1x i z i =47.64,∑6i =1x i -x-2≈4.18,∑6i =1z i -z-2=1.53,所以r =∑ni =1 x i -x-z i -z-∑n i =1x i -x-2∑n i =1z i -z-2=47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99.所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)利用最小二乘估计公式计算b ^=∑ni =1x i z i -n x - z-∑n i =1x 2i -n x-2=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,所以a ^=z --b ^x -=2+0.36×4.5=3.62,所以z 关于x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,解得y =e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元.(3)当y ≥0.711 8时, e-0.36x +3.62≥0.711 8=e ln 0.711 8=e-0.34,所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( ) A .越接近于-1 B .越接近于0 C .越接近于1D .越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B .]2.如图所示,给出了样本容量均为7的A ,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组数据的相关系数为r 2,则( )A .r 1=r 2B .r 1<r 2C .r 1>r 2D .无法判定C [根据A ,B 两组样本数据的散点图知,A 组样本数据几乎在一条直线上,且成正相关,∴相关系数为r 1应最接近1,B 组数据分散在一条直线附近,也成正相关,∴相关系数为r 2,满足r 2<r 1,即r 1>r 2,故选C .]3.对于线性相关系数r ,叙述正确的是( )A .r ∈(-∞,+∞),且r 越大,相关程度越大B .r ∈(-∞,+∞),且|r |越大,相关程度越大C .r ∈[-1,1],且r 越大,相关程度越大D .r ∈[-1,1],且|r |越大,相关程度越大D [相关系数r 是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D .]4.若回归直线方程中的回归系数b ^=0,则相关系数r =________.0 [相关系数r =∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2∑n i =1 (y i -y -)2与b ^=∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2的分子相同,故r =0.]5.在一次试验中,测得(x ,y )的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y 与x 的相关系数为________.-1 [法一:x -=1.5,y -=1,∑4i =1x 2i =22,∑4i =1y 2i =56,∑4i =1x i y i =-20,相关系数r =-20-4×1.5×1(22-4×1.52)(56-4×12)=-1.法二:观察四个点,发现其在一条单调递减的直线上,故y 与x 的相关系数为-1.]回顾本节内容,自我完成以下问题.1.你对相关系数是怎样认识的?[提示] (1)样本的相关系数r 可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.(2)|r |很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.2.散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?[提示](1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.。
高中线性回归方程的求解思考
高中线性回归方程的求解思考摘要:求线性回归直线方程是高考中的一种常见题型,一道优秀的高考试题它蕴含着哪些信息,一线教师怎样去解读课标,本文从一道高考试题出发,逆向研究了高考课标,对于指导教师的课堂教学有一定的理论依据。
关键词:换元法数学模型数学思想求线性回归直线方程的试题,都是建立在统计案例的背景实际应用问题,主要考查的是统计及统计案例这一部分的知识,属于中等题。
这部分知识主要考查数据处理能力和运算求解能力;大纲要求是在了解这一层级上,即要求对所列知识的含义有初步的、感性的认识,知道这一知识内容是什么,按照一定的程序和步骤照样模仿,并能(或会)在有关的问题中识别和认识它。
教材重点介绍了求线性回归方程的思想,对于非线性回归直线介绍了二次函数和指数函数型的求法。
对于回归方程的求解思想是什么?应该怎样去解读高考课标?文章将通过高考试题谈谈笔者的思考。
一、用高考试题传递考点信息线性回归考点要求:1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系。
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆)。
3.用函数思想解决生活实际问题,模型意识。
要想命制出一道优秀的概率试题其实是很难的,一方面涉及到概率问题都会涉及到大量的数据处理,另一方面在现实生活中,决定主要因素的原因也不唯一,会涉及到多个变量的约束。
二、试题的变式延伸本试题可以多维度引伸,可以改造成指数函数模型、对数函数模型等试题,还可以经过数据处理求R2,直接判断模型的拟合效果;也可以结合图表改造成求期望,方差,概率分布列的常规题型。
因为原题数据进行了处理,不容易看出原始数据,所以就题改题意义不大,笔者将在解题方法角度上对试题进行改造。
某公司为确定商品零售额(万元)与商品流通费率的关系,需了解商品零售额x(单位:万元)对商品流通费率y的影响,下表是对近10次的零售额xi和流通费yi(i=1,2,…10)率数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归方程——非线性方程转化为线性方程例1.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费x i 和年销售量y i (i =1,2,⋯,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x̅ y ̅ w ̅46.6 563 6.8289.81.61469108.8表中w i =√x i ,w ̅ =18 ∑w i 8i=1,,I )根据散点图判断,y =a +bx 与y =c +d √x ,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);,II )根据(I )的判断结果及表中数据,建立y 关于x 的回归方程;(III )已知这种产品的年利润z 与x ,y 的关系为z =0.2y −x ,根据(II )的结果回答下列问题: (i )年宣传费x =49时,年销售量及年利润的预报值是多少? (ii )年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1) (u 2,v 2) ,…,(u n ,v n ) 其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β̂=∑(u i −u)(v i −v)ni=1∑(u i −u)2ni=1,α̂=v −β̂u . 【答案】(Ⅰ)y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型;(Ⅱ)y ̂=100.6+68√x ;(Ⅲ)(i)答案见解析;(ii)46.24千元.【解析】(I )由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (II )令w =√x ,先建立y 关于w 的线性回归方程,由于d̂=∑(w i −w)(y i −y)8i=1∑(w i −w)28i=1=108.81.6=68,∴ĉ=y −d ̂w =563−68×6.8=100.6, ∴y 关于w 的线性回归方程为y ̂=100.6+68w , 因此y 关于x 的回归方程为y ̂=100.6+68√x .(III )(ⅰ)由(II )知,当x =49时,年销售量y 的预报值y ̂=100.6+68√49=576.6, 年利润z 的预报值为ẑ=576.6×0.2−49=66.32.,ⅱ)根据(II )的结果知,年利润z 的预报值ẑ=0.2(100.6+68√x)−x =−x +13.6√x +20.12, 所以当√x =13.62=6.8,即x =46.24时,ẑ取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.例2.某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元。
经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难。
现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式y=C1⋅2C2x,其中C1,C2为常数。
(2013年至2019年该市中学生人数大致保持不变)其中k i=log2y i,k̅=15∑5i=1k i(Ⅰ)估计该市2018年人均可支配年收入;(Ⅰ)求该市2018年的“专项教育基金”的财政预算大约为多少?附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),⋯,(u n,v n),其回归直线方程v=βu+α的斜率和截距的最小二乘估计分别为β̂=∑ni=1(u i−u̅)(v i−v̅)∑n i=1(u i−u̅)2,α̂=v̅−β̂u̅.【答案】(Ⅰ)2.8(万);(Ⅱ)1624万.【详解】(Ⅰ)因为x̅=15(13+14+15+16+17)=15,所以∑5i=1(x i−x̅)2=(−2)2+(−1)2+12+22=10.由k=log2y得k=log2C1+C2x,所以C2=∑5i=1(x i−x̅)(k i−k̅)∑5i=1(x i−x̅)2=110,log2C1=k̅−C2x̅=1.2−110×15=−0.3,所以C1=2−0.3=0.8,所以y=0.8×2x10.当x=18时,2018年人均可支配年收入y=0.8×21.8=0.8×3.5=2.8(万)(Ⅱ)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200000×7%=14000人一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人, 2018年人均可支配收入比2017年增长0.8×21.8−0.8×21.70.8×21.7=20.1−1=0.1=10%所以2018年该市特别困难的中学生有2800×(1-10%)=2520人,很困难的学生有4200×(1-20%)+2800×10%=3640人一般困难的学生有7000×(1-30%)+4200×20%=5740人.所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=1624万.例3.近期,某公交公司分别推出支付宝和徽信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表l 所示: 表1根据以上数据,绘制了如右图所示的散点图.(1)根据散点图判断,在推广期内,y =a +bx 与y =c ⋅d x (c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由),(2)根据(1)的判断结果及表1中的数据,求y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次; 参考数据:其中υi =1gy i ,υ=17∑υi 7i=1参考公式:对于一组数据(u 1,υ1),(u 2,υ2),⋅⋅⋅,(u n ,υn ),其回归直线υ̂=a ̂+β̂u 的斜率和截距的最小二乘估计公式分别为:β̂=∑u i υi −nuυni=1∑u i 2−nu 2ni=1,a ̂=υ−β̂u ̂. 【答案】(1)y =c ⋅d x ,2,3470【详解】(1)根据散点图判断,y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型; (2)∵y =c ⋅d x ,两边同时取常用对数得:1gy =1g(c ⋅d x ) =1gc +1gd ⋅x , 设1gy =v, ∴v =1gc +1gd ⋅x∵x =4,v =1.54, ∑x i 27i=1=140, ∴l g ̂d =∑x i v i 7i=1−7xv ∑x i2−7x 27i=1=50.12−7×4×1.54140−7×42=728=0.25,把样本中心点(4,1.54)代入v =1gc +1gd ⋅x ,得: l g ̂c =0.54, ∴v ̂=0.54+0.25x ,∴l g ̂y =0.54+0.25x ,∴y 关于x 的回归方程式:y ̂=100.54+0.25x =100.54×(100.25)x =3.47×100.25x,把x =8代入上式,y ̂=3.47×102=347, 活动推出第8天使用扫码支付的人次为3470,例4.近年来,随着我国汽车消费水平的提高,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车交易前的使用时间(以下简称“使用时间”)进行统计,得到频率分布直方图如图1.图1 图2(1)记“在2017年成交的二手车中随机选取一辆,该车的使用年限在(8 , 16]”为事件A ,试估计A 的概率; (2)根据该汽车交易市场的历史资料,得到散点图如图2,其中x (单位:年)表示二手车的使用时间,y (单位:万元)表示相应的二手车的平均交易价格.由散点图看出,可采用y =e a+bx 作为二手车平均交易价格y 关于其使用年限x 的回归方程,相关数据如下表(表中Y i =lny i ,Y =110∑Yi 10i=1,,①根据回归方程类型及表中数据,建立y 关于x 的回归方程;②该汽车交易市场对使用8年以内(含8年)的二手车收取成交价格4%的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格10%的佣金.在图1对使用时间的分组中,以各组的区间中点值代表该组的各个值.若以2017年的数据作为决策依据,计算该汽车交易市场对成交的每辆车收取的平均佣金.附注:①对于一组数据(u 1,v 1),(u 2,v 2),⋯(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β̂=∑u i v i n i=1−nu̅ v ̅∑u i 2ni=1−nu ̅2,α̂=v̅−β̂ u ̅, ②参考数据:e 2.95≈19.1 , e 1.75≈5.75 , e 0.55≈1.73 , e −0.65≈0.52 , e −1.85≈0.16,【答案】(1)0.40;(2)y ̂=e 3.55−0.3x 0.29万元【详解】(1)由频率分布直方图得,该汽车交易市场2017年成交的二手车使用时间在(8,12]的频率为0.07×4=0.28,在(12,16]的频率为0.03×4=0.12 ,所以P (A )=0.28+0.12=0.40,(2)①由y =e a+bx 得lny =a +bx ,即Y 关于x 的线性回归方程为Ŷ=a +bx , 因为b ̂=∑x i Y i −10x̅⋅Y ̅10i=1∑x i 2−10x̅210i=1=79.75−10×5.5×1.9385−10×5.52=−0.3,a ̂=Y ̅−b ̂⋅x̅=1.9−(−0.3)×5.5=3.55 所以Y 关于x 的线性回归方程为Y ̂=3.55−0.3x , 即y 关于x 的回归方程为y ̂=e 3.55−0.3x ②根据①中的回归方程y ̂=e 3.55−0.3x 和图1,对成交的二手车可预测:使用时间在(0,4]的平均成交价格为e 3.55−0.3×2=e 2.95≈19.1,对应的频率为0.2, 使用时间在(4,8]的平均成交价格为e 3.55−0.3×6=e 1.75≈5.75,对应的频率为0.36, 使用时间在(8,12]的平均成交价格为e 3.55−0.3×10=e 0.55≈1.73,对应的频率为0.28,使用时间在(12,16]的平均成交价格为e3.55−0.3×14=e−0.65≈0.52,对应的频率为0.12,使用时间在(16,20]的平均成交价格为e3.55−0.3×18=e−1.85≈0.16,对应的频率为0.04所以该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75)×4%+(0.28×1.73+0.12×0.52+0.04×0.16)×10% =0.29092≈0.29万元例5.菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的数据作了初步处理,得到下面的散点图及一些统计量的值. y (微克)x (千克)其中ω=x 2(I )根据散点图判断,y ̂=bx +a 与y ̂=dx 2+c ,哪一个适宜作为蔬菜农药残量y ̂与用水量x 的回归方程类型(给出判断即可,不必说明理由);(Ⅱ)若用解析式y ̂=dx 2+c 作为蔬菜农药残量y ̂与用水量x 的回归方程,求出y ̂与x 的回归方程.(c ,d 精确到0.1) (Ⅲ)对于某种残留在蔬菜上的农药,当它的残留量低于20微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到0.1,参考数据√5≈2.236) 附:参考公式:回归方程y ̂=a ̂+b̂x 中斜率和截距的最小二乘估计公式分别为: b ̂=∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1, a ̂=y ̅−b ̂x̅ 【答案】(1)见解析; (2)y ̂=−2.0x 2+60.0;(3)需要用4.5千克的清水清洗一千克蔬菜. 【详解】(I )根据散点图判断y ̂=dx 2+c 适宜作为蔬菜农药残量y ̂与用水量x 的回归方程类型; (Ⅱ)令w =x 2,先建立y 关于w 的线性回归方程, 由于d̂=∑(w i −w )8i=1(y i −y )∑(w i −w )8i=12=−751374≈−2.0,∴ĉ=y −d̂w =38+2×11=60. ∴y 关于w 的线性回归方程为y ̂=−2.0w +60.0, ∴y 关于x 的回归方程为y ̂=−2.0x 2+60.0.(Ⅲ)当y ̂<20时,−2.0x 2+60.0<20 ,x >2√5≈4.5∴为了放心食用该蔬菜,估计需要用4.5千克的清水清洗一千克蔬菜。