第4章非线性回归模型的
第四章 非线性回归与非线性约束ppt课件
因此,拉格朗日乘数检验就是检验某些拉格朗日乘
数的值是否“足够大”,如果“足够大”,则拒绝
约束条件为真的假设。
检验思路:
H0:Y12X2 kmXkmu(有约束条 ) 件模型 H1:Y12X2 kmXkm kXku(无约束条件)
对于非约束的极大 估似 计然 量 UR,有LUnRL0. 若约束条件成 ,则 立施加约束条件 的下 极大似然估计量
但最终的极大似然 量估 都计 是一致的和
渐近有效。的
二、非线性约束 似然比检验和拉格朗日乘数检验
这两种检验所用统计量都是基于极大似然 估计法的计算,可用于检验数据是否支持某些参 数限制条件。
二、非线性约束
当对模型 Y 0 1 X 1 2 X 2 k X k
施加非线性约束12=1,得到受约束回归模型:
Yf(X1,X2, Xk,10 ,20 , p0)i p1i0(fi)|0
p f
i1
i(i)|0
u
f
一组令新左的边自为变一量个,新(的1因,变2,量 ,右p)边为未(知i )参|数0为,
则原模型转化成线性模型,可以用普通最小二乘
法来估计这些参数。
将(1,2,p)的第一次估计(值 11,记 21, 为p1),
对非线性约束,沃尔德统计量W的算法描述要复杂得多。
3、拉格朗日乘数检验(LM)
• 与W检验不同的是拉格朗日(Lagrange) 乘数(LM)检验只需估计约束模型。所以 当施加约束条件后模型形式变得简单时, 更适用于这种检验。LM检验是由艾奇逊— 西尔维(Aitchison-Silvey 1960)提出的。
首先,用OLS法估计约束模型,计算残差序列
e ty tˆ1ˆ2 x 2 t ˆqx qt
(整理)计量经济学第四章非线性回归模型的线性化
(整理)计量经济学第四章⾮线性回归模型的线性化第四章⾮线性回归模型的线性化以上介绍了线性回归模型。
但有时候变量之间的关系是⾮线性的。
例如 y t = α 0 + α11βt x + u t y t = α 0 t x e 1α+ u t上述⾮线性回归模型是⽆法⽤最⼩⼆乘法估计参数的。
可采⽤⾮线性⽅法进⾏估计。
估计过程⾮常复杂和困难,在20世纪40年代之前⼏乎不可能实现。
计算机的出现⼤⼤⽅便了⾮线性回归模型的估计。
专⽤软件使这种计算变得⾮常容易。
但本章不是介绍这类模型的估计。
另外还有⼀类⾮线性回归模型。
其形式是⾮线性的,但可以通过适当的变换,转化为线性模型,然后利⽤线性回归模型的估计与检验⽅法进⾏处理。
称此类模型为可线性化的⾮线性模型。
下⾯介绍⼏种典型的可以线性化的⾮线性模型。
4.1 可线性化的模型⑴指数函数模型y t = t t ubx ae + (4.1)b >0 和b <0两种情形的图形分别见图4.1和4.2。
显然x t 和y t 的关系是⾮线性的。
对上式等号两侧同取⾃然对数,得Lny t = Lna + b x t + u t (4.2)令Lny t = y t *, Lna = a *, 则y t * = a * + bx t + u t (4.3) 变量y t * 和x t 已变换成为线性关系。
其中u t 表⽰随机误差项。
010203040501234XY 1图4.1 y t =tt u bx ae+, (b > 0) 图4.2 y t =t+, (b < 0)⑵对数函数模型y t = a + b Ln x t+ u t(4.4)b>0和b<0两种情形的图形分别见图4.3和4.4。
x t和y t的关系是⾮线性的。
令x t* = Lnx t, 则y t = a + b x t* + u t(4.5)变量y t和x t* 已变换成为线性关系。
图4.3 y t = a + b Lnx t + u t , (b > 0) 图4.4 y t = a + b Lnx t + u t , (b < 0)⑶幂函数模型y t= a x t b t u e(4.6) b取不同值的图形分别见图4.5和4.6。
第四节 非线性回归模型的参数估计 (赵)
从上述估计过程可以看出,对于不可线性化模型,将 其展开成泰勒级数一阶项并经过适当的变量变换之后, 也可以将其转化成线性回归模型。因此,仍然可以采 用OLS方法估计其中的参数。
需要指出的是,上述迭代估计过程的收敛性及收敛速度 与参数初始值的选取密切相关。若选取的初始值与参数 真值比较接近,则收敛速度较快;反之,则收敛缓慢甚 至发散。因此,估计模型时最好依据参数的经济意义和 有关先验信息,设定好参数的初始值。
f f f y f (a0 , b0 , c0 ) (a a0 ) (b b0 ) (c c0 ) a b c
+余项+ε
f f f y f (a0 , b0 , c0 ) a0 b0 c0 a b c f f f a b c V a b c
第四节 非线性回归模型
一、 可线性化模型
1.双曲线函数模型(倒数代换模型)
1 模型 y ab x 1 * 1 * 设: x ,或 y y x
1 1 a b y x
即进行变量的倒数变换,就可以将其转化成线性回归模型, 所以又称该模型为倒数变换模型。
2.双对数模型(幂函数模型) 模型函数和边际成本函数
*二、不可线性化模型
一般采用高斯—牛顿迭代法进行估计,即将其展开 成泰勒级数之后,再利用迭代估计方法进行估计。
1.迭代估计法 (1)根据经济理论和所掌握的资料,先确定一组数 作为参数的初始估计值;
(2)将模型在点 (a0 , b0 , c0 ) 处展开成泰勒级数,并 取一阶近似值:
即
(2---8)
其中,V是余项与随机误差项的和;
xb 的具体结果为: 对P51模型 y a xc x b0 x b0 a0 a0 ( x b0 ) y a0 a0 b0 c0 2 x c0 x c0 x c0 ( x c0 )
计量经济学第四章非线性模型
• 3.双对数模型
ln Yi b0 b1 ln Xi i
转换
令Yi
ln
Yi ,
X
i
ln
Xi
计 量
Yi
b0
b1
X
i
i
经 济 学
b1
d d
ln ln
y x
dy / dx /
y x
y / x /
y x
此时斜率系数表明了自变量X的相对变化引起因变量的相对变化
26
• 在研究产品的价格弹性和需求弹性时经常使用双对数 模型
计 量
第四章 非线性模型
经
济
学
1
在实际分析过程中经常研究两类非线性模型;
• 1.被解释变量与解释变量之间非线性,而被解释变量和参 数仍为线性关系;
•如
计 量 经
Yi
b0
b1 Xi
i
济
学 2.被解释变量和解释变量之间非线性,而被解释变量和
参数之间也是非线性关系
如柯布-道格拉斯生产函数
Y AL K e
销售额X
计
(万元)
量
1.5
经
4.5
济
7.5
学
10.2
15.5
16.5
19.5
22.5
25.5
流通费用率Y (%) 7
4.8 3.6 3.1 2.7 2.5 2.4 2.3 2.2
12
• 观察商品流通费用率和销售额的散点图,明显发现 它们呈现非线性变化趋势,可以采用双曲线模型, 利用表中数据进行回归,有下面结果:
计 转换过程: 量
令Zi X i (i 1,2, k)
则经济原多项式模型转换为
计量经济学4非线性模型
Yi Z i1 Z iP
ˆ0 ˆ1
ˆP
计量经济学
1、多项式函数
Y 0 1X 2 X 2 3 X 3 P X P u
令:Zi X i,(i 1,2, ,P)
则:Y 0 1Z1 2 Z 2 3Z3 P Z P u
2、双曲函数
1 a b
K dY
;
Y
Y
dL
dM
劳力贡献率: L ;土地贡献率: M
dY
dY
Y
Y
计量经济学
例:给定生产函数Y AK L,其中,Y、K、L分别
为产量、资本、劳力,若 1 , 3 ,在某期间
4
4
Y、K、L的增长率分别为5%,4%,2%,求技术进步、
资本、劳力在产品增长中的贡献份额。
解:技术进步率 5% 1 4% 3 2% 2.5%
mY ,
1,
mY ,
1,
规模报酬递减 规模报酬不变 规模报酬递增
计量经济学
二、非线性回归模型的处理 (一)变换法 适用于Y与解释变量非线性,但与参数线性的情形。
Y 0 1 f(1 X1,X 2, ,X l) 2 f(2 X1,X 2, ,X l) P f(P X1,X 2, ,X l) u
4
4
技术进步贡献率 2.5% 50%; 5%
资金贡献率 0.25 4% 20% 5%
劳力贡献率 0.75 2% 30% 5%
计量经济学
α、β、γ的求法: ①利用截面数据进行回归; ②利用时间序列数据进行回归; ③利用混合数据进行回归; ④利用类似地区的α、β、γ。
(三)Taylor展开法(略)
计量经济学
第四章 非线性模型
一、问题的提出 多元线性回归模型为:
第4章 回归模型中的随机误差项问题
xi递增(或递减) (i=1,2,…,n)
2020年4月4日 山东财经大学统计学院计量经济教研室
第21页
机动 目录 上页 下页 返回 结束
G-Q检验的步骤:
1.将n对样本观察值(xi , yi)按观察值xi的大小排队。 2.将序列中间的c个观察值除去,并将剩下的观察值
GLSE的协方差矩阵为:
Cov(βˆ )
(
X%X%)1
2 u
(
X
1
X
)1
2 u
2020年4月4日 山东财经大学统计学院计量经济教研室
第9页
机动 目录 上页 下页 返回 结束
第二节 异 方 差
一、异方差及其产生的原因
当不能满足同方差的假设,即u的条件方差在不同 次的观测中不再是一个常数,而是取得不同的数值,即
若因假定2和假定3不满足时,有
Cov(u) E(uu) u2
其中Ω≠I, Ω是一个n×n的正定对称方阵。
2020年4月4日 山东财经大学统计学院计量回 结束
此时可以觅得一个n×n的非奇异矩阵P,使得: PΩ P′=I 即 P′ P = Ω-1
然后用觅得的P乘以(4.7)的两边,有:
(三)White检验
White检验的基本思想:如果存在异方差,其方 差与解释变量有关,可以分析方差是否与解释 变量有某些形式的联系以判断异方差性。但是 方差一般是未知的,可用OLS 法估计的残差平 方作为其估计量。在大样本的情况下,做对常 数项,解释变量,解释变量的平方及其交叉乘 积等所构成的辅助回归,利用辅助回归相应的 检验统计量,即可判断是否存在异方差性。
第三讲 DPS应用(4、数学模型模拟分析)
一、非线性回归模型
一元非线性回归模型
实例:
先输入数据:行为样本, 列为变量;定义数据块时 要注意一元非线性回归只 允许定义2 列数据:第一 列为自变量,第二列为因 变量。
以测定的某种肉鸡在良好 生长条件下生长过程数据, 建立Logistic 生长方程为 例。
定义数据块(图阴影区)。
一、非线性回归模型
如果拟合效果不好,可选用其它的曲线类型,或 更改参数的初始值后重新拟合,并从中选择一个 较优的模型。
一、非线性回归模型
非线性回归分析
(1)普通非线性模型 例:研究“岱字棉”自播种至齐苗(以80%出苗
为准)期的天数(Y)和日平均土温(X,℃)的关系,
经试验得到数据后欲建非线性经验模型(莫惠栋 984)。 根据有效积温模型,描述自播种至齐苗期 天数和日平均土温相互关系最直观的回归方程的 数学表达形式为:
分析结果可以作出如下解释:
二、数学模型模拟与优化 第1 阶段,灵敏度大于1,这时的边际产量大于平均效应产量,且平均产量
效应是增加的,当肥料投入量达到10 个单位时,平均效应产量达到最高点。
该点的x 值约为10。
第2 阶段,灵敏度小于1 但仍大于0,目标函数在该阶段的终点达到最大值,
而边际效应值下降到0。这时的投入x 约为14。
第3 阶段,灵敏度小于0,目标函数趋于下降,平均效应虽为正值,但边际 效应为负。
二、数学模型模拟与优化
模型优化
所谓数学模型优化,就是寻求在什么条件下,模型的 目标函数达到最大(或最小),即求函数的极值问题。
生产实践中的所谓优化问题,只要经验模型的目标函 数有明显的表达式,一般可用微分法、变分法、最大 (最小)值原理等方法求解,叫做间接寻优。如果目标 函数表达式过于复杂甚至根本没有明显的表达式,则 用数值方法或“试验最优化”等直接方法求解,叫做 直接寻优。
第四章 非线性回归模型的线性化讲解
线性回归模型 最小二乘法求解 若不是线性回归模型,又该如何求解呢?
(一)变量关系非线性问题:
若:(1)、变量
Y 和
X 1 , X K
之间不存在
多元线性随机函数关系
Y 0 1 X 1 K X K
那么我们如何估计出模型中的未知参数呢?
Dependent Variable: Y Method: Least Squares Date: 10/08/08 Time: 13:51 Sample: 1980 1996 Included observations: 17 Variable Coefficient C -10.46551 X1 1.021132 X2 1.472202 R-squared Adjusted R-squared S.E. of regression
(2)可线性化的非线性回归模型: 虽然被解释变量Y与解释变量X1X 2 .....X k以及与未知 参数 0 1...... k 之间都不存在线性关系,但是可以转化 为线性函数。例如: 生产函数模型: Y AK L e 转化为: ln Y LnA LnK LnL (3)不可线性化的非线性回归模型: 被解释变量Y与解释变量X1X 2 .....X k以及与未知 参数 0 1...... k 之间都不存在线性关系,而且无法转化 为线性函数。 例如:Y 0 1e 1x1 2 e 2 x2
0.99841 S.D. dependent var 0.029873 Akaike info criterion
变量间的非线性关系
(1)非标准线性回归模型: 虽然被解释变量Y与解释变量X1X 2 .....X k 之间 不存在线性关系,但与未知参数 0 1...... k 之间 存在线性关系。例如: 根据平均成本与产量为U型曲线理论,总成本C 可以用产量X的三次多项式来近似表示,得到总成 本函数模型如下: C 0 1 X 2 X 2 3 X 3
第四章 非线性回归模型的线性化
变量间的非线性关系
(1)非标准线性回归模型: 虽然被解释变量Y与解释变量X1X 2 .....X k 之间 不存在线性关系,但与未知参数 0 1...... k 之间 存在线性关系。例如: 根据平均成本与产量为U型曲线理论,总成本C 可以用产量X的三次多项式来近似表示,得到总成 本函数模型如下: C 0 1 X 2 X 2 3 X 3
-10.46385643
1.287009777
-8.130362812
1.1E-06
X Variable 1
1.021123591
0.029404208
34.72712407
5.5E-15
X Variable 2
1.471943365
0.239290421
6.151284117
2.5E-05
(2)Eviews3.1结果:
0 =lnA 1 =
2 =
X1=lnK
X2=lnL
新生成的线性回归模型为: Y= 0 +1X1+ 2 X2+
对于非线性模型的解决方法:以生产函数为例
案例分析:见Excel表格
解答: (1)Excel回归 (2)Eviews3.1
(1)EXcel回归结果
回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值 0.99930353 1 0.99860754 8 0.99840862 6 0.02991798 5 17
第四章 非线性回归模型的线性化
陈修兰
线性回归模型 最小二乘法求解 若不是线性回归模型,又该如何求解呢?
(一)变量关系非线性问题:
若:(1)、变量
第四章 回归分析
•反映客观现象之间的联系的数量关系有两种,确定性关系和不 确定性关系. •确定性关系常用函数描述,不确定性关系也称为相关关系,常 用回归分析处理. •确定性关系和不确定性关系在一定条件下互相转换.
4.1 概述 •不确定性关系中作为影响因素的称自变量,用X 表示,是可以控 制的,受X 影响的响应变量称为因变量,用Y 表示,是可以观测的.
n
lxx
14
结束
于是有: 2 (x) ˆ u1 / 2 ,
Y0的1置信区间为yˆ0 ˆ u1 / 2 , yˆ0 ˆ u1 / 2
取 0.05时 : u1 / 2 1.96, Y0的1 置信区间为:
yˆ0 1.96ˆ , yˆ0 1.96ˆ yˆ0 2ˆ , yˆ0 2ˆ
yˆ0 y0
ˆ s1 ( x0 )
~
t (n 2),
其中: s1 ( x0 )
1 ( x0 x )2 ,
n
lxx
ˆ 2
S
2 E
/(n
2),
S
2 E
lyy
S
2 R
,
S
2 R
ˆ12lxx.
12
结束
P T1 t1 / 2 (n 2), 1 ,
P yˆ0 1( x0 ) y0 yˆ0 1( x0 ) 1 ,
r 2
S R2 ST2
n
ˆ12 l xx
( yi y)2
l xy l xx
2
l xx l yy
l
2 xy
,取R
l xx l yy
i 1
Lxy . Lxx Lyy
据性质4.2.5,
0
r
1,
r
4非线性回归模型的线性
变量间的非线性关系 变量非线性 变量与参数非线性(可线性化) 变量与参数非线性(不可线性化) 线性化方法(可线性化模型)
变量替换法 函数变换法 级数展开法
案例分析
第一节 变量间的非线性关系
一般的非线性回归模型的表示形式:
Y f ( X 1 , X 2 , , X k , 0 , 1 , , k ) u
i
ui
当b>0和b<0时的图形如图,Xt与Yt的关系是非线性的。
Y i a bLnX
i
ui
(b 0)
Y i a bLnX
i
ui
(b 0)
令LnXi = Xi*,则
Yi = a + bXi* + ui
变量Yi和Xi*已变换成为线性关系。
4、S-型曲线模型
Yi 1
*
* 0
1 X 1i 2 X 2i u i
* *
——线性模型
用OLS法估计后,再返回到原模型。若参数:
1 + 2 = 1,称模型为规模报酬不变型; 1 + 2 > 1,称模型为规模报酬递增型;
1 + 2 < 1,称模型为规模报酬递减型。
对于对数线性模型,LnYi = Ln0 + 1 LnX1i + 2 LnX2i + ui ,1和2称作弹
性系数。以1为例:
1
LnY LnX
i 1i
Yi
1
Yi
X 1i X 1i
1
X i Yi Yt X 1 i
Yi / Yi X 1i / X 1i
第4章 回归分析
r=1
r=-1
y
y
x
x
r<0:x与y负线性相关(negative linear correlation) r>0:x与y正线性相关(positive linear correlation)
-1<r<0
0<r<1
y y
x
② 自由度
SST的自由度 :dfT=n-1 SSR的自由度 :dfR=1 SSe的自由度 :dfe=n-2 三者关系: dfT= dfR +dfe
③ 均方
MSR
SSR dfR
MSe
SSe dfe
④ F检验
F MSR MSe
F服从自由度为(1,n-2)的F分布
给定的显著性水平α下 ,查得临界值: Fα(1,n-2)
① 离差平方和
总离差平方和:
n
SST ( yi y)2 Lyy
i 1
回归平方和(regression sum of square) :
n
SSR ( $yi y)2 b2 Lxx bLxy i 1
残差平方和 : n SSe ( yi $yi )2 i 1
三者关系:
SST SSR SSe
性回归方程,其中b1,b2,…,bm 称为偏回归系数。。
设变量 x1, x2 , xm , y 有N组试验数据:
x11, x21, xm1, y1 x12 , x22 , xm2 , y2
回归系
数?
x1k , x2k , xmk , yk (k 1,2, , N )( N m)
回归系数的确定
根据最小二乘法原理 :求偏差平方和最小时的回归系数。
试验设计与数据处理第4章回归分析
a' ln a
y' ln y
yˆ abx ln yˆ ln a xln b
yˆ a bx
a' ln a
b' ln b
对数函数 (logarithmic function)
x' lg x
yˆ a blg x
yˆ a bx'
x' ln x
yˆ a bln x
yˆ a bx'
幂函数 (power function)
(2)回归系数的确定 根据最小二乘法原理 :求偏差平方和最小时的回归系数
偏差平方和:
n
n
Q ( yi $yi )2 ( yi a b1x1 b2x2 ... bmxm )2
i 1
i 1
根据:
Q 0
Q 0
a
bj
得到正规方程组,正规方程组的解即为回归系数。
应用条件:
注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若 自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对 于自变量是分类变量的情形,需要用广义线性回归模型分析。
-1≤r≤1 r=±1:x与y有精确的线性关系
y
y
r=1 x
r=-1
x
r<0:x与y负线性相关(negative linear correlation) r>0:x与y正线性相关(positive linear correlation)
y y
0<r<1 x
-1<r<0 x
r=0
r=0
y y
b0 11.9259 0.1424 5.8126 0.3515 2.8407 0.2706 6.1467 0.6382 9.1185
新教材高中数学第4章第2课时相关系数与非线性回归学案含解析新人教B版选择性必修第二册
新教材高中数学新人教B版选择性必修第二册:第2课时相关系数与非线性回归学习任务核心素养1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算,它有什么作用?[提示]略.(1)定义:统计学里一般用r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2=∑ni=1x i y i-n x-y-(∑ni=1x2i-n x-2)(∑ni=1y2i-n y-2)来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 D [r 的绝对值越接近1,相关性越强,故选D .] 知识点2 非线性回归方程如果具有相关关系的两个变量x ,y 不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测. 拓展:常见的非线性回归方程的转换方式如下:曲线方程曲线(曲线的一部分)变换公式 变换后的线性函数 y =ax bc =ln av =ln x u =ln y u =c +b vy =a e bxc =ln a u =ln yu =c +bxy =a e b xc =ln av =1xu =ln yu =c +b vy =a +b ln xv =ln x y =a +b v到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y =a +bxB .y =c +d xC .y =m +nx 2D .y =p +qc x (q >0)B [散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .]类型1 相关系数的性质【例1】 (1)相关变量x ,y 的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程y ^=b ^1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:y ^=b ^2x +a ^2,相关系数为r 2,则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0(2)设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线方程的回归系数为b ^,回归截距是a ^,那么必有( )A .b ^与r 的符号相同 B .a ^与r 的符号相同 C .b ^与r 的符号相反D .a ^与r 的符号相同(1)D (2)A [(1)由散点图得负相关,所以r 1,r 2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r |更接近1,所以-1<r 2<r 1<0.(2)由公式可知b ^与r 的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强). (2)相关系数(绝对值越大,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A .DB .EC .FD .AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E 到直线的距离最远,所以去掉点E ,余下的5个点所对应的数据的相关系数最大.]类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:x2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0已知∑5i =1x 2i =90,∑5i =1y 2i ≈140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4.(1)计算y 与x 之间的相关系数(精确到0.001),并求出回归直线方程; (2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)∵x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3,∑5i =1x 2i -5x -2=90-5×42=10, ∑5i =1y 2i -5y -2=140.8-125=15.8,所以r =12.310×15.8=12.3158=12.32×79≈12.31.4×8.9≈0.987.又b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=112.3-5×4×590-5×42=1.23.a ^=y --b ^x -=5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即假设使用10年时,维修费用约为12.38万元. [跟进训练]2.某厂的生产原料耗费x (单位:百万元)与销售额y (单位:百万元)之间有如下的对应关系:x2468y 30 40 50 70(1)计算x 与y 之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少? [解] (1)画出(x ,y )的散点图如图所示,由图可知x ,y 有线性关系.x -=5,y -=47.5,∑4i =1x 2i =120,∑4i =1y 2i =9 900,∑4i =1x i y i =1 080,故相关系数r =∑4i =1x i y i -4x -y-(∑4i =1x 2i -4x -2)(∑4i =1y 2i -4y -2)=1 080-4×5×47.5(120-4×52)(9 900-4×47.52)≈0.982 7.b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=1 080-4×5×47.5120-4×52=6.5, a ^=y --b ^x -=47.5-6.5×5=15. 故回归直线方程为y ^=6.5x +15. (2)由回归直线方程知, 当y ^≥80,即6.5x +15≥80时, x ≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x 12 3y 3 5.99 12.01①y =3×2x -1;②y =log 2x ;③y =4x ;④y =x 2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x12345678y 112 61 44.5 35 30.5 28 25 24观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y =a +bx 和指数函数模型y =c e dx 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为y ^=96.54e-0.2x,ln y 与x 的相关系数r 1=-0.94.参考数据⎝⎛⎭⎫其中u i =1x i: ∑8i =1u i y iu -u -2∑8i =1u 2i ∑8i =1y i∑8i =1y 2i0.61×6 185.5e -2 183.4 0.34 0.115 1.53 360 22 385.561.40.135(1)(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u 1,υ1),(u 2,υ2),…,(u n ,υn ),其回归直线υ=α^+β^u 的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i υi -n u -υ-∑n i =1u 2i -n u-2,a ^=υ--β^u -,相关系数r =∑ni =1u i υi -n u -υ-⎝⎛⎭⎫∑ni =1u 2i -n u-2⎝⎛⎭⎫∑ni =1υ2i -n υ-2[思路点拨] (1)首先可令u =1x 并将y =a +bx 转化为y =a +bu ,然后根据题目所给数据以及线性回归方程的相关公式计算出b ^以及a ^,即可得出结果;(2)计算出反比例函数模型的相关系数r 并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果. [解] (1)令u =1x ,则y =a +b x 可转化为y =a +bu ,因为y -=3608=45,所以b ^=∑8i =1u i y i -8u -y-∑8i =1u 2i -8u-2=183.4-8×0.34×451.53-8×0.115=610.61=100,则a ^=y --b ^u -=45-100×0.34=11, 所以y ^=11+100u ,所以y 关于x 的回归方程为y ^=11+100x .(2)y 与1x的相关系数为:r 2=∑8i =1u i y i -n u -y-⎝⎛⎭⎫∑8i =1u 2i -8u -2⎝⎛⎭⎫∑8i =1y 2i -8y-2=610.61×6 185.5≈0.99.因为|r 1|<|r 2|,所以用反比例函数模型拟合效果更好, 当x =10时,y =10010+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x 千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E (x )=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×⎝⎛⎭⎫1009.2+21=626.8(千元). ②当产品单价为90元,设订单数为y 千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E (y )=10×0.3+11×0.7=10.7, 所以企业利润为90×10.7-10.7×⎝⎛⎭⎫10010.7+21=638.3(千元). 故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 201286.44.43z =ln y3.00 2.48 2.08 1.86 1.48 1.10下面是z 关于(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少? (b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139,∑6i =1 (x i -x-)2≈4.18,∑6i =1(y i -y -)2=13.96,∑6i =1(z i -z -)2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x-2,a ^=y --b ^x -.r =∑n i =1 (x i -x -)(y i -y -)∑n i =1(x i -x-)2∑ni =1(y i -y -)2,x -,y -为样本平均值.[解] (1)由题意,计算x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑6i =1x i z i =47.64,∑6i =1x i -x-2≈4.18,∑6i =1z i -z-2=1.53,所以r =∑ni =1 x i -x-z i -z-∑n i =1x i -x-2∑n i =1z i -z-2=47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99.所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)利用最小二乘估计公式计算b ^=∑ni =1x i z i -n x - z-∑n i =1x 2i -n x-2=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,所以a ^=z --b ^x -=2+0.36×4.5=3.62,所以z 关于x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,解得y =e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元.(3)当y ≥0.711 8时, e-0.36x +3.62≥0.711 8=e ln 0.711 8=e-0.34,所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( ) A .越接近于-1 B .越接近于0 C .越接近于1D .越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B .]2.如图所示,给出了样本容量均为7的A ,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组数据的相关系数为r 2,则( )A .r 1=r 2B .r 1<r 2C .r 1>r 2D .无法判定C [根据A ,B 两组样本数据的散点图知,A 组样本数据几乎在一条直线上,且成正相关,∴相关系数为r 1应最接近1,B 组数据分散在一条直线附近,也成正相关,∴相关系数为r 2,满足r 2<r 1,即r 1>r 2,故选C .]3.对于线性相关系数r ,叙述正确的是( )A .r ∈(-∞,+∞),且r 越大,相关程度越大B .r ∈(-∞,+∞),且|r |越大,相关程度越大C .r ∈[-1,1],且r 越大,相关程度越大D .r ∈[-1,1],且|r |越大,相关程度越大D [相关系数r 是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D .]4.若回归直线方程中的回归系数b ^=0,则相关系数r =________.0 [相关系数r =∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2∑n i =1 (y i -y -)2与b ^=∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2的分子相同,故r =0.]5.在一次试验中,测得(x ,y )的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y 与x 的相关系数为________.-1 [法一:x -=1.5,y -=1,∑4i =1x 2i =22,∑4i =1y 2i =56,∑4i =1x i y i =-20,相关系数r =-20-4×1.5×1(22-4×1.52)(56-4×12)=-1.法二:观察四个点,发现其在一条单调递减的直线上,故y 与x 的相关系数为-1.]回顾本节内容,自我完成以下问题.1.你对相关系数是怎样认识的?[提示] (1)样本的相关系数r 可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.(2)|r |很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.2.散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?[提示](1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 例题,写出利用迭代线性化法估计下面 的非线性消费函数模型的具体步骤
C 0 1Y
2
4.3 案例分析
• 第三步, 将非线性函数f在这组新的参数估计 值 1,1, 2,1, p,1 附近作泰勒极数展开,线性化后得 到一个新的标准线性回归模型。对这个新的标准 线性回归模型再应用普通最小二乘法,又得到一 组新的最小二乘估计量 1,2 , 2,2 , p,2 • 重复这一过程一直到参数估计值收敛为止,既对 于预先给定的任意小的正数 0 ,不等式成立 为止。
• 不断重复上述过程,直至参数估计值收 敛为止。即l+1组参数估计值与第l组参数 估计值没有显著差别时为止。 • 这个方法的一个优点是计算效率比较高, 另一个优点是因为每一次迭代都是一次 线性回归,因此可以进行标准的显著性 检验、拟合优度检验等各种统计检验。
具体步骤
• 第一步, • 根据经济理论和历史统计资料,选定 ( , , ) 作为未知参数(1, , 2, , p, )的一组初始估计值。接 着将模型 Y f ( X1, X 2 , X k ; 1, 2 , p ) 中的非线 性函数f在这组初始估计值附近作泰勒极数展开, 得 (*)
0
• 在泰勒极数展开式*中,前两项就是非线 性函数f的一个线性近似。舍掉二阶和二 阶以上的高阶项,得*的线性近似
f Y f ( X 1 , X 2 , X k ; 1, 0 , 2, 0 , p , 0 ) ( i i ,0 ) i 1 i 0
p
• 移项整理后得到
p f f Y f ( X 1 , X 2 , X k ; 1, 0 , 2, 0 , p , 0 ) i , 0 i i 1 i 0 i 1 i 0 p
• 令
f Y Y f ( X 1 , X 2 , X k ; 1,0 , 2,0 , p , 0 ) i , 0 i 0 i 1
1, 0 2, 0 p,0
f Y f ( X 1 , X 2 , X k ; 1, 0 , 2, 0 , p , 0 ) ( i i,0 ) i 1 i 0
p
1 p p 2 f ( i i , 0 )( j j , 0 ) 2 i 1 j 1 i j
第4章非线性回归模型的线性化
1 变量间的非线性关系 2 线性化方法 3 案例分析
4.1 变量间的非线性关系
对于非线性回归模型,按其形式和估计方法的不 同,可以分为三种类型: 1 非标准线性回归模型 Y 例: f ( X , X ,, X ) f ( X , X ,, X ) f ( X , X ,, X ) 2 可线性化的非线性回归模型 例: Y AK L e 3 不可线性化的非线性回归模型 x x 例: Y 0 1e 2e
p
f f f Z1 , Z2 ,Zp p 0 1 0 2 0
• 得到
(#)
Y 1Z1 2 Z2 p Z p
• 第二步,对标准线性回归模型#式应用普 通最小二乘法估计未知参数。得到一组 新的最小二乘估计量 1,1, 2,1, p,1
3 不可线性化的非线性回归模型的线性化估计方法 (1)直接搜索法 (2)直接优化法 (3)迭代线性化法
直接搜索法(Direct Search Method)
• 这种方法是将模型的参数的每一个参数都选择 一组数值,然后将所有可能的参数值组合代入 方程,使残差平方和达到最小的那一组参数值 组合,就作为未知参数值的估计值。 • 如果非线性模型只有一个或两个未知参数,这 种方法可能比较有效。如果非线性模型的未知 参数比较多,这种方法的计算量就很大。 • 比如,如果有四个参数,每个参数有10个不同 的取值。请计算需要考虑多少种组合
直接优化法(Direct Optimization Method) • 这种方法是根据残差平方和极小化的必 要条件,对每个参数求偏导数,并令它 们等于零,然后求解参数。 • 由于求偏导数的方程组是非线性方程组, 计算上困难很性化法(Iterative Linearzation Method) • 这种方法的基本思想是:首先通过泰勒 极数展开将模型的非线性函数在某一组 初始参数估计值附近线性化,然后对这 一线性化的函数应用普通最小二乘法, 得到一组新的参数估计值。接着是使非 线性函数在新的参数估计值附近线性化, 对新的线性化模型应用普通最小二乘法, 又得到一组新的参数估计值。
0 1 1 1 2 k 2 2 1 2 k p p 1 2 k
1 1
2 2
4.2 线性化方法
1 非标准线性回归模型的线性化方法-变量替换法 (1)多项式函数模型
Yi 0 1 X i 2 X i 2 k X ik i
(2)双曲线函数模型
1 1 i YI Xi
(3)对数函数模型
Yi ln X i i
(4)S-型曲线模型
Yi 1 e X i i
2 可线性化的非线性回归模型的线性化方法 (1)指数函数模型 Yi AebX i i
(2)冥函数模型
Yi AX1i X 2i X ki e
1 2 k i
i ,l 1 i ,l i ,l
• 注意:在应用迭代线性化法时,迭代过 程有可能并不收敛。这是因为迭代过程 是否收敛往往与参数初始估计值的选择 有关,这时候我们应换一组参数估计值 再进行迭代。此外,迭代线性化法不能 保证残差平方和达到最小,它可能使残 差平方和收敛于某一局部极小值,而不 是真正的极小值。