非线性回归和主成分分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可化为线性 种类 1、非线性回归模型的种 不可化为线性 类与识别 散点法 识别 试算法 多项式回归模型 非线性回归模型 模型 幂函数模型和指数函数 2、可线性化的回归模型 单对数模型 对数模型双对数模型 双曲函数模型
F1,自然希望F1能尽可能多的包含k个解释量的信息,信息用Var(F1)表示,信 息越多,Var(F1)就越大。因此选择所有解释变量的线性组合中使得Var(F1)最
大的,作为第一主成分,同理可以考虑第二主成分,为了有效的反映原来的信 息,F1包含的信息不能出现在F2,这就要求Var(F1,F2)=0,以此类推,可以得 到第三,第四,…,第p个主成分。显然这些主成分间不相关,且他们的方差 依次递减。
社会零售总额(CLt)、进出口总额(IEt)、实际利用外资源(WZt)、一级
1978年为基数的居民消费价格基数(P78t)七大指标。为消除物价影响,用 P78t对名义数据经行平减,固定意义下变量: TRPt=TRt/P78t;TAXPt=TAXt/P78t;GDPPt=GDPt/P78t;TZPt=TZt/P78t; CLPt=CLt/P78t;IEPt=IEt/P78t;WZPt=WZt/P78t
一 非线性回归模型的建模目的
(1)实际的需要。实际中,许多经济变量的关系式非线性的。 (2)建模目的的需要。例如:建立弹性分析模型,进行弹性分析;为克服模 型残差可能存在的异方差需要建立对数模型;为克服模型自相关需要改变模型 形式等。
二 非线性回归模型的识别方法
法一:散点图法 画出应变量与解释 变量的散点图,根据图 形识别模型形式。
ˆ ˆ Q ˆ Q2 ˆ Q3 e TCi 0 1 i 2 i k t i
模型的输出结果见下图:
(i 1,2,,15)
散点图
对模型线性化,使用eviews6.0的OLS法估计参数,
步骤1:导入数据。 步骤2:在工作文件窗口输入:ls tc c q q^2 q^3,得到结果如图1所示,由图1 容易
进而画出模型的拟合图和残差分布图,如图6所示。由图6 可以看出模型的拟合效果较好。 (2)还原。将上式的左右两边取以e为底的指数函数可以 得到C-D函数生产模型,如下式所示:
GDP t Kt
0.811
Lt
0.211
Gt
0.199
图6
(2)结论。有上面两式可以看出GDP的增长与K(资本的 存储量)的关系最为密切,GDP对固定资本的形成总额K 的弹性系数为0.811,对劳动力L的弹性系数为0.211,说明
F1t 0.398 * CLPt 0.389 * IEPt 0.356 * P 78 t 0.388 * TAXPt 0.380 * TRPt 0.394 * TZPt 0.335 *WZPt
图4
图5
步骤4:求主成分回归回归方程。
利用Genr命令根据主成分1的公式生成主 成分F1,建立GDPP与F1的回归模型: 输出结果如图6所示。 建立LGDP对F1的回归方程:
在样本期内我国的国民经济属于资本拉动型。
弹性:是指一个变量对另一个变量的 敏感程度或反应性。它定量的描述了 一个变量x相对变化百分之一时,引起 另一个y相对变化百分之几。
四、对数模型
对数模型分为双对数模型和单对数模型两种。 1、双对数模型
ˆ ˆ ln x e ln yt 0 1 t t
对于此模型,参数估计步骤如下:
(1)线性化
在工作文件窗口分别用Genr命令生成新变量:q1 , q2 , , qk
令q1 x, q2 x 2 , , qk xk
得到标准的线性回归方程:
ˆ ˆ q ˆ q ˆ q e yt 0 1 1t 2 2t k kt t
(t 1,2,, n)
各种参数检 (2)估计参数建立回归方程。应用OLS法估计参数建立回归方程 验是对此模 · · qK 在公式栏中输入回归命令: LS y c q1 q2 q3 · 型的检验 得到k个解释变量的多元线性回归方程:
ˆ ˆ q ˆ q ˆq ˆt y 0 1 1t 2 2t k kt
此为非线性模型,所以要线性化,再用ols法估计参数。步骤如下:
ˆ ˆ ln x ln e 1)线性化(取对数)。 ln yt ln 0 1 t t ˆ , q ln x, ln e ˆ0 ln 2)设变量。 令 z ln y, 0
ˆ q ˆ0 得线性回归模型:zt 1 t t
图2
为了考虑每一个解释变量对GDPP的影响,因此不能提出解释变量。因此我们需 要利用主成分分析的方法来消除多重共线性。
图3
步骤三:主成分分析。 在步骤二的全体解释变量窗口选择 View principle component,弹出如图四 所示的对话框,选择显示主成分的个数为 2,以及展示为Table的形式。可以得到如 图5所示的结果。 图5可以分为两个部分(实际图表 还有一块相关系数矩阵)。上面是 主成分1,2对应的特征值、方差, 贡献率和累计贡献率。下面是主成 分1,2的特征向量。从第一部分可 以看出,主成分1的贡献率已达到 89.36%,即反应了7个解释变量 85%的信息,故只需取第一个主成 分。由下半部分主成分1 的特征向 量可写出第一主成分的表达式:
下面通过一个案例演示一下什么时候需要使用主成分分析,以及如何利用 EViews实现主成分分析。
财政收入的规模对于一个国家来说有着十分重要的意义,它是国家宏观调控的基
础。本案例通过在政策之后、风险管理、税收规模和财政支出规模优化进行定量 分析进而找到我国财政收入的主要因素。 1、变量与样本数据 (1)确定变量。 应变量:财政收入(TRt); 解释变量:税收总额(TAXt)、国内生产总值(GDPt)、固定投资额(TZt)、
其次,在EViews的工作文件窗口输入:log(GDP) c log(k) log(L) log(G).可 得到如图4所示的模型的结果,由结果可以看出log(l)的t检验没有通过,但是 为了研究劳动力人数对GDP的影响,可去掉常数c,之后的结果如图5所示。
图4
图5
由图5所示模型的回归方程为:
LN(GDP * LO G(Kt ) 0.211* LN(Lt ) 0.199* LN(Gt ) t ) 0.811
GDPP t - 12.58 0.88 * F1t
将F1代入可求得主成分回归来自百度文库程: 图6
GDPPt 12.58 0.351 * CLPt 0.343 * IEPt 0.315 * P 78 t 0.342 * TAXPt 0.335 * TRPt 0.348 * TZPt 0.296 *WZPt
(2)使用EView软件,利用变量TRPt、TAXPt、GDPPt、TZPt、CLPt、IEPt、 WZPt和P78t建立多元回归模型。进行参数估计和检验,最后确定影响我国财政 收入的主要因素。 (3)样本数据。根据可获得性原则,利用1978~2005年的年度数据,样本本数 据来自《中国统计年鉴.2006》,样本数据列于“计量数据”的D3.1中。 步骤一:利用EViews建立影响财政收 入的多元回归模型。首先,导入数据, 然后,在工作文件的命令行输入:ls trp c taxp gdpp tzp clp iep wzp p78p ,可以得到多元回归模型的结果如图 1所示。由图1可以看出,TAXP、 TZP、CLP、IEP的t检验都没有通过, 并且有5个解释变量的系数为负,和 我们的经济理论不一致。因此,我们 猜想这些解释变量间可能存在多重共 线性。 图1
主成分是将k个具有一定先关关系的解释变量,组合成新的相互独立的p (p<k)个综合变量,并用其来代替原来的k个解释变量,同时能够尽可能多的 反应全体解释变量的信息,这种综合变量就是全体解释变量的主成分Fi (i=1,2,…,p)。通常,主成分是k个解释变量的线性组合,而这些解释变 量的线性组合可能有很多,应该如何选取呢?选取的准则:对于第一个主成分
(t 1,2,, n)
(3)还原与应用。还原为原变量的回归方程:
ˆ ˆ x ˆ x2 ˆ xk yt 0 1 t 2 t k t
(t 1,2,, n)
已知某公司G产品的产量Q(万件)、总成本TC(万元)的样本数据列于案例 3中,试建立该产品的总成本模型和平均成本模型。 (1)模型识别。画出总成本TC与产量Q的散点图从 直观上看出有TR与Q为非线性函数,根据平均成本 与产量之间呈U形曲线的理论,总成本模型应该是三 次多项式模型:
可得到模型的拟合与残差分布图,可以看出模型的拟合效果较好。
可以得到总成本模型:
TC i = 97.488 * Qi - 0.04323 * Qi + 4.58215851 26 10-5 * Qi3
2
图1
图2
图3
二、幂函数模型
ˆ x 1 e 幂函数回归模型: yt 0 t t
ˆ
(t 1,2,, n)
3)估计参数。 用OLS法,得到估计的回归方程 LS z c 4)还原。 q
财政支出具有两面性,其规模既可提高国民经济的增长速度,也可拟制其 增长速度,其规律呈倒U形,近似为凹函数,具有最优值。本案例利用常被使用 的自然效率原理研究我国财政支出最优规模。
(1)原理与模型。 以C—D生产函数为基础,建立我国财政支出最优规
结合
法二:试算法 对散点图识别出来的 几种模型进行试算。选择 R2最大的且MAPE最小的。
这章的主要介绍几种常用的可线性化的一般非线性 回归模型和非线性趋势回归模型的建立方法。
三 可线性化的非线性回归模型
方法: 将非线性回归模型转化为线性回归模型后,用OLS法估计参数。
3.1 多项式回归模型
ˆ ˆ x ˆ x2 ˆ xk e 基本形式: yt 0 1 t 2 t k t t
(一元双对数模型)
ˆ ˆ ln x ˆ ln x ˆ ln x e ln yt 0 1 1t 2 2t k kt t
(多元双对数模型)
这种双对数模型主要用于弹性分析,应用十分广泛。
2、单对数模型。 (1)应变量y为对数形式的单对数模型。
ˆ ˆ x e ln yt 0 1 t t
看出,c的t检验的概率为0.1>0.05,不通过t检验。
步骤3:在工作文件窗口输入:ls tc q q^2 q^3,得到结果如图2所示,由图2容易看出, 所有变量的t检验都通过。 步骤4:在结果窗口 view Actual, Fitted, Re sidual Actual, Fitted, Re sidual Graph
步骤二:求解释变量间的相关系数矩阵。 首先,在变量窗口选中所有的解释变量,单 击右键选择open as group view covariance analysis 弹出如图2所示的对话框,选则correlation, 就会弹出如图3所示的相关系数矩阵。 由图3容易看出,按临界值0.95考虑, CLP与IEP、TAXP、TZP之间强相关等等。
模模型。 应该写为:
GDP t AK t L t Gt
, , 为待 式中,Kt为资本存量,Lt为劳动力人数,Gt为财政支出最优规模,
估参数。 首先,两边取自然对数,可得双对数模型:
ln GDP t ln A ln K t ln Lt ln Gt
ˆ 是应变量y的增长率。 式中 1
应变量为对数形式,而解释变量为趋势变量t的单对数模型,称为对数—趋势模型。
1、主成分分析的产生背景
当多元回归的模型存在多重共线性,又希望所有解释变量对应变量的影响, 即不想采用提出解释变量的方法克服多重共线性时,主成分回归是较好的克服 多重共线性的方法。
2、主成分分析简介
F1,自然希望F1能尽可能多的包含k个解释量的信息,信息用Var(F1)表示,信 息越多,Var(F1)就越大。因此选择所有解释变量的线性组合中使得Var(F1)最
大的,作为第一主成分,同理可以考虑第二主成分,为了有效的反映原来的信 息,F1包含的信息不能出现在F2,这就要求Var(F1,F2)=0,以此类推,可以得 到第三,第四,…,第p个主成分。显然这些主成分间不相关,且他们的方差 依次递减。
社会零售总额(CLt)、进出口总额(IEt)、实际利用外资源(WZt)、一级
1978年为基数的居民消费价格基数(P78t)七大指标。为消除物价影响,用 P78t对名义数据经行平减,固定意义下变量: TRPt=TRt/P78t;TAXPt=TAXt/P78t;GDPPt=GDPt/P78t;TZPt=TZt/P78t; CLPt=CLt/P78t;IEPt=IEt/P78t;WZPt=WZt/P78t
一 非线性回归模型的建模目的
(1)实际的需要。实际中,许多经济变量的关系式非线性的。 (2)建模目的的需要。例如:建立弹性分析模型,进行弹性分析;为克服模 型残差可能存在的异方差需要建立对数模型;为克服模型自相关需要改变模型 形式等。
二 非线性回归模型的识别方法
法一:散点图法 画出应变量与解释 变量的散点图,根据图 形识别模型形式。
ˆ ˆ Q ˆ Q2 ˆ Q3 e TCi 0 1 i 2 i k t i
模型的输出结果见下图:
(i 1,2,,15)
散点图
对模型线性化,使用eviews6.0的OLS法估计参数,
步骤1:导入数据。 步骤2:在工作文件窗口输入:ls tc c q q^2 q^3,得到结果如图1所示,由图1 容易
进而画出模型的拟合图和残差分布图,如图6所示。由图6 可以看出模型的拟合效果较好。 (2)还原。将上式的左右两边取以e为底的指数函数可以 得到C-D函数生产模型,如下式所示:
GDP t Kt
0.811
Lt
0.211
Gt
0.199
图6
(2)结论。有上面两式可以看出GDP的增长与K(资本的 存储量)的关系最为密切,GDP对固定资本的形成总额K 的弹性系数为0.811,对劳动力L的弹性系数为0.211,说明
F1t 0.398 * CLPt 0.389 * IEPt 0.356 * P 78 t 0.388 * TAXPt 0.380 * TRPt 0.394 * TZPt 0.335 *WZPt
图4
图5
步骤4:求主成分回归回归方程。
利用Genr命令根据主成分1的公式生成主 成分F1,建立GDPP与F1的回归模型: 输出结果如图6所示。 建立LGDP对F1的回归方程:
在样本期内我国的国民经济属于资本拉动型。
弹性:是指一个变量对另一个变量的 敏感程度或反应性。它定量的描述了 一个变量x相对变化百分之一时,引起 另一个y相对变化百分之几。
四、对数模型
对数模型分为双对数模型和单对数模型两种。 1、双对数模型
ˆ ˆ ln x e ln yt 0 1 t t
对于此模型,参数估计步骤如下:
(1)线性化
在工作文件窗口分别用Genr命令生成新变量:q1 , q2 , , qk
令q1 x, q2 x 2 , , qk xk
得到标准的线性回归方程:
ˆ ˆ q ˆ q ˆ q e yt 0 1 1t 2 2t k kt t
(t 1,2,, n)
各种参数检 (2)估计参数建立回归方程。应用OLS法估计参数建立回归方程 验是对此模 · · qK 在公式栏中输入回归命令: LS y c q1 q2 q3 · 型的检验 得到k个解释变量的多元线性回归方程:
ˆ ˆ q ˆ q ˆq ˆt y 0 1 1t 2 2t k kt
此为非线性模型,所以要线性化,再用ols法估计参数。步骤如下:
ˆ ˆ ln x ln e 1)线性化(取对数)。 ln yt ln 0 1 t t ˆ , q ln x, ln e ˆ0 ln 2)设变量。 令 z ln y, 0
ˆ q ˆ0 得线性回归模型:zt 1 t t
图2
为了考虑每一个解释变量对GDPP的影响,因此不能提出解释变量。因此我们需 要利用主成分分析的方法来消除多重共线性。
图3
步骤三:主成分分析。 在步骤二的全体解释变量窗口选择 View principle component,弹出如图四 所示的对话框,选择显示主成分的个数为 2,以及展示为Table的形式。可以得到如 图5所示的结果。 图5可以分为两个部分(实际图表 还有一块相关系数矩阵)。上面是 主成分1,2对应的特征值、方差, 贡献率和累计贡献率。下面是主成 分1,2的特征向量。从第一部分可 以看出,主成分1的贡献率已达到 89.36%,即反应了7个解释变量 85%的信息,故只需取第一个主成 分。由下半部分主成分1 的特征向 量可写出第一主成分的表达式:
下面通过一个案例演示一下什么时候需要使用主成分分析,以及如何利用 EViews实现主成分分析。
财政收入的规模对于一个国家来说有着十分重要的意义,它是国家宏观调控的基
础。本案例通过在政策之后、风险管理、税收规模和财政支出规模优化进行定量 分析进而找到我国财政收入的主要因素。 1、变量与样本数据 (1)确定变量。 应变量:财政收入(TRt); 解释变量:税收总额(TAXt)、国内生产总值(GDPt)、固定投资额(TZt)、
其次,在EViews的工作文件窗口输入:log(GDP) c log(k) log(L) log(G).可 得到如图4所示的模型的结果,由结果可以看出log(l)的t检验没有通过,但是 为了研究劳动力人数对GDP的影响,可去掉常数c,之后的结果如图5所示。
图4
图5
由图5所示模型的回归方程为:
LN(GDP * LO G(Kt ) 0.211* LN(Lt ) 0.199* LN(Gt ) t ) 0.811
GDPP t - 12.58 0.88 * F1t
将F1代入可求得主成分回归来自百度文库程: 图6
GDPPt 12.58 0.351 * CLPt 0.343 * IEPt 0.315 * P 78 t 0.342 * TAXPt 0.335 * TRPt 0.348 * TZPt 0.296 *WZPt
(2)使用EView软件,利用变量TRPt、TAXPt、GDPPt、TZPt、CLPt、IEPt、 WZPt和P78t建立多元回归模型。进行参数估计和检验,最后确定影响我国财政 收入的主要因素。 (3)样本数据。根据可获得性原则,利用1978~2005年的年度数据,样本本数 据来自《中国统计年鉴.2006》,样本数据列于“计量数据”的D3.1中。 步骤一:利用EViews建立影响财政收 入的多元回归模型。首先,导入数据, 然后,在工作文件的命令行输入:ls trp c taxp gdpp tzp clp iep wzp p78p ,可以得到多元回归模型的结果如图 1所示。由图1可以看出,TAXP、 TZP、CLP、IEP的t检验都没有通过, 并且有5个解释变量的系数为负,和 我们的经济理论不一致。因此,我们 猜想这些解释变量间可能存在多重共 线性。 图1
主成分是将k个具有一定先关关系的解释变量,组合成新的相互独立的p (p<k)个综合变量,并用其来代替原来的k个解释变量,同时能够尽可能多的 反应全体解释变量的信息,这种综合变量就是全体解释变量的主成分Fi (i=1,2,…,p)。通常,主成分是k个解释变量的线性组合,而这些解释变 量的线性组合可能有很多,应该如何选取呢?选取的准则:对于第一个主成分
(t 1,2,, n)
(3)还原与应用。还原为原变量的回归方程:
ˆ ˆ x ˆ x2 ˆ xk yt 0 1 t 2 t k t
(t 1,2,, n)
已知某公司G产品的产量Q(万件)、总成本TC(万元)的样本数据列于案例 3中,试建立该产品的总成本模型和平均成本模型。 (1)模型识别。画出总成本TC与产量Q的散点图从 直观上看出有TR与Q为非线性函数,根据平均成本 与产量之间呈U形曲线的理论,总成本模型应该是三 次多项式模型:
可得到模型的拟合与残差分布图,可以看出模型的拟合效果较好。
可以得到总成本模型:
TC i = 97.488 * Qi - 0.04323 * Qi + 4.58215851 26 10-5 * Qi3
2
图1
图2
图3
二、幂函数模型
ˆ x 1 e 幂函数回归模型: yt 0 t t
ˆ
(t 1,2,, n)
3)估计参数。 用OLS法,得到估计的回归方程 LS z c 4)还原。 q
财政支出具有两面性,其规模既可提高国民经济的增长速度,也可拟制其 增长速度,其规律呈倒U形,近似为凹函数,具有最优值。本案例利用常被使用 的自然效率原理研究我国财政支出最优规模。
(1)原理与模型。 以C—D生产函数为基础,建立我国财政支出最优规
结合
法二:试算法 对散点图识别出来的 几种模型进行试算。选择 R2最大的且MAPE最小的。
这章的主要介绍几种常用的可线性化的一般非线性 回归模型和非线性趋势回归模型的建立方法。
三 可线性化的非线性回归模型
方法: 将非线性回归模型转化为线性回归模型后,用OLS法估计参数。
3.1 多项式回归模型
ˆ ˆ x ˆ x2 ˆ xk e 基本形式: yt 0 1 t 2 t k t t
(一元双对数模型)
ˆ ˆ ln x ˆ ln x ˆ ln x e ln yt 0 1 1t 2 2t k kt t
(多元双对数模型)
这种双对数模型主要用于弹性分析,应用十分广泛。
2、单对数模型。 (1)应变量y为对数形式的单对数模型。
ˆ ˆ x e ln yt 0 1 t t
看出,c的t检验的概率为0.1>0.05,不通过t检验。
步骤3:在工作文件窗口输入:ls tc q q^2 q^3,得到结果如图2所示,由图2容易看出, 所有变量的t检验都通过。 步骤4:在结果窗口 view Actual, Fitted, Re sidual Actual, Fitted, Re sidual Graph
步骤二:求解释变量间的相关系数矩阵。 首先,在变量窗口选中所有的解释变量,单 击右键选择open as group view covariance analysis 弹出如图2所示的对话框,选则correlation, 就会弹出如图3所示的相关系数矩阵。 由图3容易看出,按临界值0.95考虑, CLP与IEP、TAXP、TZP之间强相关等等。
模模型。 应该写为:
GDP t AK t L t Gt
, , 为待 式中,Kt为资本存量,Lt为劳动力人数,Gt为财政支出最优规模,
估参数。 首先,两边取自然对数,可得双对数模型:
ln GDP t ln A ln K t ln Lt ln Gt
ˆ 是应变量y的增长率。 式中 1
应变量为对数形式,而解释变量为趋势变量t的单对数模型,称为对数—趋势模型。
1、主成分分析的产生背景
当多元回归的模型存在多重共线性,又希望所有解释变量对应变量的影响, 即不想采用提出解释变量的方法克服多重共线性时,主成分回归是较好的克服 多重共线性的方法。
2、主成分分析简介