6第六章：模型选择：标准与检验

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（c）剔除或引人一个变量后，相关系数矩阵进行消去变换，第（t+1）步
计算结束。其后重复（a）～（c）再进行下步计算。
逐步回归逻辑图
Y 0 1 X1 2 X 2 l X l X l 1, X l 2 ,, X k l
已进入模型变量
选取贡献最小的变量
未进入模型变量
选取贡献最大的变量
F > Fα ？
是否
F > Fα ？
是否
逐步回归：案例分析
1. 应用错误的案例；
中国财产保险需求影响因素的实证研究【经济与管理】
2. 应用正确的案例1；
中国外商直接投资的区位决定因素分析【中国人口科学】
3. 应用正确的案例2.
基于扩散指数的逐步回归改进失业预警模型及实证分析【南开经济研究】
法建立“最优”回归方程以便对因变量进行预报或控制。
所谓“最优”回归方程，主要是指希望在回归方程中包含所有对因变量 Y 影响显著的自变量而不包含对 Y 影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析
方法。
分析原理（包括两个阶段）：
第一阶段：对已引入回归方程的变量计算其偏回归平方和（即贡献），然后选一个偏回归平方和最小的变量，在预先给定的 F 水平下
进行显著性检验，如果显著则该变量不必从回归方程中剔除，
这时方程中其它的几个变量也都不需要剔除。相反，如果不显著，则该变量要剔除，然后按偏回归平方和由小到大地依次对方程中其它变量进行 F 检验。将对 Y 影响不显著的变量全部剔除，保留的都是显著的。
第二阶段：再对未引人回归方程中的变量分别计算其偏回归平方和，并选其中偏回归平方和最大的一个变量，同样在给定 F 水平下
七、诊断设定误差：检验
4. 回归误差设定检验：RESET
RESET检验优点是无须设定备择模型，但它只能
肯定或否定模型设定，而不能选择正确模型。该检验一般只能用于模型诊断。
主要讲解内容
• 判断模型优劣的标准； • 模型设定误差的类型； • 各种模型设定误差的诊断方法。
一、“好的”模型具有的性质
• 简约性
• 可识别性
• 拟合优度
• 理论一致性
• 预测能力
二、设定误差的类型
• 遗漏相关变量； • 包括不必要变量；
• 采取错误的函数形式；
• 度量误差。
三、遗漏相关变量：“过低拟合”模型
重要提醒：在建模过程中不能够重复使用t检验和F
检验！因而不能把变量逐个放入模型，进行逐次检验！
不建议采用此种数据挖掘( Data Mining )的策略！
建模必须以理论为指导，否则会ຫໍສະໝຸດ Baidu入死胡同！
逐步回归
现实问题：
在实际问题中，人们总是希望从对因变量 Y 有影响的诸多变量中选择一些变量作为自变量，应用多元回归分析的方
五、不正确的函数形式
1.经济理论并没有明确因变量与自变量之间的函数形式；
2.因函数形式不同，不能直接借助判定系数来比较函数的优劣； 3.我们的研究立场究竟是怎样的呢？
六、度量误差
• 被解释变量中的度量误差
1.OLS估计量是无偏的； 2.OLS估计量的方差也是无偏的； 3.估计量的方差比没有度量误差时的大。
真实回归方程
“不正确设定”回归方程
Y
X2对Y的净影响b2
X3对Y的净影响b3
X2对Y的总影响（b2+b3b32）
X2
X3对X2的影响b32
X3
四、包括不相关变量：“过度拟合”模型
简约性
包括不相关变量比遗漏相关变量要好，但增加不必要的变量会损失估计量的有效性（即更大的标准误），也有可能导致多重共线性问题。
（2）逐步计算
如果已计算 t 步（包含t＝0）且回归方程中已引入 l 个变量，则第（t+1）
步的计算为: （a）计算全部自变量的贡献 V（偏回归平方和）；
（b）在已引入的自变量中，检查是否有需要剔除的不显著变量。
在已引入的变量中选取具有最小 V 值的一个并计算其 F 值，如果 F<F α ，表示该变量不显著，应将其从回归方程中剔除，计算转至（c）。如 F>F α ，则不需要剔除变量，这时则考虑从未引入的变量中选出具有最大 V 值的一个并计算 F 值，如果 F>F α ，则表示该变量显著，应将其引人回归方程，计算转至（c）。如 F<F α，表示已无变量可选入方程，则逐步计算阶段结束，计算转人（c）。
作显著性检验，如果显著则将该变量引入回归方程，这一过程
一直继续下去，直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止，这时逐步回归过程结束。
计算步骤：
（1）确定 F 检验值；
在进行逐步回归计算前要确定检验每个变量是否显
若的检验水平，以作为引人或剔除变量的标准。
基本要求：F α水平不宜过高（显著性水平 α 不宜太小）。
• 解释变量中的度量误差
1.OLS估计量是有偏的； 2.OLS估计量也是不一致的。
七、诊断设定误差：检验
1. 诊断非相关变量的存在
t检验
值得注意的是：在设定检验时，头脑中要有一个“真正”的模型！
关注结果而非过程
逐步回归（Stepwise Regression）
One thing at a time
七、诊断设定误差：检验
2. 对遗漏变量和不正确函数形式的检验
判定模型参数： 1.R2和校正后的R2； 2.估计的 t 值； 3.与先验预期相比，估计系数的符号。
残差检验：实践中，残差图是一个很好的工具，它可以显示模型中的设定误差。
七、诊断设定误差：检验
3. 在线性模型和对数线性模型之间选择：MWD检验零假设H0：线性模型：Y是X的线性函数。备择假设H1：对数线性模型：LnY是X或LnX的线性函数。 MWD检验步骤如下：（1）估计线性模型，得到 Y的估计值（2）估计线性对数模型，得到 LnY 的估计值（3）求（4）做 Y 对 X 和 Z1i 的回归如果根据 t 检验 Z1i 的系数是统计显著的，则拒绝 H0 （5）（6）做 LnY 对 X 或 LogX 和 Z2i 的回归如果 Z2i 的系数是统计显著的，则拒绝 H1
模型选择：标准与检验
授课：梁海兵
假定模型不存在设定偏差，是“对现实的真实反映”。
然而实践中，或许永远无法获知真实的模型是什么，
但却希望找到一个“相对”精确反映现实的模型。
1.“好的”或者“正确的”模型具有哪些性质？ 2.比之“正确”模型，在实践中可能会犯哪几类设定误差？ 3.各种设定误差的后果是什么？ 4.如何诊断设定误差？ 5.如果已犯设定误差，可以采取哪些补救措施？