第九讲 非线性回归和基于多元回归的评价研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
固定X2,X1变化∆X1:
Y [ 0 1( X 1 X 1)) 2 X 2 3( X 1 X 1) X 2] ( 0 1 X 1 2 X 2 3 X 1 X 2 ) ( 1 3 X 2)X 1
Y 1 3X 2 X 1
第三步,利用第二步中确定的其他可疑变量改 进基础设定形式并检验其系数为零的假设。如果附 加变量的系数统计显著,或者当加入这个变量后, 感兴趣系数的估计发生相当大的变化,则回归中应 该保留这个变量,于是需要修改基础设定形式。反 之,应该从回归中去掉这些变量。 第四步,用表格形式正确概括结果。这就“完 全揭示”了潜在的疑虑,从中可以得到他或她对感 兴趣问题的结论。同时在同一表中给出其他回归有 利于有疑问的读者得出他或她自己的结论。
我们假定非线性总体回归的一般公式为
在本题中:
={-3.30,-1.26}
X变化的预期效应的置信区间
效应估计的标准误差
关键问题在于:对于非线性模型来说,我们不能用: ˆ 来代替 SE(Y )
在上例中,依然假设收入从10(千美元)变到 11(千美元)。
ˆ ˆ ˆ ˆ 1 (11 10) 2 (112 102 ) 1 21 2 Y ˆ
例子:经济学刊物的需求
我们要研究图书馆对经济学刊物的需求 弹性。 影响经济学刊物的需求因素: 1。每篇引文的价格。 2。刊龄(新老期刊的不同)。 3。刊物包含字符的多少。
在学生/教师比和英语学习者百分 率中的应用
学生/教师比对测试成绩的非线 性效应------一个综合的例子
需要得出的结论: 1。控制了不同学区学生的经济特征差异之后, 学生/教师比降低对测试成绩的效应还依赖于 英语学习者的百分率吗? 2。该效应依赖于学生/教师比取值吗?(线性 关系还是非线性关系)? 3。考虑了经济因素和非线性之后,学区负责 人建议的降低学生/教师比2个单位对测试成绩 的效应估计是多少?
三。变量有测量误差 由于这种偏差来源于自变量的度量误差 所以称为变量的测量误差偏差。由于这 种偏差即使在大样本下依然存在,因此 当存在测量误差时OLS估计量是非一致 的。
Hale Waihona Puke Baidu
四。样本选择偏差 当数据的获取受与因变量取值有关的抽样过 程影响时就产生了样本选择偏差。这种抽样过 程引入了误差项和回归变量的相关性,从而使 OLS估计量有偏。 1。与因变量取值无关的抽样过程不会引入偏 差。 2。当抽样方法与因变量取值有关时会引入偏 差。
例1:利用NLS方法估计非线性消费函数(数 据文件:usmacro)
cs inc u
nl (realcons = {a} + {b}*realgdp^{gamma=1}) 如果不给定gamma的初始条件将无法达到收 敛。
例2:估计如下生产函数模型。(数据文件: production),不变替代弹性(CES)生产 函数:
分析: 1。给定D1的取值,D2=0 和D2=1的数 学期望为:
E(Y|D1=d1,D2=0)=β0+β1d1 E(Y|D1=d1,D2=1)=β0+β1d1+ β2+β3d1 第二项减去第一项,得β2+β3d1 这是大学毕业生和非大学毕业生对Y的影响效应 之差。但我们发现,这种效应依赖于d1。
五。双向因果关系 之前我们假定因果关系是从回归变量到因 变量的(X导致了Y)。但如果因果关系同时也是 从因变量到一个或多个回归变量(Y导致了X)的 呢?如果是这样的话,因果关系是向前的也是 “向后” 的,即存在双向因果关系,如果存 在双向因果关系,则OLS回归中同时包含了这 两个效应,因此OLS估计量是有偏的、非一致 的。
1。仅截距不同
2。仅斜率不同
3。截距、斜率均不同
除了画图法,还可以通过F检验和t检验确定构造 交乘项的必要性。
教育收益和性别差异
教育除了能让你感受到获取知识的愉悦外, 还能带给你经济上的回报。学历较高的职工 往往比学历较低的同等职工赚得更多。但至 少有三个原因表明当时的分析并不完全。其 一,它没有控制其他可能与教育成就相关的 决定收入的因素,因此教育系数的OLS估计 量可能存在着遗漏变重偏差;其二,教育与 收入的关系一定是线性的吗?其三,忽略了 收入的性别差距。
我们将分三种情况考虑: 1。两个自变量都是虚拟变量; 2。一个自变量是虚拟变量而另一个是连 续变量; 3。两个变量都是连续变量。
两个虚拟变量的交互作用
其中Y是工资的对数,D1表示性别(1为女性), D2表示是否拥有大学学位(1为有)。
按照上,固定性别时,无论男性女性, 拥有大学学位的效应是一样的。但现实 情况是,在劳动市场中文凭的价值对男 性和女性而言是不同的。 显然,上述形式没有考虑到性别和获得 大学学位的交互作用,因此我们引入一 个交乘项D1*D2进行修正。
ln y 0 m / ln K (1 ) L
u
nl ( lnout={b0}{m=1}/{rho=1}*ln( {delta=0.5}*cap ital^(-{rho}) +(1-{delta})*labor^({rho}) ) )
基于多元回归的评估研究
实际操作中,经常使用Ramsey's RESET检验。其基本思想是,如果怀疑 非线性项的高阶项被遗漏了,那么就把 它引入方程,并检验其系数是否显著。
Ramsey检验。 use wage,clear reg lnwage educ exper tenure estat ovtest (拒绝源假设,或许是遗漏了 解释变量的高阶项) gen educ2=educ^2 gen exper2=exper^2 reg lnwage educ exper tenure educ2 exper2 estat ovtest
OLS标准误差非一致的原因
1。异方差 2。不同观测间的误差项的相关性
解决方法: 1。加入表示性别差异的变量Female 2。加入性别与教育年限的交乘项。 3。假设遗漏变量包含潜在经验及其平方项。 4。加入地区虚拟变量。
结果分析(一)
第一,在回归(1)中省略性别并没有造成相当大的 遗漏变量偏差,即使回归(2)中性别的变量系数值较大 并且是显著的,但是性别和受教育年数不相关,也就 是说男性和女性平均受教育水平差不多。 第二,对男性和女性而言,教育的收益在经济上 和统计上都显著不同:即回归(3)中检验它们相同的t 统计量为11. 25。 第三,回归(4)控制了个人居住的地区,从而解决 了由地区受教育年数的系统差异引起的潜在遗漏变量 偏差,相对于回归(3)中的结果,控制地区之后教育项 的系数佑计值变化不大。 第四,回归(4)中控制了毕业后用年数衡量的潜在 工作经验估计得到的系数值表明每增加一年潜在工作 经验的边际价值递减。(可以比较R2)。
结果分析(二)
回归(4)中男性多一年教育的经济收益 估计值为8.99%,而女性为 11.06%( 0. 089 9十0. 0207)。因为 男性和女性的回归函数斜率不同,所以 性别差距依赖于受教育年数。如12年教 育的性别差估计为27.3%,而16年以上 教育的性别差距为19.0%。
两个连续变量的交互作用
但如果被解释变量Y的函数形式不同,例如 一个是ln(Y),而另一个是Y,则通过adj R2 比较模型的优劣没有意义。
原则二:根据经济理论和对问题的实践认知 确定用Y的对数形式是否有意义。 经常使用对数形式表示增长率的经济指标: GDP 投资 消费 工资 成绩 等等。
自变量的交互作用(交乘项)
解释变量之间往往不是相互独立的,当 两个解释变量之间相互影响,对被解释 变量具有交互作用时,往往引入交乘项。 即某个自变量变化对Y的效应依赖于另一 个自变量取值。
多元回归分析的内部有效性威胁
一。遗漏变量偏差 1。当遗漏变量可观测时遗漏变量偏差的 解决方法。 并不是加入越多变量越好,是否要加入 该变量取决于感兴趣的系数估计量偏差 和方差之间的权衡。 方法可以分四步进行:
第一步,在回归中识别出感兴趣的关 键系数。 第二步,运用经济理论和专业知识, 找到这个回归中最有可能的重要遗漏变 量偏差来源。并且应该在建立实际回归 前就加以考虑。由于这发生在分析数据 之前,因此也称为先验推理。
遗漏变量偏差的数学形式
2。当遗漏变量不可观测时遗漏变量偏差的解 决方法。 第一种方法是利用同一观测个体在不同时 间点上的观测数据(面板数据)。 第二种方法是利用工具变量回归。该方法 依赖于一个称为工具变量的新变量。 第三种方法是利用研究设什,即利用随机 对照试验研究感兴趣的效应。
二。回归函数形式的误设 如果真实的总体回归函数是非线性的而 估计出的回归是线性的,则这种函数形 式误设将会导致OLS估计量有偏。这种 偏差也是一种遗漏变量偏差,其中的遗 漏变量为反映回归函数中缺少的非线性 部分的项。
非线性回归stata例子
对于利用任何方法都无法线性化的方程, 只能利用非线性最小二乘法。(NLS)
非线性最小二乘法的思路是,通过泰勒级数将 均值函数展开为线性模型。即,只包括一阶展 开式,高阶展开式都归入误差项。然后再进行 OLS回归,将得到的估计量作为新的展开点, 再对线性部分进行估计。如此往复,直至收敛。 这种迭代估计方法必须设定初始值和停止法则。 初始值的选择对于迅速找到最优解非常重要。
内部有效性
外部有效性
内部威胁 外部威胁
内部有效性的含义及其威胁
1。无偏性和一致性。 2。参数显著,置信区间包含参数。 内部有效性的威胁: 违反了内部有效性的上述条件。
外部有效性的威胁
1。总体间的差异 2。环境的差异 3。在测试成绩和学生/教师比中的应用 4。如何评估研究的外部有效性 5。如何设计外部有效的研究
对数形式
对数形式经常用于表示变量的百分率变 化。例如: 在消费者需求的经济分析中,通常假定 价格上涨1%导致需求量下降一定的 百 分率。称价格上涨1%引起的需求下降 百分率为价格弹性(elasticity)。
原则1:在解释变量均显著的前提下,当被 解释变量Y的函数形式相同时,可以通过 adj R2比较模型的优劣。
当d1=0(男性) 对Y的效应为β2 当d1=0(女性) 对Y的效应为β2+β3 β3即是女性和男性获得大学学位的效应 之差。 可见,是否大学毕业(D2)对工资对数的 影响效果不仅取决于它本身,而且取决 于性别(D1)。
连续变量和二元变量的交互作用
其中Yi为工资的对数,Xi是连续变量,表 示工作经验;Di为虚拟变量,表示是否拥 有大学学位。
非线性回归的实证方法
1。利用变量替代法将非线性回归变为线 性回归。 2。利用非线性最小二乘法。
1。多项式函数模型。
多项式函数模型的图形相对较为复杂
三次方函数
2。双曲线函数模型。
3。对数函数模型。
4。指数函数模型
5。幂函数模型(全对数模型)
6。生长曲线(Logistic)模型
非线性回归和基于多元回归的 评价研究
非线性回归的最大特点是,总体回归函 数的斜率不再是常数,X的变化对Y的效 应依赖于一个或多个自变量的取值。
非线性设定形式中X变化对Y的效应
想知道在固定其他自变量X2、X3…Xk 的情形下,当自变量X1变化∆X时,预期 因变量Y如何变化。当总体回归函数为线 性时,很容易计算这个效应, ∆Y=ß1∆X1 但当回归函数为非线性时,由于Y的预期 变化依赖于自变量的取值,因此其计算 较复杂。
在一元回归中,我们有:
ˆ 1 21 2) / SE ( 1 21 2)]2 ˆ ˆ ˆ F t [( ˆ / SE (Y )]2 ˆ [Y
2
非线性函数的形式
一。多项式函数
到底应该采用几阶多项式
1。最直观的办法是画散点图。 2。很多涉及经济数据的应用中,非线性 函数都是光滑的,也就是不存在急剧的 跳跃或“尖峰”。则选择较小的多项式 最高阶数,如2, 3或4较合适。