第七章 多元回归分析-虚拟变量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

虚拟变量之间的交叉项(续)
• 模型可以写成 y = β0 + δ1male + δ2hsgrad + δ3colgrad + δ4male*hsgrad + δ5male*colgrad + β1x + u, 那么: • 若 male = 0 且 hsgrad = 0 且 colgrad = 0 则 y = β0 + β1x + u • 若 male = 0 且 hsgrad = 1 且 colgrad = 0 则 y = β0 + δ2hsgrad + β1x + u • 若male = 1且hsgrad = 0且 colgrad = 1 则 y = β0 + δ1male + δ3colgrad + δ5male*colgrad + β1x + u
Chow 检验
• 也可以仅仅做没有交叉项的回归来构造适当的F统计 量 • 如果我们对第一组样本做没有交叉项的回归,得到 SSR1, 然后再对第二组样本做同样的回归,得到 SSR2 • 再同样对所有样本做没有交叉项的回归,得到 SSR, 那么
[ SSR − (SSR1 + SSR2 )] [n − 2(k + 1)] F= •
δ0 > 0 且 δ1 < 0的例子
y y = β0 + β1x d=0 d=1 y = (β0 + δ0) + (β1 + δ1) x x
检验不同组之间的差异
• 为了检验一个回归方程对不同的组是否应 该取不同的参数,我们可以检验表示组的 虚拟变量及其和所有其他x变量的交叉项的 显著性 • 因此可以估计有所有交叉项和没有交叉项 两种情况下的模型,然后构造F 统计量, 但 这种方法不容易把握
SSR1 + SSR2 k +1
Chow 检验(续)
• Chow 检验其实就是一个对排除性限制条 件的F 检验, 我们注意到 SSRur = SSR1 + SSR2 • 注,我们一共有k + 1 限制条件 (针对每 一个斜率和一个截距) • 注, 无限制条件的模型估计了两个截距项 和两组不同的系数,因此自由度(df)为 n – 2k – 2
例、汽油消费市场的结构检验
变量:1960-1995 数据Taba58 G=总汽油消费、Pg=汽油的价格指数、Y=人均可支配收 入、Pnc=新车的价格指数、Puc=旧车的价格指数、Ppt= 公共交通的价格指数、Pd=耐用消费品的总价格指数、 Pn=非耐用消费品的总价格指数、Ps=服务的总价格指 数、Pop=美国的总人口数(百万) 回归方程: Log(G/Pop)=b1+b2logY+b3log(Pg)+b4log(Pnc)+b5log(Puc)+e 利用1960到1995的样本数据检验1960到1973和1974到1995 的市场结构是否发生变化的问题。
δ0 > 0 的例子
y
y = (β0 + δ0) + β1x
d=1 slope = β1 d=0
δ0
{
} β0
y = β0 + β1x
x
从多个数值的类型变量到虚拟变量
• 我们可以用虚拟变量来控制有多种类型因素 • 假设样本中的个人是中学辍学或者仅仅中学毕业 或者大学毕业 • 现在要拿仅仅中学毕业和大学毕业的人和中学辍 学的人比较 • 定义hsgrad = 1 如果仅仅是中学毕业, 0 其它情 况; colgrad = 1 如果大学毕业, 0 其它情况
在项目评估中的注意之处
• 当我们考查一个项目的影响时,我们常会 用到虚拟变量 • 例如,我们会遇到一些接受过工作培训或 福利项目的人的数据,等等 • 需要记住的是:通常个人会对是否参与某 个项目做出选择的,这样就可能存在自选 择的问题
自选择的问题
• 如果我们能够控制住所有与是否参加项目 以及相应结果相关的因素,那么自选择也 就不是一个问题 • 但是,通常存在一些不可观察的因素与参 与行为相关 • 在这种情况下,项目效果的估计就是有偏 的,我们也不应该在此基础上进行政策的 制定!
作业:pp241-244 7.3 7.5 7.6
多个数值的类型变量(续)
• 任何类型变量都可以变成一组虚拟变量 • 因为参照组由常数项表示了, 那么如果一共 有n 个类型,就应该由n – 1 虚拟变量 • 如果有太多的类型,通常应该对其进行分 组 • 例:前10 , 11 – 25, 等
虚拟变量之间的交叉项
• 求虚拟变量的交叉项就相当于对样本进行进一 步分组 • 例:有男性(male)的虚拟变量和hsgrad (仅仅中学毕业) 和 colgrad (大学毕业)的 虚拟变量 • 加入 male*hsgrad 和 male*colgrad, 共有五个 虚拟变量 –> 共有六种类型 • 参照组是女性中学辍学的人 • 此时hsgrad 代表女性仅仅中学毕业者, colgrad 表示女性大学毕业者 • 交叉项表示男性仅仅中学毕业者和男性大学毕 业者
线性概率模型
• 当y 为二元变量时:P(y = 1|x) = E(y|x), 我 们可以将模型设为 • P(y = 1|x) = β0 + β1x1 + … + βkxk • 因此, βj 应该解释成xj 的变化对成功(y = 1)概率的 影响 • y 的预测值就是成功概率的预测值 • 潜在问题是概率的预测值可能会在 [0,1]之 外
事实上是经济过程检验
• 做模型回归时我们假设所有的样本观测值 都来自同一个总体,如果总体发生改变, 那么模型参数也将发生改变,因此检验总 体也就是经济过程是否发生改变是用计量 进行经济研究的主要步骤。或者是在进行 经济计量研究时必须考虑的一个重要步 骤。其具体方法是:
• 假设我们在1到n个时期研究经济的结构关系,得到如 下的回归模型: Y=b0+b1X1+b2X2+…+bkXk+e 在第q期(1<q < n)曾出台一个经济政策,为检验该 经济政策是否影响我们所研究的经济结构可作如下检 验: 1、用1到q个观测值对模型进行回归,得到回归残差的平 方和,记为ESS1;用q+1到n个观测值对模型进行回 归,得到回归残差平方和,记为ESS2,并令 ESSUR= ESS1+ ESS2。 2、用1到n个观测值对模型进行回归,得到回归残差平方 和,记为ESSR,这可用下面的F统计量检验在k时期出 台的经济政策是否导致经济结构变化: ( ESS R − ESSUR ) / k F ( k , n − 2k ) = ESSUR /(n − 2k )
线性概率模型(续)
• 即使概率的预测值在 [0,1] 范围内, 我们也可能估 计出x 的变化对成功概率的影响大于+1 或者小于 –1, 因此最好用x 均值附近的变化 • 此外,该模型的扰动项不满足同方差的假设,因 此会对检验产生影响 • 虽然有以上不足,线性概率模型还是可以在y 为 二元变量的情况下作为初步的模型来使用
虚拟变量
• 虚拟变量就是取 1 或者 0 的变量 • 例:male (= 1 若为男性, 0 其它情况), south (= 1 若在南方, 0 其它情况), 等. • 虚拟变量也叫二元变量
一个独立的虚拟变量
• 考虑一个包括一个连续变量(x)和一个虚拟 变量(d)的模型 • y = β0 + δ0d + β1x + u • 这可以解释成截距项的变化 • 若 d = 0, 那么 y = β0 + β1x + u • 若 d = 1, 那么 y = (β0 + δ0) + β1x + u • d = 0 的样本是参照组
其它变量与虚拟变量的交叉项
• 也可以考虑虚拟变量 d 和连续变量 x 之间 的交叉项 • y = β0 + δ1d + β1x + δ2d*x + u • 若 d = 0, 那么 y = β0 + β1x + u • 若 d = 1, 那么 y = (β0 + δ1) + (β1+ δ2) x + u • 这里的两种情况可以看成是斜率的变化
第七章 多元回归分析 ——虚拟Hale Waihona Puke Baidu量
• • • • • • • • • • 模型 y = β0 + β1x1 + β2x2 + . . . βkxk + u 虚拟变量 表示两个类型的虚拟变量 表示多个类型的虚拟变量 虚拟变量之间的交叉项 虚拟变量和连续变量的交叉项 Chow检验 线性概率模型 项目评估和自选择偏差
相关文档
最新文档