2自变量的选择

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• (3)逐步选取法 • 是结合向前和向后选取法而成的。 • 开始时一向前选取法进入一个变量,而后 每当选入一个新变量后,就利用向后法试 试看在模型中已存在的变量有无偏F值小于 门槛的变量,若有,则将其排除之外,接 着再进行向前选取,若无,则继续向前选 取,这样向前向后选取法轮流使用,直到 没有变量可进来,也没有变量会被去除。
自变量选择中最常见的问题
-----------存在共线性时的处理方法
——引起解释变量共线性的原因
对多重共线性本质的认识,至少可从以下几方面理解: 由变量之间的性质引起的。
y 0 1 x1 2 x 2 3 x3 其中 : y _ 税收额, x 2 _ 增加值, x1 _ 总产值 x3 _ 税率
• 可以看出,主成分回归分析解决多重共线性问题是通过求 特征值和特征向量达到降维来实现的,因为在降维前,指标 之间的多重共线性可能是由于某个指标或者少数指标所包
含的信息与其他指标所包含的信息之间的相关性引起的,
通过降维的处理我们提取了主成分,就像是把指标体系所 包含的信息分了类,某一大类由一个主成分来表现,这样就
消除了产生多重共线性问题的根源———信息的交迭。

主成分回归分析虽然比较好地解决了多重共线性问题, 但仍存在很多不足之处,比如:主成分的实际含义不明确, 主成分与因变量之间的关系不很直接,估计出的参数是有 偏的等等。
解决共线性方法
2.从模型形式上思考引出的变量转换法。 变量转换的主要形式有如下两种: (1)差分形式
假定设定模型为 : y t 0 1 x t1 2 x t 2 t 若x1与x 2是共线性的, 那么可以作如下改变 y t 1 xt1 2 xt 2 t x1和x 2就不会像原来两变量间 的高度相关了.
• 合并截面数据与时间序列数据
• 这种方法属于约束最小二乘法(RLS)。
其基本思想是,先由截面数据求出一个或多个回归系数 的估计值,再把它们代入原模型中,通过用因变量与上 述估计值所对应的解释变量相减从而得到新的因变量,
然后建立新因变量对那些保留解释变量的回归模型,并
利用时间序列样本估计回归系数。
• 由于把估计过程分作两步,从而避免了多
重共线性问题。显然这种估计方法默认了
一种假设,即相对于时间序列数据各个时
期截面数据所对应的收入弹性系数估计值
都与第一步求到的 相同。当这种假设不成
立时,这种估计方法会带来估计误差。
解决共线性方法
4.从数据上思考引出的板块数据法、增加样本容量法和剔除影响 点法
• (3)如果新加入的解释变量不仅改变了R2的值,而且同时也
显著地影响其他系数的符号或大小,以至于使某些系数达 到不能接受的程度,那么,可以断言产生了严重的多重共线 性。这个新的解释变量也可能是重要的,但由于它与其他 解释变量之间存在线性相关关系,普通最小二乘法失效。 需要特别注意的是,这时不能盲目略去这类变量,否则,可 能造成扰动项与解释变量相关。
但这种变换也会出现新的问题:第一,即使上式中的随机扰动项不存在 序列相关,差分后的随机扰动项也可能存在序列相关。第二,差分变换导 致丢失一个观测值,在小样本情况下,就不能不考虑自由度损失问题,另 外还需要注意,差分变换不适用于截面数据。
解决共线性方法
2.从模型形式上思考引出的变量转换法。 变量转换的主要形式有如下两种: ( 2)
E (Y ) 0 1 X 1 2 X 2
E (Y ) 0 1 X 1 2 X 2
• 其中,Y表示通货膨胀率(%); • X1表示失业率(%); • X2表示预期通货膨胀率(%)。 • 统计资料估计的回归模型,计算机输出结 果如下
自变量的选择
• • • • • • (一)确定自变量的原则 原则: 准则:有效性,独立性,边际贡献 (二)确定自变量的步骤 (三)自变量筛选的方法
假定设定模型为 : ln yt 0 1 ln P 2 ln pw 3 ln Qw t y表示我国某种产品出口 总量 QW 表示世界该产品出口总 量 P表示我国该产品出口价 格, PW 表示世界该产品出口价 格 ln p与 ln Pw是共线性的, 可以把相对价格作为解 释变量 ln yt 0 1 ln P ln Qw t PW
• 1. 所有回归式的比较选取法 • ( R2最大,MSE最小)
2. 分步回归法 包括 (1)向前选取法 (2)向后选取法 (3)逐步选取法
(1)向前法
• 是选取进入模型的解释变量越选越多,每一步都 是选取剩余解释能力最强的一个变量进入模型, 但其解释能力必须要通过事前定好的门槛(如 • 显著性水平为0.05)。 • 第一步,开始时模式中没有任何变量,接着第一 步在所有变量中选取对Y最有解释能力的进入模 型,其选取方式是找F值最大的。 • 第二步,选取除了上面进入模型的X之外的剩余 变量中偏F最大,且通过门槛者。。。。
析中较有影响的估计方法。

主成分分析的核心思想就是通过降维,把多个指标化 为少数几个综合指标,而尽量不改变指标体系对因变量的 解释程度。 主成分的提取分5个步骤:
1、为了使结果不受量纲的影响,先把原始数据进行标准化。
2、求出标准化数据的相关系数矩阵、协方差。
3、导出相关系数矩阵的特征值和特征向量。 4、最大的特征值对应的特征向量即为第一主成分的系数,第 二大的特征值对应的特征向量即为第二主成分的系数,以此 类推。取几个主成分取决于主成分对因变量的解释程度。如 果前i个特征值之和与所有特征值之和的比达到一定的程度 比如80%时,就可以认为这些主成分就能代替所有的自变量体 系。 5、用主成分对因变量进行普通最小二乘法即可得出各个主 成分对因变量的解释程度。
解决共线性的方法
1.从变量上思考引出的去除不重要解释变量的方法。 去掉不重要的解释变量虽然可以削弱共线性,却容易导 致模型设定误差,因此有时会出现两难选择:
若共线性存在,不能有效地估计模型中的参数,若去掉
有关解释变量,又会错误地估计参数的真实数值。
• 直接合并解释变量 • 当模型中存在多重共线性时,在不失去实际意义 的前提下,可以把有关的解释变量直接合并,从 而降低或消除多重共线性。 • 如果研究的目的是预测全国货运量,那么可以把 重工业总产值和轻工业总产值合并为工业总产值, 从而使模型中的解释变量个数减少到两个以消除 多重共线性。甚至还可以与农业总产值合并,变 为工农业总产值。解释变量变成了一个,自然消 除了多重共线性。
假定设定设定模型 lnyt β 0 β1lnP β 2 lnpw β 3lnQw ε t y表示我国某种示我国某总量 Q W 表示世界该示世界该产量 P表示我国该示我国该产格, PW 表示世界该示世界该产格 lnp与lnPw 是共线
解决共线性方法
2.从模型形式上思考引出的变量转换法。 变量转换的主要形式有如下两种: (2)变量比形式
这种方法适用于截面数据,但经过这种变换后将无法研究lnP和lnPW各 自的变化对被解释变量lny 的影响,而且要保证所构造的变量比具有明确 的经济意义,否则不能进行变量比变换。
解决共线性方法
3.从先验信息上思考引出的约束法。
假定生产函数模型 y AL K e 对上式两变取对数得: ln y ln A ln L ln K K与L高度相关, 若已知该生产系统是规 模报酬不变, 则利用这一约束条件将 模型变为: y L ln ln A ln K K
剔除多重共线性的影响点法是指经过诊断后假定样本点为影响点,从原样本中剔 除第i个样本点,可以减轻共线性程度。 这种方法的问题是诊断出的这个样本点是否应该剔除,这里需特别指出的是,当 没有真正弄清楚样本点形成机制之前,不能轻易剔除,因为影响点的形成可能是随 机因素,也可能是经济机制变化,当后者发生时,无论影响点的剔除对减轻多重共 线性的作用有多大,也不能剔除。
板块数据法就是把截面数据与时序数据结合起来的方法。
采用这种方法隐含着一个假定,即从截面数据中估计的参数与从时序数据中估计 的参数是相等的,因此它仅适用于从一个截面到另一个截面数据、估计值相对稳定 的情况。
剔除多重共线性的影响点法是指经过诊断后假定样本点为影响点,从原样本中剔 除第i个样本点,可以减轻共线性程度。 这种方法的问题是诊断出的这个样本点是否应该剔除,这里需特别指出的是,当 没有真正弄清楚样本点形成机制之前,不能轻易剔除,因为影响点的形成可能是随 机因素,也可能是经济机制变化,当后者发生时,无论影响点的剔除对减轻多重共 线性的作用有多大,也不能剔除。
解决共线性方法
5.从估计方法上思考引出估计量
如有偏估计
所谓有偏估计法是指参数估计量是有偏的,但估计量的均 方误差比采取OLS法估计的无偏估计量的均方误差小,即以 偏误为代价来提高估计量的准确性。
主成分回归分析
• 1993年由Hotelling提出了主成分分析的方法,之后 W.F.Massy于1965年根据主成分分析的思想提出了主成分 回归。如今主成分回归方法已经被广泛采用,成为回归分
总量变量相关,增量之间、人均量之间无关。
y t 0 xt 1 xt 1 2 y t 1 式中, xt 和xt 1高度相关, 0和 1的估计可能会很不准确 因此, 将其右端减加 0 xt 1得 y t 0 xt xt 1 2 y t 1 差分变量与水平变量接 近不相关
自变量的选择
自变量的选择
• 回归方程中的变量过多,会使资料的搜集、 系统的运作及模型的解释都会遇到困难, 如何将模型精简而又能有很好的解释能力 是回归分析面对的重要问题。
• 为分析自变量选择失当而出现的后果,我 们首先举一例分析。例如,分析通货膨胀 时,我们考虑失业率与预期通货膨胀率是 影响通货膨胀的主要因素,若其正确的模 型形式是二元线性回归模型,即:
如:F1|4 F ( x1 | x4 ) MSR( x1 | x4 )
MSE( x1 , x4 ) SSE( x4 ) SSE( x1 , x4 ) MSE( x1 , x4 )
• (2)向后选取法 • 与向前选取法相反,在一开始时是所有变 量都放在模型中,然后再将解释能力差的 变量一一去掉,直到所有放在模型中的变 量其偏F 值都大于预设的门槛。 • 第一步,先计算所有偏F值,去掉最小且小 于门槛值的变量。
• 逐步分析估计检验法
这种方法首先计算因变量对每个解释变量的回归方程, 得到基本回归方程。再根据理论上、逻辑上的分析,参考
其他先验信息以及统计检验的结果来分析这些基本回归方 程,从中选出最合理的基本回归方程。然后在这个选定的 基本回归方程中增加新的解释变量,并根据统计分析作如 下分类判。
• (1)如果新加入的解释变量改进了R2,且每个系数又是统计 上显著的,那么就认为这个新变量是有用的,应该保留。 • (2)如果新加入的解释变量未能改进R2,对其他系数值也没 有影响,则认为新变量是多余的,应予以舍弃。
这时,不管数据以什么形式取得,数据取样是大 是小,都会出现X2与X1高度相关
——引起解释变量共线性的原因
数据问题引起的(多重共线数据点) 指即使使总体诸解释变量没有线性关系,但在 具体样本中仍可能有线性关系。 情况一:当样本容量很小时。 情况二:若建模所用的解释变量是时序变量
——引起解释变量共线性的原因
采取约束法的关键是先验信息如何获取。通常可依据经济理论和实 际分析获得,当然也可以提出约束,并进行约束检验,当约束检验通过 后再采用约束法。
解决共线性方法
4.从数据上思考引出的板块数据法、增加样本容量法和剔除影响 点法
板块数据法就是把截面数据与时序数据结合起来的方法。
采用这种方法隐含着一个假定,即从截面数据中估计的参数与从时序数据中估计 的参数是相等的,因此它仅适用于从一个截面到另一个截面数据、估计值相对稳定 的情况。
相关文档
最新文档