优势分析:在多元回归中比较预测因子相对重要性的新方法-PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

即把各自变量的标准化回归系数平方中与要考察 变量相关的部分提出来相加,即乘以其与要考 察自变量之间的相关系数。
上述方法的缺陷 1、对于重要性的定义过于狭窄、模糊甚至有问 题,限制过于严格,与人们实际应用相距太远。 2、不同定义之间难以相容,无法比较、交流研 究结果,甚至根据不同的定义得出结论完全不 同。 3、很高的模型依赖性,在不同的子模型中得出 相对重要性的结论可能完全不一样,所以重要 性的检验应该在全模型和子模型中结论一致。 4、重要性的比较应该是“净”的,如果变量之 间高度相关,根本不可分,更无法比较分离出 的重要性,那么此时重要性的比较就没有任何 意义,所以应该首先区分可以比较和不能比较 相对重要性的模型。



1、将自变量与因变量的零次相关 或平 方相关 作为评判自变量重要性的标准。 其对重要性的定义为一个自变量独特、 直接的预测能力,忽略模型中其他所有 的自变量。 2、由于不恰当地确定模型,无论是遗漏 了重要的自变量,或者将不重要的自变 量纳入到了模型中都会导致,模型的失 真,所以应该认为,能够纳入到一个恰 当模型中的所有自变量都是同等重要的。


3、自变量的重要性应为某个自变量在控 制其他变量不变的情况下其对于完整模 型的贡献: 3.1增溢法:考察控制其他变量情况下, 某自变量变化一个单位,导致因变量变 化的比例。例如以某自变量的回归系数 与其数学期望乘积的绝对值作为检验标 准。形象的理解为自变量的弹性。
3.2方差法:在控制其他变量的情况下,比较 各自变量对于因变量方差贡献的大小 3.2.1由方差的可加性得:

即所有自变量对因变量的贡献可以分解为各个自 变量在控制其他自变量情况下对模型贡献,这 样的分解式有 个,而某个自变量的重要性即 为在 个分解式中它的贡献的平均值。 EG
3.2.2某自变量的重要性即为其它对因变量的直接 效应(与因变量的相关系数)与总效应(标准 回归系数)的乘积。
3.2.3某自变量的重要性可量化为其与因变量的相 关的平方,由于自变量之间的相关,所以:
数据实例:
BACK
计算和样本理论 根据优势方程的定义,对于要进行优势分析的每一对变量, 每一个变量都需要和其他许多偏模型进行多元相关系数平方的 比较。如果要包括所有的子模型,则一个变量要进行p(p-1)/2 个配对比较。因此,计算一次优势分析必须先计算出2p-1个 多元相关系数平方值。 让 p 表示所有子集的多元相关系数平方的(2p-1)× 1 向量,让 Aij 表示在进行 xi 和 xj 的对比时,与其有关进行对照 的2p-2个模型的(2p-2)×(2p -1)矩阵。 Δ ij= Aij p , Δ ij就是包括所有有关差异的一个(2p-1) × 1向量。
接着,我们再来看一个p=4的例子,用取得博士以后的年 限(x1) 、出版著作的多少(x2) 、性别(x3)和被引 用的频率(x4)来预测薪水(y) :
从表7和表8来看,我们可以得出:
由简单的相关系数我们可以得出:pyx1> pyx4 > pyx2 > pyx3 根据标准回归系数的排序我们可以得出: b1> b4 > b3 > b2 根据变量的有效性我们可以得出:U(x4)> U(x1)>U(x3)> U(x2)
优势分析:在多元回归中比较 预测因子相对重要性的新方法
在使用多元回归的过程中,研究者不仅要得 出一个包含多个自变量的回归等式,而且要 指出哪个自变量相对来说是最重要的,这样 的结果实际应用中才更有意义。 在理想的情况下,各个自变量之间没有相关 (或者相关极小),那么 , 因为各个回归系数都是标准化的,其相对重要 性就是标准化回归系数的平方。 大多数情况下,各个自变量之间存在着不可 忽略的相关,这个时候重要性的比较就不能 简单地从标准化回归系数得出。对此,不同
优势分析的量化: 由两个自变量的比较推广到所有自变量的 同时比较时, 是除自身外的其他所有p1个变量构成的所有子集(包括空集),

表示在由k(0<=k<=p-1)个自变量构成 时,该自变量的单独贡献的平均值。将 其累加求平均数,即该自变量在所有子 模型下的贡献平均值。

EG:当有3个自变量时:


优势分析的质的定义 优势是成对的关系,如果全模型包括p个自 变量,那么就有p(p-1)/2对优势的比较; 确定 和 优势关系的充分必要条件是:

代表除要比较的两个自变量之外的 其他自变量所构成的任何子集(包括空 百度文库)。

优势分析定义的变式:

一个变量比另一个变量重要即它在任何子模型 中对因变量的预测能力都大于另一个。

比较相对重要性应遵循的原则: 1、重要性应定义为自变量在预测因变量时 对于减少误差的贡献。 2、应该能够对自变量的相对重要性作直接 比较而非推断比较。 3、重要性应该能够反映直接效应(自变量 的单独效应)、总效应( 纳入其他所有 变量)、偏效应(纳入其他部分变量), 即要求重要性的结论在全模型与子模型 中保持一致。
表:样本中的相关矩阵和多元回归系数平方值的 向量。
表6呈现了三对预测变量相比较的95%渐进置信区间值。判断的标准是 如果某对相比较差值的置信区间的下限都为非负的,那么xi D xj ;如 果某对比较的置信区间的上限都为非正的,那么和 xj D xi ,如果某对 比较的置信区间跨过零点,那么它们的优势关系无法确定。
表4表示的是一个p=3的例子的计算。这个表呈现了向量p, 三个矩阵的比较, A12、A13和 A23,即分别比较了x1和 x2、x1和 x3 、x2和 x3 ,以及向量Δ 12 、Δ 13 、 Δ 23之间的不同。
对于小样本模型还没有很好的精简的推理方法,只有一个 近似的解决方法,即去“jacknife”那个估计值。这种方法大致过 程是:每次都忽略一个观测值,这样我们就可以得到n个对所有 相关的多元相关系数平方值的伪独立估计,通过对方差——协 方差矩阵的估计,我们就可以得到近似的置信区间。 对大样本进行优势分析,我们可以用一个例子来说明。我 们用社会经济地位(SES)、IQ和成就动机(nAch)来预测大学 的GPA成绩。如图:
相关文档
最新文档