多重共线性变量的回归系数估计及检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

与致病因素的关系。通过初步的变 量筛选后, 确定感兴趣因素
如下
T : 生存时间( 从开始暴露到确诊为肺癌) x 1: 粉尘累积暴露剂量 x 2: 氡子体累积暴露剂量 x 3: 砷累积暴露剂量 x 4: 吸烟总量 x 5: 首次暴露的年龄 x 1, x 2, x 3, x 4, x 5 中仅 x1, x 2, x 3 具有很强 的相关性, 相关系 数分 别 为 ( x 1, x2 ) = 0. 5357, ( x 1, x 3) = 0. 7760, ( x 2, x 3) = 0. 7020, 直 接分析的结果
主成分方法能有效处理多因素分析 中的共线性问题, 在信
息损失较少的前提下, 由原变量综合成彼此独立数目较少的主
成分, 以主成分代替原变量进行模型拟合。它使彼此相关的变
量彼此独立, 且信息损失较少, 但是, 主成分方法无法确定原变
量作用是否显著。本文就此提出完善的办法。以 COX 模型为 例说明我们的方法。本方法完全适用于多元线性模型及其它广
z2,
……,
zr
的回归系数估计
∧1,
∧ 2
,
……,
∧ r
,
拟合的模型为
( t , z) =
0( t)
exp
(
z
1
∧ 1
+
z
2
∧ 2
+
…… +
Байду номын сангаас
z
∧ rr
)
( 2)
其中 ( t, z) 表自变量为 z 时 t 时刻的风险 函数, 0( t) 为非负基
础风险函数。

(
1)
式代入
(
2)
,

们得
到原
变量
回归
系数
讨 论 ( 1) 将高度 相关的变量 分开分析, 可以确 定每个变 量影响是否显著, 但它本质上是在有共线关系的变量中选择一 个, 去掉其余相关变量, 这种作法损 失很多信息, 模型对实际数 据的 拟合程度相 当有限, 如果模型 用于预测 预报, 不 能保证有 良好的预测效果。但将高度相关的变量不加任何处理同时进入 模型, 会出现 不合理的 结果, 使 原来有显 著意义的变 量不再有 意 义, 目 前常用 的共 线性 变量处 理方 法有主 成分 及岭回 归方 法, 岭回归只适用于多元线性模型。( 2) 本文完善了主成分方法 在共线性数据中的应用, 通常的主成分方法可使彼此相关的变 量彼 此独立, 且信息损 失较少, 但无法确 定原变量影 响是否显 著。本文在原主成分方法基础上, 给出确定原变量是否有影响 的检 验方法, 得到基于 原变量的合 理的模型 拟合, 该 模型与共 线性变量分开分析的结果 一致。( 3) 本方法适用于所有的线性 模 型, 包括传 统的 多元线 性模 型及 其它 广义 线性 模型, 如 lo gistic 回归, po isson 回归。( 4) 本方法的计算可由现有的统计软 件完成, 如 SA S, SPSS, S-P LU S。

i=
0 的 w ald 检验。事实上,
由( 4) , ( 5) 式可以确定 i 的方差

va r( i) =
lTi ∧ li =

1 ij1ik jk
( 6)
jk
因为, i= 0 的 w ald 检验统 计量为


i = i/ v ar ( i)
( 7)
若原 自变 量 x 1, x 2, ……, x p 中仅 部分 变量有 线性 依存关
系数的检验, 最后模型 5 的结果转化为
co ef
se( coef)
p
x 1: - 0. 0001557 0. 0001466 - 1. 062 0. 289
x 2:
0. 0003114 0. 0001016 3. 065 0. 002
x 3:
0. 0003448 0. 0001079 3. 195 0. 0015
se( coef ) 0. 000158 0. 000108
2. 55 2. 40
p 0. 011 0. 016
— 132 —
中国公共卫生 1999 年第 15 卷第 2 期
( x 5- 20) 2 0. 003734 0. 000707 5. 28 1. 3e-007
由 模型 2, 3, 4 的结果, 因素 x 2, x 3 有显著的致癌作用。模型 1 的 不合理及 与模型 3, 4 的 矛盾都是由 x1 , x 2, x 3 的高度 相关引起 的。为此, 我们对自变量 x 1, x 2, x 3 作主成分分 析, 结果如下
p 0. 3100 0. 1400 0. 1600 0. 0029 0. 0000
x 1, x 2, x3 都不显著, 上述 模型的拟合结果很 难解释当地的癌症 高发, 事实上, 有关研究已证实氡子 体、砷是该矿癌症高发的主 要原因。上述结果与将 x 1, x 2, x 3 分开分析的结果也矛盾, 下面 是将 x 1, x2 , x 3 分开分析的结果
x 4:
0. 000303 0. 000102 2. 98 0. 0029
( x 5- 20) 2 : 0. 00699 0. 000464 15. 07 0. 0000
砷, 氡子体, 吸烟及首次暴露的年龄 都有显著性, 其结果与有关 流行病学及生物学证据相 当吻合并且与模型 3, 4 的结果一致。
关系, 这种线 性依存关系 常导致模 型拟合上的 矛盾及不合 理,
比如, 多因素 分析与单因 素分析的 结果相互矛 盾, 在 单因素分
析中某 因素为致 病因子, 而在多因 素分析中为 非影响因子 ; 多
因素分析结果与实际情况相差悬殊, 甚至出现与实际情况相反
的结果, 难以对所建模型给予符合实际的解释。
中国公共卫生 1999 年第 15 卷第 2 期
— 131 —
多重共线性变量的回归系数估计及检验*
华西医科大学卫生统计教研室 成都( 610041) 林华珍 倪宗瓒
在 变量筛选 及参数估计 中, 都 要求各变量 相互独立, 但在 很多应 用研究中, 自变量 间不独立, 相互间 有一定的 线性依存
z2 - 0. 000449
x 4
0. 000303
( x 5- 20) 2 0. 00699
se ( coef) 0. 000115 0. 000174 0. 000102 0. 000464
p 1. 71 0. 087 - 2. 58 0. 0099 2. 98 0. 0029 15. 07 0. 0000
(
∧ 1
,
∧2,
……,
∧ r
)
。通常的主成分方
法通 过拟合的模型( 2) , 可以检 验各主成 分 z1, z2, ……, zr 的影
响, 但不能确定原变量的影响, 事实上, 确定原变量是否有影响
正是我们分析数据的目的。为此我们在上述分析基础上给出原
变量回归系数 = ( 1 , 2, ……, p ) 的检验。
内蒙古卫生防疫站( 呼和浩特 010020) 王桂珍 齐秀梅 内蒙古医学院 杨丽敏
本文于 1996 年 9 月至 1998 年 3 月 对内蒙 古自治 区流行 性感冒监测点进行了流感病原学和血清 学监测, 结果如下。
材料 与方法 病 毒分离标 本采集于医 院儿科门 诊疑似流 感患者 咽试子及 含漱液; 血清采自 呼市、乌 海和锡盟 监测点各 年 龄组人 群共 1684 份, 于每年 流感流 行前( 9 月) 和流感 流行 后( 3 月) 采 集。 病原 分 离 和 血清 监 测 实 验方 法 参 照 文献 方 法〔1〕。
( 8)
z2 = 0. 661x 1 - 0. 566x 2 - 0. 493x 3
( 9)
原变量 x 1, x 2, x 3 综合 成主成分 z1, z2, 以 z1, z2 及 非构成主成分
的 x 4, x 5 为自变量拟合 COX 模型, 得拟合结 果及拟合模型
模型 5
co ef
z1
0. 000196
由常
用的统计软件我们
可以得到(
∧1,
∧ 2
,
………,
∧ r)
的协

方差矩阵
var (
∧1)
cov (
∧1,
∧2)
……cov (
∧ 1
,
∧ r
)

=
……
cov (
∧ r
,
∧ 1
)
cov (
∧ r
,
∧ 2
)
……var
(

r)
∧ 11
∧ 12
……∧1r
……
( 5)
∧ r1
∧ r2
……∧rr
由 极大似 然估计 的性质,
模型 1
co ef
x1 - 0. 000150
x2
0. 000382
x3
0. 000291
x4
0. 000303
( x5 - 20) 2 0. 006993
se( coef ) 0. 000147 0. 000257 0. 000209 0. 000102 0. 000465
- 1. 02 1. 49 1. 39 2. 98 15. 05
模型 2 x1 x4 ( x5 - 20) 2
co ef 0. 0000438 0. 0002581 0. 0036957
se( coef ) 0. 000129 0. 000107 0. 000704
0. 34 2. 42 5. 25
p 0. 73 0. 016 1. 5e-007
模型 3 x2 x4 ( x5 - 20) 2
标准差 累积贡献率
z1 698. 6415
0. 8299
z2 262. 8124 0. 9473
z3 176. 0869
1. 0000
由累积贡 献率, 我们取前两 个主成分 z1, z2, 与 原变量 x 1, x 2, x 3 的关系为
z1 = 0. 72x 1 + 0. 292x 2 + 0. 63x 3
结 果 ( 1) 疫情 监测: 1996 年内蒙 古地 区流 感 流行 从 10 月下 旬开始 至 1997 年 2 月 平息, 1996 年 11 月至 翌年元 月为 高峰 期, 流 行期各年龄 组均有发病 , 以老 年组表 现严重。1997 年流 感流行较往 年晚 1 个月 左右, 1997 年 12 月下旬 至翌年 2 月末为高峰期, 此次流行以 10 岁以下儿童发病为主, 流行高峰 期小学部分班级缺课严重。( 2) 病原监测: 1997 年 9 月至 1998 年 3 月采集疑似流感标本 238 份进行了病原分离, 分离阳性标 本 54 份, 分离率为 22. 69% 。其中甲1 型 50 株, 乙型 4 株。( 3) 血清 抗体监 测: 1996~1997 年 的结果 表明, 人群中 甲1 型 抗体 流 行前、后均 为最低 64. 00% / 68. 8% ; 甲3 型 抗体 流行前 较低 为 69. 33% , 流行后明 显升高为 89. 07% 。1997~1998 年的结 果表 明, 流行 后甲1 型 抗体最高 81. 67% , 甲3 型 最低 64. 31% , 乙型抗体波动不大 65. 44% / 73. 00% 。各年龄组抗体检测结果
义线性模型, 现介绍如下。
原 理与方 法 首先求 自变 量 x 1, x 2……, x p 的主 成分 z1,
z2, ……, zr ( r < p)
zj= 1ijxi j= 1, 2, ……, r
( 1)
i
由于 各主成 分 z1, z2, ……zY, 间相 关系数 为 0, 我们以 z1,
z2, ……, zr 为自 变量, 用通 常的 CO X 模型 估计 方法, 得到 z1,
co ef 0. 000510 0. 000251 0. 003775
se( coef ) 0. 000193 0. 000107 0. 000707
2. 64 2. 36 5. 34
p 0. 0083 0. 018 9. 3e-008
模型 4 x3 x4
co ef 0. 000404 0. 000260
的估


=
∧∧

( 1, 2 , ……, p)



( t, z) = 0 ( t) ex p( x 1 1 + x 2 2 + … … + x p p) ( 3)
其中

i=
l
T i
∧=
1i
1
∧ 1
+
1i2
∧ 2
+
…+
1ir
∧ r
i
=
1, 2, … …, p
( 4)
l
T i
=
( 1i1, 1i2, ……, 1ir ) , ∧ T =
系, 则对有 线性依存关 系的变量 进行主成分 分析, 再将主成分
与其余非构 成主 成分 的变 量一 起建 立拟 合模 型, 最后 由( 4) ,
( 5) , ( 6) , ( 7) 得到原自变量回 归系数的估计及检验。
应用实例 本研究来 源于某矿, 用队列研究方法前瞻观察
若干年。共调查 7044 人。研究的目的是确定高危人群癌症发病
∧T =
(

1,

2,

…,
∧ r
)
渐 近服从 均值
为( 1, 2, ……, r ) , 协方差为 ∧的正态分布。
* 国家自然科学基金资助项目
∧=
(
∧1,
∧ 2
,
……,
∧ r
)





态分
布,

=

( 1,

2,
……,

p)

∧的线性函数,
因此
∧也渐近地服从正态分
布。只要
得到
∧ i
的方差,
我们就可以求得
1. 517e- 009 3. 030e- 008
由 ( 8) , ( 9) 确定 1ij, i= 1, 2, 3, j= 1, 2, 代入 ( 4) , 得 到原自 变量
x 1, x 2, x 3 回归系数的估计, 再由( 6) , ( 7) 式, 得到 x 1, x 2, x 3 回归
内蒙地区流行性感冒监测分析
( t , z) = 0( t) ex p( 0. 000196z1- 0. 000449z2
+ 0. 000303x 4+ 0. 00699( x 5- 20) 2 )
( 10)
同时得到
z1,
z2
回归系数(

1,

2)

协方差矩阵
∧ 1. 313e- 008 1. 517e- 009
=
( 11)
相关文档
最新文档