MPH多因素分析方法简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多因素(多变量数据)的统计分析介绍
一、多因素分析
1.研究问题的需要:同时考虑多个因素
2.控制混杂因素
二、单因素分析与多因素分析的关系
1.单因素分析往往需要依据良好的实验设计,组间均衡可比。

但也因此限制了结论的泛化。

2.多因素分析有时是研究工作的需要:
⏹因为对于一些问题需要多个指标来反映;
⏹有时候在设计阶段无法通过设计来平衡混杂因素,需要采
用多因素的分析方法来加以控制或调整。

3.方法选择时要紧密结合专业和研究问题,选择合适的统计方法,以清晰的说明问题为准绳。

4.多因素分析时,专业知识、背景信息以及研究问题本身是至关重要的。

三、常用的多因素分析方法
1.析因、正交、协方差和重复测量(多因素ANOVA)
2.多元线性回归分析
3.非条件Logistic回归分析
4.主成分析
5.判别分析
6.聚类分析
7.主成分分析与因子分析
四、常用的模型
1.广义线性模型(general liner model)
单反应变量(univariate)/ 多反应变量(multivariate)
/ 重复测量(repeated measures)(基于方差分析)2.回归分析(线性回归,Logistic回归,Cox回归)
3.生存分析(survival)
4.聚类分析(classify)等
五、多变量数据类型
1.观察对象同时记录多个反应变量
2.观察对象记录一个反应变量和多个解释变量
例1:不同组生长发育情况
第一组第二组
编号身高体重编号身高体重
1 184.9 85 1 168.7 62
2 167.9 65 2 170.8 61
3 171 70 3 165 50
4 171 69 4 169.7 55
5 188 87 5 171.5 66
6 179 80 6 166.5 52
7 177 66 7 165 53
8 179.5 82 8 165 54
9 187 84 9 173 64
10 187 88 10 169 66
11 169 65 11 173.8 64
12 188 86 12 174 65
13 176.7 70 13 170.5 66
14 179 77 14 176 69
15 183 81 15 169.5 61
16 180.5 83 16 176.3 68
17 179 79 17 163 52
18 178 80 18 172.5 59
19 164 65 19 177 64
20 174 83 20 173 65
在这种情况下同时分析多个反应变量,它们要共同说明某个研究问题,如生长发育,某个健康状态(血脂)等
西安交通大学医学院MPH《医学统计学》
例2:儿童生长发育与其他相关因素的数据
Database from the survey in Tibet on nutritional status of younger children,1999
A B C D E F G .. .. .. .. .. .. Height Weight H I .. .. .. .. 日喀则拉孜查务杰地11101普拉08/16/200511..1655444.39.78313.8111日喀则拉孜查务杰地11102琼拉08/16/20051105/16/1972015363.250.812.482.59.212.71日喀则拉孜查务杰地11103卓嘎08/16/20051103/08/1975014554.148.2 6.75711.210.81日喀则拉孜查务杰地11104达瓦08/16/20051108/03/196901636860.17.95811.5101日喀则拉孜查务杰地11105德吉08/16/20051105/15/1980016266.653.513.18512.413.31日喀则拉孜查务杰地11106边巴08/16/20051109/12/1972015658.853.1 5.853.513.811.81日喀则拉孜查务杰地11107搭拉08/16/20051102/08/1974015870.860.8107311.610.31日喀则拉孜查务杰地11108次忘记拉08/16/20051109/13/1970016371.860.211.67912.111.41日喀则拉孜查务杰地11109拉拉08/16/20051111/09/198101524839.68.47311.98.41日喀则拉孜查务杰地11110普间08/16/20051109/13/1981015667.756.511.28510.39.51日喀则拉孜查务查武11201次仁08/16/20051102/17/1967016568.561.7 6.86310.313.51日喀则拉孜查务查武11202达娃08/16/20053108/13/19802...13.491..1日喀则拉孜查务查武11203索朗拉姆08/16/20051105/15/1977016075.160.414.7927.411.91日喀则拉孜查务查武11204曲吉08/16/20051102/13/1979016160.550.310.2779.39.71日喀则拉孜查务查武11205索朗卓拉08/16/20051105/15/198101655646107313.411.91
.. ..
在这种情况下常是来研究危险或相关因素,即影响反应变量的因素等。

如影响儿童生长发育的危险或积极因素
例3 在控制多个影响因素(危险因素)的条件下,分析某个因素对反应变量的影响。

High altitude and early childhood growth retardation: new evidence from Tibet
第一部分多因素试验设计的方差分析
多因素试验:多个处理因素,同时可能有多个水平,或有其他的控制变量,如协变量、配伍因素等。

析因试验
各因素各水平间的全面组合,要分析各因素的独立作用和各因素间的交互作用。

有时是寻找最佳组合。

变异分解如下:
SS T= SS A+ SS B +SS AB +SS E
MS A= SS A/ SS E
MS B= SS B/ SS E
MS AB= SS AB/ SS E
νSS MS F P
T SS T
A SS A MS A
B SS B MS B
AB SS AB MS AB
E SS E
1.2×2析因试验
2.2×3析因试验
3.利用广义线性模型中UNIVARIATE进行方差分析。

例:
为了研究药物治疗附加磁场对人体内磁性物质分布的影响,安排两个药物组:实验组为“丝裂霉素+高分子物质+磁性物质+磁场”,对照组为“丝裂霉素+高分子物质+磁性物质”。

每组分别于给药后15分钟和60分钟处死实验小鼠,检测小鼠肝脏组织的磁性物质浓度,即铁浓度(mg/g)。

2×2平衡设计
一个因素是药物,有2个水平,即实验组(A1)和对照组(A2);
一个因素为给药后时间,有2个水平,即15min(B1)和60min(B2)。

两个因素形成有4种组合,每种组合重复例数为6。

将24只小鼠随机分配到4个组合组。

小鼠肝脏组织的铁浓度(mg/g)检测结果
实验组(A1)对照组(A2)
15min(B1)60min(B2)15min(B1)60min(B2)
0.554 1.015 0.337 0.503
0.550 1.005 0.276 0.612
0.578 1.071 0.313 0.593
0.706 1.106 0.387 0.604
0.686 1.155 0.431 0.640
0.651 1.145 0.362 0.560
资料各因素和水平的合计和均数
A1A2合计
B1 3.725(0.621) 2.106(0.351) 5.831(0.486)
B2 6.497(1.083) 3.512(0.585) 10.009(0.834)
合计10.222(0.852) 5.618(0.468) 15.840(0.660)
方差分析结果
变异来源SS df MS F P
A 0.8832 1 0.8832 252.34 <0.01
B 0.7273 1 0.7273 207.80 <0.01
A×B 0.0778 1 0.0778 22.23 <0.01
误差0.0707 20 0.0035
总 1.7590 23
无论是主效应,还是交互效应,均拒绝H0,接受H1,即A因素的两个水平间、B 因素的两个水平间均有显著差异,A、B因素间存在交互效应。

正交试验
各因素间各水平的非全面组合,主要分析的是有意义的主效应和部分重要因素的交互作用,特别是一阶交互作用。

该试验的优点就是减少试验次数,但同时也就牺牲了分析各因素间的部分交互作用。

步骤如下:
1.根据研究目的确定正交表,安排试验因素:L8(27)
2.以至少一列空列(或利用重复)估计误差进行方差分析。

L8(27)
3. 广义线性模型时要在MODEL模块中定义CUSTOM,即关心的主效
应和部分交互作用,否则将是默认的全面组合。

例:
某研究者以大白鼠做试验,观察指标为细胞色素,想了解正氟醚(因素A)的作用,同时要看用生理盐水和用戊巴比妥作为诱导剂(因素B)对正氟醚的图形作用有何影响,以及不同诱导剂对不同性别(因素C)大白鼠有何作用。

L8(27)正交表和试验安排
试验号 A B A×B C A×C 空列空列细胞色素
1 1 1 1 1 1 1 1 0.66
2 1 1 1 2 2 2 2 0.23
3 1 2 2 1 1 2 2 0.11
4 1 2 2 2 2 1 1 0.13
5 2 1 2 1 2 1 2 0.64
6 2 1 2 2 1 2 1 0.95
7 2 2 1 1 2 2 1 0.15
8 2 2 1 2 1 1 2 0.12
SS T= SS A+ SS B +SS AB +SS C +SS AC +SS E
协方差分析
有混杂因素(协变量)影响着组见的比较,利用线性回归模型调整协变量的影响,调整组见协变量保持一致后比较组间均数(修正或调整均数)。

步骤:
1.专业上观察可能的协变量,估计为线性关系。

2.利用广义线性模型中UNIVARIATE进行方差分析。

分析时将协变量放在COVARIATE中(此项放连续性变量),当有多个因素时要考虑
MODEL模块中重新定义CUSTOM。

运动员大学生
身高肺活量身高肺活量
184.9 4300 168.7 3450
167.9 3850 170.8 4100
171 4100 165 3800
171 4300 169.7 3300
188 4800 171.5 3450
179 4000 166.5 3250
177 5400 165 3600
179.5 4000 165 3200
187 4800 173 3950
187 4800 169 4000
169 4500 173.8 4150
188 4780 174 3450
176.7 3700 170.5 3250
179 5250 176 4100
183 4250 169.5 3650
180.5 4800 176.3 3950
179 5000 163 3500
178 3700 172.5 3900
164 3600 177 3450
174 4050 173 3850
重复测量
不同组的研究对象在不同时间点上重复测量,如治疗前后,多次重复测量等。

由于各时间点上是固定的,不能随机分配,也就是实验单位彼此不独立,所以与随机区组设计是有区别的。

随机区组设计要求满足球对称假设,即重复测量误差的协方差矩阵经正交对比变换后与单位矩阵I4×4成比例。

分析步骤:
1.根据研究问题明确重复单位,建立分析数据库。

2.利用广义线性模型中REPEATED MEASURES模块进行分析,它可以处理一组或多组资料。

3.注意分析时的解释,如前后测量问题。

例:
有10名肥胖患者在医生指导下服用药物减肥,按统一标准记录服药前后和服药后1~4周的体重,见下表,试分析减肥效果。

服药前后各次体重测量值(kg)
肥胖症患者编号服药前
体重值
服药四周体重值
第1周第2周第3周第4周
1 2 3 4 5 6 7 8 9 10 131.5
154.7
146.7
163.2
128.6
134.2
126.8
119.5
112.4
121.3
128.4
152.9
145.5
161.6
125.3
132.6
125.7
118.1
108.6
120.1
127.4
150.7
143.6
158.4
124.1
130.4
123.9
115.6
104.7
118.5
125.3
148.2
140.5
154.2
122.8
129.4
123.5
114.3
102.6
116.9
124.9
145.9
139.8
153.4
120.9
124.8
121.6
112.1
101.4
114.2
X S 133.9
16.2
131.9
16.6
129.7
16.6
127.8
15.9
125.9
16.1
第二部分回归模型(Regression)
SPSS/SAS提供的回归分析如下:
⏹多元线性回归:Liner
⏹曲线估计:Cure estimation
⏹非线性回归:Binary Logisitic / Multinomial Logisitc / ordinal /
nonlinear/
⏹权重回归估计:Weight estimate
多元线性回归分析
用于分析一个应变量与多个自变量之间的线性关系。

理论上要求是分析因果关系,在实际应用时要注意在生物学上区分可能的因果关系,前瞻性的分析在理论上是符合模型要求的,但也用于横断面研究时探索危险或相关因素。

⏹模型:线性
Y=β0+β1X1+β2X2+β3X3+β4X4+···+βm X m+e
β:偏回归系数(回归系数),反映相应的X对Y的作用大小;
e:去除m个自变量对Y的影响后的随机误差,即残差;
建立的样本回归方程:
Yˆ=b0+ b1X1+ b2X2+ b3X3+ b4X4+···+ b m X m
⏹自变量的选择方法
1.逐步选择法
--前进法
--后退法
--逐步回归法:确保不显著的变量不会进入方程,方程中也不包括不显
著的变量.
2.全局择优法:根据R2或C p的大小从所有的自变量组合中选择最优的方程。

3.SPSS多元回归模型中的方法
Enter/Stepwise/Remove/Backward/Forward
⏹方程的检验与评价
1.检验
一般采用最小二乘法获得模型的参数估计,并采用方差分析检验方程是否存在以及各自变量是否有意义。

为了比较各自变量的作用大小,还需要计算出各自变量的标准偏回归系数。

2.评价
2.1 预测效果检验:拟和优度问题(寻求合适的拟和方式或观察某个(些)自变量纳入
方程后对拟和效果的影响)
(1)决定系数:R2=SS回归/ SS总= 1- SS残差/ SS总反映建立的模型中自变量对应变量的解释程度或模型对数据的拟和程度。

R2越大拟和程度越好。

校正R2
(2)复相关系数R
(3)标准偏回归系数:用于比较各自变量的相对作用。

2.2 回归适用性检验:残差分析
残差(剩余)平方和:残差平方和越小说明模型中自变量对应变量的解释程度越高。

(1)残差正态性检验:直方图/ 累计概率图(P-P图)
(2)残差独立性检验:Durbin-Watson
(3)残差的方差齐性检验
(4)奇异值
(5)共线性诊断
⏹应用多元回归分析时应注意的问题
1.指标的量化
分类数据:等级分类数据的量化,注意解释的顺序
互不相容多分类数据的量化要考虑哑变量的生成
定量数据:首先离散化,然后适当量化
2.样本量:是自变量的5-10倍。

3.回归分析的条件
1)X与Y存在线性关系
2)正态性:随即误差(残差)e服从均数为0,方差为σ2的正态分布3)等方差:对于所有的自变量X,残差e的条件方差为σ2,且σ为常数4)独立性:在给定的X,残差e的条件期望=0
5)无自相关性:各随机误差项e互不相关
6)残差e与自变量不相关
7)无共线性
4.自变量的事先清理和选择是得到理想回归方程的重要工作。

例:
欲研究糖尿病患者的总胆固醇(X 1)和甘油三酯(X 2)对空腹血糖(Y )的影响,某研究者调查40名糖尿病患者的总胆固醇、甘油三酯和空腹血糖的测量值如下。

40名糖尿病患者的总胆固醇X 1、甘油三酯X 2和空腹血糖测量值Y
编号 总胆 固醇 mmol/L 甘油 三酯 mmol/L 空腹 血糖 mmol/L 编

总胆 固醇 mmol/L 甘油 三酯 mmol/L 空腹
血糖
mmol/L

号 总胆 固醇 mmol/L 甘油 三酯 mmol/L 空腹 血糖 mmol/L 1 5.7 1.1 7.5 15 4.4 1.9 7.0 28 7.8 2.6 6.8 2 6.6 0.9 7.0 16 8.5 1.3 7.9 29 6.7 2.7 7.7 3 7.1 1.3 6.8 17 6.8 2.0 7.8 30 6.2 1.7 6.8 4 7.0 2.3 7.2 18 4.8 2.7 7.4 31 5.3 1.2 6.9 5 6.8 2.3 7.7 19 4.8 1.4 6.1 32 7.9 2.3 7.5 6 6.1 2.0 7.8 20 8.1 1.6 6.9 33 4.1 1.8 6.0 7 8.9 2.7 7.3 21 4.5 0.9 6.2 34 7.2 1.6 7.6 8 8.7 1.3 7.0 22 5.2 1.7 6.5 35 4.0 2.7 6.9 9 8.5 1.5 7.2 23 7.7 2.1 8.0 36 5.8 2.4 6.2 10 8.8 2.6 7.3 24 7.7 1.9 7.6 37 4.5 2.4 7.4 11 5.0 2.5 6.8 25 7.7 1.8 6.4 38 4.1 1.9 6.4 12 5.6 1.6 7.4 26 6.2 2.5 7.6 39 8.1 2.6 7.2 13 6.9 2.6 7.6 27 4.7 1.0 5.1 40 4.2 2.8 6.8 14
4.5 1.7 7.2
12
ˆ 5.358+0.1720.318Y X X =+
回归模型的方差分析结果
变异来源 SS df MS F P
回归 4.281 2 2.141 7.69 0.0016 残差 10.293 37 0.278 合计
14.574
39
0.374
回归系数的估计结果
变量名 回归系数 标准误 t P 95%可信区间 X 1 0.172 0.055 3.14 0.003 0.061 0.282 X 2 0.318 0.148 2.15 0.038 0.019 0.617 常数项 5.358
0.446
12.08
0.000
4.459
6.257
由此得到回归方程的估计表达式
Logistic回归模型
当反应变量(应变量)是非连续的分类变量时,在分析变量间的相互关系是需要采用logistic回归分析。

一、二分类反应变量的logistic回归分析
●Logistic回归模型
(1)在M个自变量的作用下出现阳性或阴性结果的条件概率:
P=P(Y=1 | X1,X2,… X m)=1/{1+ exp[-(β0+β1X1+β2X2+β3X3+…+βm X m)]}
Q=P(Y=0 | X1,X2,… X m)=1-P= exp[-(β0+β1X1+β2X2+β3X3+…+βm X m)] / {1+ exp[-(β0+β1X1+β2X2+β3X3+…+βm X m)]}
两个概率之比: P / Q=exp(β0+β1X1+β2X2+β3X3+…+βm X m)
(2)Logit变换结果
ln(P/1-P)=β0+β1X1+β2X2+β3X3+…+βm X m
●回归系数估计:最大似然估计(Newton-Raphson迭代法计算),在样本量大时估计
是比较准确的,而且可以进行假设检验和区间估计。

●回归方程和系数的检验:似然比检验,Wald检验,等
二、回归模型参数的流行病学意义
当其他自变量保持不变时,自变量Xj的两个不同取值X j=e1, X j=e0, 则可得到:
ln[P1/(1-P1) / P0/(1-P0)] = lnOR
OR值:反映了暴露与非暴露下疾病发生的风险比
队列研究和病例对照研究LOGIT模型的差别只是在β0, 但并不影响对各自变量的分析,
三、模型的拟和优度
通过比较模型预测的与实际观测的发生和不发生的频率有无差别来进行检验,如果预测值与实际观测值相近,说明模型的拟和效果好。

检验发方法:偏差(deviance)检验和χ2检验(Pearson)、H-L(连续性变量)反映拟和优度的指标:-2lnL,指标越小拟和效果越好AIC,SC准则等
四、模型的预测准确度
指标:决定系数,指标越到预测的准确性越高
预测和观测之间的关联:和谐程度(Somers’D, Gamma,Kendall’s Tau-a, c)
(SAS)
预测的准确性:四格表
五、模型的变量选择
ENTER // STEPWISE
●对于寻找最佳预测模型或寻找主要的影响因素,可采用逐步回归分析;
●对于实验性的研究一般不宜采用逐步回归分析;
●模型的建立应结合专业知识、以可解释、简约和变量易得为准则
六、应用和注意事项
1.筛选因素
2.控制和校正混杂因素
3.要有足够的样本
样本含量logistic回归的所有统计推断都是建立在大样本基础上的,因此要求有足够的样本含量。

关于样本含量的确定,有一些工具表可供参考。

经验上病例和对照的人数应至少各有30~50例,方程中变量的个数愈多需要的例数相应也愈大。

对于配对资料,样本的匹配组数应为纳入方程中的自变量个数p的20倍以上,即 。

p
n20
4.模型应符合生物学意义
5.必要是自变量需要考虑产生哑变量
6.注意变量的赋值,这关系到结果的解释
7.SPSS中条件logistic回归分析需要通过COX模型来实现

因素变量名赋值
性别X1 男=1,女=2
年龄X2 连续变量
学历X3 小学以下=1,小学=2,初中=3,高中=4,大专以上=5 体重指数X4 <24=1,24~26,>26=3
家族史X5 无=1,有=2
吸烟X6 不吸烟=1,吸烟=2
血压X7 正常=1,高=2
胆固醇X8 连续变量
甘油三脂X9 连续变量
高密度脂蛋白X10 连续变量
低密度脂蛋白X11 连续变量
糖尿病Y 是=1,否=0
生存分析(survival analysis)
一、生存分析的概念
将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。

在医学研究中,常对各个观察对象进行随访观察,记录各个时点上事件的发生情况,以评价结果,如生存的时间、临床疗效等。

特别是对于肿瘤、结核等其他慢性病,其预后不是短期内所能明确判断的,因此需要考虑时间的作用,判断结果需要和时间结合分析,也就是说需要有随访的过程。

随访数据的分析常以经过一段时间后的“生存情况”作为分析的形式,如:心肌梗塞病人发病后的预后分析;儿童出牙;青少年性发育;肿瘤病人术后生存情况;药物治疗其效时间等等。

10年间346例手术后的大肠癌患者生存资料记录表
患者编号性别
sex
年龄
age
dtime
(月)
手术时间
终止随访
时间
结局
status
(月)
time
1 男3
2 10 1994. 01. 2
3 1994. 12. 2
4 死亡11
2 女48 12 1998. 02. 14 1999. 01. 01 失访10+
3 女26 6 1992. 03. 0
4 1995. 04. 12 死亡37
4 男5
5 3 1999. 08. 20 2001. 09. 21 死于其它25+
5 女58 8 2001. 03. 10 2001. 12. 31 存活9+
……………………364 男46 12 2000. 08. 12 2001. 12. 12 存活16+
描述生存过程:生存率估计乘积极限法
生存分析寿命表法
比较生存过程:生存率比较/生存曲线比较:log-rank检验
生存过程的影响因素分析:COX模型
生存分析数据的特点:
1.生存分析的主要变量是时间,而时间多不服从正态分布。

2.生存分析的结局变量与时间密切相关,即结局变量是在观察了一段时间后发生的,有时结局情况可能不明确(失访)
3.分析时结局和时间需要结合起来
二、生存分析中的基本概念
1.生存时间(survival time)
是指任何两个有联系事件之间的时间间隔,常用符号t表示。

狭义:指患某种疾病的病人从发病到死亡所经历的时间跨度。

广义:制从某种起始事件到终点事件所经历的时间跨度。

如下:
急性白血病病人从治疗开始到复发为止之间的缓解期,冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟之间的时间长短,接触危险因素到发病的时间跨度等。

生存分析中最基本最重要的的问题:
计算生存时间:要明确规定事件的起点、终点及时间的测度单位(如小时、日、月、年等),否则就无法分析比较。

2.失效事件(failure event)与起始事件(initial event)
失效事件指反映治疗效果特征的事件,又称为死亡事件、终点事件。

它是根据研究目的确定,因此在设计时必须明确规定,并在研究中严格遵守。

起始事件是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗
开始、接触毒物等,设计时也需要明确规定。

3.截尾值(censored value)(删失值)
指在随访过程中,由于某种原因未能观察到病人的明确结局(即终止事件),所以不知道该病人的确切生存时间,它提供的生存时间的信息是不完全的。

尽管不知其真正能生存多长时间,但它提示该病人至少在已经观察的时间长度内没有死亡,其真实的生存时间只能长于观察到的时间而不会短于这个时间。

截尾值产生的原因:
①病人失访。

②病人的生存期超过了研究的终止期。

如研究计划规定只对病人随访5年,但有的病人的生存期超过了5年,或者由于病人进入研究的时间较晚,虽然对他的随访期未满5年,但已到研究的截止时间。

③在动物实验中,有时事先规定观察期限或动物数。

虽然有一部分动物在到达实验终止日期时尚未现出规定的终止事件,但仍停止实验,或者当达到了事先规定的终止事件的动物数后实验停止。

4.生存率与风险函数
(1)生存函数(survival function)
又称为累积生存率,简称生存率。

表示具有协变量X的观察对象其生存
时间T大于t时刻的概率,常用)
X
P
S>
=表示。

在实际工作中
T
t
(X
,
(
)
t
,
生存率=生存时间大于t的病人数对总病人数的比例
生存率具有以下特点,观察起点即0
t 时的生存率为1;当观察期为无穷大时,其生存率为0。

三、生存分析资料收集的要求:关键是“时间”
1.明确开始随访的时间:如入院时间、确诊时间、开始治疗时间等。

2.随访的结局和终止随访的时间:
①“死亡”,即处理失效,死亡时间发生,终止时间即为“死亡”时间;
②生存但中途失访,如拒绝访问、失去联系或中途退出试验,其终止时
间以最后一次访问时间为准;
③死于其他与研究疾病无关的原因,如肺癌患者死于心肌梗死、自杀或
车祸等,其终止随访的时间为死亡时间;
④随访截止,随访结束时观察对象仍存活,终止时间为研究结束时间。

3.记录影响生存时间的有关因素:如患者的年龄、病程、术前健康状况、经济、文化、职业等,以便分析这些因素对生存时间的影响。

四、随访方式
1.全体观察对象同时接受处理措施,观察到最后一例出现结果,或者事先规定的随访截止时间
2.全体观察对象在不同时间接受治疗处理,完成一定数量随访病例后决定随访截止时间,或按事先规定的时间停止随访。

1. 2.
◎----×◎-------------------------O
◎----O ◎-------×
◎---------×◎---O
◎----×
◎-----------------------------------------------×
◎表示case,“×”表示“死亡”,“o”表示失访、退出研究或死于与本研究无关的其他原因。

五、生存率的估计与生存曲线
1.小样本生存率的计算
Kaplan-Meier法(乘积极限法(product-limited method))(小样本)
例、
医生研究甲种手术方法治疗肾上腺肿瘤病人23例的生存情况,定义从手术后到病人死亡的时间为生存时间,得到的生存时间(月)如下,其中有“+”者是截尾数据,表示病人仍生存或失访,括号内为重复死亡数。

1,3,5(3),6(3),7,8,10(2),14+,17,19+,20+ ,22+,26+,31+,34, 34+,44,59。

试计算其生存率与标准误。

序号i
时间
(月)
t
(1)
死亡
人数
d
(2)
期初观察人数
n
(3)
死亡
概率
F
(4)
生存
概率
S
(5)
生存率
()
P X t
(6)
标准误
P
S
(7)
1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
1
3
5
6
7
8
10
14+
17
19+
20+
22+
26+
31+
34
34+
44
59
1
1
3
3
1
1
2
1
1
1
1
23
22
21
18
15
14
13
11
10
9
8
7
6
5
4
3
2
1
0.043
0.045
0.143
0.167
0.067
0.071
0.154
0.000
0.100
0.000
0.000
0.000
0.000
0.000
0.250
0.000
0.500
1.000
0.957
0.955
0.857
0.833
0.933
0.929
0.846
1.000
0.900
1.000
1.000
1.000
1.000
1.000
0.750
1.000
0.500
0.000
0.957
0.914
0.783
0.652
0.609
0.565
0.478
0.478
0.430
0.430
0.430
0.430
0.430
0.430
0.323
0.323
0.161
0.000
0.0425
0.0588
0.0860
0.0993
0.1018
0.1034
0.1042
0.1041
0.1041
0.1041
0.1041
0.1041
0.1041
0.1041
0.1216
0.1216
0.1293

两种手术治疗方式术后病人生存曲线的比较
从图中可以看出,乙种手术方式生存曲线较低,说明其生存率较低,
而甲种手术方式的生存曲线较高,说明其生存率较高。

生存曲线的log-rank
检验:
222(1623.809)(2012.191)7.5623.80912.191χ--=
+= 1ν=,查2χ界值表得,0.0050.01P <<。

按0.05α=水准拒绝0H ,接受1H ,
可以认为两种手术方式后病人的生存率有差别。

西安交通大学医学院硕士研究生《分类数据分析方法》
2418例男性心绞痛病人生存率及其标准误的计算
生存时间
区间
(年)1i t
(1) 死亡 人数 i d (2) 截尾 人数 i c (3) 期初观 察人数 i L (4) 校正观 察人数 i N (5) 死亡 概率 i q (6)=(2)/(5) 生存 概率 i p (7)=1-(6) 生存率 )(ˆi t S (8) 生存率的 标准误 SE (9) 0~
456 0 2418 2418.0 0.1886 0.8114 0.8114 0.0080 1~
226 39 1962 1942.5 0.1163 0.8837 0.7170 0.0082 2~
152 22 1697 1686.0 0.0902 0.9098 0.6524 0.0097 3~
171 23 1523 1511.5 0.1131 0.8869 0.5786 0.0101 4~
135 24 1329 1317.0 0.1025 0.8975 0.5193 0.0103 5~
125 107 1170 1116.5 0.1120 0.8880 0.4611 0.0104 6~
83 133 938 871.5 0.0952 0.9048 0.1472 0.0105 7~
74 102 722 671.0 0.1103 0.8897 0.3712 0.0106 8~
51 68 546 512.0 0.0996 0.9004 0.3342 0.0107 9~
42 64 427 395.0 0.1063 0.8937 0.2987 0.0109 10~
43 45 321 298.5 0.1441 0.8559 0.2557 0.0111 11~
34 53 233 206.5 0.1646 0.8354 0.2136 0.0114 12~
18 33 146 129.5 0.1390 0.8610 0.1839 0.0118 13~
9 27 95 81.5 0.1104 0.8896 0.1636 0.0123 14~
6 33 59 42.5 0.1412 0.8588 0.1405 0.013
7 15~ 0 20 20 10.0 0.0000 1.0000 0.1405 0.0137
Cox 比例风险回归模型
医学临床随访资料具有一定的特殊性,主要表现在生存时间的分布种类繁多且难以确定,存在截尾数据,需要考虑多个协变量的影响等。

1972
年英国统计学家Cox 提出了比例风险回归模型(Cox ‘s proportional hazard
regression model)。

一、Cox 模型的基本形式
由于生存分析研究的数据中包含有截尾数据,用一般的方法难以解决 上述问题。

Cox 模型不直接考察生存函数(,)S t X 与协变量的关系,而是用风险率函数(,)h t X 作为应变量,假定:
001122(,)()exp()()exp()m m h t h t h t X X X ββββ'==+++X X
非参数 参数
(具有协变量X 的个体在时刻t 时的风险函数,又称为瞬时死亡率)
t :生存时间,
12(,,,)m X X X '=X :与生存时间可能有关的协变量或交互项(定量或定性)
在整个观察期间内它不随时间的变化而变化。

)(0t h :是所有危险因素为0时的基础风险率(未知),没有明确的定义
但假定它与(,)h t X 是呈比例的。

12(,,,)m βββ'=β :Cox 模型的回归系数,反映X 对风险的影响。

[]01122(,)/()exp()m m h t h t X X X βββ=+++X
(半参数模型)
相对危险度:
两个分别具有协变量i X 与j
X 的病人其风险函数(亦称为危险度)之比称为,是一个与时间无关的量:
(,)/(,)exp[()]i j i j h t h t '⎡⎤=-⎣⎦
X X βX X
二、因素的初步筛选与最佳模型的建立
1.因素的筛选
2.最佳模型的建立
最常用的方法为逐步回归法。

一般情况下初步筛选的水平确定为0.1或0.15,设计较严格的研究可确定为0.05。

在筛选因素时,还要考虑因素间是否有共线性的影响,当各因素间存在共线性时,可先用其他分析方法排除共线性的影响,再进行Cox 模型分析。

三、Cox 模型的统计描述
1.回归系数和标准回归系数
Cox 模型在分析时可以给出回归系数和标准回归系数,回归系数用来反映因素对生存时间影响的强度,一般而言,回归系数愈大,则因素对生
存时间的影响也愈大。

标准回归系数可以比较不同因素间对生存时间的影响程度,标准回归系数较大的因素对生存时间的影响也较大。

2.相对危险度
假定第i 个变量的取值为0和1,其对应的回归系数为i b ,且具有统计学意义,该因素取值1与取值为0相比其对应的相对危险度的估计为
ˆexp i i
RR b = R R
的1α-可信区间为
/2exp()j i b b u S α±⨯
如果因素的取值为有序分类变量,则采用类似的方法估计其相对危险度及其可信
区间,如果变量为无序分类变量,则可以采用哑变量的方法来分析其意义。

四、Cox 模型的注意事项及应用范围 ● 注意研究资料的代表性及可靠性。

● 所研究的生存时间要有明确的规定,如“发病”。

● 样本含量不宜过小,一般在40例以上。

随着协变量的增加其样本含量应适当的增加,要求样本含量为观察协变量的5-20倍。

如果比较两种药物治疗的效果,应使两组的样本例数基本一致,避免相差悬殊。

● 尽量避免观察对象的失访,因为过多的失访容易造成研究结果的偏倚。

● Cox 模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间可能是因果关系,也可能是伴随关系。

● 当两组病人的生存率曲线呈明显交叉时,说明存在影响病人生存的混杂因素,此时需采用其他统计分析方法,剔除混杂因素的影响后,再配合Cox 模型进行分析。

●在估计参数时,Cox模型不是利用精确的生存时间,而是利用生存时间
的顺序统计量,损失了一定的样本信息。

●Cox模型与logistic回归分析相比具有相似之处,可以得到相应因素的
相对危险度,但logistic分析时只考虑了事件的结果,而没有考虑生存时间的长短, Cox模型更多的利用了资料的信息。


为探讨某恶性肿瘤的预后,收集了63例病人的生存时间、结局及影响因素。

影响因素包括病人的治疗方式、肿瘤的浸润程度、组织学类型、是否有淋巴结转移及病人的性别、年龄,生存时间以月计算,收集的原始资料及变量的意义如见下表。

试用Cox 模型进行分析。

某恶性肿瘤的影响因素及量化值
变量 意义
量化值
X 1 病人的年龄 岁
X 2
性别
男 1 女0
X 3 组织学类型 高分化 1 低分化 0
X 4 治疗方式
传统治疗方式 1 新治疗方式 0 X 5 淋巴节是否转移 是 1 否 0
X 6 肿瘤的浸润程度 突破浆膜层 1 未突破浆膜层 0 T 病人的生存时间 月
Y 病人的结局 死亡 0 截尾 1
63名某恶性肿瘤患者的生存时间及影响因素
Cox 模型筛选的危险因素及参数估计
变量
j b
j b S
P
ˆRR
95%可信区间 上限 下限 4X 1.761621 0.54791 0.0013 5.822 1.989 17.039 5X
0.931330
0.44455
0.0362
2.538
1.062
6.066。

相关文档
最新文档