第十二章 Logistic回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章 Logistic 回归分析
一、Logistic 回归概述:
Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。
二、Logistic 回归的分类及资料类型:
第一节 非条件Logistic 回归分析
一、Logistic 回归模型:
Logistic 回归模型:
logit (P )= ln(
p
p
-1) = β0+β1χ1 + … +βn χn
二、回归系数的估计(参数估计):
回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。
三、假设检验:
1.Logistic 回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。
·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。上述三种方法中,似然比检验最可靠。
·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。无效假设H 0:β=0。当H 0成立时,检验统计量G 近似服从自由度为N-P-1的X 2分布。当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。
2.Logistic 回归系数的检验:
·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。
)
(11011011011011)](exp[11
)exp(1)exp(p p X X p p p p p p e X X X X X X p ββββββββββββ+++-+=
+++-+=+++++++=
·检验方法常用Wald X2检验,无效假设H0:β=0。当X2大于临界值时,拒绝无效假设,自变量能进入方程。
3.Logistic回归模型的拟合优度检验:
·Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验(Deviance)、皮尔逊(pearson)检
验、统计量(Homser-Lemeshow),分别计算统计量X2
D 、X2
P
、X2
HL
值。统计量值越小,
对应的概率越大。无效假设H0:模型的拟合效果好。
·模型拟合优度信息指标有:-2lnL、AIC、SC。这3个指标越小表示模型拟合的越好。
四、Logistic回归模型的预测准确度:
常用的有以下2种:
1.广义决定系数R2: 2.预测准确率:
五、回归系数的意义:
·利用参数和优势比探讨影响因素。当βi =0,优势比OR=1时,表示自变量X对是否出现阳性结果不存在影响;当βi ≠0,优势比OR≠1时,表示自变量X对是否出现阳性结果有影响。βi >0,OR增加是危险因素,βi <0,OR 减小是保护因素。
六、Logistic回归分析方法:
从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。
七、Logistic回归的应用:
1.医学中Logistic回归主要用于筛选疾病的危险因素或预后因素,进行病因学分析
2.控制和校正混杂因素。
第二节条件Logistic回归分析(略)
第十三章主成分分析与因子分析
第一节主成分分析
1.概念:主成分分析是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法。
2.主成分线性模型:
Z 1=a
11
X
1
+ a
12
X
2
+…+ a
1m
X
m
Z 2=a
21
X
1
+ a
22
X
2
+…+ a
2m
X
m … … …
Z
m =a
m1
X
1
+ a
m2
X
2
+…+ a
mm
X
m
主成分分析的基本思想:主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标,来代替原来指标。通常数学上
的处理就是将原来k个指标做线性组合,作为新的综合指标,(即几个Z
1、Z
2
…
Zm)。如果将第一个线性组合即第一个综合指标记为Z
1
,则希望Z1尽可能多地反
映原来指标的信息,这里的方法就是用方差来表达,即(Z1)S2
Z1
方差越大,表
示Z
1包含的信息越多。因此,在所有的线性组合中所选取的Z
1
应该是方差最大
的,故称Z
1
为第一主成分。
第一主成分不足以代表原来K个指标的信息时,再考虑选取Z
2,Z
1
已有的信
息不需要再出现在Z
2
中。
以此类推可以构造出第三,四个主成分,……。这些主成分不仅不相关,而且他们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分。
3.主成分分析步骤:
(1)对原始指标进行标准化;
(2)求协方差或相关矩阵;
(3)求出协方差矩阵的特征根和特征向量;
(4)确定主成分,并结合专业知识给各个主成分的信息给予解释。
4.主成分的性质:
(1)各主成分互不相关,两个主成分间相关系数等于零;
(2)各主成分的方差依次递减;S2
Z1≥S2
Z2
≥S2
Z3
…≥S2
Zn
≥0
(3)总方差保持不变。即各个原指标的方差之和与各主成分的方差之和相等。