同济医学院SPSSSPSSLogistic回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Difference 除第一类分类外,各分类与
Repeated
其之前平均分类效应比较
SPSS哑变量设置
Helmert
与Difference相反,各水平与其之后水平的平 均效应比较
Deviation:
除参照分类外,各水平与分类的总效应比较
Polynomial
正交多项式设置
自动设置哑变量是有缺点的
等级变量不合适
哑变量设置应注意的问题
参照水平最好要有实际意义,不推荐使 用其他作为参照;
参照水平组要有一定的频数作保证,应 不少于30或50例;
对有序自变量的分析:
从专业出发确定; 分别以哑变量和连续性变量的方式引入模型
进行比较后确定。
SPSS基本操作
SPSS基本操作
迭代过程
模型拟合优度指标, P值越大越好
Logistic回归模型
按研究设计分类 非配对设计:非条件Logistic回归模型 配对病例对照:条件Logistic回归模型
按反应变量分类 二分类Logistic回归模型(常用) 多分类无序Logistic回归模型 多分类有序Logistic回归模型
基础知识
通过下例引入和复习相关概念
考虑多因素的影响,对于应变量(反应变量)为 计量资料,一般可以考虑应用多重线性回归模 型进行多因素分析。
数据分析的背景
单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio及其95%可信区间评价关联程度。
考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就 不合适了,应选用Logistic回归模型进 行统计分析。
SPSS应用
Logistic回归
华中科技大学公共卫生学院
流第行10病章学与非卫参生数统检计验学系
蒋红卫 jhwccc@21cn.com
内容
基本概念 基本步骤 基本操作 基本结果解释
数据分析的背景
计量资料单因素统计分析 对于两组计量资料的比较,一般采用t检验或 秩和检验。 对于两个变量的相关分析采用Pearson相关 分析或Spearman相关分析
如果对二项分类变量按+1与-1编码,那么结 果容易造成错误的解释。
分类变量必须转化。如地区对血压的影响。 等级资料,当等级之间量度不一时必须转化,
如正常,超重和肥胖 连续资料不宜直接进入方程时,转化为等级资
料或分类资料
SPSS哑变量设置
Indicator Simple
参照分类为0,其余为1, 即各分类与参照分类比较
适用条件
反应变量为二分类变量或某事件的发生 率;
自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布; 各观测间相互独立。 logistic回归模型应该使用最大似然法来
解决方程的估计和检验问题,不应当使 用以前的最小二乘法进行参数估计。
例1
研究急性心肌梗塞(AMI)患病与饮酒的 关系, 采用横断面调查。
饮酒 不饮酒 合计
(X=1) (X=0)
患病(y=1) 55
74
129
未患病(y=0) 104663 212555 317218
合计
104718 212629 317347
SPSS基本操作
SPSS基本操作
SPSS基本操作
SPSS基本操作
SPSS基本操作
哑变量设置
哑变量设置
为了便于解释,对二项分类变量一般按0、1编 码,一般以0表示阴性或较轻情况,而1表示阳 性或较严重情况。
故比较两个率<==> 比较OR =1? OR>1 ? OR<1?
(二分类)Logistic回归模型
因为0<Odds<+ 所以 - < ln(Odds) <+
对ln(Odds)引入类似多重线性回归 的表达式
ln(Odds)
ln( P 1 P
)
0
1x1
m xm
Logistic回归模型
记:log it(P) ln( P ) 1 P
例如:研究患某疾病与饮酒的关联性
饮酒 不饮酒 合计
(X=1) (X=0)
患病(y=1)
a
b
n1
未患病(y=0)来自百度文库c
d
n2
合计
m1 m2 N
患病率 P1=a/m1 P2=b/m2
基础知识
Odds(优势) Odds P 1 P
Odds P (P 1) 1 1 1
1 P 1 P
1 P
P越大,则Odds越大;P越小,则Odds越小 并且 0<Odds<+
故可以写为
log it(P) 0 1x1 mxm
也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
回归系数的意义
以x1的回归系数1为例
固定其它自变量,比较x1与x1 +1的ln(Odds)变化。
对对于于xx11,+1,ln(Oddsx1 ) 0 1x1
基础知识 P与Odds一一对应P Odds
1 Odds
对于两个Odds的比较,一般用它们的
Ratio,并称为Odds Ratio(OR),其定
义如下:
OR
Odds1
Odds2
其样本估计统计量为
OR ad
bc
基础知识
P1 P2 Odds1 Odds2 OR 1
P1 P2 Odds1 Odds2 OR 1
mxm
ln(Oddsx11) 0 1(x1 1) mxm
ln(OR) ln(Oddsx11) ln(Oddsx1 ) 1
OR e 反对数变换得到
1
回归系数的意义
多因素Logistic回归分析时,对回归系数的解释 都是指在其它所有自变量固定的情况下的优势比。
存在因素间交互作用时, Logistic回归系数的解 释变得更为复杂,应特别小心。
合计 22364
14231 82354 198398
SPSS基本操作
同例1
逐步回归分析
在多因素统计分析中,多个自变量之间存 在相关性,往往相互影响,研究者希望寻 找主要影响应变量Y的因素。
理论上,只要把各种因素组合都试一遍, 寻找变量个数最多,每个变量均有统计学 意义,并且模型拟合程度最好的模型,这 种模型称为最佳预测模型,这种方法称为 寻找最优子集,当变量较多时很难实现。
参数估计的相关矩阵,均<0.80, 提示各协变量间相互独立
校正混杂作用
实例2:上例没有考虑吸烟情况,故将吸 烟作为分层加入,资料如下:
吸烟
不吸烟
饮酒% 不饮酒% 饮酒% 不饮酒%
患病 33(0.03) 21(0.03) 22(0.015) 53(0.015)
未患病 22331
14210 82332 198345