B2-有序多分类Logistic回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ordinal logistic回归模型
应变量Y 有3个等级:无效0、有效1、治愈2
影响因素:性别X1(0男;1女);治疗方法 X2 ( 0新药; 1传统) ;取值大的类别为参 照组。 某分类变量的回归系数为正时,则暴露组 (如新药)为更高的等级(如治愈)的可能 性大于参照组(传统药) 某连续变量的回归系数为正时,则随着该变 量的变量值增加,应变量为更高等级的可能 性也增加。
Factor 与 Covariate
自变量是分类变量,选入Factor栏,取值大
的类别为参照组。 自变量是计量资料,选入Covariate栏。
分别单击:Options, Output, Location, Scale
Options (默认)
Link:
logit:Evenly distributed categories Complementary:Higher categories more
probable Negative:Lower categories more probable Probit:Latent variable is normally distributed Cauchit:Latent variable has many extreme values
Link:
Threshold Location
[y = 0] [y = 1] [treat=0] [treat=1] [sex =0] [sex =1]
Link function: Logit. a. This parameter is set to zero because it is redundant.
伪决定系数:分类数据,该系数一般 不会太高。
Pseudo R-Square Cox and Snell Nagelkerke McFadden Link function: Logit. .211 .243 .117
经Test of parallel lines,2=1.47,P=0.480。 可认为:不管反应变量的分割点在什么位置, 模型中各自变量的系数都保持不变。该资料 适合用有序多分类Logistic回归模型。
6
7
19
一、用途和基本原理
用途:分析1个有序多分类应变量与多个自
变量之间的关联 基本原理:
无效0,有效1,痊愈2无效与有效痊愈,
依次将应变量按不同的取值水平分割成两个等 级,对这两个等级建立反应变量为二分类的 logistic回归模型。 不管模型中反应变量的分割点在什么位置,模 型中各自变量的回归系数 i 都保持不变,所改 变的只有常数项。
Output
Test of parallel lines: 不管反应变量的分割点在什 么位置,模型中各自变量的系数都保持不变
Location (默认)
Scale(默认)
单击OK
说明各种取值水平组合中有多少其观 察频数为0。如果有连续性变量,这个 比例会较大。
W arnings There are 1 (8.3%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.
无效和有效的概率 ln 2 ( 1 X 1 2 X 2 ) 1 无效和有效的概率
Larger coefficients (i) indicate an associ百度文库tion
with larger scores(Y1:无效;2:有效;3:显 效). When you see a positive coefficient for a dichotomous factor, you know that higher scores are more likely for the first category (category 2 is the reference category ). A negative coefficient tells you that lower scores are more likely. For a continuous variable, a positive coefficient tells you that as the values of the variable increase, the likelihood of larger scores increases.
Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -.175 1.163 .621 2.076 .871 2.724 . . -2.356 -.282 . .
Threshold Location
[y = 0] [y = 1] [treat=0] [treat=1] [sex=0] [sex=1]
表2 不同性别和疗法对某病疗效*的影响
影响因素 性别:男性 女性 疗法:新疗法 传统疗法
*疗效分3个等级
OR 0.27 1.00 6.03 1.00
P 0.013 0.000
OR 95% CI 0.09~0.75 2.39~15.24
1:无效;2:有效;3:治愈
例2:对某地人群调查所从事的工作是否满
无效有效与痊愈,可建立两个方程。两个方 程的常数项不同,但回归系数相同。
二分类logistic回归模型
P ln 0 1 X 1 2 X 2 ... m X m 1 P
Ordinal logistic回归模型(SPSS) 无效0,有效1,痊愈2
P(Y j ) ln 1 P(Y j ) 0 j 1 X 1 2 X 2 ... m X m
拟合优度检验:各种取值水平组合中其 观察频数为0的比例较高时,该检验不 可靠。本例P 值均大于0.05,拟合较好。
Goodness-of-Fit Chi-Square Pearson 1.910 Deviance 2.712 Link function: Logit. df 4 4 Sig. .752 .607
有序多分类logistic回归模型 Ordinal Regression
暨南大学医学院医学统计学教研室 林汉生
表1 性别和两种疗法对某病疗效的影响
性别
男
治疗方法
新药疗法(X2=0)
疗效(Y) 痊愈2 有效1 无效0 5 2 7
X1=0 传统疗法(X2=1)
女 新药疗法(X2=0)
1
16
0
5
10
6
X1=1 传统疗法(X2=1)
Test of Parallel Lines
a
-2 Log Model Likelihood Chi-Square df Null Hypothesis 23.598 General 22.128 1.469 2 The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. Link function: Logit.
意,可能的影响因素有:年龄、性别、收 入水平。文化程度。数据文件satisfy.sav。
变量赋值 变量名 赋值
满意度
年龄
1不满意
岁
2中立
3满意
性别
年收入 文化程度
1男性
2女性
③5万~ ④7.5万~
①2.5万以下 ②2.5万~
①初中及以下 ②高中 ③大专 ④大学 ⑤研究生
建立数据文件
AnalyzeRegressionOrdinal
Estimate .494 1.348 1.797 0a -1.319 0a
Std. Error .341 .371 .473 . .529 .
Wald 2.095 13.192 14.449 . 6.210 .
df 1 1 1 0 1 0
Sig. .148 .000 .000 . .013 .
Link function: Logit. a. This parameter is set to zero because it is redundant.
无效的概率 ln 1 ( 1 X 1 2 X 2 ) 1 无效的概率
无效和有效的概率 ln 2 ( 1 X 1 2 X 2 ) 1 无效和有效的概率
Ordinal Model
无效的概率 ln 1 ( 1 X 1 2 X 2 ) 1 无效的概率
Sig. .480
参数估计
无效,有效,治愈无效与有效治愈,无
效有效与治愈,可建立两个方程。
无效的概率 ln 0.494 (1.797treat 1.319sex) 1 无效的概率
无效和有效的概率 ln 1.348 (1.797treat 1.319sex) 1 无效和有效的概率
OR=exp() 不同疗法的OR值为exp(1.797)=6.03。新疗
法优于传统疗法。疗效至少优于1个等级 的可能性,新疗法是传统疗法的6.03倍。 不同性别的OR值为exp(-1.319)=0.27。男 性的疗效比女性差。疗效至少优于1个等 级的可能性,男性是女性的0.27倍。
Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -.175 1.163 .621 2.076 .871 2.724 . . -2.356 -.282 . . Estimate .494 1.348 1.797 0a -1.319 0a Std. Error .341 .371 .473 . .529 . Wald 2.095 13.192 14.449 . 6.210 . df 1 1 1 0 1 0 Sig. .148 .000 .000 . .013 .
logit:用于反应变量各取值水平发生概率
相近的资料 Complementary:用于反应变量取值水平 高的水平发生概率高的资料 Negative:用于反应变量取值水平低的水平 发生概率高的资料 Probit:用于潜在变量服从正态分布的资料 Cauchit:用于潜在变量存在很多极端值的 资料
变量各水平的例数
Case Processing Summary N y 无 效 有 效 治 愈 新 疗 法 传 统 疗 法 男 性 女 性 42 14 28 41 43 25 59 84 0 84 Marginal Percentage 50.0% 16.7% 33.3% 48.8% 51.2% 29.8% 70.2% 100.0%
二、SPSS操作与结果解释 建立数据文件,Weight
性别 男 X1=0 女 X1=1
治疗方法 新药疗法(X2=0) 传统疗法(X2=1) 新药疗法(X2=0) 传统疗法(X2=1)
疗效(Y) 痊愈2 有效1 无效0 5 2 7 1 0 10 16 5 6 6 7 19
AnalyzeRrgressionOrdinal
分别单击:Options, Output, Location, Scale
Options (默认)
treat sex Valid Missing Total
似然比检验:模型中自变量偏回归系 数是否全为0。结果P=0.000,说明至 少有一个自变量的偏回归系数不为0。
Model Fitting Information Model Intercept Only Final Link function: Logit. -2 Log Likelihood 43.484 23.598 Chi-Square 19.887 df 2 Sig. .000