logistic回归系数可信区间估计及假设检验的三种方法比较
医学统计学:Logistic回归分析
析包含某个或某几个变量的模型是否有统计学意义。
模型s的对数似然函数
模型s的对数似然函数 大样本
G = -2 ( ln Ls- ln LP ) ~ 2 ( p -s)
模型s嵌套 于模型p内
LS :包含s个回归系数的模型的似然函数对数值; LP:包含p个回归系数的模型的似然函数对数值,p > s ;
• G值的大小反映增加某个或某几个自变量的模型拟合优度提高的程度。 • s=0时,是对模型的整体检验;p=s+1时,是对某个自变量的检验。
包括:多元线性回归模型,logistic回归模型,Probit回归模型,
Poisson回归模型,负二项回归模型
2
当因变量是分类变量时,其自变量与因变量更多的是 非线性关系,严重违背了线性回归模型的假设条件。 故直接应用线性回归分析不合理;
不能直接分析 y 与 x 的关系 y=f(x) ,因y仅取有 限的几个值
23
2019/6/6
Logistic回归模型的统计推断 • Logistic回归方程(系数)的假设检验 • Logistic回归模型的拟合优度检验 • Logistic回归模型预测准确度的检验
22
(1) 似然比检验(likelihood ratio test)
通过比较两个相嵌套模型的对数似然函数统计量G (又称Deviance):来分
对数似然 ln L a(0 1) a ln[1 exp(0 1)] b ln[1 exp(0 1)] c0 c ln[1 exp(0)] d ln[1 exp(0 )]
求一非阶线偏性导迭,代并方令法一阶偏导数=0 ——Newton-Raphson迭代法
最大似然估计
ˆ0
ln
c d
logistic回归分析
0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059
回归系数的估计及检验
回归系数的估计及检验回归分析是统计学中一种常用的分析方法,用于研究自变量与因变量之间的关系。
回归分析的核心是估计回归系数,通过对数据进行拟合,得到最佳的回归方程。
本文将对回归系数的估计及检验进行详细介绍。
一、回归系数的估计回归系数的估计可以使用最小二乘法。
最小二乘法是一种常见的参数估计方法,其目标是使观测值与拟合值之间的平方差最小化。
在回归分析中,我们通过最小化残差平方和来估计回归系数。
具体而言,通过最小化观测值与拟合值之间的差异,得到最优的回归系数估计。
二、回归系数的检验在回归分析中,我们需要对回归系数进行检验,以判断自变量对因变量的影响是否显著。
常见的回归系数检验方法包括t检验和F检验。
1. t检验t检验用于判断回归系数是否显著不等于零。
t检验的原假设是回归系数等于零,备择假设是回归系数不等于零。
通过计算回归系数的标准误差和t值,可以得到回归系数的t统计量。
根据t统计量和自由度,可以计算出对应的p值。
如果p值小于显著性水平(通常为0.05),则可以拒绝原假设,认为回归系数显著不等于零。
2. F检验F检验用于判断回归模型是否显著。
F检验的原假设是回归模型中所有回归系数都等于零,备择假设是至少存在一个回归系数不等于零。
通过计算回归模型的残差平方和和回归平方和,可以得到F统计量。
根据F统计量和自由度,可以计算出对应的p值。
如果p值小于显著性水平(通常为0.05),则可以拒绝原假设,认为回归模型显著。
三、回归系数的解释回归系数的估计和检验给出了自变量对因变量的影响程度和显著性。
回归系数的符号表示了自变量对因变量的正向或负向影响,而系数的大小表示了影响的程度。
例如,如果某个自变量的回归系数为正且显著,说明该自变量对因变量有正向影响,并且系数的绝对值越大,影响越显著。
回归系数的置信区间也是回归分析中常用的指标。
置信区间表示了对回归系数的估计的不确定性范围。
一般来说,置信区间越窄,对回归系数的估计越精确。
第二章-3回归系数的区间估计和假设检验
三、参数的假设检验
(一) 关于 的假设 2 1、 未知, 2检验的步骤如下:
1)提出原(零)假设和备择假设
H: 0
0
2
2)若 成立 H 0 ,则
H:0
1
2
t
ˆ2 SEˆ(ˆ2)
~t(n2)
3)对给定的 ,查 t 分布表确定临界值 t
2
4)根据样本数据计算 t
5)若 t t 2
2
x2 i
t SˆE1ˆ(ˆ11)
ˆ1 1 ˆ2 Xi2
~t(n2)
n xi2
二、参数的区间估计
(一)区间估计的概念
设待估 i, 参 对 数 给 为 、 定 ( 0 的 1 ) 正, 数有
P ( ˆi i ˆi ) 1
6050
7920
22893.6
ˆ2nn X X iY i2i ( X Xii )Y 2i xxiiy 2i
1 0 22.6 8 5 94 3 209 .7 9 0 .4845 1 0 43 0 50 4 2 8 0
ˆ1Yˆ2X3.805 Y ˆ3 .80 0 .5 48X45
称ˆ( i,ˆi)为 i的置1 信 的 度 置 为 信区间;1为置信Βιβλιοθήκη 数(或 置可 信靠 概程 率度);
ˆi 、ˆi 分别称为下置信 置限 信、 限上 。
** 参数 2的区间估计
1P 、 ( 总 Z体 2服 S ˆ2( E 从 ˆ22 )正 Z态 S2) E( 分 1 ˆ 2) 布 已 (知)ZSˆ2E(ˆ22 ) ~N(0,1)
1 、总体服 2 已 从知 正) 态 1 的 , 分 置 参 布 1 信 的 数 ( 度 置 为 信区
13.Logistc回归分析
Wald检验的统计量为
z b0 Sb
2 ( b )2 Sb
v 1
可以证明,在 H0成立的条件下,如果样本量较大, z近似地服从标准正态分布 N(0, 1) , 2 近似地 服从自由度为1的 2 分布。
(二)回归系数的区间估计 当样本含量较大时, 已知总体回归系数 的抽样分布近似地服从正态分布, 根据正态分布理论,总
n
1 1 Yi
[1 e ] [1 1 e ] i1
(
0
1
X 1i
...
P
X
i p
)
1Yi
(
0
1
X 1i
...
P
X
i p
)
称为似然函数(1ikelihood function),记为 。 L(0, 1,..., p )
ln L(0 , 1,..., p )
体回归系数β 的(1-α )置信区间为 ,则OR 的估计值为 eb ,(1- α) 置信区间为
e(b z / 2Sb )
例l8-2 针对例l8-1资料,建立 与 关系的1ogistic回归方程,并对大肠癌患者5年生存状态进行预 测。
本例因 (Dure's分期)为无序多分类变量资料,以最高值为参照水平,产生3个哑变量(表18-2),故 最终方程中自变量数增至9个。基于SAS的输出结果如表18-3 所示 。
由于因变量 Y为二分类变量, 不满足线性回归分析条件, 首先对π进行数据变换:
logit() ln( ) ln(Odds) 1
这个变换将取值在0-1间的 π 值转换为值域在(- ∞ ,+ ∞ )的 logit()值
logistic回归模型的假设检验方法
logistic回归模型的假设检验方法"Logistic回归模型的假设检验方法"Logistic回归模型是一种常用的数据挖掘和预测模型,特别适用于二分类问题。
在使用Logistic回归模型进行预测之前,需要对模型的假设进行检验。
本文将一步一步回答关于Logistic回归模型假设检验方法的问题。
问题1:Logistic回归模型的假设是什么?Logistic回归模型的假设通常包括以下几点:1. 线性关系:自变量与因变量之间的关系是线性的。
2. 独立性:观察样本之间是相互独立的,每个观察样本之间的结果不相互影响。
3. 多重共线性:自变量之间应当具有较低的多重共线性,即它们之间不存在高度相关性。
4. 独立的误差项:因变量与自变量之间的关系由一个独立的误差项表示。
5. 高斯分布:误差项应当服从正态分布。
问题2:如何检验Logistic回归模型的线性关系假设?为了检验Logistic回归模型的线性关系假设,可以采用如下方法:1. 偏离线性:观察因变量与自变量之间的散点图,检查是否存在非线性关系。
2. 考察残差:绘制自变量与残差的散点图,检查是否存在任何模式或趋势。
问题3:如何检验Logistic回归模型的独立性假设?为了检验Logistic回归模型的独立性假设,可以采用如下方法:1. 边际分布:首先,观察因变量和自变量的边际分布,确保样本中的分布相对均匀,没有局部聚集。
2. 自相关检验:使用相关性检验方法,如Pearson相关系数,检查是否存在自相关性。
问题4:如何检验Logistic回归模型的多重共线性假设?为了检验Logistic回归模型的多重共线性假设,可以采用如下方法:1. 方差膨胀因子(VIF):计算自变量的VIF,VIF值高于10可能存在多重共线性的问题。
2. 条件数:计算自变量矩阵的条件数,条件数大于30可能存在多重共线性的问题。
条件数是多重共线性的指标,表示自变量之间相互关联的程度。
SAS学习系列26.Logistic回归
26. Logistic回归(一)Logistic回归一、原理二元或多元线性回归的因变量都是连续型变量,若因变量是分类变量(例如:患病与不患病;不重要、重要、非常重要),就需要用Logistic回归。
Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。
Logistic回归模型有“条件”与“非条件”之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。
对于二分类因变量,y=1表示事件发生;y=0表示事件不发生。
事件发生的条件概率P{ y=1 | x i } 与x i之间是非线性关系,通常是单调的,即随着x i的增加/减少,P{ y=1 | x i } 也增加/减少。
Logistic函数F(x)=1,图形如下图所示:1+e−x该函数值域在(0,1)之间,x 趋于-∞时,F(x )趋于0;x 趋于+∞时,F(x )趋于1. 正好适合描述概率P{ y =1 | x i }. 例如,某因素x 导致患病与否:x 在某一水平段内变化时,对患病概率的影响较大;而在x 较低或较高时对患病概率影响都不大。
记事件发生的条件概率P{ y =1 | x i } = p i ,则p i =11+e −(α+βx i )=e α+βx i 1+e α+βx i记事件不发生的条件概率为1- p i =11+e α+βx i则在条件x i 下,事件发生概率与事件不发生概率之比为p i 1−p i= e α+βx i称为事件的发生比,简记为odds. 对odds 取自然对数得到ln (p i1−p i)= α+βx i 上式左边(对数发生比)记为Logit(y), 称为y 的Logit 变换。
可见变换之后的Logit(y)就可以用线性回归,计算出回归系数α和β值。
若分类因变量y 与多个自变量x i 有关,则变换后Logit(y)可由多元线性回归:11logit()ln()1k k pp x x p αββ==++-或 111()1(1|,,)1k k k x x p y x x eαββ-++==+二、回归参数的解释1. 三个名词发生比(odds)= 事件发生频数事件未发生频数= p k1−p k例如,事件发生概率为0.6,不发生概率为0.4,则发生比为1.5(发生比>1,表示事件更可能发生)。
logistic回归模型的假设检验方法 -回复
logistic回归模型的假设检验方法-回复Logistic回归模型是一种经典的统计学习方法,用于解决二分类问题。
它基于一组假设,这些假设在进行模型的参数估计和推断时起到了重要作用。
本文将详细介绍Logistic回归模型的假设及其假设检验方法。
一、Logistic回归模型的假设Logistic回归模型的假设主要包括以下几个方面:1. 二分类假设:Logistic回归模型假设数据是二分类的,即样本数据只具有两个类别,用0和1表示。
2. 线性关系假设:Logistic回归模型假设自变量和因变量之间存在一个线性关系。
这个假设是建立在一个重要的推论上,即在自变量和因变量之间不存在非线性关系。
3. 独立性假设:Logistic回归模型假设不同样本之间是独立的。
这意味着各个样本之间的观测结果相互独立,不会相互影响。
4. 同方差性假设:Logistic回归模型假设不同样本之间的方差相等。
这意味着模型的预测误差的方差是恒定的,不会随着自变量的变化而变化。
二、Logistic回归模型的假设检验方法为了对Logistic回归模型的假设进行检验,我们需要进行一系列的统计推断。
下面将介绍三种常用的假设检验方法。
1. Wald检验Wald检验是一种常用的假设检验方法,它基于Logistic回归模型中的参数估计值和标准误差。
Wald检验的原假设和备择假设分别是H0: β=0和H1: β≠0。
具体步骤如下:(1)计算参数的估计值β_hat以及标准误差SE_beta;(2)计算检验统计量Wald statistic,即Wald = (β_hat - 0) / SE_beta;(3)根据Wald统计量的分布情况,计算p值;(4)根据p值和事先设定的显著性水平进行决策,如果p值小于显著性水平,则拒绝原假设。
2. 似然比检验似然比检验是一种用来比较两个模型拟合优度的统计检验方法。
在Logistic回归模型中,我们比较的是全模型和约简模型的拟合优度。
第十二章Logistic回归分析
第十二章Logistic 回归分析一、Logistic 回归概述:Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施; 通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的 因素为自变量建立模型。
、Logistic 回归的分类及资料类型:第一节非条件Logistic 回归分析、Logistic 回归模型:Logistic 回归模型:exp ( • :i X i ——亠」p X p )p 二1 +exp ( B o + B i X i i + Pp X p ) 1二、回归系数的估计(参数估计):回归模型的参数估计:Logistic 计法。
二、假设检验: 1. Logistic 回归方程的检验:•检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性 关系,也即方程是否成立。
检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。
上述三种方法中,似然比检验最可靠。
•似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为 G=-2l n(L)(又称Devia nee )。
无效假设H O : B =0。
当H 0成立时,检验统计量 G 近似服从自由度为N-P-1的X 2分布。
当G 大于临界值时,接受H,拒绝无效假设, 认为从整体上看适合作Logistic 回归分析,回归方程成立。
2. Logistic 回归系数的检验:•为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。
•检验方法常用 WaldX 检验,无效假设H0 B =0。
当X 2大于临界值时,拒 绝无效假设,自变量能进入方程。
1亠elogit (P )= ln (±)=B o +B * 1 x 1 + , + B n x n回归模型的参数估计通常利用最大似然估3.Logistic 回归模型的拟合优度检验:•Logistic 回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。
Logistic回归分析(1)
53例接受手术的前列腺癌患者情况
6
26例冠心病病人和28例对照者进行 病例对照研究
7
26例冠心病病人和28例对照者进行 病例对照研究
8
根据研究设计不同
• Logistic回归的分类
Logistic回归 二分类 多分类
非条件 :成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
24
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不同 的类别。进行Logistic回归分析前需将 该变量转换成k-1个指示变量或哑变量 (design/dummy variable),这样指示变 量都是一个二分变量,每一个指示变 量均有一个估计系数,即回归系数, 其解释同前。
由于 OR j 值与模型中的常数项 0 无关,
0 在危险因素分析中通常视其为无效参数。
18
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义:常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数,表示在其它自变量固定的 • 条件下,第i个自变量每改变一个单位时logit的改
雌激素
使用过
未使用过
病例 对照
55(a) 19(c)
128(b) 164(d)
OR P1 (1 P1 ) ad 55164 3.7089 P0 (1 P0 ) bc 19128
95%CI :
3.7089 exp 1.96
1 1 1 1 55 128 19 164
2.0964 ~ 6.5616
31
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素
计量经济学:logistic方法介绍
第二节 Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR(Re lative Risk) RR P1 P0
反映某一个危险因素xi两个不同暴露水平1与0的发病率的比
2. 优势Odds
Odds P1 P1 1 P1 q1
亦称比数
0.2508 1.2508
20.053%
抢救成功(y 0)的概率
Q 1 0.20053 79.95%
三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验
H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
拒绝H0 说明模型变量有统计学意义。
2. 回归系数的假设检验(Wald法)
H0:βj=0 ;
H1: βj≠ 0
统计量
2 j
j SE
j
2
~
2 1
在例19-1中的SAS结果中:
变量名
常数项 X1 X2 X3
参数估计βk
-2.0858 1.1098 0.7028 0.9751
例19-2
研究食管癌与饮酒的关系,年龄可能是混杂因素。将饮酒按年龄分解成4 个四格表,用Logistic回归校正混杂因素。
B
饮酒 不饮酒
25~44 病例 对照
5
35
5
270
年龄组
45~54 病例 对照
55~64 病例 对照
25
29
42
27211383413965+ 病例 对照
(卫生统计学)第十九章 Logistic回归分析
结果解释
3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意 义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个 等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2 每增加一个等级所引起的优势比为增加前的2.019倍 。在因素x1和x2固定不变 时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察 因素相对贡献大小时,从标准系数看, β'1> β' 3 > β'2 ,故x1的相对贡献比x2和 x3大。
OR
P1 P0
/1 /1
P1 P0
e i
亦称比数比
反映某一个危险因素 xi在不同暴露水平下发病 与不发病的比。
当阳性率 P 1时, OR RR
二、参数估计
由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximum likelihood estimate)求解模型中的参数βj的估计值 bj (j=0,1,2,….k)。
1. 相对危险度 RR( Re lative Risk ) RR P1 P0
反映某一个危险因素 xi两个不同暴露水平 1与 0的发病率的比
2. 优势 Odds
Odds P1 P1 1 P1 q1
亦称比数
反映某一个危险因素 xi在暴露水平 1下发病率与不发病率的 比
3. 优势比 OR ( Odds Ratio )
个例预测
设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0), 已有心衰(x2=1),求抢救成功的概率。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
10_第十讲_Logistic回归1228
2、偏回归系数bj与ORj区间估计
• bj的95%可信区间 • 比数比的ORj可信区间
• 饮酒:
– 偏回归系数b1区间范围(0.218 ~ 0.834) – 比数比95%可信区间为(1.24 ~ 2.30)
模型中参数的意义
• 为不接触任何因素时个体发病与不发病概率 之比的对数值。1.0
.9
曲线从左向右移动 .8
红: a = -3.00
.7
b1 = 0.05 (top)
.6
绿: (middle) .5
兰: a = -5.00
.4
b1 = 0.05 (bottom)
• 似然比检验是通过比较是否包含某个 (或几个)参数的两个模型的对数似 然函数统计量G来进行的,当样本量足 够大时,该统计量服从卡方分布。
– 比较在两种假设条件下对数似然函数值, 计算其差别大小。
建立假设:
H0:吸烟=0 H1: 吸烟0 =0.05
H0:饮酒=0 H1: 饮酒0 =0.05
计算统计量:G=2(lnL1-lnL0)
1.807 3.25
• 若某人同时吸烟(X烟=1)和饮酒(X酒=1),其发生 食管癌可能性多大?
P=0.623
• 另一人只饮酒( X酒=1 )不吸烟(X烟=0)发生食管癌 的概率:
p=0.405
(二)统计推断
1、假设检验:检验模型中一个(或多个) 是否为0
– 似然比检验 – Wald检验 – Score检验
(三)Logistic回归的用途
• 可以在控制1个或多个混杂因素的条件下,探 讨某个事件的发生与研究因素的关系;研究 各因素主效应及其相互间的交互作用;
Logistic回归分析(重点、难点)
1
p2 p2
,通通常常在在流流行行病病研研究究中中p1
为病例
p1为组病的暴例露组率的,暴p露2 是率指,对p2照为组对的照暴组露的率暴。露率。
对发病对率发较病低率的较疾低的病疾,病一,般一有般R有R≈RORR OR 。
比数比
病例对照研究
暴露 未暴露
病例 a b
对照 c
d
OR a/(ab) / c/(cd) b/(ab) d/(cd)
理解 非条件Logistic回归和条件Logistic回归的 区别
1. Logistic回归分析结果及解释 掌握 2. Logistic回归变量筛选方法
3. Logistic回归系数的流行病学意义 4. Logistic回归的应用及注意事项
几个重要的流行病学概念
病因分析(预后分析)的目的:找出影响疾 病发生(或预后好坏)的影响因素及其影响的强 度。
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
模型参数的意义
当 P 1 , 则 有 O RP 1/(1P 1) R R P 0/(1P 0)
由 于 Oj值 R 与 模 型 中 的 常 数 项 0α 无 关 ,
α0在 危 险 因 素 分 析 中 通 常 视 其 为 无 效 参 数 。
实例分析
❖ Analyze ▪ Regression
• Binary Logistic
实例分析
❖ 应变量编码Depen dent Variabl e Enco din g
Original ValuIenternal Value
.00
0
1.00
1
❖ 模型拟合结果
logit回归求概率的可信区间
logit回归求概率的可信区间引言在统计学和机器学习中,lo gi t回归是一种常用的分类模型。
它可以用来预测二分类问题中的概率,并提供了一种有效的方式来估计可信区间。
本文将介绍l og it回归模型的基本原理,并详细解释如何使用l og it回归求解概率的可信区间。
1. lo git回归模型l o gi t回归模型是一种广义线性模型,用于对二分类问题进行建模。
在l og it回归模型中,我们首先将因变量的对数几率(l ogo d ds)与自变量的线性组合进行关联。
其数学表达式为:$$\l og{\le ft(\fr ac{p}{1-p}\r ig ht)}=\be ta_0+\be ta_1x_1+\be t a_2x_2+\ld ot s+\b et a_px_p$$其中,$p$表示事件发生的概率,$\be ta_0,\be ta_1,\be ta_2,\ld ot s,\b et a_p$为模型参数,$x_1,x_2,\ld ot s,x_p$为自变量。
2.求解概率的可信区间在l og it回归模型中,我们的目标是通过已知的自变量值预测事件发生的概率,并给出一个可信区间来反映预测的不确定性。
下面将介绍如何使用lo gi t回归模型求解概率的可信区间。
2.1数据准备首先,我们需要准备用于训练lo gi t回归模型的数据集。
数据集通常包含两类观测样本,每个样本都有一组自变量的取值。
同时,每个样本都有对应的事件发生与否的标签。
2.2模型训练在数据准备完成后,我们可以使用统计学或机器学习的方法来拟合l o gi t回归模型。
通过最大似然估计等方法,可以求解出模型参数$\be ta_0,\be ta_1,\be ta_2,\ld ot s,\b et a_p$。
2.3概率预测在模型训练完成后,我们可以使用已知自变量的取值来预测事件发生的概率。
具体而言,我们可以将自变量代入l og it回归模型的公式中,计算出对数几率,再通过反函数转换得到概率值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归 系数估计值为 。重复抽样步骤 T次 , 得到 丁个 b , 这 ,求 T个 b ,的标准差 , 即为 岛 标准误 的估计 值 s 。当 6 服从 近 J
似正态分布时 , 利用 正态近 似原理 可估计 相应 可信 区 间。 由 于 B osrp的检验统计量 t ot a t 一 服从 学生 式 t分布 , 故通 过
和轮廓似然三种方法 , 比较其应用前提。应用 Mo t C rl ne ao 模拟方法 , - 分别产生 自变量为二分类 变量和连续 型变 量 的二分 类 lgsi oi c t 分析数据, 比较三种方法 的准确性和稳定性。结果 : 无论 自变量为连续 型或二分类变 量 , osrp法 和轮廓似 然法的检 验效 能均高 o B tta 于 wad法 , l 该差异在小样本情形下更为明显。但 B osrp方法的稳定性较差 , I o tta 对 类错误的控制也欠 佳。结论 : 轮廓 似然方法最 为 稳健 , 能严格控制 I 类错误率 , 且检验效 能优 于 wa l d方法 , 值得推荐 。 关键词 : lgsi o it c回归 ; 可信 区间 ; Mo t ̄ al模 拟 neC r o
b j
为此 , 本研 究将应 用 Mo t- al neC r o方法 , 从定 量水平更 直 观、 准确地模拟 比较 三种 方法 的统计 性 能 , 以期 为 l i i o s c回 gt
归 的应 用提 供 方 法 学 依 据
1 方 法 简 介
B os a 方法 能够得 到回归系数 岛的( -a 可信 区间为 6± o tt p r 1 ) J / 。当 为偏 态 分 布时 , z 取上 、 2 5百 分位 数 作 为 其 下 . 9 的可信 区间, b 服从正态分布时 , 5 当 j 该法 与正态近似法 结 果相 当近似[ 。本文模拟采用非参数 的百分位数 法得到 回归 4 ]
△ 基础项 目: 本研究获 国家 自然科学基金 ( 1O 2 7 和广东省 自然科学基金( 2 1O O 0 3 5 资助 8 1 20 ) S O 14 O5 5 )
・
33 ・ 9
数理 医药学杂志
21 0 2年 第 2 5卷第 4期
矗
言
日II I 《 d
/ = 0  ̄N 5 ) ()白变 量 为二 分 类 变 量 a
1 4 4 .
G2 2 1 L(j ) lL(  ̄ — ( ̄ b , 一 n b ) )
前 下 服 No ,可 造 验 计 W一乏) 提 , 从 ( 故 构 检 统 量 2( , ) ,
W2 服从 自由度为 1的 。 分布 。当 W gs 1 时 , >z. ( ) 拒绝 H0 o ,
其 中 。 为一具体 固定 数值 . 为模型 固定 于 6 处 时所 . & 求 的极大似然估计值 。 统计 量 G2 服从 自由度 为 】的 分布 , G < z 。( ) 当 2 g 1
数 理 医 药 学杂 志 文 章 编 号 :044 3 ( 0 20 —3 30 10 —3 72 1) 40 9 —4 中 图分 类 号 :R 1 31 文 献 标 识 码 :A
21 0 2年 第 2 卷 第 4 5 期
・
方 法评 介 ・
lgsi 回 归 系 数 可信 区 间估 计 及 假 设 检 验 oi c t 的 三 种 方 法 比较△
h o t o , wih a p iain n v trna y e ie oo y Pr — o d me h d t p lcto s i ee i r pd milg . o c e ig ft e1 t n e n to a m p im n Vee ia yEpd — e dn so h 0 hI t ra in l Sy osu o t rn r ie milg n o o e ,2 03 2 8 ̄ 21 . oo ya d Ec n mis 0 , 0 1
参
考
文
献
均为统计学意义 的相互矛盾 的结果 。虽 然 B osrp法 、 o tt a 轮廓
似然法也可用来检验 回归系数 , 但这两种方法 实际应用 较少 ,
主 要 原 因可 能 是 这 些 方 法 是 否 较 W a l 更 为 优 越 尚 无 明确 d法
结论 , 导致研究者在方法选择上缺乏明确的结论 依据。 影 响回归系数可信 区间精度 的因素较多 , 自变量 类型 、 如 样本量 、 总体 回归 系数 大 小等 。本 研究 就 lg t oii s c回归模型 , 采用 Mo t- al 方法 , neC r o 对各 种 因素组合 进行仿 真模 拟 , 数 参 设 置尽 可能涵盖了实际数 据分析 中所遇 到的情形 。通过 比较
/N= o  ̄ 5) ()自变量 为连续型变量 b
() 自变 量 为 二 分 类 变 量 n
() 自变量 为连 续型 变量 6
图 2 回 归 系 数 一 验 效 能 曲线 图 检
矗
言
Sm l Sz(= . a pe i f 0 、 — e l 7
()自变 量 为 二 分类 变 量 a
di1 .9 9 .s .1 0 -3 7 2 1. 4 0 6 o:0 3 6 /ji n 0 44 3 . 0 2 0 . 0 s
L gsi o i c回归分析 中关 于 回归 系数 的可信 区间估计及 假 t 设检验经常用到 的有三种 方法 , wa 即 l 、 o t rp法 和轮 d法 B os a t
1 L n B S o ea d p oi k l o d c n ie c t r a o o — a gJ c r n rf e l ei o o f n ei e v l frc n l i h d n s
t ge e a l a a ee s S a e i n yt bep rm t r. t tM d,2 0 2 ( 8 5 7  ̄ 5 9 . n 0 8; 7 2 ): 9 5 9 0 2 S r h ,Ch it n e .Conie c n e v l y t o i i ei ty n H rse s nJ f n eit rasb heprfl lk l— d e
5 Mate th ws DE. M icla e k lh o - a e o ie c n ev l seln a Lieio d b s d c nf n e itr as d
f rfncinsofma a a ee s Bo erk o u to nyp rm t r. im tia,1 8 7 1 : 3 9 8, 5( ) 1 9~
2 1 02
的研究 中可将其纳入讨论 , 与本 文的 lgsi o i c回归模 型研究结 t
3 讨 论
果相互 比较 , 从而较 全面地 研究 相乘模 型下 回归 系数 的区 间 估计 和假设检验 的问题 。
目前 , 学术 上普遍认 同用 最大似然方 法估计 lgsi模 型 oi c t 回归系数 , 但对 于传统 Wa l d方法估计 回归系数 的可信区 间却 存在争议 。Wad法过 于保 守l , l _ 是基 于正 态分 布 的方 法 , 8 ] 与 对模型作整体检 验的似 然 比检 验法原 理有 所不 同, 因而可能 导致整体 回归方程 有统计 学意 义 , 而所有 自变量 的 回归系数
12 B os a . o tt p方法 r
B osrp o tt 方法是一种面 向应用 、 于大量计 算 的统计 推 a 基 断方法 。它是以原始数 据为 基础 的模拟 抽样 统计推 断法 , 针 对小 样本 问题 根据 多次 重复 抽样 获取 估计子 样本 的经验分 布, 从而估计 总体参数 的可信 区间并作假设检验[ 。 在原始观察 集 ( 本 ) 样 的基 础上进 行 有放 回的 随机 再抽 样, 得到样本 量为 的 B osrp样 本 。记 B osrp样 本 的 o tt a otta
()自变量为连续型变量 b
() 自变 量 为二 分 类 变 量 n
() 自变量 为连 续 型 变量 6
图 4 一类错误 率曲线图
・
39 ・ 5
lபைடு நூலகம்
J u n l fMah maia dcn o r a t e t lMe iie o c
Vo. 5 12
No .4
回归系数有统计 学意义。同样 原理 可计算 岛的 9 %可信 区间 5
为 b± z, 。 , S 2 收 稿 日期 :0 20 —6 2 1—30
时, 接受 H0届一6 )此时 届 的 9 可信 区间包含该 固定值 ( J, o 5
6 可 由下面不等式 推导得到 :
通讯作者 : 欧春 泉
Sm  ̄ S e = . a p ・i ( 0 ) zf 7 l
()自变量为连续型变墁 b
( ) 自变量 为 二 分 类 变量 口
() 自变 量 为连 续 型 变 量 6
图 3 样本量一 检验效能 曲线图
S mpl- ie a eSz -
S mpe Sz a l・ ie
()自变量为二分类变量 a
廓似然法 , 通常借助 统计软 件现 有的模 块完 成。而常 用统 计
学 软件 ( S S 、 A 、 均 以 基 于 正 态 假 设 下 的 W a 如 P S S S R) l 法 d方
作 为唯一 的或者 系统 默认 的方法 。然 而 Wad方法并 非适 用 l 于任何条件 , 尤其在小样本情 况下 , 分析结果 过于保守 。国内 外也有学者 曾在 文献 中提及 B osrp法 和轮廓 似然 法等 方 o tta 法 的适用情况 l ]但这些文献均未从理论 和数据模拟 的角度 _ , 1 。
3 陈峰 , 守 曾 , 珉.B osrp估 计 及其 应 用.中国 卫生 统计 , 陆 杨 o tta