logistic回归分析
数据分析知识:数据分析中的Logistic回归分析
数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。
在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。
一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。
这样,我们可以用这个数值来表示某个事件发生的概率。
当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。
2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。
其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。
在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。
在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。
3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。
其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。
此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。
二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。
统计学中的Logistic回归分析
统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
第十九章 Logistic回归分析
三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0
回归分析线性回归Logistic回归对数线性模型
逻辑回归的模型为 (P(Y=1) = frac{1}{1+e^{-z}}),其中 (z = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_nX_n)。
逻辑斯蒂函数
பைடு நூலகம்
定义
逻辑斯蒂函数是逻辑回归模型中用来描述自变量与因变量之 间关系的函数,其形式为 (f(x) = frac{1}{1+e^{-x}})。
。
在样本量较小的情况下, logistic回归的预测精度可能高 于线性回归。
线性回归的系数解释较为直观 ,而logistic回归的系数解释相 对较为复杂。
对数线性模型与其他模型的比较
对数线性模型假设因变量和自变量之间存在对 数关系,而其他模型的假设条件各不相同。
对数线性模型的解释性较强,可以用于探索自变量之 间的交互作用和效应大小。
THANKS
感谢您的观看
预测市场细分中的消费者行为等。
对数线性模型还可以用于探索性数据分析,以发现数 据中的模式和关联。
Part
04
比较与选择
线性回归与logistic回归的比较
线性回归适用于因变量和自变 量之间存在线性关系的场景, 而logistic回归适用于因变量为
二分类或多分类的场景。
线性回归的假设条件较为严格 ,要求因变量和自变量之间存 在严格的线性关系,而logistic 回归的假设条件相对较为宽松
最小二乘法
最小二乘法是一种数学优化技术,用于最小化预测值与实际观测值之间的平方误差总和。
通过最小二乘法,可以估计回归系数,使得预测值与实际观测值之间的差距最小化。
最小二乘法的数学公式为:最小化 Σ(Yi - (β0 + β1X1i + β2X2i + ...))^2,其中Yi是实际观 测值,X1i, X2i, ...是自变量的观测值。
7-多元Logistic-回归分析解析
什么是哑变量?
一个含有g个类的分类型变量可以构造g个哑变量。
29
如何用SAS程序构造哑变量? data d2; set d1; array a{3} student teacher worker; do i=1 to 3; a{i}=( x 1= i ) ; end; run;
data d2; set d1;
INTERCPT 1 3.7180 0.6387 33.8853
0.0001
.
.
BIRTHWT 1 -0.00397 0.000588 45.6092
0.0001 -0.702480 206.996
1、因变量bpd对自变量birthwt 的logistic回归模型是:
2、自变量birthwt 的回归系数在统计意义上不等于0 (p=0.0001),因此,OR=0.996在统计意义上不等于1。 OR=0.996 说明新生儿出生体重每增加一个单位(g),患 BPD病的机会就会减少大约0.4% 。即患bpd病的概率 随新生儿出生体重的增加而下降。
• 按因变量取值个数:
• 二值logistic回归分析
• 多值logistic回归分析
• 按自变量个数:
• 一元logistic回归分析
• 多元logistic回归分析
9
第二节 Logistic 回归分析的数学模型
(1) 二值一元logistic回归模型: 令y是1,0变量,x是任
意变量,p=p(y=1|x) ,那么,二值变量y关于 变量x的一元logistic 回归 模型是:
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald
logistic回归分析
Logistic回归分析
数学模型:
e p 1 e
1 X 1 2 X 2 m X m
1 X 1 2 X 2 m X m
Logistic回归分析
一、基本思想
用模型去描述实际资料时,须使 得理论结果与实际结果尽可能的一致。
资料整理格式
Logistic回归分析
1
消除xj量纲的影响
2.标准化偏回归系数j 的意义
果的发生,为“不利因素”;
xij
xij x j sj
(1)符号:取 “+”,xj 增大,则P增大,即促进阳性结
取 “-”,xj增大,则P减小,即抑制阳性结 果的发生,为“保护因素”。 (2)大小 :∣ j ∣越大,则xj 对结果的影响也就越大。
i 1 2 n
x1 x11 x21 xn1
x2
...
xm x1m x2m xnm
δ δ δ δ
1 2
x12 ... x22 ... …... xn2 ...
n
Logistic回归分析
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是i 。 2.一致问题: 对于第i个个体而言, i =1 pi i =0 qi
m
▲
OR e j 1
j ) ˆ j ( x*j x
(1)对多指标的共同效应进行评价:
若OR>1,则处于X*水平下的阳性结果发生风险要高于X 水平, 即“不利因素”占主导地位;
▲
▲
若OR<1,则处于X*水平下的阳性结果发生风险要低于X 水平, 即“保护因素”占主导地位;
▲
Logistic回归分析
Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
Logistic回归分析(共53张PPT)
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
Logistic回归分析
急性心肌梗死合并心源性休克的危险因素分析
Wald就是卡方值,取值范围(0-10),P越小,wald越大
急性心肌梗死合并心源性休克的危险因素分析
Wald就是卡方值,取值范围(0-10),P越小,wald越大
急性心肌梗死合并心源性休克的危险因素分析
Logistic回归分析
统计学方法 计量资料采用t检验 计数资料采用卡法检验 按P<0.05有统计学差异
Logistic回归分析
急性心肌梗死合并心源性休克的危险因素分析
1、两组患者的一般资料(性别、年龄、吸烟、饮酒、家族史) 2、临床表现(是否合多系统疾病)
3、血生化检查(高血压、卒中、糖尿病、血脂异常、肌钙蛋白、B型脑
β的绝对值越大,SE越大(一般而言);取值在(0,1)
Hale Waihona Puke 谢谢Logistic回 归分析
一、主要用于流行病学研究中危险因
素的分析(最主要)
二、如果已经建立了logistic回归模型,
则可以根据模型,预测在不同的自变 量情况下,发生某病或某种情况的概 率有多大。
Logistic回归分析
例如:急性心肌梗死合并心源性休克的危险因素分析 AMI:100人(对照组) AMI合并心源性休克:50人(观察组)
急性心肌梗死合并心源性休克的危险因素分析
以急性心肌梗死并出现心源性休克为因 变量,将单因素有显著性影响的因素为 自变量,引入Logistic回归分析模型,进行 多因素分析。
急性心肌梗死合并心源性休克的危险因素分析
急性心肌梗死合并心源性休克的危险因素分析
Logistic回归分析
生”与“未发生”来表达。如果令应变量 Y=“发生”的概率为π,则其对立面Y=“未发生” 的概率为1-π。很显然,π及1-π的取值范围均在 [0~1]之间,二者经过下面的变换,变换后的取 值范围均在(-∞,+∞)之间。
ln
P(Y "发生") P(Y "未发生")
菜单栏上依次点击:转换——计算变量
菜单栏上依次点击:analyse--regression--binary logistic,打开二分回归对话框
分类话框用来设置自变量中的分 类变量,左边的为刚才选入的协 变量,必须将所有字符串变量和 分类变量选入右边的“分类协变 量框中”。 本例中只有“教育程度[ed]”为 分类变量,将它选入右边框中
Logistic回归分析
一、概述
• 线性回归模型(一元和多元)均要求应变量Y连续型随 机变量,并呈正态分布。
• 实际生活中常常碰到应变量是分类变量的情况,如 发病与未发病、死亡与未死亡等。如果需要分析多 个自变量对此类应变量的影响情况,则不能建立自 变量与应变量的一般回归分析模型。
Logit变换
“更改对比”用于 设置分类协变量各水 平的对照方式方式
模型总体解释力度
Z=-0.791-0.243employ-0.81address+0.88debinc+0.573creddebt
课堂练习
• 利用OLD-1992进行Logistic regression,解释实证 结果
ln 1-
Logit( )
π的这种变换称为Logit变换,记为Logit(π)
Logistic回归模型
• 既然Logit(π)的取值是(-∞,+∞),因此可以将 Logit(π)当作“应变量”,从而建立该“应变量” 与相应自变量的线性回归模型,如下:
logistic回归分析
它与自变量x1, x2,…,xp之间的Logistic回
归模型为:
p exp(0 1X1 2 X 2 ... m X m ) 1 exp(0 1X1 2 X 2 ... m X m )
1
1 p
1 exp( 0 1 X 1 p X p )
6
模 型
ln
P 1 P
=0
1
• 按照研究设计类型 –非条件logistic回归(研究对象未经匹配) –条件logistic回归(研究对象经过匹配)
5
Logistic回归模型
应变量Y
1 0
发生 未发生 ,
自变量X1, X 2 ,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2 ,, X m ) 0 P 1
X1
2
X
2
m X m log itP
参 数
常数项 0
表示暴露剂量为0时个体
的
发病与不发病概率之比的自然对数。
意 义
回归系数 j ( j 1,2,, m)
表示自变量 X j 改变一个单位时
logitP 的改变量。 7
优势比OR(odds ratio)
流行病学衡量危险因素作用大小的比数比例指标。 计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, OR j 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
8
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 X j c1 与 X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
统计学-logistic回归分析
研究问题可否用多元线性回归方法?
ˆ y a b x b x b x 1 1 2 2 m m 1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生与 3.多元线性回归结果 Y 否” logistic回归方法补充多元线性回归的不足
第十六章 logistic回归分析
logistic回归为概率型非线性回归 模型,是研究分类观察结果(y)与 一些影响因素(x)之间关系的一种 多变量分析方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
lnllnplnlikehoodratiotest通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行其统计量为近似服从自由度为待检验因素个数的scoretest以未包含某个或几个变量的模型为基础保留模型中参数的估计值并假设新增加的参数为零计算似然函数的一价偏导数又称有效比分及信息距阵两者相乘便得比分检验的统计量分布
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或 最大等级作参考组,并按等级顺序依次取为 0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则 应按多分类资料处理。 • 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
Y 发病=1 不发病=0
《logistic回归分析》课件
信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
logistic 回归的例子
logistic 回归的例子
Logistic回归是一种广义线性回归(generalized linear model),其因变量是二分类的分类变量或某事件的发生率,并且是数值型变量。
下面是一个简单的例子:
假设我们有一组数据,其中包含两组人群的特征,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。
我们将这两组人群标记为胃癌组和非胃癌组。
通过Logistic回归分析,我们可以得到每个特征的权重,从而了解哪些特征是胃癌的危险因素。
具体来说,Logistic回归模型的公式为:
p = 1 / (1 + e^(-z))
其中,z = w'x + b,w和b是待求参数,x是特征向量,w是权重向量。
通过最大似然估计法,我们可以求解出w和b的值。
然后,我们可以将权重向量w与特征向量x相乘,再加上偏置项b,得到z值。
最后,将z值代入Logistic函数中,得到每个样本属于胃癌组的概率p值。
在上述例子中,我们假设数据集是平衡的,即两组人群的数量大致相等。
如果数据集不平衡,我们可以通过增加样本数量、采用过采样技术、采用加权Logistic回归等方法来解决。
另外,Logistic回归模型的适用条件包括:因变量为二分类的分类变量或某事件的发生率;自变量和因变量之间存在线性关系;各观测对象间相互独立等。
需要注意的是,Logistic回归模型的应用需要具备一定的统计
学基础和专业知识,并且在实际应用中需要考虑到数据的分布、特征的选取、模型的评估等多个方面。
因此,在进行Logistic回归分析时,需要结合实际情况和具体问题进行分析和处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
L PYi (1 P )1Yi i i
i 1
n
( i 1, 2,, n )
(15.1)
设 Z 0 1 X 1 2 X 2 m X m ,则 Z 与 P 之间关系的 logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随 Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
(二)病例与对照匹配---条件logistic回归 1、成组匹配(category matching):匹配的因素所占的比例,在对照组 和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组 也是如此。 2、个体匹配(individual matching):以病例和对照的个体为单位进行 匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m 匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。 (三)巢式病例对照研究 也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的 方法。
(15.6)
其中, Pi 表示第 i 例观察对象处于暴露条件下时阳 性结果发生的概率。阳性结果时, Yi 1 ;阴性结 果时, Yi 0 。
根据最大似然原理,似然函数 L 应取最大值。 对似然函数取对数形式:
ln L [Yi ln P (1 Yi )ln(1 P )] i i
设 X j 为两分类变量: c1 =1 为暴露, c0 =0 为非暴露, 则暴露组和非暴露组发病的优势比为: OR j exp j 当 j =0 时, ORj =1,表示因素 X j 对疾病的发生不起 作用; j >0 时, ORj >1,表示 X j 是一个危险因素;
j <0 时, ORj <1,表示 X j 是一个保护因素。
优势比估计
自变量 X j 不同水平 c1 和 c0 优势比的估计值:
ˆ OR j exp[b j (c1 c0 )]
当样本含量 n 较大时, bj 的抽样分布近似服从 正态分布,若 X j 只有暴露和非暴露 2 个水平, 则优势比 OR j 的 100(1 )%可信区间为:
exp(bj u 2 Sbj )
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
表 15-1 分层 g 1 2 3 4 吸烟 X 1 0 0 1 1 吸烟、饮酒与食管癌关系的病例-对照研究资料 饮酒 X 2 0 1 0 1 总例数 ng 199 170 101 416 阳性数 d g 63 63 44 265 阴性数 ng d g 136 107 57 151
第一节
logistic 回归模型:
logistic回归
设因变量Y 是一个二分类变量,其取值为 Y =1 和 Y =0。 影响 Y 取值的 m 个自变量分别为 X 1 , X 2 , , X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件 概率为 P P(Y 1 X 1 , X 2 , , X m ) ,则 logistic 回归模 型可表示为: exp( 0 1 X 1 2 X 2 m X m ) P 1 exp( 0 1 X 1 2 X 2 m X m ) 其中, 0 为常数项, 1 , 2 , , m 为偏回归系数。
病例对照研究的类型
(一)病例与对照不匹配---非条件logistic回归
在设计所规定的病例和对照人群中,分别抽取一定量的研究 对象,一般对照应等于或多于病例数,此外无其他任何限制。
(二)病例与对照匹配---条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征 上与病例保持一致,目的是对两组比较时排除混杂因素的 干扰。匹配分为成组匹配和个体匹配。
i 1
n
(15.7)
式中为对数似然函数,对其取一阶导数求解参数。对 于参数 j ( j 1, 2,, m ) ,令 ln L 的一阶导数为 0, 即
ln L 0 ,用 Newton-Raphson 迭代方法解方程组, j
得出参数 j 的估计值 bj 和 bj 的渐进标准误 Sb j 。
ln[exp(0 1 X1 2 X 2 m X m )]
0 1 X1 2 X 2 m X m
(15.2)
模型参数的流行病学含义
当各种暴露因素为 0 时: P ln( ) 0 1 X 1 2 X 2 m X m 1 P 0 1 0 m 0 0 可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2, , m )表示在其它自变量固定的 条件下,第 j 个自变量每改变一个单位时 logit (P ) 的改变 量。它与比数比(优势比) OR (odds ratio)有对应关系。
路径分析
结构方程模型分析
logistic回归(logistic regression)是研究因变量为二分类 或多分类观察结果与影响因素(自变量)之间关系的一种 多变量分析方法,属概率型非线性回归。 在流行病学研究中,常需要分析疾病与各种危险因素间的 定量关系,同时为了能真实反映暴露因素与观察结果间的 关系,需要控制混杂因素的影响。 (1)Mantel-Haenszel分层分析:适用于样本量大、分析 因素较少的情况。当分层较多时,由于要求各格子中例数 不能太少,所需样本较大,往往难以做到;当混杂因素较 多时,分层数也呈几何倍数增长,这将导致部分层中某个 格子的频数为零,无法利用其信息。
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。
病例对照研究(case-control studies):一种由果及因的回顾性
在其它影响因素相同的情况下,某危险因素 X j 两个 不同暴露水平 c1 和 c0 发病优势比的自然对数为:
P1 (1 P1 ) P0 P1 ) ln( ) ln OR j ln = ln( 1 P1 1 P0 P0 (1 P0 )
= j (c1 c0 ) 则该因素的优势比: OR j exp[ j (c1 c0 )] 式中 P1 和 P0 分别表示在 X j 取值为 c 1 和 c 0 时的发病 概率, ORj 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
P logit 变换:logit P = ln 为 P 的 logit 变换, 1 P 通过 logit 变换之后,就可将 0 P 1 的资料转换为
logit( P) 的资料。
作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
exp( 0 1 X 1 2 X 2 m X m ) 1 exp( 0 1 X 1 2 X 2 m X m ) P ln( ) ln[ ] exp( 0 1 X 1 2 X 2 m X m ) 1 P 1 1 exp( 0 1 X 1 2 X 2 m X m )
由于 ORj 值与模型中的常数项 0 无关,因此 0 在危 险因素分析中常常被视为无效参数。对于发病率很低 的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作 为相对危险度(relative risk ,RR)的近似估计。
P (1 P ) P 1 1 RR 即 OR 1 P0 (1 P0 ) P0