广义多元线性模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广义多元线性回归方程的构建
【独立作用】
广义多元线性模型的第一大用途是在危险因素研究中,得出独立作 用。什么是独立作用?为什么要评价独立作用呢?
如研究肥胖与高血压关系,比较论文中可能的几种结论: 1. 胖子与瘦子相比,收缩压有显著差别(P<0.005)。
这个结论是用t检验比较两组均数得出的。这有没有说清楚呢?没有。 2. 体重指数与收缩压,非常显著相关(P<0.0001)。
男
男
女
女
图2 按吸烟情况、性别分组身高的箱图
这里看到性别与吸烟(X)有关,又与身高(Y)有关,因此构 成混杂。也就是说前面观察到的吸烟者与不吸烟者身高的差异9.2cm 里有性别的作用在内。用多元回归模型,调整性别后,也就是把性 别的作用剥离出来,得出回归方程式:
Height = 1.747 + 0.015*Smoke - 0.103*Female 它告诉我们男女之间身高相差10.3cm,吸烟比不吸烟者只相差 1.5cm,P值(未列出)不显著。这个1.5cm里面就没有性别的作用了, 也就是独立于性别的作用。回归方程就是这样来评价独立作用的。
f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+……
【用途】
广义线性模型有两大常用用途: 1. 危险因素分析:评价某危险因素(X)对结果变量(Y)有没有独立
作用及独立作用的大小的是多少。(最常见) 2. 建立预测模型:从一系列 X1、X2、… 中挑选出一个最佳预测模型
预测Y的发生。 需要注意的是用途不同,构建模型的方法完全不同,对模型的
文章统计学方法部分开篇写到:
统计学方法里写到的独立作用的风险(absolute risk)是什么?是 如何通过回归分析(Logistic-regression analysis)得出的?为什么要这 样做?是怎么用软件实现的?
上述问题,将在本篇中讲解。
广义多元线性回归方程的构建
【概念】
这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类 型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、 负二项分布等,不同的分布类型对应不同的联系函数f(Y)。
结果变量(Y) 危险因素(X)
效应测量
统计检验
Байду номын сангаас
连续性, 如收缩压 连续性, 如收缩压 分类型, 如是否高血压 分类型, 如是否高血压
分类型, 如是否吸烟 连续性, 如体重指数 分类型, 如是否吸烟 连续性, 如体重指数
吸烟者与不吸烟者收缩压的差(β) H0:β=0 及其标准误 BMI每增加一个单位SBP增加多少 H0:β=0 (β)及其标准误 吸烟者与不吸烟者高血压发生率比 H0:OR=1 (OR)及其95% 可信区间 BMI每增加一个单位高血压发生率比 H0:OR=1 (OR)及其95% 可信区间
这是用相关分析做的。这有没有说清楚呢?也没有。 3. 体重指数每增加1kg,收缩压增加0.01 mmHg,P<0.00001。
这是用回归方程做出来的。统计上非常显著。它也告诉我们,每降 低体重1公斤,能降低血压0.01 mmHg,这个0.01就没有临床意义了,因 为控制体重能导致的降压幅度太小。另外这个0.01里面有没有其它因素 的作用在内呢?不知道。
举例:比较吸烟与身高的关系 看图知吸烟者比不吸烟者高。 单因素回归分析得出方程: Height = 1.563 + 0.092*Smoke
回归系数为0.092,即吸烟者比 不 吸 烟 者 高 9.2cm , P 值 小 于 0.001。
那是不是就可以说吸烟影响身 高呢?再看看进一步的分析:
不吸烟组
吸烟组
4. 在控制了其它因素的作用下,体重指数每增加1kg,收缩压增加 1mmHg,95%可信区间0.7-1.3mmHg。
根据可信区间知统计上显著。而且每降低体重1公斤,能降低血压 1mmHg,有临床应用价值。这个结果是用多元回归方程做出来的,控制 了其它因素的作用,得出的回归系数1mmHg是体重指数对收缩压的独立 作用。可以想象当临床上遇到一个高血压并肥胖的病人,根据这个结果 就可以告诉他仅降低体重这一项就能降低血压多少,如果病人又吸烟又 饮酒,可根据相应的文献告诉他,如果戒烟又能降低血压多少,戒酒又 能降多少,这就是临床价值的体现。
数据分析基础
广义多元线性回归方程的构建
广义多元线性回归方程的构建 【文献回顾】
这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的 论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑 郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. )
解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构 建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。 这个教程的目的旨在帮助大家理清这个问题。
流行病学分析是为了确定危险因素与结果变量之间是否有联系,危 险因素对结果变量的作用大小(即效应)。
表1 效应的估计和结果变量与危险因素的类型
比较这些结论,理解统计意义与临床意义的关系,从而理解如何提 高一篇论文的科学价值。上面这些结论中,有t检验得出的、相关分析得 出的、回归分析得出的。回归分析,给出有临床意义的回归系数,而且 可以控制其它因素,分析X对Y的独立作用,掌握回归分析非常必要。
广义多元线性回归方程的构建
如何通过回归分析来评价独立作用?
图1 按吸烟情况分组身高的箱图
按性别分开:男性身高比女性 高;男性里,吸烟者与不吸烟 者身高没有多大差异;女性里, 吸烟者与不吸烟者身高也没有 多大差异。
•不吸烟者219个女性,57个男 性,即不吸烟者主要是女性; •吸 烟 者 中 139 个 男 性 , 只 有 7 个女性,即吸烟者主要是男性。
不吸烟 吸烟 不吸烟 吸烟