Poisson回归模型及其应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ˆ hi ˆ h1 ˆ h2 ˆ h3 ˆ h4 ˆ h5 ˆ h6 ˆ h7 ˆ h8 ˆ h9 ˆ h ˆ 10 h ˆ 11 h ˆ 12 h ˆ 13 h ˆ 14 h ˆ h 15
16
率与协变量间的回归模型结构
在 hjk 与层别因素、暴露因素间可通过几 种不同模型结构反映其间的关系,并通 过模型中参数来反映层别因素、暴露因 素的效应大小。若用 j 表示层别因素第 j 层的效应,k表示暴露因素第k个水平的 效应,则常用的表示 hjk 与层别、暴露因 素间关系的模型常见的有两种。

11

d1kh …
n1K dh 1K …
1K

1.
ˆ dj1 h

j1

njk
djkh …
ˆ
jk

h njK djK

ˆ
jK

nj·h dj· …
ˆ

ˆ dJ1 h
ˆ
J1

nJk
dJkh
ˆ
Jk

nJK dh JK
ˆ
JK

nJ· hdJ·
ˆ

h 表 13-1 中的
jk 为第
j 层第 k 个暴露水平下的发病(死亡)率或发病密度的估计值,
表 13-2 格子编号(i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 j 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 k 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2
层别、因素组成设计阵 Xi1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Xi2 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 Xi3 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 Xi4 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 Xi5 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 Xi6 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 Xi7 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 Xi8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 Xi9 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
i i i
di !
di !
参数估计
两侧取对数,回归模型的对数似然函数 为:
lnL()= i {di ln(ni h( X i , )) _ ni h( X i , )} 对数似然函数中的未知参数可以用迭代 重复加权最小二乘法(简称IRLS法)估 计,它与通常的极大似然估计结果一致。 也可用极大似然估计法
ˆ hi ˆ h1 ˆ h2 ˆ h3 ˆ h4 ˆ h5 ˆ h6 ˆ h7 ˆ h8 ˆ h9 ˆ h ˆ 10 h ˆ 11 h ˆ 12 h ˆ 13 h ˆ 14 h ˆ h 15
16
表 13-2 格子编号(i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 j 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 k 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2
DATA EX13_1; INPUT AGE CITY D N@@; LN=LOG(N); CARDS; 1 2 1 172675 1 1 4 181343 2 2 16 123065 …
8 2 40 8328 8 1 65 7538 ; PROC GENMOD DATA=EX13_1; CLASS AGE CITY; MODEL D=AGE CITY/DIST=POISSON LINK=LOG OFFSET=LN TYPE1 TYPE3 NOINT; RUN;
率(发生数)与因素间关系
—资料结构
表中最后一列是第 j 层的发病率或发病密 度(对暴露因素求合计)。
ˆ 表中的h 为第j层第k个暴露水平下的发病 jk (死亡)率或发病密度的估计值,其真 正的发病(死亡)率或发病密度为 hjk , 是层别因素和暴露因素的作用结果。
层别、因素组成设计阵
对于队列研究资料,将层别和因素交叉 分组形成列联表资料,这里的层别和因 素实际上为有序分类变量资料(等级资 料),分析中可以将层别、因素用多个 0~1 变 量 表 示 形 成 设 计 阵 ( design matrix)。为叙述方便,假定J=8,K=2, 记i为8×2列联表格子的顺序编号,则设 计阵为表13-2的形式
对于流行病学资料,在研究因素与疾病 发生间的关系时需要鉴别其间的关系是 加法模型还是乘法模型。然而,从经验 和实践的角度,肿瘤等慢性病流行病学 的暴露效应很多情况都符合乘法模型。 除加法模型和乘法模型外,率与协变量 间可以有非线性形式,需对研究问题深 入了解的基础上来构建非线性模型。
Poisson回归模型及其参数估计
模型拟合度与参数检验
—偏差统计量
• Poisson回归模型拟合好坏用偏差统计量 (deviance)表示,偏差统计量实际上是对 数似然比统计量,它是饱和模型 (saturated model)和拟合模型对数似然值 差的两倍,其在Poisson分布条件下的计 算公式为:
di ˆ G 2 (d i ln( ) (d i i )) ˆ i
Poisson分布条件下回归模型的似然函数 参数估计 模型拟合度与参数检验
Poisson分布下模型的似然函数
对于低发生(病)率的开放性队列研究 资料,由于 di 服从Poisson分布,其概率 id e 函数为: p
i i
i
其中 di 是随机变量,可取值为 di=1,2,…, 其期望发生数i=nihi(X i , )。回归模型的 似然函数为Poisson分布条件下各个格子 概率函数的总概率(积)。 n n (n h ) d e ( n h ) L()= pi i i i 1 i 1
率(发生数)与因素间关系
— 一个实例
例 Scotto等人对美国北方城市M城和南
方D城15岁以上妇女患非黑色素皮癌状况 进行调查,结果见表13-3,年龄每10岁 一层。试用Poisson回归模型分析年龄效 应和南北城市的差别。
率(发生数)与因素间关系
—资料结构
对于队列研究资料,设一个变量为混杂因素 (如年龄)分为 J 层(可以是多个因素交叉形 成的层),另一个变量为暴露因素,分为 K 个 水平(可以是多个因素形成的水平)。假如在 第 j 层 、 第 k 个 暴 露 水 平 ( j=1,2,…,J; k=1,2,…,K)观察了njk例(人年),其中有djk 例发病(或死亡)。形成如表13-1的形式。并 可计算观察发病(死亡)率或发病密度。
层别、因素组成设计阵(有截距项) Xi1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 Xi2 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 Xi3 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 Xi4 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 Xi5 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 Xi6 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 Xi7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 Xi8 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
加法模型(additive model)
hjk与层别j、暴露因素k间加法模型表示 形式为: hjk=j+k 当设计阵表示资料结构时,率的加法模 型为: hi= 1 X1 J X J 2 X 2 K X K p=J+K-1 , 参数j和k可以用观察数据进行估计。对 于第一暴露水平的基准组,由于1=0, 则 有hj1=j, 或hi=j。
表 13-1
开放队列资料分层列联表形式
暴露水平(K) 层 别 (j) nj1 1 … j … J nJ1 nj1 n11 1 dj1 k K …
jk
合计 …
jK
ˆ h

j1
njk n1k
ˆ djkh ˆ
1k
njK …
h dˆ jK ˆ
ˆ nj. h dj. ˆ n1. hd1.

j.
ˆ d11 h
表 13-3 年龄(岁) (j) 15~ 25~ 35~ 45~ 55~ 65~ 75~ 85 及以上 合计
M 城与 D 城妇女的非黑色素皮癌的资料 M 城(参考组) D城 发癌例数 观察人数 发癌例数 观察人数 ( dj1 ) ( nj1 ) ( dj2 ) ( nj2 ) 1 172675 4 181343 16 123065 38 146207 30 96216 119 121374 71 92051 221 111353 102 72159 259 83004 130 54722 310 55932 133 32185 226 29007 40 8328 65 7538 523 651401 1242 735758
2(ln L( k ) ln L( k r ))
Poisson模型的GENMOD过 程
GENMOD过程用于广义线性模型分析。广义 线性模型是传统线性模型的的延伸,它的总体 均数通过一个非线性连接函数依赖于线性预测 值,反应变量(误差项)的概率分布为指数分 布族中的任何一员。有许多广泛应用的统计模 型都属于广义线性模型,包括带正态误差的经 典线性模型、Logistic回归模型、概率单位模型 和对数线性模型等。本节主要介绍应用 GENMOD过程进行Poisson回归模型分析。
乘法模型(multipBiblioteka Baiduicative model)
• 当加法模型不成立时,常将率作对数变 换,其形式为: • lnhjk=j+k • 或表示为: • hjk=exp(j+k)=exp(j)×exp(k) • 当资料结构以设计阵形式表示时,率的 乘法模型形式为: • hi exp(1 X1 J X J 2 X 2 K X K )
乘法模型(multiplicative model)
上述hjk、hi与j、k间的模型形式称为乘 法模型。当层别与因素间无交互作用时, 以 k=1 为 基 准 组 ( exp(1)=1 ) , 而 exp(k)就是第k个暴露水平相对于基准组 的疾病相对危险度。当层别与因素间存 在交互作用时,只能分层计算第k个水平 相对于k=1水平的相对危险度。
2
模型拟合度与参数检验
—2统计量
G2服从于自由度为 n-p的 2 分布( n 为格 子数,p为模型中参数个数)。 模型的拟合度也可用每个格子的实际发 生数与期望数的2统计量来表示。
ˆi )2 (d i 2 ˆ i i
参数(因素)检验
参数检验可通过两个包含不同参数个数模 型的偏差统计量G2的差(G2)和自由度 的 差 ( df ) 来 实 现 , 当 G2> 时 , P<0.05, 该参数(因素)有统计学意义。 G2 Gk2 Gk2r 2(ln L( k ) ln L( )) 2(ln L( k r ) ln L( ))
Poisson回归模型及其应用
宁波大学医学院 沈其君
问题提出
队列研究 开放队列 固定(封闭)队列 特点:随防时间长 随访中有进有出(失 访) 影响因素多 低发病率 M-H法和标准化法 Logistic回归模型 Cox回归模型 Poisson回归模型
Poisson回归模型的引入
• 回归分析 研究因变量与自变量间关系 • 分析目的 预测与控制、因素分析与筛选、 危险度估计(RR和PAR) • Logistic回归模型 因变量为二项分布 • Poisson回归模型 因变量为Poisson分布, 低发生率的(分组)计数(离散)资料 (如低发病率或死亡率),自变量 可以 连续型或离散型
幂转换模型(power model)
幂模型的形式为
h j k jk
(h 1) / 当=1时为加法模型,由于
在 =>0时为log(h), 即乘法模型,当在 0~1时为一簇模型。可根据实际数据拟拟 合模型的形式。但解释上不如加 法和乘 法模型简单。
非线性模型(nonlinear model)
相关文档
最新文档