多水平模型简介
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
hosp no time group age gender ess0 adl0 ess adl
1~15 1~456
1~3周
试验组=1,对照组=0 18~75岁 女性=0,男性=1 40~80 (评分高病情轻) 0~95 (评分高病情轻) 0~100 0~100
新药临床试验原始资料格式
疗后1周 疗后2周 疗后3周 疗前 医院 患者 组别 年龄 性别 编号 编号 ESS0 ADL0 ESS1 ADL1 ESS2 ADL2 ESS3 ADL3
资料特点
• 两水平层次结构
• 地区(水平2单位) 15 • 各地区内逐年重复观察(水平1单位) 1980
• 资料按性别、年龄分组 • 反应变量是肺癌死亡人数
定性反应变量的多水平模型
重点:二分类反应变量的两水平模型
调查研究
• 某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2
个行政村,每个村再随机抽取33户(家庭),
2
0
•
1
为处理因素的效应参数,又称固定效应 (fixed effect)参数
• u0 j为 水 平 2 单 位 的 logit 均 值 0 j 与 总 均 值 0 之差,又称为随机效应(random effect) 或高水平的残差。
•
2 u0 j 的 方 差 u 又 称 为 随 机 参 数 ( random
1 1 1 1 1 1
1 2 3 4 5 6
1 0 1 1 0 1
60 43 61 71 71 67
0 1 1 1 1 1
69 50 73 50 86 90 85 100 76 75 82 75 84 100 90 100 40 30 42 35 55 35 72 45 78 80 90 95 92 100 93 100 72 75 75 75 82 - 82 - 80 80 93 85 100 95 - -
• 当应变量的协方差阵不满足对称条件(∑≠δ 2 Ⅰ ) 时 , 大 多 为 系 统 结 构 数 据 ( hierarchical structure data)。
• 多水平统计模型用于研究具有层次结构或嵌套式 结构的数据,此类数据的主要特征是反应变量的 分布在个体间不具备独立性,但存在某些范围内 的聚集性, 如分层抽样或整群抽样的数据。
A Hypothetical Example - Two measurement occasions
多水平统计模型概念
多水平模型(Multilevel Models)又称随 机效应模型(Random Effect Models),它是在 二十世纪八十年代,由英美教育统计学家基于方 差成分分析而提出的统计模型。 多水平模型理论是国外近些年发展起来的处 理系统结构数据的多元统计方法,是将Ⅱ型方差 分析理论与多元统计分析相结合的新技术。
• 多水平Poisson回归模型实例
Poisson回归(Poisson regression)
• 单位时间、面积、空间内某事件发生数 (count)的影响因素的分析 • 对于以人群为基础的稀有疾病发病率、卫 生事件资料的分析
例
• 收集英格兰和威尔士15个地区1959至
1991年按年龄、性别分组的逐年人口 数和肺癌死亡人数。
类多水平logistic回归模型探讨农
村贫困居民两周是否患病的影响因 素。
变量赋值表(1)
变量名称 应变量 定义及赋值
两周患病 uncomfor
人口学特征
0否
1是
性别 gender
民族 ethnic 年龄(岁) agegroup 婚姻状况 marriage 文化程度 edu 职业 occupy
0男
多水平模型的不同称谓: 层次线性模型(hierarchical linear model) 混合效应模型(mixed-effects model) 混合模型(mixed model) 这些模型或许在算法或应用领域的普及 程度上有差别,但是都是处理具有层次结构 的数据或非独立数据的。
常规数据的特征: • 相互独立,等方差 • 由yi构成的观测向量服从正态分布 具有这种结构的数据叫独立结构数据
二分类多水平模型实例
某省进行了农村贫困居民的家庭卫生 服务调查。先随机抽取乡镇,每个乡 镇分别抽取2个行政村,每个村再随机 抽取一定数量的家庭进行调查。共调 查了30个乡镇,832户贫困家庭户,共 计2369名15岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务 需要的影响因素。
以两周是否患病作为应变量。结 合资料的层次结构特点,采用二分
线性变量或哑元的形式纳入,依据似然比检验结果加以判断。
哑变量名定义
• • • • age1:45~,age2:65 ~ ; marriage1:已婚,marriage2:离婚, marriage3:丧偶; education1:小学,education2:初中及以上; occupation1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业
多水平模型主要种类
• • • • • • 重复测量资料的多水平模型 二分类资料的多水平模型 Poisson分布资料的多水平模型 多水平Meta分析模型 多水平生存时间的统计模型 ……
多元重复测量资料的 多水平模型实例
新药临床试验资料数据库变量编码
指 标 变量 变量取值
医院编号 患者编号 观察时间 组别 患者年龄 患者性别 疗前ESS评分 疗前ADL评分 疗后ESS评分 疗后ADL评分
二分类反应变量两水平模型
• 优势
处理具有层次结构特征的数据资料,可将 传统模型中的随机误差项分解到与数据层次结 构相应的水平上,使得个体的随机误差更纯 。
普通Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等) l y=0 未发病(阴性、生存、未治愈等)
l
将发病的概率记为P,它与自变量x1, 间的Logistic回归模型为:
多水平模型简介
公共卫生与家庭医学学院 郭秀花 2011.4.25
传统的统计学分析是建立在个体测量值相 互独立的假设上。如:多元回归模型的估 计方法是建立在个体测量值要相互独立, 当假设不成立时,回归模型中的各参数估 计值的有效性和统计特征均会受到影响, 从而最终的统计推断结论将可能偏倚。估 计值的标准误会有偏差。
– Genetics – Environment – Both
实验研究:如致畸试验
窝别效应
• 层次结构:
孕鼠1 孕鼠2 孕鼠p
子鼠1 子鼠2 。。。 子鼠m
子鼠1 子鼠2 。。。 子鼠m
子鼠1 子鼠2 。。。 子鼠m
Observational Studies
• Multi-stage sampling is cost effective. 1. Take random sample from population (e.g. schools). 2. Take random sample from sub-population (e.g. classes). 3. Take random sample from sub-population (e.g. students).
饮酒 drink
家庭一般情况 家庭饮水类型 water 家庭户厕类型 bathroom 易得的最快方式去最近医疗点 时间(分钟) tim_hosp 年人均收入(元) income
0 否、少量 1 经常饮
0 自来水
1 非自来水
0 卫生厕所 1 非卫生厕所
0 ≤637
1 638~1000
变量赋值表(3)
0
coefficient),反映了高水平单位间的比数(率) 的差别。
• u 越大说明数据在高水平单位内的聚集性越强。
2
0
2 • u 为0时,该模型演变为一般的logistic回归模 型。
0
判断是否存在高水平效应
• 密切结合专业知识和具体情况进行判断 • 对随机参数 的估计值做检验
调查研究
• 某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2个 行政村,每个村再随机抽取33户(家庭),对 每个家庭前半年内的常住人口进行问卷调查。
• 具有明显的层次结构(乡镇→行政村→
户→个体);
• 在经济水平、生活方式、生活习惯上都
具有某种程度上的相似性或聚集性;个 体的数据是非独立的 。
对每个家庭前半年内的常住人口进行问卷调
查。
资料的特点
• 具有明显的层次结构(乡镇 行政村 户 个体) ;
• 在经济水平、生活方式、生活习惯上都具有某种
程度上的相似性或聚集性 ;个体的数据是非独
立的 。
固定效应和随机效应
• 固定效应:某研究中有多个不同的处理因素, 若研究者感兴趣的各种处理因素都设计在研 究当中,则认为这一因素具有固定效应。 • 随机效应:若处理包含的各个组别是从更大 的总体中得到的随机样本,则认为该处理因 素具有随机效应。
乡镇特征 乡镇地理地貌 geography 个体水平 户水平 乡镇水平 0 山区 id family rural 1 非山区
●家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心
化之后纳入模型;
●无序多分类变量婚姻状况和职业以哑元形式纳入; ●有序多分类变量年龄、文化程度和自身健康状况评价,是以分组
指标
肺癌死亡资料数据库变量 变量 编码 变量取值
Year
region age er
year=年份1959-1991 1~15 age=0,年龄≤50岁;age=1,年龄>50岁 gender=0,女性; gender=1,男性
年份
地区 年龄 性别
年观察人口数 population
年肺癌死亡数 death
Examples of Hierarchies
Longitudinal Data
Same individuals measured on multiple occasions. • Strong hierarchies. • Much more variations between individuals than between occasions within individuals.
1女
2 65 ~ 2 离婚 3 丧偶
0 汉族 1 其他 0 15~ 1 45~ 0 未婚 1 已婚
0 文盲半文盲 1 小学 2 初中及以上 0 非农业劳动者 1 农业劳动者 2 学生 3 离退休 4 无业、失业、半失业者
医疗保险 insure
0无
1有
变量赋值表(2)
健康相关因素 自身健康状况评价 self_assess hea_stat 吸烟 smoke 0好 0否 1中 1吸 2差
l
x2,…,xp之
p
p
exp(
0
1X
0
1
1
X
p
p
)
p
1 exp(
1X
X
)
l可知,不发病的概率为:
1 p
1 1 exp( 0 1 X 1
p
X
p
)
log it ( p ) ln[ p /(1 p )]
Logit ( p ) 0 1 X 1
p
X
p
两水平logit模型
logit( P ) ( 0 u0 j ) 1 xij ij
u0 j 0 j 0
u0 j ~ N (0, u ),Var ( P ) ij (1 ij ) / nij ij
Definition of Multilevel Analysis
Snijders & Bosker (1999): Multilevel analysis is a methodology for the analysis of data with complex patterns of variability, with a focus on nested sources of variability.
。
多元回归数据结构
Data and Examples
Children within families: • Children with same biological parents tend to be more alike than children chosen at random from the general population. • They are more alike because