多水平模型简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 多水平Poisson回归模型实例
Poisson回归(Poisson regression)
• 单位时间、面积、空间内某事件发生数 (count)的影响因素的分析 • 对于以人群为基础的稀有疾病发病率、卫 生事件资料的分析
例
• 收集英格兰和威尔士15个地区1959至
1991年按年龄、性别分组的逐年人口 数和肺癌死亡人数。
二分类反应变量两水平模型
• 优势
处理具有层次结构特征的数据资料,可将 传统模型中的随机误差项分解到与数据层次结 构相应的水平上,使得个体的随机误差更纯 。
普通Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等) l y=0 未发病(阴性、生存、未治愈等)
l
将发病的概率记为P,它与自变量x1, 间的Logistic回归模型为:
1女
2 65 ~ 2 离婚 3 丧偶
0 汉族 1 其他 0 15~ 1 45~ 0 未婚 1 已婚
0 文盲半文盲 1 小学 2 初中及以上 0 非农业劳动者 1 农业劳动者 2 学生 3 离退休 4 无业、失业、半失业者
医疗保险 insure
0无
1有
变量赋值表(2)
健康相关因素 自身健康状况评价 self_assess hea_stat 吸烟 smoke 0好 0否 1中 1吸 2差
0
coefficient),反映了高水平单位间的比数(率) 的差别。
• u 越大说明数据在高水平单位内的聚集性越强。
2
0
2 • u 为0时,该模型演变为一般的logistic回归模 型。
0
判断是否存在高水平效应
• 密切结合专业知识和具体情况进行判断 • 对随机参数 的估计值做检验
Logit ( p ) 0 1 X 1
p
X
p
两水平logit模型
logit( P ) ( 0 u0 j ) 1 xij ij
u0 j 0 j 0
u0 j ~ N (0, u ),Var ( P ) ij (1 ij ) / nij ij
类多水平logistic回归模型探讨农
村贫困居民两周是否患病的影响因 素。
变量赋值表(1)
变量名称 应变量 定义及赋值
两周患病 uncomfor
人口学特征
0否
1是
性别 gender
民族 ethnic 年龄(岁) agegroup 婚姻状况 marriage 文化程度 edu 职业 occupy
0男
多水平模型简介
公共卫生与家庭医学学院 郭秀花 2011.4.25
传统的统计学分析是建立在个体测量值相 互独立的假设上。如:多元回归模型的估 计方法是建立在个体测量值要相互独立, 当假设不成立时,回归模型中的各参数估 计值的有效性和统计特征均会受到影响, 从而最终的统计推断结论将可能偏倚。估 计值的标准误会有偏差。
l
x2,…,xp之
p
p
exp(
0
1X
0
1
1
X
p
p
)
p
1 exp(
1X
X
)
l可知,不发病的概率为:
1 p
1 1 exp( 0 1 X 1
p
X
p
)
log it ( p ) ln[ p /(1 p )]
资料特点
• 两水平层次结构
• 地区(水平2单位) 15 • 各地区内逐年重复观察(水平1单位) 1980
• 资料按性别、年龄分组 • 反应变量是肺癌死亡人数
定性反应变量的多水平模型
重点:二分类反应变量的两水平模型
调查研究
• 某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2
个行政村,每个村再随机抽取33户(家庭),
1 1 1 1 1 1
1 2 3 4 5 6
1 0 1 1 0 1
60 43 61 71 71 67
0 1 1 1 1 1
69 50 73 50 86 90 85 100 76 75 82 75 84 100 90 100 40 30 42 35 55 35 72 45 78 80 90 95 92 100 93 100 72 75 75 75 82 - 82 - 80 80 93 85 100 95 - -
2
0
•
1
为处理因素的效应参数,又称固定效应 (fixed effect)参数
• u0 j为 水 平 2 单 位 的 logit 均 值 0 j 与 总 均 值 0 之差,又称为随机效应(random effect) 或高水平的残差。
•
2 u0 j 的 方 差 u 又 称 为 随 机 参 数 ( random
饮酒 drink
家庭一般情况 家庭饮水类型 water 家庭户厕类型 bathroom 易得的最快方式去最近医疗点 时间(分钟) tim_hosp 年人均收入(元) income
0 否、少量 1 经常饮
0 自来水
1 非自来水
0 卫生厕所 1 非卫生厕所
0 ≤637
1 638~1000
变量赋值表(3)
Examples of Hierarchies
Longitudinal Data
Same individuals measured on multiple occasions. • Strong hierarchies. • Much more variations between individuals than between occasions within individuals.
多水平模型主要种类
• • • • • • 重复测量资料的多水平模型 二分类资料的多水平模型 Poisson分布资料的多水平模型 多水平Meta分析模型 多水平生存时间的统计模型 ……
多元重复测量资料的 多水平模型实例
新药临床试验资料数据库变量编码
指 标 变量 变量取值
医院编号 患者编号 观察时间 组别 患者年龄 患者性别 疗前ESS评分 疗前ADL评分 疗后ESS评分 疗后ADL评分
– Genetics – Environment – Both
实验研究:如致畸试验
窝别效应
• 层次结构:
孕鼠1 孕鼠2 孕鼠p
子鼠1 子鼠2 。。。 子鼠m
子鼠1 子鼠2 。。。 子鼠m
子鼠1 子鼠2 。。。 子鼠m
Observational Studies
• Multi-stage sampling is cost effective. 1. Take random sample from population (e.g. schools). 2. Take random sample from sub-population (e.g. classes). 3. Take random sample from sub-population (e.g. students).
A Hypothetical Example - Two measurement occasions
多水平统计模型概念
多水平模型(Multilevel Models)又称随 机效应模型(Random Effect Models),它是在 二十世纪八十年代,由英美教育统计学家基于方 差成分分析而提出的统计模型。 多水平模型理论是国外近些年发展起来的处 理系统结构数据的多元统计方法,是将Ⅱ型方差 分析理论与多元统计分析相结合的新技术。
ຫໍສະໝຸດ Baidu
调查研究
• 某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2个 行政村,每个村再随机抽取33户(家庭),对 每个家庭前半年内的常住人口进行问卷调查。
• 具有明显的层次结构(乡镇→行政村→
户→个体);
• 在经济水平、生活方式、生活习惯上都
具有某种程度上的相似性或聚集性;个 体的数据是非独立的 。
对每个家庭前半年内的常住人口进行问卷调
查。
资料的特点
• 具有明显的层次结构(乡镇 行政村 户 个体) ;
• 在经济水平、生活方式、生活习惯上都具有某种
程度上的相似性或聚集性 ;个体的数据是非独
立的 。
固定效应和随机效应
• 固定效应:某研究中有多个不同的处理因素, 若研究者感兴趣的各种处理因素都设计在研 究当中,则认为这一因素具有固定效应。 • 随机效应:若处理包含的各个组别是从更大 的总体中得到的随机样本,则认为该处理因 素具有随机效应。
多水平模型的不同称谓: 层次线性模型(hierarchical linear model) 混合效应模型(mixed-effects model) 混合模型(mixed model) 这些模型或许在算法或应用领域的普及 程度上有差别,但是都是处理具有层次结构 的数据或非独立数据的。
常规数据的特征: • 相互独立,等方差 • 由yi构成的观测向量服从正态分布 具有这种结构的数据叫独立结构数据
• 当应变量的协方差阵不满足对称条件(∑≠δ 2 Ⅰ ) 时 , 大 多 为 系 统 结 构 数 据 ( hierarchical structure data)。
• 多水平统计模型用于研究具有层次结构或嵌套式 结构的数据,此类数据的主要特征是反应变量的 分布在个体间不具备独立性,但存在某些范围内 的聚集性, 如分层抽样或整群抽样的数据。
二分类多水平模型实例
某省进行了农村贫困居民的家庭卫生 服务调查。先随机抽取乡镇,每个乡 镇分别抽取2个行政村,每个村再随机 抽取一定数量的家庭进行调查。共调 查了30个乡镇,832户贫困家庭户,共 计2369名15岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务 需要的影响因素。
以两周是否患病作为应变量。结 合资料的层次结构特点,采用二分
Definition of Multilevel Analysis
Snijders & Bosker (1999): Multilevel analysis is a methodology for the analysis of data with complex patterns of variability, with a focus on nested sources of variability.
指标
肺癌死亡资料数据库变量 变量 编码 变量取值
Year
region age gender
year=年份1959-1991 1~15 age=0,年龄≤50岁;age=1,年龄>50岁 gender=0,女性; gender=1,男性
年份
地区 年龄 性别
年观察人口数 population
年肺癌死亡数 death
hosp no time group age gender ess0 adl0 ess adl
1~15 1~456
1~3周
试验组=1,对照组=0 18~75岁 女性=0,男性=1 40~80 (评分高病情轻) 0~95 (评分高病情轻) 0~100 0~100
新药临床试验原始资料格式
疗后1周 疗后2周 疗后3周 疗前 医院 患者 组别 年龄 性别 编号 编号 ESS0 ADL0 ESS1 ADL1 ESS2 ADL2 ESS3 ADL3
乡镇特征 乡镇地理地貌 geography 个体水平 户水平 乡镇水平 0 山区 id family rural 1 非山区
●家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心
化之后纳入模型;
●无序多分类变量婚姻状况和职业以哑元形式纳入; ●有序多分类变量年龄、文化程度和自身健康状况评价,是以分组
线性变量或哑元的形式纳入,依据似然比检验结果加以判断。
哑变量名定义
• • • • age1:45~,age2:65 ~ ; marriage1:已婚,marriage2:离婚, marriage3:丧偶; education1:小学,education2:初中及以上; occupation1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业
。
多元回归数据结构
Data and Examples
Children within families: • Children with same biological parents tend to be more alike than children chosen at random from the general population. • They are more alike because