多层数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
Growth curve data on an orthdontic (牙齿矫正) measurement Description
The Orthodont data frame has 108 rows and 4 columns of the change in an orthdontic measurement over time for several young subjects. Format: This data frame contains the following columns: distance(Y): a numeric vector of distances from the pituitary (垂体) to the pterygomaxillary fissure (翼腭窝) (mm). These distances are measured on x-ray images of the skull. age(X1): a numeric vector of ages of the subject (yr). Subject(X2): an ordered factor indicating the subject on which the measurement was made. The levels are labelled M01 to M16 for the males and F01 to F13 for the females. The ordering is by increasing average distance within sex. Sex(X3): a factor with levels Male and Female
但有一点是肯定的,即多层模型在各个 领域中有着非常广泛的应用。多层模型 的思想并不复杂,但对它的研究由于无 法实施计算而没有深入进行。它之所以 在最近一二十年才倍受关注,主要是因 为计算机和统计计算方法的发展,使得 这些模型能够被实际用于统计推断;而 与之相辅相成的是,由于能够进行计算, 实际领域中对复杂的多层模型的应用也 不断增加,反过来也推动了多层模型及 其计算的发展。
27
library(Ecdat);data(Airline);library(nlme);dim(Airline)
> Airline[1:10,] airline year cost output pf lf 1 1 1 1140640 0.952757 106650 0.534487 2 1 2 1215690 0.986757 110307 0.532328 3 1 3 1309570 1.091980 110574 0.547736 4 1 4 1511530 1.175780 121974 0.540846 5 1 5 1676730 1.160170 196606 0.591167 6 1 6 1823740 1.173760 265609 0.575417 7 1 7 2022890 1.290510 263451 0.594495 8 1 8 2314760 1.390670 316411 0.597409
library(nlme) data(Orthodont)#?Orthodont head(Orthodont)
library(nlme) data(Orthodont)#?Orthodont head(Orthodont) fm1 <- lme(distance ~ age, data = Orthodont) # random is ~ age summary(fm1) fm12 <- lme(distance ~ age, data = Orthodont, random=~age|Subject) summary(fm12)#和fm1等价
随机效应的输出
18
固定效应的输出
19
fm2 <- lme(distance ~ age + Sex, data = Orthodont, random = ~ 1) summary(fm2)
fm22 <- lme(distance ~ age + Sex, data = Orthodont, random = ~ 1|Subject) summary(fm22)
多层模型不是一个新的东西,我们所 熟知的通常的最小二乘回归模型 (ordinary least squares regression model)以及更广泛的广义线性模型 (generalized linear model)、重复测 量(repeated measures)、空间数据 (spatial data)等都是多层模型的特 例或研究对象。
names(z) fm4 <- lme(distance ~ age + Sex,data=z,random=~1|ID/Subject) #Subject嵌套在ID中 summary(fm4)
Байду номын сангаас
Airline数据
A dataframe containing : airline : airline year : year cost : total cost, in $1,000 output: output, in revenue passenger miles, index number pf : fuel price lf : load factor, the average capacity utilization of the fleet
面板数据例: 向量
为固定效应 , 随机效应 两个误差是独立的. 特例: 无约束模型例: 约束模型例: 约束模型例:
多层模型(Hierachical Model)也称为纵向数据 (longitudinal data)模型,面板数据(panel data) 模型,多水平统计模型(multilevel statistical model),混合模型(mixed model)等等。这些名 字反映了该模型的应用、数据形式、模型的构造等 不同方面。多层模型中的不可观测的变量,也称为 隐变量(latent variable);隐变量是相对于可观测 的显变量(manifest variable)而言的;因此,多层 模型亦称为隐变量模型(latent variable model)。 这些名字的命名者可能并不认为这些名字是完全的 同义词;这些模型研究者有不同的兴趣和着重点, 他们解决问题的工具和方法也不尽相同,而应用这 些模型所研究的对象和特点的差异也很大。
多层数据/纵向数据/面板数据分析
吴喜之
多元面板或聚类数据(multivariate panel or cluster data) 为 , 为 , 为 , 为 , 为 , 为
. 。. 通常,X 和 Z 的第一列是常数, 包含的是 的是 。数据通常为
独立于
的子集。要估计
模型 , 为
也可以写成 . 单因变量时 .
随机效应的输出
21
固定效应的输出
22
fm3 <- lme(distance ~ age + Sex, data = Orthodont, random = ~ age+Sex|Subject) summary(fm3)
随机效应的输出
24
固定效应的输出
嵌套模型
加人造变量ID的人造模型 z=data.frame(Orthodont,ID= rep(1:36,rep(3,36)))
Yij 0i 1iTij ij
这里ij代表随机误差项。但是,需要注意的是,这些儿童 既有共性又有个性,这些回归系数受到条件(Ii)的影响, 对每一个儿童在不同年龄时期的重复观测也不是独立的。 因此,通常的回归并不能更好地描述这个试验。于是在上 面的模型的基础上,再增加关于系数的第二层的模型:
先举一个较简单的两水平线性混合模型的例 子(Burchinal et al., 1997)。假定在一个试验中, 对一些儿童在两种条件(Ii=1或0)下认知能 力进行考察。令Yij代表第i个儿童在其发展的 第j个时间Tij时测量的认知能力。考虑下面的 (第一层)回归模型
Yij 0i 1iTij ij
数据: www.ats.ucla.edu/stat/examples/alda
www.ats.ucla.edu/stat/examples/alda
Reading数据: three waves of data for 89 African-American children. Each was 6 years old in 1986. Time of three waves: 1986,1988,1990 变量 id wave (1,2,3) agegrp 年龄群(6.5,8.5,10.5) age 确切年龄 piat: Peabody Individual Achievement Test score
其中,第一个方括号的内容表示了非随机部分, 而第二个方括号表示包含了不可观测的随机效应 的随机部分。这种回归在没有一些事先假定之下 不容易解。如果假定
我们则可以得到Yij的分布形式及似然函数
纵向数据/面板数据
• 一般要求数据量大 • 需要明确模型的随机部分和固定部分 • 需要不断尝试来选择和比较模型
这就是线性模型, 只是在截距和斜率中有随机变量而已. 这就 是随机效应混合模型的名称来源 . 而对于每个 , 有 个观测值, 这就类似于重复观测或时间序列, 这就是纵向 数据分析的名称来源, 这里的 代表了第 名个体. 这种模型很 容易分解成若干个子模型(多层模型)的嵌套, 这就是多层数据 分析名称的来源 . 而面板数据也仅仅是这种一般模型在计量 经济学中的一些个例而已 . 当然还有非线性随机效应混合模 型. 从多层模型的角度, Bayes 模型也应属于此范畴, 这是题外 话.
随机效应的输出
33
固定效应的输出
34
假定模型a
等价于
a=lme(output ~ cost+year:cost, data=Airline, random= ~ year+cost+lf |airline, method="ML") 35 summary(a)
随机效应的输出
36
固定效应的输出
28
假定模型z
等价于
z=lme(output ~ year+cost+pf+lf, data=Airline, random= ~ year+cost+pf+lf |airline, method="ML") summary(z)
29
随机效应的输出
30
固定效应的输出
31
假定模型b
等价于
b=lme(output ~ cost+year:cost, data=Airline, random= ~ year+cost+pf+lf |airline, method="ML") 32 summary(b)
0i 00 01 I i 0i 1i 10 11 I i 1i
其中,我们又有了更多的回归系数和误差项。把 这两个模型写到一起,就有下面的统一的模型
Yij
00 10Tij 01I i 11 I i Tij 0i 1iTij ij
37
比较z和a、b模型
38
假定模型e
等价于
e=lme(output ~ cost+pf+lf, data=Airline, random= ~ year+cost+lf |airline, method="ML") summary(e)
39
随机和固定效应的输出
40
比较模型a和e
41
PPT: http://gseweb.harvard.edu/~faculty/singer/
#可直接得到数据
reading <- read.table("http://www.ats.ucla.edu/stat/R/examples/alda/data/reading_pp.txt", header=T, sep=",") #或者用已经下载的本地数据