交叉列联表分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
交叉列联表分析 ---------用于分析属性数据
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。
对属性数据进行分析,将达到以下几方面的目的:
1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。
在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用χ2
统计量作显著性检验来完成.
2.列联表(Contingency Table )
列联表是由两个以上的属性变量进行交叉分类的频数分布表。 设二维随机变量(X ,Y ),X
可能取得值为x x x r ,,,2
1 ,Y
可能取得值
为y y y s ,,,2
1 .现从总体中抽取容量为n 的样本,其中事件(X =x i Y =y j )
发生的频率为n j i (i = 1,2, …,r ,j=1,2, …,s ,)记n i ∙=
∑=s j j i n 1
,n j ∙=∑=r
i j i n 1
,
则有n =
∑∑==r i s j j i n 11
=∑=∙r i i n 1
= ∑=∙s
j j n 1
,将这些数据排列成如下的表:
这是一张r ×s 列联表.
3.属性变量的关联性分析
对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。
属性变量关联性检验的假设为 H0:变量之间无关联性;
H1:变量之间有关联性
由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:
H0:变量之间独立; H1:变量之间不独立
χ
2
检验
H 0:
X 与Y 独立.
记P (X =x i ,η=y j ) = p j
i ,i =1,2,…,r ,,j = 1,2,…,s ,
P (X =x i ) =
p
i .
, i =1,2,…,r ,P (Y =
y j ) =p j . ,j = 1,2,…,s .
由离散性随机变量相互独立的定义,则原假设等价于 H 0:p
j
i =
p i .p j . ,i =1,2,…,r ,,j = 1,2,…,s .
若
p
j
i
已知,我们可以建立皮尔逊χ2
统计量 χ
2
=
∑==∑
-r
i s
ij j
i j i j i p n p n n 1
1
2
)
(.
由皮尔逊定理知,χ2
的极限分布为)1(2
-rs χ
.但这里p j i 未知,因此用它
的极大似然估计
p ij ∧
代替,这时检验统计量为
χ
2
=
∑==∧
∧
∑-r
i s
ij j
i j
i j i p
n p n n 1
1
2
)
(.
在H 0成立的条件下,
p
j
i =
p i .p j .,即等价于用p i ∙和p j ∙.的极大似然估计
p i ∙∧
和p j ∙∧
的积去代替.可以求得
p i ∙∧
=
n
n i ∙
, i =1,2,…,r , p j ∙∧
=
n
n j
∙ , j = 1,2,…,s ,
则
p ij ∧
= n n i ∙n
n j ∙ . i =1,2,…,r ,,j = 1,2,…,s ,
从而得到统计量
χ
2
=
∑==∧
∙∧
∙∧
∙∧∙∑-r
i s
ij j
i j
i j i p p n p p n n 1
1
2
)
(=
⎪⎪⎭
⎫ ⎝⎛-∑∑==∙∙1112r i s ij j i j i n n n n . 在H 0成立的条件下,当n →∞时,χ2
的极限分布为
)12(2--+-
)(s r rs χ= ))1)(1((2--s r χ. 对给定的显著性水平α,当 χ
2
>))1)(1((2
1---s r χα,则拒绝H 0,否则接
受H 0.
特别,当r = s = 2 时,得到2×2列联表,常被称为四格表,是应用最广的一种列联表.这时检验统计量为
χ
2
=n n n n n n n n n
2
121211222112
)
(∙∙∙∙-
它的极限分布为χ2
(1).
对于二维随机变量(X ,Y )是连续取值的情况,我们可采用如下方法将其离散化.
① 将X 的取值范围(-∞,+∞)分成r 个互不相交的区间,将Y 的取值范围
(-∞,+∞)分成s 个互不相交的区间,于是整个平面分成了rs 个互不相交的小矩形;
② 求出样本落入小矩形中的频数n j i i =1,2,…,r ,,j = 1,2,…,s ; ③ 建立统计量
χ2
=⎪⎪⎭
⎫
⎝⎛-∑∑==∙∙1112r i s ij j i j i n n n n , 在H 0成立时且n 充分大时,χ2
的极限分布为))1)(1((2
--s r χ
,拒绝域的确
定同离散型的情况. 3.属性变量的关联度计算
2χ检验的结果只能说明变量之间是否独立,如果不独立,并不能由2χ的