交叉列联表分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

交叉列联表分析 ---------用于分析属性数据

1. 属性变量与属性数据分析

从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。

对属性数据进行分析,将达到以下几方面的目的:

1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。

在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用χ2

统计量作显著性检验来完成.

2.列联表(Contingency Table )

列联表是由两个以上的属性变量进行交叉分类的频数分布表。 设二维随机变量(X ,Y ),X

可能取得值为x x x r ,,,2

1 ,Y

可能取得值

为y y y s ,,,2

1 .现从总体中抽取容量为n 的样本,其中事件(X =x i Y =y j )

发生的频率为n j i (i = 1,2, …,r ,j=1,2, …,s ,)记n i ∙=

∑=s j j i n 1

,n j ∙=∑=r

i j i n 1

则有n =

∑∑==r i s j j i n 11

=∑=∙r i i n 1

= ∑=∙s

j j n 1

,将这些数据排列成如下的表:

这是一张r ×s 列联表.

3.属性变量的关联性分析

对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。

属性变量关联性检验的假设为 H0:变量之间无关联性;

H1:变量之间有关联性

由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:

H0:变量之间独立; H1:变量之间不独立

χ

2

检验

H 0:

X 与Y 独立.

记P (X =x i ,η=y j ) = p j

i ,i =1,2,…,r ,,j = 1,2,…,s ,

P (X =x i ) =

p

i .

, i =1,2,…,r ,P (Y =

y j ) =p j . ,j = 1,2,…,s .

由离散性随机变量相互独立的定义,则原假设等价于 H 0:p

j

i =

p i .p j . ,i =1,2,…,r ,,j = 1,2,…,s .

p

j

i

已知,我们可以建立皮尔逊χ2

统计量 χ

2

=

∑==∑

-r

i s

ij j

i j i j i p n p n n 1

1

2

)

(.

由皮尔逊定理知,χ2

的极限分布为)1(2

-rs χ

.但这里p j i 未知,因此用它

的极大似然估计

p ij ∧

代替,这时检验统计量为

χ

2

=

∑==∧

∑-r

i s

ij j

i j

i j i p

n p n n 1

1

2

)

(.

在H 0成立的条件下,

p

j

i =

p i .p j .,即等价于用p i ∙和p j ∙.的极大似然估计

p i ∙∧

和p j ∙∧

的积去代替.可以求得

p i ∙∧

=

n

n i ∙

, i =1,2,…,r , p j ∙∧

=

n

n j

∙ , j = 1,2,…,s ,

p ij ∧

= n n i ∙n

n j ∙ . i =1,2,…,r ,,j = 1,2,…,s ,

从而得到统计量

χ

2

=

∑==∧

∙∧

∙∧

∙∧∙∑-r

i s

ij j

i j

i j i p p n p p n n 1

1

2

)

(=

⎪⎪⎭

⎫ ⎝⎛-∑∑==∙∙1112r i s ij j i j i n n n n . 在H 0成立的条件下,当n →∞时,χ2

的极限分布为

)12(2--+-

)(s r rs χ= ))1)(1((2--s r χ. 对给定的显著性水平α,当 χ

2

>))1)(1((2

1---s r χα,则拒绝H 0,否则接

受H 0.

特别,当r = s = 2 时,得到2×2列联表,常被称为四格表,是应用最广的一种列联表.这时检验统计量为

χ

2

=n n n n n n n n n

2

121211222112

)

(∙∙∙∙-

它的极限分布为χ2

(1).

对于二维随机变量(X ,Y )是连续取值的情况,我们可采用如下方法将其离散化.

① 将X 的取值范围(-∞,+∞)分成r 个互不相交的区间,将Y 的取值范围

(-∞,+∞)分成s 个互不相交的区间,于是整个平面分成了rs 个互不相交的小矩形;

② 求出样本落入小矩形中的频数n j i i =1,2,…,r ,,j = 1,2,…,s ; ③ 建立统计量

χ2

=⎪⎪⎭

⎝⎛-∑∑==∙∙1112r i s ij j i j i n n n n , 在H 0成立时且n 充分大时,χ2

的极限分布为))1)(1((2

--s r χ

,拒绝域的确

定同离散型的情况. 3.属性变量的关联度计算

2χ检验的结果只能说明变量之间是否独立,如果不独立,并不能由2χ的

相关文档
最新文档