简介定性资料的统计分析-定性资料的统计分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

简介定性资料的统计分析:定性资料的统计分析

第十二章简介定性资料的统计分析

本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。

§12.1定性变量数量化

前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。

如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。

数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。例如定性变量是性别,记为X,如此赋值:

当性别为女⎧1,当性别为男⎧1,

X=⎨或X=⎨

⎩0,当性别为女⎩0,当性别为男

如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的观察单位应取不同的值。

例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值:当天气晴⎧(0,0),

(X1,X2)=⎨(1,0),当天气阴

⎪(0,1),当天气雨⎩

例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1,X2,X3,X4)来表示,如此赋值:

甲类地区⎧(0,0,0,0),

乙类地区⎪(1,0,0,0),

(X1,X2,X3,X4)=⎨(0,1,0,0),丙类地区

⎪(0,0,1,0),丁类地区⎪⎪戊类地区⎩(0,0,0,1),

综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值:

⎧(0,0,0,,0),第一类⎪

第二类⎪(1,0,0,,0),

⎪第三类⎪(0,1,0,,0),

(X1,X2,,Xk-1)=⎨

第四类⎪(0,0,1,,0),

⎪⎪⎪第K类⎩(0,0,0,,1),

以上K个类的次序可以交换。

对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值:

⎧(0,0,0,0),取甲类⎪

取乙类⎪(1,0,0,0),

(X1,X2,X3,X4)=⎨

取丙类⎪(0,1,0,0),

⎪(0,0,1,0),取丁类⎩

易知,如此赋值将使X1+X2+X3+X4=1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。

定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。

§12.2列联表

主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。

1列联表的概念

列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直

接进行分析并给出两个定性变量之间是否独立性检验。

先看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B 表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下:

研讨患肺癌是否与吸烟有关?

这张统计表称为2×2列联表,表中考察两个定性变量A和B,每个变量有两类,即A 分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的(AiBj)取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。

一般2×2列联表形式如下:

其中nij(i,j=1,2)表示第i行Ai和第j列Bj的样品出现的频数,一般nij可取任意非负整数。

这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为r⨯c 表(r和c可以不等)有如下形式:

如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。

在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。

2×2列联表,对应一个多项分布,检验A与B是否独立,等价于检验:

H0:pij=pi.p.j

其中pij表示A为i、B为j的样品概率,pi.和p.j是相应的边缘概率,当独立性成立时,理论频数为:npij=npi.p.j其中n=

2

2

∑∑n

i=1j=1

ij

实际频数为:nij

运用x2检验作判定,需要知道列联表中实际频数与相应的理论频数。用估计量

nn

ˆ.j=.j代替pi.和p.j。基实际频数与理论频数有差异,这时可用其差值的大小ˆi.=i.,pp

nn

来度量两个变量相关程度。相差愈大,表明H0为真的可能性愈小,即A与B无关的可能性愈小。相反差值愈小,即二愈接近,H0为真的可能性愈大,A与B之间相关的可能性愈小。为避免实际频数与理论频数的差值出现正负抵消,可采用差值的加权平方和来检验,于是给

2

出皮尔逊的拟合优度x统计量为:

2

x=

2

∑∑

i=1

=

∑∑

i=1

2

⎛nn⎫nij-ni.j.⎪2nn⎪⎝⎭

nn.jj=1

ni.

nn

2nn-nn2

iji..j

nnni..jj=1

2

()

它的极限分布是自由度为1的x2分布,根据给定的显著性水平a,查x2分布表得到临界值λa。若x2≥λa则拒绝H0,表示A与B之间不独立,存在相关,若x2

相关文档
最新文档