分类变量的分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类变量的变量值通常是定性的、描述性的,可分为有序分类变量和无序分类变量。
无序分类变量又可分为二分类无序变量如性别(男,女)和多分类无序变量如血型(Q,A,B,AB)有序分类变量通常在三个以上,各类别之间有程度上的差别,可以进行排序和比较。
分类变量属于相对低级的变量,数据信息量有限,因此在变量的相互转化中,通常都是高级向低级转化,鲜有低级向高级转化。
==================================================
分类变量主要分析以下几点
1.同一变量不同属性间的一致性
2.多个变量不同属性间的一致性和相关性
3.多个变量不同属性间的相关性大小
=================================================
1.同一变量不同属性间的一致性检验
由一个分类变量的多个属性组成的数据表可以称为一维多项分布表,如
品牌变量由甲、乙、丙三个属性,每个属性有不同的属性值。
通过构造卡方统计量,可以检验一维多项分布表中各属性的一致性
多项分布是二项分布的扩展,可以看成是多项试验得到的分布,有如下若干性质:
1.多项试验由n个相同的试验组成
2.试验是独立的
3.每个试验的结果都落在k组中的某一组内
4.试验者关心的n1,n2.....nk,这里的ni等于试验落在组i的数目,注意:n1+n2+...nk=n
5.某个试验结果落在某一特定组内的概率在试验之间保持不变。
且有
2.多个变量不同属性间的独立性和相关性检验
相对于一维多项,两个或以上的分类变量的多个属性称为多维多项,多维多项的频数分布表称为列联表。
列联表主要用于判断分类变量间的独立性和相关性,通过构造卡方统计量进行检验
在应用卡方检验处理列联表时,应注意以下几个问题:
1.列联表各单元格中频数大小的问题
列联表中不应有期望频数小于1的单元格,或不应有大量的期望频数小于5的单元格。
如果交叉列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。
2.样本量大小的问题
卡方值的大小会受到样本量大小的影响,因此卡方检验受样本量的影响很大。
同样两个变量,不同的样本量,可能得出不同的结论。
例如:在某列联表中,若各个单元格的样本数均同比例扩大10倍,卡方值也会随之扩大10倍。
由于自由度和显著度水平未改变,卡方的临界值不变,从而使拒绝原假设的可能性增加。
因此,有必要对Pearson卡方值进行修正,以消除样本量的影响。
可采用列联系数、Phi系数等进行修正。
3. 对变量取值的不同分类的问题
对变量取值的不同分类会引起卡方值的改变,有可能得到不同的结论。
所以在分类时不能随意,要有理论或统计上的依据。
特别是对定距或定序变量,要先将变量的取值分组归类,才能使用卡方分析,而且由于分组的方法不同,也会得出不同的结论;同时,对于定距或定序变量用卡方分析,没有充分利用它们的数量信息。
最常用的列联表为两个变量的列联表,一个为行变量,有r个属性;一个为列变量,有c个属性。
一个r行c列的列联表也称为r×c列联表。
如
3.多个变量不同属性间相关性大小的计算
在列联表中的分类数据可能为有序分类变量和无序分类变量,二者计算相关系数是不一样的,我们暂且分为三种情况:1.无序-无序 2.有序-有序 3.无序-有序
首先来看无序-无序的相关性大小计算:
φ-Phi系数:
用于描述2×2列联表数据相关程度最常用的一种相关系数,因为对于2×2列联表,φ系数可以保证在0-1之间,这样比较直观,方便比较,数值越大相关性越强。
在相关度量法中不采用拟合优度卡方是因为拟合优度卡方过分依赖于样本数大小。
将卡方除以n针对样本量n进行修正就是φ系数。
当列联表行列数大于2×2的时候,φ的取值没有上限,这导致系数之间无法比较,这是φ
系数只能用于2×2列联表的原因。
对于一个具体的2×2维列联表
X1 X2
Y1 a b
Y2 c d
C系数,也称列联系数
用于描述多于2×2列联表数据相关程度的一种相关系数,当列联表多于2×2的时候,φ系数不能保证在0-1之间,为了让多于2×2的列联表的相关系数在0-1之间,person检验使用C系数,也称为列联系数
列联系数在0-1之间,数值大小取决于列联表的行数和列数,数值越大相关性越强,但是C 系数无法达到1,这是C系数的一个缺点,因为作为一个相关系数,他应该具有两变量完全相关,相关系数=1的特点。
另有一些人不建议在小于5×5的列联表中使用C系数
Cramer's V 系数
V系数的在0-1之间,它修正了φ系数没有上限和V系数无法达到1的不足,数值越大相关性越强,当变量X和Y完全不相关时,V=0,当两个变量完全相关时,则V=1。
当列联表是2×2时,V=φ
φ系数、C系数、V系数之间的关系
1.同一个列联表,三个系数会不同
2.在对不同列联表变量之间的相关程度进行比较时,要确保使用同一种系数,并且两个列联表之间的行列数要相同
上述三个相关系数都是基于卡方的度量系数,并没有直观的有吸引力的解释。
即使它们取值范围在0和1之间,也很难说0.49这么一个数值反映了什么关系。
很可能这个关系是微弱的,但是没有可以操作的标准来评估他的大小。
这类量度系数最早是作为通常的相关系数的近似值发展起来的,现在已经被更多的易于解释的量度系数所补充。
为了避免以卡方为基础的量度系数的弱点,统计学家已经发展出各种其他方法,其中最流行的就是减少误差比例量度法(Proportional-reduction-in-error measures,简称PRE)PRE数值的意义就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。
PRE=(E1—E2)/E1
E1:当不知道X变量去估计Y变量时所产生的误差(全部误差)
E2:知道X变量再去估计Y变量产生的误差
E1—E2为剩余的误差
Lambda和Tau-y 系数都是具有PRE性质的系数
Lambda(λ)系数
这种相关测量法也叫做Cuttman’s coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。
消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。
一般来说,λ系数在0~1之间取值,值越大表明相关程度越高
具体分为:
1.对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。
简写成λ系数。
2.非对称形式——测量两个变量间的关系有自变量与因变量之分。
简写成λy(x为自变量,y为因变量)
例:性别与吸烟态度的交互分类(人)
根据λ系数公式有
因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。
如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。
同时,这也说明Lambda系数测量X 、Y的相关水平是较为粗糙的一种方法。
因此社会学研究中有时采用Goodman和 Kruskal的 Tau-y系数。
Goodman and Kruskal的Tau-y系数
这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。
Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。
当X与Y不相关时,τ=0 ;当X与Y完全相关时,τ=1 。
τ值具有非对称性,它是以X为自变量,用对Y的预测来定义的,所以τ值也称作τy 。
【在定类—定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数】
以上就是无序-无序变量计算相关性大小的一些系数介绍,接下来看有序-有序。