高维列联表

合集下载

医学统计学列联表检验

医学统计学列联表检验

解读结果
分析结果
根据计算出的统计量及其他相关信息, 对结果进行分析。
VS
解释结果
解释分析结果,得出结论,并提出建议或 展望。
03
列联表检验的注意事项
数据的完整性
完整性
在进行列联表检验之前,需要确保数据集中的每个变量都有完整的观测值,避免出现缺 失数据或遗漏的情况。
处理缺失数据
如果存在缺失数据,可以采用插补、删除或其它适当的处理方法来处理,但应谨慎处理, 避免引入偏差或误导。
03 检验效能受到数据分布的影响:数据分布情况也 会影响检验效能,例如在极端分布情况下。
06
列联表检验的发展趋势与展 望
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量庞大、 维度高、复杂度增加,传统的列联表 检验方法面临处理能力和分析准确性 的挑战。
机遇
大数据提供了丰富的数据资源,为列 联表检验提供了更广泛的应用场景和 更深入的探索空间,有助于发现更多 隐藏在数据中的关联和规律。
05
列联表检验的局限性
数据来源的局限性
样本量不足
在某些情况下,由于样本量较小,列联表检验可能无 法得出可靠的结论。
数据质量不高
数据可能存在误差、遗漏或异常值,影响检验结果的 准确性。
数据采集方法不科学
数据采集方法可能存在偏差,导致数据不具有代表性 或存在偏倚。
分类变量的主观性
分类界限不明确
某些分类变量的界限可能模糊不清,导致分 类出现偏差。
02
Fisher's exact test
适用于小样本或低频数据,通过 计算概率来评估变量之间的关系。
03
似然比检验
用于比较两个分类变量的关联强 度,通过比较不同模型拟合优度 来评估变量之间的关系。

试验数据统计分析步骤

试验数据统计分析步骤

试验数据统计分析教程第一章:数据分析基本方法与步骤§1-1:数据分类(定量资料和定性资料)统计资料一般分为定量资料和定性资料两大类。

定量资料测定每个观察单位某项指标量的大小,所得的资料称为定量资料。

定量资料又可细分为计量资料(可带度量单位和小数点,如:某人身高为1.173m)和计数资料(一般只带度量单位,但不可带小数点,如:某人脉搏为73次/min) 。

①计量资料在定量资料中,若指标的取值可以带度量衡单位,甚至可以带小数标志测量的精度的定量资料,就叫“计量资料”。

例如测得正常成年男子身高、体重、血红蛋白、总铁结合力等所得的资料。

②计数资料在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数即只能取整数,通常为正整数的定量资料,就叫“计数资料”。

例如测得正常成年男子脉搏数次、引体向上的次数次。

定性资料观测每个观察单位某项指标的状况,所得的资料称为定性资料。

定性资料又可细分为名义资料(如血型分为:A、B、AB、O型)和有序资料(如疗效分为:治愈、显效、好转、无效、死亡) 。

①名义资料在定性资料中,若指标的不同状况之间在本质上无数量大小或先后顺序之分的定性资料,就叫“名义资料”。

例如某单位全体员工按血型系统型、型、型、型来记录每个人的情况所得的资料;又例如某市全体员工按职业分为工人、农民、知识分子、军人等来记录每个人的情况所得的资料。

②有序资料在定性资料中,若指标质的不同状况之间在本质上有数量大小或有先后顺序之分的定性资料,就叫“有序资料”。

例如某病患者按治疗后的疗效治愈、显效、好转、无效、死亡来划分所得的资料;又例如矽肺病患者按肺门密度级别来划分所得的资料。

判断资料性质的关键是把资料还原为基本观察单位的具体取值形式,而不要被资料的表现所迷惑。

关键是要看每一个具体的取值是由“观察单位个数”计算得到的,还是由每一个观察单位自身的观测结果计算得到的。

若属于前者,就应叫定性资料。

若属于后者,就应叫定量资料。

对数线性模型

对数线性模型

此模型包括主效应、因素A与B的交互作用,称为饱和模 型(saturated model)。
如果模型中的交互项为0,则模型为
此 模型称为不饱和模型(unsaturated model)或简约模 型(reduced model)。
在对数线性模型中,通过交互效应项反映各因素是否有关 及其效应大小。
•对数线性模型不区分各因素为因变量和自变量,综合考虑
通过迭代法估计一组参数(0, 1 , 2 ….. m),使L达 到最大。
4.模型及自变量的统计检验 (1)模型检验(拟合优度检验):当P>0.05,说明可以
接受拟合的模型。
•似然比检验(the likelihood ratio test)
•Pearson卡方检验
评价模型拟和的好坏:大多数单元格的标准化残差或调整 残差的 绝对值小于2。
四种独立性间的关系
•若A、B、C相互独立,则一定有A与B、C联合独立,B与A、
C联合独立,且C与A、B联合独立。
•若C与A、B联合独立,则一定有C与A、C与B边际独立,并 有给定A,C与B条件独立;给定B,C与A条件独立。 •注意:若A、B条件独立,则不一定有A、B边际独立;A、 B边际独立;也不一定有A、B条件独立。
结论:
生育史与工作姿势无关,与是否子宫后倾也无关,但工 作姿势(是坐姿还是立姿)与子宫是否后倾有关,不过这种 关系不受生育史状态影响(即有、无生育史并不影响工作 姿势与子宫后倾的关系)。
变量间的四种独立性
• 边际独立(marginally independent):不考虑 A的影响下,
X与Y对给定Z条件独立,此资料属于条件独立模型(XZ,YZ)。
ORXY=(7/42)/(76/849)=1.86

第7章对数线性模型

第7章对数线性模型
ˆ mij = ni + n+ j / n
• 一般认为,在对数线性模型中,当低阶效应为0时, 其高阶效应也为0.因此,非饱和模型除以上形式 外,还有另外两种情况:
二维列联表的对数线性模型
• 分别为:
ln mij = µ + µa (i ) ln mij = µ + µb ( j )
ln m = β 0 + β1 x1 + L + β k xk –不过,与logit不同的是,对数模型中没有解释变量, 是用行列因子的效应参数来表示。
二维列联表的对数线性模型
• 设 mij = E (nij ), i = 1,L , r , j = 1,L , c • 它的对数线性模型就是对 ln mij 进行分解,分解的 方法与方差分析中效应分解的方法完全相同。于 是有, ln mij = µ + µa (i ) + µb ( j ) + µab (ij ) µ • 其中,µ 是总的平均, a (i ) 和 µb ( j )分别是属性A在Ai 时和属性B在Bj时的效应,而 µ ab (ij )是属性A和B的 交互作用(关联项或关联参数)。 • 以上模型是二维列联表的饱和模型,其期望频数 的估计就是实际频数 nij 。
【例】对例5.3普通车和高档车问题构建对数线性模 型(齐次关联模型)。 • 在高维列联表的相关性讨论中,该例中所有的独立 性都被拒绝了,因此判断是相关模型,形式为:
ln mijk = µ + µ a (i ) + µb ( j ) + µc ( k ) + µ ab (ij ) + µbc ( jk ) + µac (ik )
–类似地,可得到属性A在A2,A3时的效应分别为:

列联表公式

列联表公式

列联表公式摘要:1.列联表公式的定义与概念2.列联表公式的分类与应用3.列联表公式的计算方法与示例4.列联表公式的优缺点分析5.列联表公式在实际问题中的应用案例正文:一、列联表公式的定义与概念列联表公式,是一种用于解决计数问题中列联表的统计分析方法,它是由英国数学家皮尔逊(Karl Pearson)发明的,被称为皮尔逊相关系数公式,也称为皮尔逊积矩相关系数。

它是一种用于衡量两个分类变量之间相关性的统计方法,其主要用于分析两组数据之间的相关程度。

二、列联表公式的分类与应用列联表公式主要分为两大类,一类是四格表,主要用于分析两组分类变量之间的关系;另一类是n 格表,主要用于分析多组分类变量之间的关系。

在实际应用中,列联表公式被广泛应用于社会科学、生物统计学、医学研究等领域。

三、列联表公式的计算方法与示例列联表公式的计算方法是通过公式来计算相关系数,其公式为:r = (n(ad - bc)) / sqrt(n(ad - bc) + (a + b)(c + d)(a + c)(b + d))。

其中,a、b、c、d分别代表四格表中四个格子的频数,n 代表样本容量。

以一个例子来说明,假设有两个变量A 和B,其中A 有两种可能的取值(A1 和A2),B 也有两种可能的取值(B1 和B2)。

如果我们有如下的频数:A1B1=40,A1B2=20,A2B1=10,A2B2=30。

则,a=60,b=60,c=30,d=50,n=150。

代入公式,可以得到相关系数r 的值。

四、列联表公式的优缺点分析列联表公式的优点在于其能够直观地反映出两组分类变量之间的相关程度,且计算简便,易于理解。

然而,其缺点在于,它只能反映出两组变量之间的相关程度,对于多组变量之间的相关性分析,需要使用其他的统计方法。

用SPSS进行列联表分析(Crosstabs)实例

用SPSS进行列联表分析(Crosstabs)实例

用SPSS进行列联表分析(Crosstabs)实例列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。

SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。

其中卡方检验是分析列联表资料常用的假设检验方法。

例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。

预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。

数据如下表。

注:摘自《农业病虫统计测报》131页。

1) 输入分析数据在数据编辑器窗口打开“data1-3.sav”数据文件。

数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。

选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。

4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。

Suppress table: 选中则不输出多维频数分布表。

5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。

Chi-Square: 卡方检验。

高维表资料统计分析与错误辨析

高维表资料统计分析与错误辨析

表 分 第二类:RC表,四型
(一)双向无序列联表;
(二)单向有序列联表; (三)双向有序且属性不同的列联表;

(四)双向有序且属性相同的列联表。
(一)结果变量为“二值变量” 的高维表;
第三类:高维表,三型 (二)结果变量为“多值有序变量”的高维表
(三)结果变量为“多值名义变量”的高维表
1型资料举例1
10
83.333
不饮酒
100
20
83.333
青年
饮酒
10
50
16.667
不饮酒
100
500
16.667
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
在两个年龄组内,饮酒者与不饮酒者患病比例相同,但若将两个 饮酒组数据合并,两个不饮酒组数据合并,饮酒者与非饮酒者患 病比例分别为50.00%与27.78%,两者之间的差别具有统计学意义, 结论为:饮酒者较非饮酒者易于缓肺癌,此结论可信吗?为什么?
对差错的辨析
此资料若同时考察“型别”与“期别”, 就属于三维表;其中原因变量“型别(或期 别)”只是分组的标志,是名义变量,而结果 变量分为:治愈、好转、无效,是一个有序变 量。原作者对期别间的治愈率没有进行比较, 在这里也不作分析,不考虑期别重新列表如下:
2、用2检验处理高维列联表资料
原文题目:《手术加放射治疗与单纯 喉部分切除术治疗喉癌的疗效的比较》, 原作者为探讨手术加放射治疗能否比单 纯喉部分切除术治疗喉癌提高疗效,选 用171例喉癌患者随机分为单纯手术、手 术加术后放射治疗和放射治疗加手术共3 组,前瞻性观察各组的疗效,资料如下:
对差错的辨析
这是一个结果变量为二值变量的三维 列联表资料,而原作者只通过简单的卡方 检验分析各治疗组5年的生存率,显然是 错误的。如将原文资料重新设计表格如下, 就可以看出:治疗方法和期别是两个原因 变量,生存状况(生、死)是结果变量, 原作者在考察5年总的生存率时采用了3个 期别生存人数的合并,消除了期别的影响, 得出各治疗组5年生存率之间的差别无统 计学意义的结论。

高维列联表独立性与相关性

高维列联表独立性与相关性
mijk ˆ G 2 ln 2 nijk ln n i 1 j 1 k 1 ijk
r c t 2

高维列联表的相关性
• 在三维列联表中,前面所有的独立性问题讨论完 后,可以进一步分析三个变量之间的相关关系。 • 相关关系有两种情况:
– 一种是饱和模型,表示为(ABC),即期望频数不能分解, 三个属性之间不仅两两存在交互作用,而且三个之间 也有交互作用;其期望频数的估计就是实际频数nijk。 – 另一种是齐次关联模型,表示为(AB,AC,BC),即期望 频数可分解,两两之间存在交互作用,但三个之间没 有交互作用;其期望频数的估计需要使用迭代算法。
• • • •
用期望频数定义条件独立性的方法: 若存在ξij,ωik使任意格都有: mijk ijik 则称A给定后B和C条件独立。 其中mijk的估计为: nij i k
ˆ mijk ni
高维列联表的独立性
• 与给定A后B和C条件独立类似,可以得到 给定B后A和C条件独立、给定C后A和B条 件独立的期望频数定义。 • 根据三维列联表独立性的三种情况下不同 的期望频数的估计,可以构造出似然比检 验统计量:
高维列联表的优比
• 我们知道,在优比等于1时,这两个属性相互独立 • 所以,对于属性A,B,C相互独立时,不论按哪个属 性分层,各层二维表的优比总等于1; • 对于A与(B,C)相互独立时,按属性A分层后第i层 二维c×t列联表的优比与i无关,故各层B与C的相 合程度相同;无论按B,或C分层,这些二维列联 表上的优比总等于1;由期望频数定义的独立性可 知:
高维列联表的优比
• 期望频数除用来描述列联表的独立性、相 关性外,还可以描述优势比。 • 优比不仅可以用于四格表,还可推广到一 般的二维列联表。 • 可以取二维表的两行两列来构造一个四格 表计算优比,二维表有若干个优比。 • 三维列联表可以按某一属性分层后形成若 干二维列联表再进行优比分析。

列联表

列联表
在R软件中,用x=read.table("f:/hepbook/data/change2.txt",header=T)和y=xtabs(Freq~.,data=x)输入数据和 变换数据格式。用library(MASS)激活软件包MASS。对于模型使用a=loglm(~Age+Edu,y)建立对数线性模型, 并把结果赋予变元a,由pchisq(a$pea,a$df,low=F)和pchisq(a$lrt,a$df,low=F)得到两个检验统计量的p值 (a$pea和a$lrt分别为统计量的值,而a$df为自由度);由a$para可得各个系数。假定想考察有交互项的模 型则可用a=loglm(~Age*Edu+Change,y)建立对数线性模型(这时,除了截距之外,对于主效应有3+3+3=9 个参数,对于交互效应有3×3=9个参数),其它的模型依次类推。
注 • 二维列联表的Pearson c2检验是关于 两个分类变量是否相关的检验。但是 对于两个连续变量之间的检验则需要 另外和Pearson相关系数有关的检验。 • 这里的检验是关于二维列联表的。对 于高维列联表,需要使用下面要介绍 的对数线性模型来研究。


• 实际上,各种软件不仅仅输出输出Pearson c2检 验统计量的值和相关的p值,也输出似然比检验 (likelihood ratio test或lrt)统计量的值和相关的p 值。这两个检验是渐近等价的。它们近似地有 相同自由度的c2分布。 列联表除了 Pearson和似然比检验(有近似的 c2 分布)之外,还有一种精确检验,称为Fisher检 验(如果列联表距阵为y可以在R中用 fisher.test(y) 施行)。但由于 Fisher 检验使用超 几何分布,计算量很大,在总频数大的时候, 或者计算机内存不够时,则无法计算。

高维列联表 pearson和cmh检验法

高维列联表 pearson和cmh检验法

高维列联表 pearson和cmh检验法
高维列联表是指有多个行和多个列的列联表,其中每个单元格中包含了多个分类变量的数据。

在进行高维列联表分析时,需要选择合适的统计方法来检验变量之间的关系。

两种常见的方法是pearson检验法和cmh检验法。

pearson检验法是一种简单的列联表分析方法,它基于卡方统计量来计算各个变量之间的相关性。

该方法适用于二元变量或低维列联表。

当列联表中的变量维度较高时,pearson检验法可能会出现问题,因为其假设了各个变量之间的相关性是线性的。

相比之下,cmh检验法则是一种更为灵活的高维列联表分析方法。

该方法基于卡方分布和自由度来进行分析,可以有效处理高维度和非线性关系的数据。

cmh检验法不仅可以检验各个变量之间的相关性,还可以考虑多个变量同时影响结果的情况。

总的来说,pearson检验法和cmh检验法都是有用的数据分析工具,但它们各自的适用范围有所不同。

在进行高维列联表分析时,需要根据具体情况来选择合适的方法。

- 1 -。

护理论文写作过程中常用统计学方法的描述和常见错误

护理论文写作过程中常用统计学方法的描述和常见错误

护理论文写作过程中常用统计学方法的描述和常见错误医学统计学是应用概率论和数理统计的基本原理和方法,被广泛地应用到医学研究中。

在医学研究过程和医学论文的撰写过程中常常需要对数据进行统计学处理。

正确的统计学方法对说明研究问题、证明研究假设的成立具有重要意义。

统计学方法选择不当,对研究的科学性、逻辑性、合理性和严谨性都会产生严重影响。

本刊编辑部针对常见的护理统计学错误进行归纳总结,供读者参考。

一、统计描述在研究中,对每个观察单位的某项特征进行测量或者观察,该项特征称为变量。

根据变量值的特点,将研究资料分为两大类:定量资料和定性资料。

1.定量资料:又称为数值变量,分为连续型变量(如:身高、体重等)和离散型变量(如:每个病人就诊次数)。

当数据符合正态分布时,用(均数± 标准差,)来描述,当数据符合偏态分布时,用(中位数,四分位数间 ( M,Q))来描述。

若样本数较少或者缺乏相关先验信息时,应对资料进行正态性检验。

精确判断一组数据是否呈正态分布,最好借助于SPSS、SAS 等统计分析软件。

2.定性资料:是指对每个研究对象的某些方面的特征和性质,进行表达或描述所得的资料,分为无序分类变量(如: 性别、血型等)和有序分类变量(如疗效: 显效、有效和无效)。

通常用率(百分率、千分率和万分率)和构成比(百分比)来描述。

二、统计分析1.定量资料的统计学分析主要考虑两个方面,一是正确辨析定量资料所选取的实验设计类型;二是检查定量资料是否具备参数检验(独立性正态性和方差齐性)的前提条件。

实际上很多科研人员不能正确判定其实验设计类型,导致大量统计学错误出现。

主要有以下两类错误:(1)不管定量资料对应的实验设计类型是什么,一律套用单因素两水平(或成组)设计资料的检验方法(如t 检验或秩和检验)或单因素多水平设计定量资料的分析方法(如单因素多水平设计定量资料的方差分析或秩和检验)。

(2)当定量资料不满足参数检验的前提条件时,盲目套用参数检验方法。

第九章 列联分析

第九章  列联分析

: pearsonχ2统计量
k (实际频 fri − 理论频 ft i ) 数 数 (n pi − npi )2 =∑ ~ χ2 ∑ 理 论频数 i ft npi i=1 i=1 k 2 ∧
其中, 为第 类的实 pi i 际频率 概 ), i为 i类 ( 率 p 第 的 ) 理论概 (又 率 称期望概率 。 在列联 分析中 ,其自由 = (行 −1)(列 −1)。 度 数 数
2 ∧ ∧


(n p1− np1) (−n p1+ np1)2 = + np1 n(1 − p1)
2


(n p1− np1) (1 − p1) + (np1 − n p1)2 p1 = np1(1 − p1)
2


(n p1− np1) (1 − p1) + (n p1− np1)2 p1 = np1(1 − p1)
2


(n p1− np1) n (p1− p1) (p1− p1)2 = = = np1(1 − p1) np1(1 − p1) p1(1 − p1) n
2 2 2



p1− p1 2 2 =( ) ~ χ (1) p1(1 − p1) n

既然这个χ2统计量是近似的,那么有没有精确的 统计量呢?有。这个检验称为Fisher精确检验;它不 是χ2分布,而是超几何分布。 当数目很大时,超几何分布计算相当缓慢(比近 似计算会差很多倍的时间);而且在计算机速度不快 时,根本无法计算。因此人们多用大样本近似的χ2 统 计量。
1、看看基本指标 > data=read.csv("概率论与数理统计课程成绩数 据.csv",head=TRUE) > attach(data);length(课程成绩);mean(课程成绩);sd(课程 成绩);range(课程成绩) );range( ) [1] 147 [1] 80.57143 [1] 12.61278 [1] 39 100 2、划分区间并计算实际频数 > 区间=quantile(课程成绩,prob=seq(0,1,0.1))#把课程成 绩分成等概率的10个区间 (即频数为147*0.1)

第十二章 变量间关系分析

第十二章 变量间关系分析

从这个数据很难马上看到任何关系。 从这个数据很难马上看到任何关系。但是从这个 数据可以得到许多有用的关系和结论。比如, 数据可以得到许多有用的关系和结论。比如,可 以得到任何一个变量和其余变量之间的定量关系 以得到任何一个变量和其余变量之间的定量关系 或者多个变量之间的定量关系 多个变量之间的定量关系( 或者多个变量之间的定量关系(因而可以建立模 进行预测和各种推断); );也可以利用其中一 型,进行预测和各种推断);也可以利用其中一 些变量把各个高等学校分类 还可以把众多的变 各个高等学校分类; 些变量把各个高等学校分类;还可以把众多的变 量用少数几个变量代替以利于分析和理解; 量用少数几个变量代替以利于分析和理解;此外 这个数据可以作为高校排名的根据之一 作为高校排名的根据之一。 这个数据可以作为高校排名的根据之一。所有这 些都是未来章节的内容。 些都是未来章节的内容。
百万元) 平均每昼 固定资产原值(百万元) 夜产量 35~40 40~45 45~50 50~55 55~60 60~65 65~70 ~ ~ ~ ~ ~ ~ ~ (吨)
600~650 ~ 550~600 ~ 500~550 ~ 450~500 ~ 400~450 ~ 350~400 ~ 300~350 ~
在分析变量的依存关系时, 在分析变量的依存关系时,我们把变量分为 两种: 两种:
自变量 因变量 引起其他变量发生变化的量。 引起其他变量发生变化的量。 受自变量的影响发生对应变化的量
相关分析的意义 例如:家庭收入决定消费支出, 例如:家庭收入决定消费支出,收入的变 化必然引起消费支出的变化, 化必然引起消费支出的变化,这两个变量 中收入是自变量 而消费支出则是因变量 自变量, 因变量。 中收入是自变量,而消费支出则是因变量。 现象之间的相互关系,可以概括为两 现象之间的相互关系, 种不同的类型: 种不同的类型: (一)函数关系 (二)相关关系

第5章高维列联表

第5章高维列联表
经分别进行相合检验发现:无论何种车型,都 是年龄越小,有赔款记录的可能性越大。
第5章高维列联表
Cochran-Mantel-Haenszel 和Breslow-Day检验
在前面的分析中,仅分别按普通车和高档车进 行了相合性检验,这样的分析还不够,需要进 一步做条件相合性检验。
即对于r×2×2的三维列联表,在层属性A给定 后,行属性B与列属性C是否条件相合(正、 负)。
lnnnikknnijjkk
t(r1)(c1)
2
nijk
lnnniijnniijkk
2
nijk
lnnnijjnnijjkk
r(c1)(t1) c(r1)(t1)
第5章高维列联表
条件独立性检验举例
【例5.2】某研究生院某年有1659名男生和1413名女生申请 报考,其中有733名男生和428名女生被录取。录取结果见 表5.12:
第五章 高维列联表
第5章高维列联表
高维列联表的数据结构
三维r×c×t列联表的数 据结构:
假设n个个体按照三个 属性分类,其中属性A 有r类,属性B有c类, 属性C有t类;
n个个体中属于Ai、Bj、 Ck类的有nijk个,联合 概率为pijk
第5章高维列联表
高维列联表的结构
【例】为了解不同年龄的男性,吸烟与呼吸系统疾病 之间的关系,调查数据见下表:
第5章高维列联表
条件独立性检验举例
将表5.13按专业分层后形成5个部分表,各自 独立性检验统计量的值分别为:0.0175, 0.2058,0.2364,0.0386,0.0126;
将5个统计量的值加起来才是条件独立性检验 统计量的值,应为0.5109,自由度为5;检验 的p值=0.9917,故接受原假设,认为性别与是 否录取无关,验证了男女录取比例基本一致的 判断。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高维列联表的分层
分层与压缩相类似地,都可以按照不同的属性 压缩或者分层。
一般地,按属性A分层,可以分成r个二维c×t 列联表;按属性B分层,可以得到c个二维r×t 列联表;按属性C分层,可以得到t个二维r×c 列联表.
压缩与分层都是针对高维列联表的分析方法, 是从不同角度和途径对不同属性之间的关系进 行分析的需要。
i1 j1
nik n jk / nk
G 2
r
2
i 1
c j 1
nijk
ln
nik n jk nk nijk
~ 2 ((r 1)(c 1))
为此,可以把t个统计量的和作为条件独立性
检验的检验统计量,其自由度为t(r-1)(c-1)。
高维列联表的条件独立性检验
另外还有两个条件独立性检验的问题,即A给定B与C条件 独立和B给定A与C条件独立。
部分表与边缘表
从四格表可知,优势比可以用来度量属性之间 的关联性;
根据部分表计算的优势比,称为条件优势比; 根据边缘表计算的优势比,称为边缘优势比; 与前面所述的部分表与边缘表的关系相一致,
条件优势比与边缘优势比是不同的,有时二者 会给出完全相反的结论; 当部分表中两个属性变量条件独立时,所有的 条件优势比都等于1;但根据边缘表计算的边 缘优势比可能并不等于1,即条件独立不代表 边缘独立。
可见,同样的数据合起来(边缘表)与分开来 (部分表)的关联性检验的结论正好相反。这 就是辛普森悖论。
条件独立性检验举例
辛普森悖论产生的主要原因在于: 在计算总的录取比例时,尽管各个专业的男女生录
取比例没有显著差异,但是男生和女生所采用的权 重相差较大。 其中,在计算男生录取比例时,录取比例高的专业 权重大,录取比例低的专业权重小,导致男生总的 录取比例偏高; 在计算女生录取比例时,录取比例高的专业权重小, 而录取比例低的专业权重大,从而使总的录取比例 偏小。
部分表与边缘表
从分层后的两张二维表(部分表)中,根据各 自的卡方值可以看出,
在年龄<40的部分表中,吸烟情况与呼吸情况是相互独立的; 而在另一个部分表即年龄40~59的二维表中,二者则是相关
联二维表(边缘表)来 看,吸烟情况与呼吸情况之间是相关联的。
可见,部分表与边缘表关联性不一致,有时甚 至会明显矛盾,完全相反。
上述三维2×2×2列联表,可以通过按年龄分 层,分离出两张二维列联表,即两个部分表。
部分表中的关联性称为条件关联性,即某个属 性给定(被控制)时,另外两个属性之间的关系。
部分表的条件关联性可能和边缘表中的关联性 有较大差异,甚至是自相矛盾(辛普森悖论)。
正是边缘表与部分表分析的条件发生变化,所 以把压缩与分层结合起来分析是完全必要的。
高维列联表的压缩
一般地,列联表压缩后的数据结构为:
B1 ┅ Bc 合计
A1
n11

n1c
n1
Ar
nr1
合计 n1
nrc n c
nr n
经过合并压缩后得到的二维表,称为边缘表。 边缘表实际上是“忽略”某个属性后得到的列
联表。
高维列联表的分层
与压缩相反,可以把三维表中的每一层的二维 表分离出来加以研究,这时称为部分表。
基于辛普森悖论的存在,压缩与分层经常结合 起来使用。
高维列联表的条件独立性检验
对于三维列联表,按照某一属性进行分层研究, 实际上就是要进行条件独立性检验。
如:考虑C给定后A与B条件独立问题的检验。 第k个二维r×c列联表的检验统计量应为:
r
2
c (nijk nik n jk / nk )2 ~ 2 ((r 1)(c 1))
这三种条件独立性检验见下表:
原假设 期望频数 检验统计量
自由度
C给定A、B独立 A给定B 、C独立 B给定A、C独立
nik n jk nk
nij ni k ni
nijn jk n j
2
nijk
ln
nik n jk nk nijk
2
nijk
ln
nij ni k ni nijk
第五章 高维列联表
高维列联表的数据结构
三维r×c×t列联表的 数据结构:
假设n个个体按照三个 属性分类,其中属性A 有r类,属性B有c类, 属性C有t类;
n个个体中属于Ai、Bj、 Ck类的有nijk个,联合 概率为pijk
高维列联表的结构
【例】为了解不同年龄的男性,吸烟与呼吸系统疾病 之间的关系,调查数据见下表:
条件独立性检验举例
将表5.13按专业分层后形成5个部分表,各自 独立性检验统计量的值分别为:0.0175, 0.2058,0.2364,0.0386,0.0126;
将5个统计量的值加起来才是条件独立性检验 统计量的值,应为0.5109,自由度为5;检验 的p值=0.9917,故接受原假设,认为性别与是 否录取无关,验证了男女录取比例基本一致的 判断。
上表为三维2×2×2列联表。其中,“年龄”为层 属性,“呼吸情况”为行属性,“吸烟情况”为列 属性。
在每一层,都是一个二维列联表。
高维列联表的压缩
通过把不同年龄的数据合并,可以将三维列联 表压缩成二维列联表。
也可以合并“呼吸情况”的数据,得到“年龄 与吸烟情况”的二维表;
或合并“吸烟情况”的数据,得到“年龄与呼 吸情况”的二维表。
合计
录取比例
男生
733
女生
428
926
1659
44.2%
985
1413
30.3%
经检验,该表的G2=63.18,p值<0.0001,故认为该校有偏 爱男生的倾向。
为此,学校想进一步了解哪些专业有偏爱男生的倾向,根 据5个不同专业的招生录取情况进行分析(见表5.13)。
表5.12是由5.13合并压缩而成。从表5.13可以看出各个 专业的男女生录取比例基本上一致,为此需要进行条件 独立性检验。
因此,经过检验,不能说该校有偏爱男生的倾向。
2
nijk
ln
nijn jk n jnijk
t(r 1)(c 1) r(c 1)(t 1) c(r 1)(t 1)
条件独立性检验举例
【例5.2】某研究生院某年有1659名男生和1413名女生申请 报考,其中有733名男生和428名女生被录取。录取结果见 表5.12:
录取人数
未录取人数
相关文档
最新文档