8.无序分类资料的统计推断—X2检验

合集下载

X2检验PPT课件

X2检验PPT课件
自由度为1
X2ABCN ADD ABCC 2BD
f f i. f .j
eij
N
授课:XXX
2021/3/25
16
随机抽取90人,按男女不同性别分类,将学生成绩分为中等以上及中等
以下两类,结果如下。问男女生在学业水平上是否有关联?或男女生在
学业中等以上的比率差异是否显著?
性别
学业水平 中等以上 中等以下 男 23(A) 17(B) 40(A+B) 女 28(C) 22(D) 50(C+D)
X2检验
1
授课:XXX
2021/3/25
2
简单讲,卡方检验方法检验的是样本观测次数(或百分比)与 理论或总体次数(或百分比)的差异性。
应用X2检验分析数据时,对计数数据总体的分布形态不作任何 假设,因此,X2验被视为是非参数检验的一种。
统计原理:比较观察值与理论值的差别,如果两者的差异越小, 检验的结果越不容易达到显著性水平;两者的差异越大,检验 的结果越可能达到显著性水平,就可以下结论拒绝虚无假设而 接受备择假设。
授课:XXX
2021/3/25
13
独立性检验
授课:XXX
2021/3/25
14
独立性检验主要用于两个或两个以上因素多项分类的计数资料分析, 即研究两类变量之间的关联性和依存性问题。
可以用独立性检验解释:两个因素是否相互独立,或说一因素的几 项分类在另一因素的几项分类上差异是否显著(这是一个问题的两 个方面)
授课:XXX
2021/3/25
27
谢谢!
授课:XXX
2021/3/25
2021/3/25
28
对 5(A) 55(B) 60 测验2

8.无序分类资料的统计推断—X2检验

8.无序分类资料的统计推断—X2检验

8 无序分类资料的统计推断—— χ2检验χ2检验(chi-square test )是一种用途较广的假设检验方法,这里仅介绍它在分类变量资料中的应用,检验两个或两个以上的样本率或构成比之间的差异是否有统计意义。

8.1 四格表资料的χ2检验四格表即2 ⨯ 2列联表,其自由度df =1,又分为一般与配对两种情形,本节介绍一般四格表的χ2检验,主要是用来推断两个总体率或构成比之间有无差别。

一般四格表,①在总频数n ≥40且所有理论频数≥5时,用Pearson χ2统计量;②在总频数n ≥40且有理论频数<5但≥1时,用校正χ2统计量;③在总频数n <40或有理论频数<1时,用Fisher 精确概率法检验。

计数资料的数据格式有两种,一种是频数表格式,如表8-1;一种是原始记录格式,如前面第4章统计描述中的表4-3,这两种格式在SPSS 操作时有所不同。

例8-1 欲研究内科治疗对某病急性期和慢性期的治疗效果有无不同,某医生收集了182例采用内科疗法的该病患者的资料,数据见表8-1。

请分析不同病期的总体有效率有无差别?表8-1 两种类型疾病的治疗效果组别 有效 无效 合计 有效率(%)急性期 69 37 106 65.1 慢性期 30 46 76 39.5 合计998318254.4解 这是一般四格表,012:H ππ=,即急性期和慢性期的总体有效率相同。

建立3列4行的数据文件,如图8-1,其中行变量r 表示组别(值标签:1=“急性期”、2=“慢性期”),列变量c 表示疗效(值标签:1=“有效”、2=“无效”),freq 表示频数。

1.指定频数变量 选择菜单Data →Weight cases ,弹出Weight cases 对话框,见图8-2;选中Weight cases by ;在左边框中选中频数freq ,并将其送入Frequency 框中;单击OK 。

图8-1 例8.1数据文件 图8-2 Weight cases 对话框2.进行χ2检验 选择菜单Analyze → Descriptive Statistics → Crosstabs (交叉表),弹出Crosstabs 主对话框;将组别r 送入行变量Row(s)框,将疗效c 送入列变量Column(s)框,如图8-3。

研究生医学统计学课后题答案

研究生医学统计学课后题答案

选择题1. C 中位数适用于偏态分布资料、分布不明资料、开口资料(分布末端无确定值资料)、有极端值的资料。

2. A3. D 变量X a +→均数'X X a =+、方差2S 和标准差S 不变、变异系数CV 变小。

4. B5. E 变异系数主要用于比较度量衡单位不同或均数相差悬殊资料的变异程度。

6. E 100%SCV X=⨯ 7. C8. D 率的标准化是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成不同而不能直接比较的所产生的影响。

9. C 直条图:适用于分类资料各组之间指的比较。

10. C 线图:适用于描述两个计量资料之间的关系,即描述一个连续性变量(因变量)是如何随另一个连续性变量(自变量)的变化而变化。

11. A 半对数线图:适用于计量资料,用来比较事物之间相对的变化速度。

12. D 计算题1.素食前、素食后、素食前后胆固醇的差值的均数、中位数、方差、标准差素食前后胆固醇的箱图均数 中位数标准差 方差选择题2. D 在区间 2.58μσ±上,正态曲线下的面积为99.00%。

3. B 双侧95% 1.96μσ±4. D X 的总体标准差σ=5. B 正态曲线在X μσ=±处有拐点。

6. E7. E8. C σ离散度参数,决定着正态曲线的形状,若μ恒定,则σ越大,曲线越平坦;σ越小,曲线越陡峭。

9. D 对数正态分布lg -1 指标过大为异常,仅有上限的单侧医学参考值范围。

10. C选择题 1. B X S = 当样本含量n 增大时,X S 减小。

2. D3. C 通过增加样本含量n 来减小均数的标准误,从而降低抽样。

4. A 相对危险度(RR )指暴露人群的发病率与非暴露人群的发病率。

计算题1. 该地正常人和病毒性肝炎患者血清转铁蛋白总体均数的95%可信区间 n=10,σ未知,()2,2,,vv X X X t S X t S αα-+正常人 X = 2.732 2,v t α= 2.262X S = 0.03405 →(2.66,2.81)g/L病毒性肝炎患者 X = 2.324 2,v t α= 2.262X S = 0.03922 →(2.24,2.41)g/L该地正常人和病毒性肝炎患者血清转铁蛋白总体均数之差的95%可信区间()()()1212121212122,22,2,n n n n X X X X X X t S X X t S αα+-+---⎡⎤⎡⎤---+⎣⎦⎣⎦12XX S -= ()()221122212112c n S n S S n n -+-=+-= 0.0135()122,2n n t α+-=2.101 → (0.30,0.52)g/L2. 肾移植巨细胞感染率的95%可信区间 n=43 ≤50查表法,n=43,X=19 → (29%,60%)3. 该产院阴道分娩与剖宫产产后出血率之差的95%可信区间 5np >且()15n p -> [][]()1212122122,p p p p p p zSp p zS αα-----+12p p S -=(0.0718±1.96×0.0353)→ (0.26%,14.1%)选择题 1. C2. D Ⅰ型错误(α) Ⅱ型错误(β) α越大,β越小; α越小,β越大。

无序分类资料统计分析

无序分类资料统计分析
2 χ 2.当效应指标为有序分类变量资料时, 检
验只能说明效应指标定性反应类别的构成 比是否相同,而各组效应的比较宜采用秩 和检验
注意的问题
3.行列表卡方检验的适用条件
–理论频数不宜太小,一般认为不宜有1/5以上 格子的理论频数小于5或有一个格子的理论频 数小于1 –不太理想的办法
• 与邻近行或列中的实际频数合并 • 删去理论频数太小的格子所对应的行或列
一、两独立样本四格表资料卡方检验
例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对 照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程 2周,两组治疗后有效的患者分别为116人、82人。问慢支口服液II号与消咳喘治疗慢性支 气管炎的疗效是否相同?
组别 正常胃粘膜 不典型增生 胃癌组织 合计 观测例数 25 25 50 100 阳性例数 7(15.250) 11(15.250) 43(30.500) 61 阴性例数 18(9.750) 14(9.750) 7(19.500) 39 阳性率(%) 28.0 44.0 86.0 61.0
注 :括号内为理论频数
组别 中西医结合组 西医组 有效 92(88.973) 85(88.027) 无效 2(5.027) 8(4.973) 合计 94 93 有效率(%) 97.87 91.40
注 :括号内为理论频数
连续性校正公式:
( A − T − 0.5) 2 T
χ2 = ∑

n 2 ( ad − bc − ) n 2 χ2 = (a + b)(c + d )(a + c)(b + d )
–本例即28、8、22、14保持不变的条件下,若 H0成立,计算出现各种四格表的概率

SPSS学习笔记电子版本

SPSS学习笔记电子版本

Spss 学习笔记(1)在spss中,数据文件的管理功能基本上都集中在data和transform菜单上,其中transform主要实现变量级别的数据管理,如计算新变量、变量取值重新编码等,data的功能主要是实现文件级别的数据管理,如变量排序,文件合并、拆分等。

Transform菜单说明:计算新变量:compute变量转换:recode,visual bander,count,rank cases,automatic recode五个过程,可以看成是compute再某一方面的强化和打包。

专用过程:建立时间序列、缺失值代替和设定随机种子三个过程,前两个专用于时间序列模型。

设定随机种子的功能主要影响伪随机函数的使用。

数据分析中,将连续变量转换为等级变量,或将分类变量不同的变量等级进行合并是常见的工作。

而recode可以很好的完成这个任务。

Recode提供了精确的分组功能,但是如果希望进行的分组是有规律的,比如等距分组或者等样本量分组,使用recode过程进行操作就显得非常麻烦,而且可视化程度不高,可以使用visual bander过程进行可视化分段。

在数据分析中,将字符变量转换为数值变量是非常实用的一个功能,除了使用recode过程手工设定转换规则外,还可以使用automatic recode过程自动按照原变量的大小或者字母排序生成新变量,而变量值就是原值的大小次序。

Automatic recode的排序功能和rank cases类似,不同在于,automatic recode可以用于字符型变量。

所谓变量的秩序,就是对记录按照某个变量值得大小来排序。

Rank cases就是用来排序的专用过程。

Count:该过程用来表示某个变量的取值中是否出现某个值,可以使单个数值,也可以指定区间,并且可以仅给出条件,而不必对整个数据集进行操作。

该过程可以直接使用recode 过程来实现。

Random number seed:默认情况下,随机种子随时间不停改变,这样计算出的随机数值无法重复,可以用该过程人为指定一个种子,以后所有的伪随机函数在计算时都会以该种子开始计算,即结果可以重现。

《医学统计学》习题及答案.

《医学统计学》习题及答案.

一、最佳选择题1.卫生统计工作的步骤为 cA.统计研究调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计推断C.统计研究设计、搜集资料、整理资料、分析资料D.统计研究调查、统计描述、统计推断、统计图表E.统计研究设计、统计描述、统计推断、统计图表2.统计分析的主要内容有A.统计描述和统计学检验B.区间估计与假设检验C.统计图表和统计报告D.统计描述和统计推断E.统计描述和统计图表3.统计资料的类型包括A.频数分布资料和等级分类资料B.多项分类资料和二项分类资料C.正态分布资料和频数分布资料D.数值变量资料和等级资料E.数值变量资料和分类变量资料4.抽样误差是指A.不同样本指标之间的差别B.样本指标与总体指标之间由于抽样产生的差别C.样本中每个体之间的差别D.由于抽样产生的观测值之间的差别E.测量误差与过失误差的总称5.统计学中所说的总体是指A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体E.根据人群划分的研究对象的全体6.描述一组偏态分布资料的变异度,宜用A.全距B.标准差C.变异系数D.四分位数间距E.方差7.用均数与标准差可全面描述其资料分布特点的是A.正偏态分布B.负偏态分布C.正态分布和近似正态分布D.对称分布E.任何分布8.比较身高和体重两组数据变异度大小宜采用A.变异系数B.方差C.极差D.标准差E.四分位数间距9.频数分布的两个重要特征是A.统计量与参数B.样本均数与总体均数C.集中趋势与离散趋势D.样本标准差与总体标准差E.样本与总体10.正态分布的特点有A.算术均数=几何均数B.算术均数=中位数C.几何均数=中位数D.算术均数=几何均数=中位数E.以上都没有11.正态分布曲线下右侧5%对应的分位点为A.μ+1.96σB.μ-1.96σC.μ+2.58σD.μ+1.64σE.μ-2.58σ12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标(如血糖水平)的正常值范围一般指A.该指标在所有人中的波动范围B.该指标在所有正常人中的波动范围C.该指标在绝大部分正常人中的波动范围D.该指标在少部分正常人中的波动范围E.该指标在一个人不同时间的波动范围14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. xs x μ- 15.统计推断的主要内容为A.统计描述与统计图表B.参数估计和假设检验C.区间估计和点估计D.统计预测与统计控制E.参数估计与统计预测16.可信区间估计的可信度是指A.αB.1-αC.βD.1-βE.估计误差的自由度17.下面哪一指标较小时可说明用样本均数估计总体均数的可靠性大A.变异系数B.标准差C.标准误D.极差E.四分位数间距18.两样本比较作t 检验,差别有显著性时,P 值越小说明A.两样本均数差别越大B.两总体均数差别越大C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同E. I 型错误越大19.两样本比较时,分别取以下检验水准,哪一个的第二类错误最小A.α=0.05B.α=0.01C.α=0.10D.α=0.20E.α=0.0220.当样本含量n 固定时,选择下列哪个检验水准得到的检验效能最高A.α=0.01B.α=0.10C.α=0.05D.α=0.20E.α=0.0221.在假设检验中,P 值和α的关系为A. P 值越大,α值就越大B. P 值越大,α值就越小C. P 值和α值均可由研究者事先设定D. P 值和α值都不可以由研究者事先设定E. P 值的大小与α值的大小无关22.假设检验中的第二类错误是指A.拒绝了实际上成立的0HB.不拒绝实际上成立的0HC.拒绝了实际上成立的1HD.不拒绝实际上不成立的0HE.拒绝0H 时所犯的错误23.方差分析中,组内变异反映的是A. 测量误差B. 个体差异C. 随机误差,包括个体差异及测量误差D. 抽样误差E. 系统误差24.方差分析中,组间变异主要反映A. 随机误差B. 处理因素的作用C. 抽样误差D. 测量误差E. 个体差异25.多组均数的两两比较中,若不用q 检验而用t 检验,则A. 结果更合理B. 结果会一样C. 会把一些无差别的总体判断有差别的概率加大D. 会把一些有差别的总体判断无差别的概率加大E. 以上都不对26.说明某现象发生强度的指标为A.构成比B.相对比C.定基比D.环比E. 率27.对计数资料进行统计描述的主要指标是A.平均数B.相对数C.标准差D.变异系数E.中位数28.构成比用来反映A.某现象发生的强度B.表示两个同类指标的比C.反映某事物内部各部分占全部的比重D.表示某一现象在时间顺序的排列E.上述A 与C 都对29. 样本含量分别为1n 和2n 的两样本率分别为1p 和2p ,则其合并平均率c p 为A. 1p +2pB. (1p +2p )/2C. 21p p ⨯D.212211n n p n p n ++ E.2)1()1(212211-+-+-n n p n p n 30.下列哪一指标为相对比A. 中位数B. 几何均数C. 均数D. 标准差E. 变异系数31.发展速度和增长速度的关系为A. 发展速度=增长速度一1B. 增长速度=发展速度一1C.发展速度=增长速度一100D.增长速度=发展速度一100E.增长速度=(发展速度一1)/10032.SMR 表示A.标化组实际死亡数与预期死亡数之比B.标化组预期死亡数与实际死亡数之比C.被标化组实际死亡数与预期死亡数之比D.被标化组预期死亡数与实际死亡数之比E.标准组与被标化组预期死亡数之比33.两个样本率差别的假设检验,其目的是A.推断两个样本率有无差别B.推断两个总体率有无差别C.推断两个样本率和两个总体率有无差别D.推断两个样本率和两个总体率的差别有无统计意义E.推断两个总体分布是否相同34.用正态近似法进行总体率的区间估计时,应满足A. n 足够大B. p 或(1-p )不太小C. np 或n(1-p)均大于5D. 以上均要求E. 以上均不要求35.由两样本率的差别推断两总体率的差别,若P 〈0.05,则A. 两样本率相差很大B. 两总体率相差很大C. 两样本率和两总体率差别有统计意义D. 两总体率相差有统计意义E. 其中一个样本率和总体率的差别有统计意义36.假设对两个率差别的显著性检验同时用u 检验和2χ检验,则所得到的统计量u 与2χ的关系为A. u 值较2χ值准确B. 2χ值较u 值准确C. u=2χD. u=2χE. 2χ=u37.四格表资料中的实际数与理论数分别用A 与T 表示,其基本公式与专用公式求2χ的条件为A. A ≥5B. T ≥5C. A ≥5 且 T ≥5D. A ≥5 且n ≥40E. T ≥5 且n ≥4038.三个样本率比较得到2χ>2)2(01.0χ,可以为A.三个总体率不同或不全相同B.三个总体率都不相同C.三个样本率都不相同D.三个样本率不同或不全相同E.三个总体率中有两个不同39.四格表2χ检验的校正公式应用条件为A. n>40 且T>5B. n<40 且T>5C. n>40 且 1<T<5D. n<40 且1<T<5E. n>40 且T<140.下述哪项不是非参数统计的优点A.不受总体分布的限定B.简便、易掌握C.适用于等级资料D.检验效能高于参数检验E.适用于未知分布型资料41.秩和检验和t 检验相比,其优点是A. 计算简便,不受分布限制B.公式更为合理C.检验效能高D.抽样误差小E.第二类错误概率小42.等级资料比较宜用A. t 检验B. u 检验C.秩和检验D. 2χ检验E. F 检验43.作两均数比较,已知1n 、2n 均小于30,总体方差不齐且分布呈极度偏态,宜用A. t 检验B. u 检验C.秩和检验D. F 检验E.2χ检验44.从文献中得到同类研究的两个率比较的四格表资料,其2χ检验结果为:甲文)1(01.02χχ>,乙文2)1(05.02χχ>,可认为A.两文结果有矛盾B.两文结果基本一致C.甲文结果更可信D.乙文结果更可信E.甲文说明总体间的差别更大45.欲比较某地区1980年以来三种疾病的发病率在各年度的发展速度,宜绘制A.普通线图B.直方图C.统计地图D.半对数线图E.圆形图46.拟以图示某市1990~1994年三种传染病发病率随时间的变化,宜采用A.普通线图B.直方图C.统计地图D.半对数线图E.圆形图47.调查某地高血压患者情况,以舒张压≥90mmHg 为高血压,结果在1000人中有10名高血压患者,99名非高血压患者,整理后的资料是:A.计量资料B.计数资料C.多项分类资料D.等级资料E.既是计量资料又是分类资料48. 某医师检测了60例链球菌咽炎患者的潜伏期,结果如下。

无序分类资料的统计推断

无序分类资料的统计推断

85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
[ 案例分析 ]
✓ 资料类型:四格表资料(定性资料) ✓ 设计类型:两样本率的比较,目的是推
断两样本所来自的总体率是否相等,即 π1= π2 。 ✓ 分析方法:两样本率比较χ2检验
一、χ2检验的基本思想
1、 实际频数(actual frequency)。 2、 两个样本率不相同的原因有两种可能:
步骤: 建立假设,确定检验水准
计算检验统计量
P≤α
确定p值 作推断结论
P>α
拒绝H0,接受H1
不拒绝H0
公式 实际频数
理论频数
2 (AT)2(T5)
T
校正 2 公 (A 式 T T 0.5 )2(T5 )
根据某地区的血型普查结果可知,该地区 人群中血型为O 的占30%,血型为A 的占 25%,血型为B 的占35%,血型为AB 的 占10%。研究者在邻近该地区的一个山区 人群中进行一个血型的流行病调查,在该 山区人群中随机抽样调查了200 人,检测 这些对象的血型,问该山区人群与这个地 区人群的血型分布是否一致?
一种是抽样误差所致;另一种是总体率确 有所不同。 3、 通过假设检验对两种原因进行判断:为 了判别这两种情况,先作出“无效假设”, 即假设这两个率相同,差别仅是抽样误差 所致。
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
1
.057
1
.036
.040
.028

分类资料的推断与x2检验统计学课件

分类资料的推断与x2检验统计学课件
主要用于检验分类变量之间是否存在关系。
3
联系
两者都是用于检验变量之间关系的统计方法,但 所针对的变量类型不同,一个是连续变量,一个 是分类变量。
X2检验与回归分析的比较
回归分析
主要用于研究一个或多个自 变量对因变量的影响,并估 计自变量对因变量的预测值

X2检验
主要用于检验分类变量之间 的关系,不涉及预测值的估
分类资料的常见类型
总结词
分类资料的常见类型包括计数资料、等级资料和属性 资料等。
详细描述
计数资料是指对某一事件或现象发生的次数进行计数的 数据类型,例如某地区的人口数量、某时间段内交通事 故发生的次数等。等级资料是指将观察对象按照某种属 性或特征进行等级划分的数据类型,例如按照病情严重 程度将病人分为轻症、中症和重症等。属性资料是指对 个体或单位按照某种属性或特征进行分类的数据类型, 例如性别、婚姻状况、血型等。
数据整理
对数据进行整理,确保数据符合X2检验的要 求。
实际案例分析:拟合优度检验
建立期望频数
根据理论分布,建立期望频数。
计算实际频数和期望频数
统计实际频数和期望频数,并计算X2值。
判断显著性
根据X2值和自由度,判断显著性水平。
结论推断
根据显著性水平,得出结论并解释结果。
04
X2检验的优缺点与注意事 项
贝叶斯推断
贝叶斯推断是一种基于概率的统计方法,它能够将先验信息与样本数据相结合,进行更准确的推断。近年来,贝叶斯 方法在分类资料推断中得到了广泛应用,如贝叶斯分类器、高斯过程回归等。
集成学习方法
集成学习是一种通过结合多个学习器来提高预测性能的方法。在分类资料推断中,集成学习方法如 bagging、boosting等被广泛应用于提高模型的稳定性和预测精度。

x2检验第六版

x2检验第六版

▪ 行×列表χ2检验要注意的问题
▪ 1. 行×列表中不宜有1/5以上格子的理论频数小于5或有一个格子的 理论频数小于1,否则,可采用下述三种处理方法中的一种:
▪ ①将理论频数过小的格子所在的行或列与性质相近的邻近行或列 中的实际频数合并,使重新计算的理论频数增大;
▪ ②删去理论频数太小的行与列; ▪ ③增大样本含量以增大理论频数。
▪ 第二个表显示列联表的资料,一个期望频数小于5(4.8)
▪ 皮尔逊卡方值x2(pearson chi-square)
▪ 连续校正x2(continuity correction),仅在2×2表计 算
▪ 似然比值(likelylihood ratio) ▪ 费歇尔精确检验(fisher‘s exact test) ▪ 线形组合(linear-by-linear association) ▪ 有效例数(N of valid cases)
无线性关系,列联表分类变量中少用,多用于连续变量。
▪ 有效例数(N of valid cases)
▪ 结论:有0个格子的期望频数小于5,最小 期望频数为6.56,符合pearson x2检验的要 求。
▪ 皮尔逊卡方值x2=4.130,p=0.042<0.05, 差别有统计学意义。
四格表校正卡方检验
▪ 行框:sex 列框:x0 ▪ 单元格: ▪ 百分比:选择行、列、总计 ▪ →继续→确定
单元格 按钮
▪ 首先是处理记录缺失情况报告,可见24例 均为有效值。
第九章 χ2 检 验(卡方检验)
χ2检验(chi square test)是以χ2 分布为理论基础的检验 方法。主要用于分类资料(列联表资料,contingency table)的假设检验。也用于频数分布的拟合优度检验 (goodness of fit).

计数资料统计推断 (X2检验)-预防医学 ppt课件

计数资料统计推断 (X2检验)-预防医学  ppt课件

药物
治 疗 有 效 有效率 人 数 人 数 (%)
槟榔煎剂 27
24
88.9
阿的平
18
10
55.6
一、准备工作 (1) +
甲 24 乙 10 合计 34
- 3
合计 27
(2) Tmin=
11×18 45
8 18
=4.4
11
45
1<Tmin < 5,故用校正公式
ppt课件
16
二、假设检验
1、H0:π1=π2 H1:π1≠π2 α=0.05
2、 X2=
(│ad-bc│-N/2)2 N (a+b)(c+d)(a+c)(b+d)
= (│24×8-10×3│-45/2)2×45 27×18×34×11
=4.82
+ - 合计
甲 24 3 27
乙 10 8 18
合计 34 11 45
ppt课件
17
二、假设检验
1、H0:π1=π2 H1:π1≠π2 α=0.05
2、 X2=2.55
3、ν=(R-1)(C-1)=1 查表得X20.05(1)=3.84
∵2.55<3.84 ∴P>0.05
95%
4、可以认为两药疗效相同。
ppt课件
0 2.55 3.84 15
四格表卡方检验
例二:为比较槟榔煎剂和阿的平驱绦虫的效果, 对45名绦虫患者进行治疗,结果如下表,问两药 疗效是否相同?
疗法 治愈 未治愈 合计
甲药 20
5
25
乙药 18
12
30
合计 38
17
55
ppt课件
6
一、准备工作
(一)列分析表
疗法 治愈 未治愈 合计

研究生医学统计学-X2检验课件

研究生医学统计学-X2检验课件

01
这是为了保证X2统计量的分布接近卡方分布。
每个单元格中的期望数都应该大于5
02
这是为了确保卡方分布的精确性和稳定性。
观察数和期பைடு நூலகம்数之间没有关联
03
这是为了确保X2统计量不受其他因素的影响。
限制条件
1 2
样本量较小
如果样本量较小,X2检验的准确性可能会受到影 响。
分类变量之间存在高度相关性
如果分类变量之间存在高度相关性,X2检验的结 果可能会受到干扰。
X2统计量的解读
X2值的大小表示分类变量之间关系的强度,X2值越大,说明分类变量之 间的关系越强。
X2检验的临界值一般为3.841、6.635等,当X2值大于临界值时,可以认 为分类变量之间存在显著关系。
在解读X2值时,需要考虑样本量和数据分布情况,对于小样本和极端数据 需要进行特殊处理。
X2统计量的优缺点
研究生医学统计学-x2检验课件
目录
CONTENTS
• X2检验的基本概念 • X2检验的假设与限制 • X2检验的统计量与解读 • X2检验的实际应用 • X2检验的软件实现 • X2检验的案例分析
01 X2检验的基本概念
CHAPTER
X2检验的定义
X2检验是一种用于检验分类变量间独 立性的统计方法,也称为卡方检验。 它通过比较实际观测频数与期望频数 之间的差异,来判断变量间的关联性。
谢谢
THANKS
总结词
探讨X2检验在医学研究中如何应用
详细描述
在医学研究中,X2检验常用于分析分类变量之间的关系,如疾病与基因型、治疗方式与疗效等。通过 X2检验,可以判断不同组别之间是否存在显著差异,从而为医学研究提供科学依据。

预防疾控微生物检验技术:卫生统计学题库考点四

预防疾控微生物检验技术:卫生统计学题库考点四

预防疾控微生物检验技术:卫生统计学题库考点四1、单选描述定量资料集中趋势的指标有()A.均数、四分位数间距、变异系数B.均数、几何均数、四分位数间距C.均数、变异系数、几何均数D.均数、几何均数、变异(江南博哥)系数E.均数、几何均数、中位数正确答案:E2、单选实验效应具有的特点是()A.精密性、灵敏性、特异性、稳定性B.精密性、灵敏性、变异性、客观性C.精密性、灵敏性、变异性、均衡性D.精密性、特异性、稳定性、客观性E.灵敏性、变异性、均衡性、稳定性正确答案:A3、单选?下面的变量中哪个是数值变量()A.每个病人就诊的医院B.每个病人就诊的疾病C.每个病人就诊的次数D.每个病人就诊的科室E.以上选项都不正确正确答案:C4、单选某药物研究中心为研究减肥药的效果,将40只体重接近的雄性大白鼠随机分为4组,分别给予高剂量、中剂量、低剂量减肥药和空白对照4种处理方法,上述资料所用的设计方法为()A.析因设计B.随机区组设计C.交叉设计D.完全随机设计E.序贯试验正确答案:D5、单选假设检验中,P与α的关系是()A.P值的大小与α的大小无关B.P越小,α越大C.P越大,α越大D.二者均需通过计算确定E.二者均可事先确定正确答案:A6、单选实验设计时,受试对象如何分组,可使得组与组之间具有最好的可比性()A.将条件接近的分入一组B.将条件接近的分入不同组C.多分几组D.各组的例数相等E.将体质弱的分入对照组正确答案:B7、单选经方差分析,若P<α,则结论是()A.各样本均数全相等B.各样本均数不全相等C.至少有两个样本均数不等D.至少有两个总体均数不等E.各总体均数全相等正确答案:D参考解析:任何的假设检验都是推断总体,方差分析对两个或多个样本均数比较时,目的就是要推断两个或多个样本均数所代表总体均数的情况。

若P<α,即为小概率事件,有理由认为至少有两个总体均数不等。

8、单选数值资料常见的频数分布的类型有()A.正态分布和非正态分布B.正态分布和正偏态分布C.正态分布和负偏态分布D.正偏态分布和负偏态分布E.正态分布和偏态分布正确答案:E9、单选可用于比较坐高与头围的变异度的是()A.Qu-QLB.SC.CVD.S2E.R正确答案:C10、单选老年人口系数下降,可使()A.病死率下降B.婴儿死亡率下降C.婴儿死亡率上升D.粗死亡率下降E.粗死亡率上升正确答案:D11、单选二项分布的应用条件是()A.各观察单位的观察结果是相互独立的B.各观察单位的观察结果是不独立的C.各观察单位的观察结果是单一的D.各观察单位的观察结果是多种情况的E.某一观察结果的概率为非常数的正确答案:A12、单选通常选用四格表资料Fisher确切概率计算法的条件是()A.T<5B.T<1或n<40C.T<1且n<40D.1≤T<5且n>40E.T<5或n<40正确答案:B参考解析:四格表资料,若有T<1 或n<40作χ检验后P接近检验水准α,需要用确切概率法直接计算概率作出推断。

第六章χ2检验

第六章χ2检验
公式为:
ν=(行数-1)(列数-1)
=(R-1)(C-1)
7. χ2界值特点:在同一自由度下, χ2 值 越 大 , 相 应 的 概 率 P 值 越 小 ; χ2值越小,相应的概率P值越大。
8. X2分布是一种连续型分布:按X2分布 的密度函数f(X2,v)可给出自由度v=1,2, 3,……的一簇X2分布曲线(图7—1)。由 X2分布曲线可见,X2分布的形状依赖于 自由度V的大小:①当自由度v≤2,时, 曲线呈L型;②随着v的增加,曲线逐渐 趋于对称;③当自由度 v→∞时,X2分布 趋向正态分布。
一致性检验(计算Kappa值) 。
-+
+ ++ +++ 合计
++ +++
5.当多个样本率(或构成比)比较的χ2
检验,结论为拒绝检验假设,只能认 为各总体率(或总体构成比)之间总 的说来有差别,但不能说明它们彼此 之间都有差别,或某两者之间有差别。
若想进一步了解哪两者的差别有
统计学意义,可用χ2分割。(例6.7)
4.χ2值的含义:反映了实际频数与理 论频数的吻合程度。
χ2值永远是正值。(即χ2≥0)
5. χ2检验判别准则:
若 χ2<χ20.05(ν) , 则 P>0.05,不拒绝 无效假设H0;
若χ2≥χ20.05(ν) ,则P<0.05,拒绝无效 假设H0,接受H1 。
6. χ2分布的参数:自由度。其计算
(二) 四格表资料χ2检验专用公式:
(n≥40且所有的T≥5)
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
l 例6.1

无序分类变量的统计推断ppt课件

无序分类变量的统计推断ppt课件

bc
121
υ=(2-1)(2-1)=1
本例χ2=7.69>3.84,P<0.05 。可以为两种方法 检出阳性率不同,ITA 的检出率高于LAT 。
SPSS操作
data weight case weight case by : freq
OK
Analyze descriptive row: ITA columns: LAT
无序分类变量的统计推断
北京大学医学部 流行病学与统计学系
李凯
第一节 率的抽样误差与 总体率的估计
一、率规范误
率的抽样误差用率的规范差,又称率的规 范误 p来描画
P
(1 )
n
率的规范误的sPp估计值p(1(n1np) )
二、总体率可信区间估计
1.查表法 当n较小,比如n 50,特别是p 很接近0或100%时,可以经过查 相应统计用表,确定百分率的可 信区间。
患病人数 12 12 29 35
88
未患人数 699 666 665 717
2747
合计 711 678 694 752
2835
患病率(%) 1.69 1.77 4.18 4.65
3.10
H0:π1=π2=π3 H1:四个季节呼吸道感染率不一样或不全一样 α=0.05
2 2835( 122 6992
crosstables
SPSS结果〔例3〕
SPSS结果〔例3〕
本例χ2=17.427>5.99,P=0.001<0.05, 不同 季节上呼吸道疾病感染率不同
练习:例4 SPSS操作及结果解释
三、配对四格表的χ2检验
例5 某医生对55例类风湿关节炎患 者,分别采用免疫比浊法〔ITA〕和 乳胶凝集实验法〔LAT〕检测类风湿 因子〔 FR 〕,结果见下表。问两种 方法检测效果有无差别?

第八章 x2检验

第八章  x2检验

河南大学医学院授课教案首页预防医学教研室教研室主任签名注:教后记放在讲义最后一页。

基本内容第一节 四格表资料的χ2检验一、2χ检验的基本思想以两样本率比较的2χ检验为例,介绍2χ检验的基本思想。

2χ分布是一种连续型分布 2χ分布的形状依赖于自由度ν的大小,当自由度ν≤2时,曲线呈L 型;随着ν的增加,曲线逐渐趋于对称;当自由度ν→∞时, 2χ分布趋向正态分布。

2χ分布的具有可加性。

表8-1 完全随机设计两样本率比较的四格表处理属性合计 阳性阴性 1)(1111T A )(1212T A 1n (固定值) 2)(2121T A )(2222T A 2n (固定值) 合计 1m 2mn 有时为方便用a 、b 、c 、d 分别为四格表中四个实际频数22211211A A A A 、、、,n =a+b+c+d 。

2χ检验的检验统计量为2χ基本公式(亦称Pearson 2χ) ∑-=T T A 22)(χ (8-1)ν=(行数-1)(列数-1) (8-2)理论频数T 的计算公式 nn n T C R RC .= (8-3)式中RC T 为第R 行(row)第C 列(column)的理论频数,R n 为相应行的合计,c n 为相应列的合计,n 为总例数。

由公式(8-1)可以看出:2χ值反映了实际频数与理论频数的吻合程度,其中TT A 2)(-反映了某个格子实际频数与理论频数的吻合程度。

若检验假设0H 成立,实际频数与理论频数的差值会小,则2χ值也会小;反之,若检验假设0H 不成立,实际频数与理论频数的差值会大,则2χ值也会大。

2χ值的大小还取决于T T A 2)(-个数的多少(严格地说是自由度ν的大小)。

由于各TT A 2)(-皆是正值,故自由度ν愈大,2χ值也会愈大;所以只有考虑了自由度ν的影响,2χ值才能正确地反映实际频数A 和理论频数T 的吻合程度。

2χ检验时,要根据自由度ν查2χ界值表。

当2χ≥2,ναχ时,P ≤α,拒绝0H ,接受1H ;当2,2ναχχ<时,α>P ,尚没有理由拒绝0H 。

x2检验第六版

x2检验第六版
对于一致性较好,即绝大多数数据都在主对角线 上的大样本列联表, McNemar检验可能会失去使 用价值。
如对1万个案例进行一致性评价,9995个都是完全 一致的,显然,一致性相当的好,但McNemar检 验只考虑不一致的数据,反而可能得出有差异的 结论。
一致性检验在医学研究中用得很多,如研 究一种简单易行的诊断方法是否可以替代 另一种结果可靠但操作繁杂的诊断方法, 就会用到一致性检验。
如果想对其中的两个率进行相互比较时, 最好能够采用更加复杂的分类数据模型, 如对数线性模型或者logistic回归模型进行 分析,采用列联表分割等方法只能得到近 似的结果,最好不要使用。
四、配对设计
(一)配对设计四格表(2×2列联表)
计数资料配对设计的应用: 可用于两种检验方法、培养方法、诊断
无线性关系,列联表分类变量中少用,多用于连续变量。
有效例数(N of valid cases)
结论:有0个格子的期望频数小于5,最小 期望频数为6.56,符合pearson x2检验的要 求。
皮尔逊卡方值x2=4.130,p=0.042<0.05, 差别有统计学意义。
四格表校正卡方检验
结论:有1个格子的期望频数大于1,小于5, 最小期望频数为4.80
连续校正卡方值x2=2.624,
p=0.105>0.05,差别没有统计学意义。
如果掌握的是原始资料,可不必转换 成列联表,直接录入即可
程序操作
1、Analyze-Descriptives statistics-Crosstabs
例题:例9-2
步 骤:
1、定义变量,输入数据 设三个变量: 处理(r):即行号 状况(c):即列号 频数(f)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8 无序分类资料的统计推断—— χ2检验χ2检验(chi-square test )是一种用途较广的假设检验方法,这里仅介绍它在分类变量资料中的应用,检验两个或两个以上的样本率或构成比之间的差异是否有统计意义。

8.1 四格表资料的χ2检验四格表即2 ⨯ 2列联表,其自由度df =1,又分为一般与配对两种情形,本节介绍一般四格表的χ2检验,主要是用来推断两个总体率或构成比之间有无差别。

一般四格表,①在总频数n ≥40且所有理论频数≥5时,用Pearson χ2统计量;②在总频数n ≥40且有理论频数<5但≥1时,用校正χ2统计量;③在总频数n <40或有理论频数<1时,用Fisher 精确概率法检验。

计数资料的数据格式有两种,一种是频数表格式,如表8-1;一种是原始记录格式,如前面第4章统计描述中的表4-3,这两种格式在SPSS 操作时有所不同。

例8-1 欲研究内科治疗对某病急性期和慢性期的治疗效果有无不同,某医生收集了182例采用内科疗法的该病患者的资料,数据见表8-1。

请分析不同病期的总体有效率有无差别?表8-1 两种类型疾病的治疗效果组别 有效 无效 合计 有效率(%)急性期 69 37 106 65.1 慢性期 30 46 76 39.5 合计998318254.4解 这是一般四格表,012:H ππ=,即急性期和慢性期的总体有效率相同。

建立3列4行的数据文件,如图8-1,其中行变量r 表示组别(值标签:1=“急性期”、2=“慢性期”),列变量c 表示疗效(值标签:1=“有效”、2=“无效”),freq 表示频数。

1.指定频数变量 选择菜单Data →Weight cases ,弹出Weight cases 对话框,见图8-2;选中Weight cases by ;在左边框中选中频数freq ,并将其送入Frequency 框中;单击OK 。

图8-1 例8.1数据文件 图8-2 Weight cases 对话框2.进行χ2检验 选择菜单Analyze → Descriptive Statistics → Crosstabs (交叉表),弹出Crosstabs 主对话框;将组别r 送入行变量Row(s)框,将疗效c 送入列变量Column(s)框,如图8-3。

单击Statistics (统计量)按钮,弹出Statistics 对话框,选中左上角的Chi-square (χ2检验),如图8-4;单击Continue ,返回如图8-3所示主对话框。

单击Cells (单元格)按钮,弹出Cell Display 对话框,再选中Expected (理论频数)和Row (行百分比),如图8-5;单击Continue ,返回主对话框;单击OK ,完成χ2检验,主要输出结果如图8-6、7所示。

图8-3 Crosstabs 主对话框 图8-4 Crosstabs :Statistics 对话框图8-6是本例频数分布表的输出结果,每个方格中的3个数据分别表示实际频数、理论频数和实际频数在该行合计中所占的百分比(即该组的样本有效率或无效率),例如急性期和有效所对应的方格中的3个数据分别表示急性期组有效的实际频数69、理论频数57.7和急性期组的有效率65.1%。

组别 * 疗效 Crosstabulation693710657.748.3106.065.1%34.9%100.0%30467641.334.776.039.5%60.5%100.0%998318299.083.0182.054.4%45.6%100.0%CountExpected Count % within 组别CountExpected Count % within 组别CountExpected Count % within 组别急性期慢性期组别Total有效无效疗效Total图8-5 Crosstabs ::Cell Display 对话框 图8-6 例8-1频数分布表图8-7是本例χ2检验的输出结果,该表的下方提示本例有0个单元格的理论频数小于5,最小理论频数34.66,这些可以帮助我们选择χ2统计量和概率值。

表中第一行Pearson Chi-Square 是Pearson χ2的计算结果,第二行Continuity Correction 是校正χ2的计算结果,第四行Fisher's Exact Test 是Fisher 精确概率法检验的计算结果。

本例总频数n =182>40,且所有理论频数>5,故选用第一行的Pearson χ2的计算结果,χ2=11.713,P =0.001,拒绝原假设H 0,急性期和慢性期的总体有效率差异有统计学意义,再由图8-6可知,急性期样本有效率65.1%大于慢性期的39.5%,可以认为内科治疗对急性期的治疗效果优于慢性期的治疗效果。

图8-7 例8-1检验结果如果本例的数据格式不是表8-1所示的频数表格式,而是原始记录格式,SPSS 数据文件将是2列182行,只有组别r 和疗效c 两列,没有频数freq 列,182行中有69行1、1,37行1、2,30行2、1,46行2、2。

在操作中,没有“(1)指定频数变量”这一步,其它操作和计算结果完全相同。

例8-2 表8-2中的资料是240例心肌梗塞患者接受甲、乙两种不同治疗方法后24小时内的死亡情况,问两种疗法病死率是否有差别?表8-2 24小时内死亡情况疗法 生存例数 死亡例数合计 病死率(%)甲 187 11 198 5.6 乙 36 6 42 14.3 合计223172407.1解 统计分析步骤同例8-1。

由输出结果知,本例最小理论值为2.98<5,故用第二行Continuity Correction (校正χ2检验)的计算结果,χ2=2.796,P =0.095>0.05,以05.0=α水准不能拒绝原假设,差异没有统计学意义,即据此资料尚不能认为两疗法的病死率有差别。

例8-3 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV 的效果,将33例HBsAg 阳性孕妇随机分为预防注射组和非预防组,结果见表8-3。

问两组新生儿的HBV 总体感染率有无差别?表8-3 两组新生儿HBV 感染率的比较 组别 阳性 阴性 合计 感染率(%)预防注射组 4 18 22 18.2 非预防组 5 6 11 45.5 合计9243327.3解 统计分析步骤同例8-1。

本例n =33<40,故用第四行Fisher's Exact Test 的计算结果,双侧P =0.121>0.05,不能拒绝原假设,差异没有统计学意义,尚不能认为两组新生儿的HBV 感染率有差别。

8.2 配对四格表的χ2检验与一致性检验计数资料的配对设计常用于两种检验方法、诊断方法等的比较,如同一批病人以两种方法作检查或诊断,同一批样品用两种方法作检测等,其特点是对样本中各观察单位分别用两种方法处理。

配对设计的计数资料的数据形式往往表示为配对四格表。

例8-4 用甲、乙两法进行细菌检验,为比较两法的检验效果,将每份样品分成两份,分别用两种方法进行检验,得到260个样品的检验结果如表8-4,试问两种检验方法的检验结果有无差别? 解 这是配对四格表。

数据文件建立同例题8-1。

1.指定频数变量 操作同例8-1。

2.进行配对χ2检验 选择菜单Analyze → Descriptive Statistics → Crosstabs ,在弹出的Crosstabs 主对话框中,将甲法r 送入行变量Row(s)框,将乙法c 送入列变量Column(s)框。

单击Statistics (统计量)按钮,弹出Statistics 对话框,选中McNemar (配对计数资料的χ2检验),选中Kappa (Kappa 一致性检验);单击Continue ,返回Crosstabs 主对话框;单击OK ,完成配对四格表χ2检验,主要输出结果如图8-8、9所示。

图8-8给出的是McNemar 法检验配对计数资料检验的结果,McNemar 检验的假设是H 0:甲乙两法的检测结果相同。

本例P =0.503>0.05,不能拒绝H 0,可以认为甲乙两法的检测结果相同。

图8-9给出的是Kappa 一致性检验结果。

Kappa 一致性检验的H 0是:Kappa=0,即甲乙两种方法检测结果不一致。

本例Kappa =0.817,P=0.000,拒绝H 0,甲乙两种方法检测结果存在一致性。

根据经验,一般认为,Kappa ≥0.75时表明两者一致性较好,0.75>Kappa ≥0.4时表明两者一致性一般,Kappa <0.4时表明两者一致性较差。

图8-9 Kappa 一致性检验结果注意,McNemar 检验只考虑了两法结果不一致的两种情况(b 和c ,本例的8和12),而没有考虑样本含量n 和两法结果一致的两种情况(a 和d ,本例的172和68),所以,n 很大而且a 和d 的数值很大(即两法的一致率较高),b 和c 的数值相对较小时,McNemar 检验就失去了实用价值,此时如果使用McNemar 检验,反而会得出两法有差异的结论来。

而Kappa 检验是利用列联表中的全部信息的。

例如,表8-5中有两个配对四格表,McNemar 检验结果完全相同,P 均为0.013<0.05,均得到两法检测结果不相同的结论,这个结论对右边的表格就不表8-4 不同方法细菌检验结果 甲法 乙法合计+ - + 172 8180 - 12 68 80合计 184 76 260 图8-8 McNemar 检验结果合适;对两个表用Kappa 检验,左边表的Kappa=0.357,两法一致性较差;右边表的Kappa = 0.986,两法一致性很好。

表8-5 配对四格表比较计算甲法 乙法 甲法 乙法 + - + - + 11 12 + 1011 12 -217-210178.3 行×列表资料的χ2检验当列联表的行数或列数大于2时,通常称为行×列表,也称R ⨯ C 表。

行×列表分双向无序、单向有序、双向有序且属性不同、双向有序且属性相同等四种类型,本章只介绍双向无序行×列的χ2检验,采用Pearson χ2公式计算统计量,常用于多个样本率(或构成比)的比较。

一般认为,行×列表资料中各格的理论频数不应< 1,且1≤理论频数< 5的格子数不应超过格子总数的1/5。

若出现上述情况,可用下面四种方法解决①增大样本含量,使理论频数变大;②删去理论频数太小的行或列;③把理论频数太小的行或列与性质相近的邻行或列合并;④使用Fisher 确切概率方法计算。

例8-5 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表8-6。

相关文档
最新文档