第七讲 无序分类资料的统计分析
第七讲 无序分类资料的统计分析
无序分类资料的统计分析分类资料又称为定性资料,其取值是定性的,表现为互不相容的类别或属性。
按类别间的关系,又分为有序分类资料(即等级资料)和无序分类资料。
Stata用于处理分类资料的命令为:tabulate var1 var2 [fw=频数变量] [,选择项] 其中,var1,var2分别表示行变量和列变量[fw=频数变量]只在变量以频数形式存放时选用选择项常用的有:chi2 /*(Pearson) x2检验lrchi2 /*似然比x2检验exact /*Fisher的确切概率cell /*打印每个格子的频数占总频数的百分比column /*打印每个格子的频数占相应列合计的百分比row /*打印每个格子的频数占相应行合计的百分比nofreq /*不打印频数以上命令可以同时选用。
分类资料的一个特点是重复数较多,一般将数据整理成频数表,但收集数据时都是未整理的原始形式,stata对这两种形式的资料都可以进行分析,所得结果相同,只是命令稍有区别。
一、两独立样本四格表资料(一)X2检验(n>=40且各个格子的理论数T>=5)例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程2周,疗效见表11-3。
问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同?表11-3 试验组与对照组疗效组别有效无效合计有效率(%)试验组116 4 120 96.67对照组82 35 117 70.09合计198 39 237 83.541.建立检验假设,确定检验水准0H :21ππ=,即两种药物治疗慢性支气管炎的疗效相同 1H :21ππ≠,即两种药物治疗慢性支气管炎的疗效不同05.0=α结果:Pearson chi2(1) = 30.4463 Pr = 0.000,05.0<P ,按α=0.05水准拒绝0H ,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳喘。
5无序分类资料的统计分析
有时并不知道样本所代表的总体呈何分布
:该山区人群和这个地区人群的血型分布是一致的:该山区人群和这个地区人群的血型分布不一致
卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,它基本的无效假设
为真时,实际观察数与理论数之差A i-T i
为真时,检验统计量
另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为
从卡方的计算公式可见,当观察频数与期望频数完全
分布是一种连续性分布,而分类变量资料属离散性分布,由此得到的统计量也是不连续的。
为改
在实际工作中,对于四格表资料,通常规定
两种药物对急性细菌性肺炎
显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计
两种培养基白喉杆菌生长情况
+c)/2,对
由于该检验只考虑了不一致的情况(b与c),
McNemar检验(配对卡方检验)只会利用非主对角线单元格上的信息,即它只关心两者不一致的评价
2检验的范畴,但常
在四格表周边合计不变的条件下,在相应的总体中进行抽样,四格表中出现各种排列组合情况的
时的概率分布计算
家医院住院病人院内感染情况,随机抽查同一时期各医院住院病人院内感
血型有关,与对照组
备注
理论频数不宜太小,一般认为不宜有1/5以上格。
8.无序分类资料的统计推断—X2检验
8 无序分类资料的统计推断—— χ2检验χ2检验(chi-square test )是一种用途较广的假设检验方法,这里仅介绍它在分类变量资料中的应用,检验两个或两个以上的样本率或构成比之间的差异是否有统计意义。
8.1 四格表资料的χ2检验四格表即2 ⨯ 2列联表,其自由度df =1,又分为一般与配对两种情形,本节介绍一般四格表的χ2检验,主要是用来推断两个总体率或构成比之间有无差别。
一般四格表,①在总频数n ≥40且所有理论频数≥5时,用Pearson χ2统计量;②在总频数n ≥40且有理论频数<5但≥1时,用校正χ2统计量;③在总频数n <40或有理论频数<1时,用Fisher 精确概率法检验。
计数资料的数据格式有两种,一种是频数表格式,如表8-1;一种是原始记录格式,如前面第4章统计描述中的表4-3,这两种格式在SPSS 操作时有所不同。
例8-1 欲研究内科治疗对某病急性期和慢性期的治疗效果有无不同,某医生收集了182例采用内科疗法的该病患者的资料,数据见表8-1。
请分析不同病期的总体有效率有无差别?表8-1 两种类型疾病的治疗效果组别 有效 无效 合计 有效率(%)急性期 69 37 106 65.1 慢性期 30 46 76 39.5 合计998318254.4解 这是一般四格表,012:H ππ=,即急性期和慢性期的总体有效率相同。
建立3列4行的数据文件,如图8-1,其中行变量r 表示组别(值标签:1=“急性期”、2=“慢性期”),列变量c 表示疗效(值标签:1=“有效”、2=“无效”),freq 表示频数。
1.指定频数变量 选择菜单Data →Weight cases ,弹出Weight cases 对话框,见图8-2;选中Weight cases by ;在左边框中选中频数freq ,并将其送入Frequency 框中;单击OK 。
图8-1 例8.1数据文件 图8-2 Weight cases 对话框2.进行χ2检验 选择菜单Analyze → Descriptive Statistics → Crosstabs (交叉表),弹出Crosstabs 主对话框;将组别r 送入行变量Row(s)框,将疗效c 送入列变量Column(s)框,如图8-3。
无序分类资料统计分析
验只能说明效应指标定性反应类别的构成 比是否相同,而各组效应的比较宜采用秩 和检验
注意的问题
3.行列表卡方检验的适用条件
–理论频数不宜太小,一般认为不宜有1/5以上 格子的理论频数小于5或有一个格子的理论频 数小于1 –不太理想的办法
• 与邻近行或列中的实际频数合并 • 删去理论频数太小的格子所对应的行或列
一、两独立样本四格表资料卡方检验
例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对 照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程 2周,两组治疗后有效的患者分别为116人、82人。问慢支口服液II号与消咳喘治疗慢性支 气管炎的疗效是否相同?
组别 正常胃粘膜 不典型增生 胃癌组织 合计 观测例数 25 25 50 100 阳性例数 7(15.250) 11(15.250) 43(30.500) 61 阴性例数 18(9.750) 14(9.750) 7(19.500) 39 阳性率(%) 28.0 44.0 86.0 61.0
注 :括号内为理论频数
组别 中西医结合组 西医组 有效 92(88.973) 85(88.027) 无效 2(5.027) 8(4.973) 合计 94 93 有效率(%) 97.87 91.40
注 :括号内为理论频数
连续性校正公式:
( A − T − 0.5) 2 T
χ2 = ∑
;
n 2 ( ad − bc − ) n 2 χ2 = (a + b)(c + d )(a + c)(b + d )
–本例即28、8、22、14保持不变的条件下,若 H0成立,计算出现各种四格表的概率
分类变量资料的统计分析.I
详细描述
市场调查中,分类变量常用于描述消费者的偏好、态度 和行为。例如,消费者对于某产品的品牌偏好、购买频 率、使用体验等都可以用分类变量来表示。对这些分类 变量进行分析,可以帮助企业了解市场需求、消费者行 为模式和产品优缺点,从而制定更有效的营销策略。
案例二:医学研究中的分类变量分析
总结词
医学研究中,分类变量常用于描述患者的疾病类型、治疗方式等。
比例与百分比
比例
某一类别的观察值数量与另一类别观察值数量的比值,用于比较不同类别的相对 大小。
百分比
某一类别的观察值数量与总观察值数量的比值乘以100,用于了解各类别的相对比 例。
集中趋势的度量
众数
出现次数最多的数值,反映数据的集 中趋势。
中位数
将数据从小到大排列后,位于中间位 置的数值,反映数据的集中趋势。
案例四:市场细分中的分类变量分析
要点一
总结词
要点二
详细描述
市场细分是市场营销中的重要概念,分类变量是市场细分 的重要依据。
市场细分是根据消费者的需求、行为和特征等因素将市场 划分为若干个具有相似性的子市场。分类变量是市场细分 的重要依据,例如消费者的年龄、性别、收入、职业等因 素都可以作为分类变量用于市场细分。通过对这些分类变 量的分析,企业可以更好地了解不同市场的需求特点,从 而制定更有针对性的营销策略,提高市场占有率和竞争力 。
总结词
社交网络分析中,分类变量常用于描述用户的行为、 关系和属性。
详细描述
在社交网络分析中,分类变量被广泛用于描述用户的 行为、关系和属性。例如,用户的行为可以分为发帖 、评论、点赞等类型;关系可以分为好友、关注、粉 丝等类型;属性可以包括用户的性别、年龄、职业等 。对这些分类变量进行分析,可以帮助研究者了解社 交网络的结构、用户行为模式和信息传播规律等,从 而更好地理解社交网络中的各种现象。
无序资料与计量资料相关分析
无序资料与计量资料相关分析一.两组或多组计量资料的比较1.两组资料:1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐,则作t’检验或用成组的秩和检验2)小样本偏态分布资料,则用成组的秩和检验2.多组资料:1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。
如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Wallis的统计检验。
如果 Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的秩和检验,但用方法校正P值等)进行两两比较。
二.分类资料的统计分析1.单样本资料与总体比较1)二分类资料:(1)小样本时:用二项分布进行确切概率法检验;(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2.四格表资料1)n>40并且所以理论数大于5,则用Pearson c22)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s确切概率法检验3)n£40或存在理论数<1,则用Fisher’s检验3.2×C表资料的统计分析1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的秩和检验2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验3)行变量和列变量均为无序分类变量(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s确切概率法检验4.R×C表资料的统计分析1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或 Wallis的秩和检验2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c23)列变量和行变量均为有序多分类变量,可以作相关分析4)列变量和行变量均为无序多分类变量,(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s确切概率法检验三.Poisson分布资料1.单样本资料与总体比较:1)观察值较小时:用确切概率法进行检验。
医学统计学第七讲分类变量统计描述
平均发展速度和平均增长速度
➢平均发展速度是各环比发展速度的几何 平均数,说明某事物在一个较长时期中 逐期(如逐年)平均发展的程度。
➢平均增长速度是各环比增长速度的平均 数,说明某事物在一个较长时期中逐期 平均增长的程度。
其计算公式为
平 均 发 展 速 度 nan/a0
9.5 12 28
5.2
6
58 10.8 合计 536 100.0
7
66 12.3
第二节 相对数应用注意事项
3、相对数作相互比较时应注意其可比性。 (1)研究对象是否同质;研究方法是否 统一;观察时间是否一致;客观环境和影 响因素是否相当;等等。 (2)当比较两组或两组以上的总率(平 均率)时,要考虑各率的内部构成是否相 同,否则要经过标准化,才能得出正确结 论。
• 在计数资料分析中有时要考虑资料的时间特性。
• 分子和分母都是时点ຫໍສະໝຸດ 料:高血压患病率= (检出高血压病人数÷受检查人数)×100%
• 分子和分母都是时期资料:
痢疾病死率= (某年痢疾死亡数÷该年痢疾发病数)×1000‰
• 分子是时期资料而分母是时点 资料:
– 时间段为年的,称为年率;时间是一个月的, 称月率。凡是年率都不须注明。不是年率的必 须注明是周率、月率、季率。
第三节 率的标准化法
一、率的标准化概念: 把两个或两个以上内部构成不同的总
率统一到同一水平(或标准水平),使之 具有可比性,然后再进行比较的方法即率 的标准化法。
由标准化法计算的率称标准化率(或 调整率),简称标化率。
率的标准化的意义:便于合理比较。
第三节 率的标准化法
二、选择标准的原则: 1.尽可能选择有代表性的、内部构成相
分类资料统计分析
四格表资料的x2检验
100000
3
1.2
0.3
30~
96667
29
11.2
3.0
40~
63000
82
31.8
13.0
50~
24000
96
37.2
40.0
60 ~
6000
58
18.6
80.0
合计
289667 258
100.0
8.9
率的标准化
标准化法:为了消除相比较组间因构 成不同对所比较指标的影响,采用 统一的标准构成,使相比较的各组 在相同构成条件下进行比较。
相对数的概念
相对数(relative number): 是描述分类变量资料的统计指标 用于分析比较
绝对数(absolute number): 分类变量资料整理后所得到的数据 表示绝对水平
常用的相对数
1.率(rate) 又称频率指标或强度指标,说明某现象发生 的频率或强度。常以百分率(%)、千分率 (‰)、万分率(1⁄万)、十万分率(1⁄10 万)等表示
500 225 45.0
标准化率的计算
①选定标准:
标准组应根据研究目的选择有代表性的、稳 定的、数量较大的人群
一般可将相互比较的两组合并作为标准
②计算 已知标准组年龄别人口数时: P’
∑Nipi
已知标准组年龄别人口构成比时= : N
③比较得出结论
Ni
P’=∑ (
无序分类资料的统计推断
85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
[ 案例分析 ]
✓ 资料类型:四格表资料(定性资料) ✓ 设计类型:两样本率的比较,目的是推
断两样本所来自的总体率是否相等,即 π1= π2 。 ✓ 分析方法:两样本率比较χ2检验
一、χ2检验的基本思想
1、 实际频数(actual frequency)。 2、 两个样本率不相同的原因有两种可能:
步骤: 建立假设,确定检验水准
计算检验统计量
P≤α
确定p值 作推断结论
P>α
拒绝H0,接受H1
不拒绝H0
公式 实际频数
理论频数
2 (AT)2(T5)
T
校正 2 公 (A 式 T T 0.5 )2(T5 )
根据某地区的血型普查结果可知,该地区 人群中血型为O 的占30%,血型为A 的占 25%,血型为B 的占35%,血型为AB 的 占10%。研究者在邻近该地区的一个山区 人群中进行一个血型的流行病调查,在该 山区人群中随机抽样调查了200 人,检测 这些对象的血型,问该山区人群与这个地 区人群的血型分布是否一致?
一种是抽样误差所致;另一种是总体率确 有所不同。 3、 通过假设检验对两种原因进行判断:为 了判别这两种情况,先作出“无效假设”, 即假设这两个率相同,差别仅是抽样误差 所致。
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
1
.057
1
.036
.040
.028
12无序分类资料的统计分析
与这个地区人群的血型分布是否一致?53.计算χ统计量及自由度22()20.38A T Tχ−==∑10与消咳喘治疗慢性支气管炎的疗效是否相同?11数据,其余数据均由此派生。
13•一般地,R 行C 列的理论频数n :总频数n R :第R 行频数合计n C :第C 列频数合计•两个独立样本率的比较可用基本公式•亦可用上述基本公式的展开式n n n T CR =∑−=TT A 22)(χ)1(22−=∑CR n n A n χ14•四格表专用公式•在此,式(11-1)、(11-3)及(11-4)等价。
•由于受到“行频数合计等于n ,且列频数合计等于n ”条件的约束,自由度为•对于两独立样本四格表资料,自由度22()()()()()ad bc na b c d a c b d χ−=++++)(列数)行数11(−×−=ν11212(=−×−=)()ν151.建立检验假设,确定检验水准H 0:π1=π2,即两种药物治疗慢性支气管炎的疗效相同H 1:π1≠π2,即两种药物治疗慢性支气管炎的疗效不同α=0.05162.求检验统计量χ2值和自由度v•首先,计算a 、b 、c 、d 对应的理论频数。
•当然,在计算T 11基础上,其余三个理论数也可以按以下方式计算。
253.100237/19812011=×=T 747.19237/3912012=×=T 747.97237/19811721=×=T 253.19237/3911722=×=T 747.19253.10012012=−=T 747.97253.10019821=−=T 253.19747.9711722=−=T 17然后,计算检验统计量χ2值和自由度v•四个表专用公式:45.30 253.19)253.1935(747.97)747.9782(747.19)747.194(253.100)253.100116( )(222222=−+−+−+−=−=∑TT A χ1ν=×(2-1)(2-1)=222()()()()()(11635482)23730.44631(1164)(8235)(11682)(435)ad bc na b c d a c b d −=++++×−××==+×+×+×+χ183.确定P 值,下结论•查附表8,χ20.05,1=3.84,χ2=30.45>χ20.05,1,P<0.05,按α=0.05水准拒绝H 0,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳喘。
分类资料的统计描述课件
峰态及其测度
峰态
描述数据分布的集中程度,可以通过计算峰态系数来衡量。
峰态系数的计算方法
利用数据分布的均值、标准差和四分位距,通过公式计算得出峰 态系数。
峰态系数的值域
正值表示尖峰分布,负值表示平峰分布。
偏态与峰态的图形描述
01
02
03
直方图
通过绘制直方图可以直观 地展示数据的分布情况, 从而观察偏态和峰态。
THANKS
感谢观看
Q-Q图
通过绘制Q-Q图可以比较 数据分布与正态分布的偏 离程度,从而判断偏态和 峰态。
P-P图
通过绘制P-P图可以比较 数据分布与正态分布的理 论概率,从而判断偏态和 峰态。
05
分类资料的统计图表
条形 图
总结词
直观展示不同类别数据的大小关系
详细描述
条形图通过长度相等的条形来代表各类别的数值,条形之间的横向距离表示数 值的大小。条形图能够直观地展示不同类别数据的大小关系,便于比较。
分类资料的统计描述课件
目 录
• 分类资料统计描述概述 • 分类资料的频数分布 • 分类资料的集中趋势与离散趋势 • 分类资料的偏态与峰态 • 分类资料的统计图表 • 分类资料统计描述的应用场景
contents
01
分类资料统计描述概述
定义与特点
定义
分类资料是指将观察单位按照某 种属性或类别进行分类的统计数 据,例如性别、婚姻状况、学历等。
医学数据分析
要点一
总结词
医学数据分析也是分类资料统计描述的一个重要应用场景, 通过对医学数据的统计描述,可以了解疾病分布、治疗效 果和药物反应等。
要点二
详细描述
医学研究是提高疾病防治水平和医疗服务质量的重要途径, 通过临床试验、流行病学调查等方式收集数据,然后利用 分类资料统计描述的方法对数据进行整理和分析,可以得 出疾病流行特征、治疗方案效果等方面的信息,为医生制 定治疗方案和开展医学研究提供依据。
分类资料的统计分析
9、是非题: 用某药治疗某病,治了5例,治愈4例,则该药的治愈率为80%.
总体率的估计和卡方检验
一、率的抽样误差 一般地,从一个阳性率π 为的总体中随机抽取含量为n的
样本,则样本中的阳性数X服从二项分布B(n,π ),样本阳 性率p与总体率π 之间也存在抽样误差,其大小用样本率的标 准差来表示,即率的标准误。
注意:
A 四格表资料指的是哪四个格子的数字(见有颜色部分) B χ 2检验的自由度V的计算
V= (R—1)(C—1) 四格表资料的自由度恒定为1。 C 四格表资料χ 2 检验的条件: 第一种情况:N≥40,且T均≥5,用普通χ 2检验 第二种情况:N≥40,但有1≤T<5时,用矫正χ 2检验 第三种情况:N<40,或T<1 时,用确切概率法 D 当P接近检验水准时,不要轻易下结论。 E 在满足各自条件的前提下,χ 2检验与U检验等价, χ 2值=U2
3、下列哪项检验不适用卡方检验
A. 两样本均数的比较
B.两样本率比较
C. 多个样本构成比的比较 D.拟合优度检验
4、假设对两个率差别的假设检验分用u检验和X²检验,则 算得的u值和X²值的关系有
A. u检验比X²检验准确
B. X²检验比u检验准确
C. u=X2
D. u= x2 E. X2= u
5、卡方检验中,四格表资料的自由度一定为1.
练习
1、描述计数资料的统计指标是; A. 平均数 B. 相对数 C. 标准差 D.标准误 E. 变异系数
2、某一事件发生强度的指标应选 A 率 B 构成比 C 相对比 D 绝对数
E 以上都不对
3、某病发病率的分子是 A 是指一定时间内该病发生的新病例 B 是指该病发生的新、老病例 C 是指该病的老病例 D 是指现患病例 E 是指现患病例和老病例
无序分类举例
无序分类举例
无序分类变量数据又称定性数据或计数数据或名义变量数据,它是将观察单位按一定性质或类别分组计数,将各组观察单位数分组汇总得到的数据。
其变量值是定性的,表现为不相容的属性或类别。
定性资料的处理方法分为两类。
二分类:如某学校学生大便中蛔虫的检查,以每名学生为观察单位,结果可报告蛔虫卵阴性、阳性各1例;
这两类是对立的,也是互不相容的。
2。
多分类:如观察某一组AB0血型的分布,根据人工观察单位将其分类,可将结果划分为A型血型,B型血型,AB型血型及0型血型四种不相容血型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
无序分类资料的统计分析
分类资料又称为定性资料,其取值是定性的,表现为互不相容的类别或属性。
按类别间的关系,又分为有序分类资料(即等级资料)和无序分类资料。
Stata用于处理分类资料的命令为:
tabulate var1 var2 [fw=频数变量] [,选择项] 其中,var1,var2分别表示行变量和列变量
[fw=频数变量]只在变量以频数形式存放时选用
选择项常用的有:
chi2 /*(Pearson) x2检验
lrchi2 /*似然比x2检验
exact /*Fisher的确切概率
cell /*打印每个格子的频数占总频数的百分比
column /*打印每个格子的频数占相应列合计的百分比
row /*打印每个格子的频数占相应行合计的百分比
nofreq /*不打印频数
以上命令可以同时选用。
分类资料的一个特点是重复数较多,一般将数据整理成频数表,但收集数据时都是未整理的原始形式,stata对这两种形式的资料都可以进行分析,所得结果相同,只是命令稍有区别。
一、两独立样本四格表资料
(一)X2检验(n>=40且各个格子的理论数T>=5)
例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗
效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组
117人(两组受试者病程、病情等均衡),疗程2周,疗效见表11-3。
问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同?
表11-3 试验组与对照组疗效
组别有效无效合计有效率(%)试验组116 4 120 96.67
对照组82 35 117 70.09
合计198 39 237 83.54
1.建立检验假设,确定检验水准
0H :21ππ=,即两种药物治疗慢性支气管炎的疗效相同 1H :21ππ≠,即两种药物治疗慢性支气管炎的疗效不同
05.0=α
结果:
Pearson chi2(1) = 30.4463 Pr = 0.000,05.0<P ,按α=0.05水准拒绝0H ,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳
喘。
B.对于频数表资料还可用“tabi”命令直接输入频数,按行输入,各行数据间用“\”分开,此种方法更为简单,故推荐使用。
上例的命令还可表示为:
. tabi 116 4 \62 35,row all exact
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
| col
row | 1 2 | Total
-----------+----------------------+----------
1 | 116 4 | 120
| 96.67 3.33 | 100.00
-----------+----------------------+----------
2 | 62 35 | 97
| 63.92 36.08 | 100.00
-----------+----------------------+----------
Total | 178 39 | 217
| 82.03 17.97 | 100.00
Pearson chi2(1) = 39.0237 Pr = 0.000
likelihood-ratio chi2(1) = 42.4731 Pr = 0.000
Cram閞's V = 0.4241
gamma = 0.8849 ASE = 0.060
Kendall's tau-b = 0.4241 ASE = 0.053
Fisher's exact = 0.000
1-sided Fisher's exact = 0.000
.
(二)校正X2检验或Fisher精确概率检验(n>=40,1<=T<=5)
例11-3 为评价中西结合治疗抑郁发作的疗效。
将187例患者随机分为2组,两组患者均选用阿咪替林西医综合治疗,中西医结合组在上述治疗的同时,再配合中医辨证治疗,根据中医辨证分型采用不同的方剂,治疗结果见表11-5,问两种治疗方案的疗效有无差别?
表11-5 试验组与对照组疗效
组别 有效 无效 合计 有效率(%)
中西医结合组
92(88.973) 2(5.027) 94 97.87 西医组
85(88.027)
8(4.973)
93
91.40
注 ;括号内为理论频数 例11-3 假设检验步骤
1.建立检验假设,确定检验水准
0H :21ππ=,即两种治疗方案疗效相同 1H :21ππ≠,即两种治疗方案疗效不同
05.0=α
Stata 命令:
结果:
本例需要用校正卡方,p=0.1005,两种治疗方案疗效的差异无统计学意义。
(三)Fisher精确检验(n<40或T<1)
例11-4 为了解国产紫外线瞬间消毒器与进口高压蒸汽消毒机对牙科手机消毒灭菌的效果,将刚去腐揭卡过垢等待处理的牙科手机29个随机分为A 、B 两组,A 组为紫外线消毒组,B 组为高压蒸汽组。
消毒前细菌培养均为阳性,消毒后细菌培养结果见下表。
问两种消毒法消毒后细菌培养阳性率有无差别?
表11-6 两种方法消毒后细菌培养结果
组别 阳性 阴性 合计 A 10 5 15 B 1 13 14 合计
11
18
29
由于总频数29小于40,对两组阳性率的比较宜采用Fisher 精确概率检验,假设检验步骤如下:
1.建立检验假设,确定检验水准
0H :21ππ=,即两种方法消毒后细菌培养阳性率相同 1H :21ππ≠,即两种方法消毒后细菌培养阳性率不同
05.0=α
Stata 命令:
二、配对四格表资料
例11-7将100份样品一分为二,分别用含血培养基与无血培养基接种培养,观察弯曲菌检出情况,结果如表11-12所示。
试问:两种培养基接种培养弯曲菌的阳性率是否相等?两种培养基培养结果间是否有关联性?
将表11-12整理为表11-13形式
表11-13 两种培养基弯曲菌检出结果
无血培养基
含血培养基
合计+ -
+ 52 17 69
- 8 23 31
合计60 40 100
H:两种培养基接种培养弯曲菌的阳性率相同
1
H:两种培养基接种培养弯曲菌的阳性率不同
05
.0
=
α
利用Stata的即时命令
结果为:
05
.0
>
P,按α=0.05水准不拒绝
H,尚不能认为两种培养基接种培养弯曲菌的阳性率不相同。
H:两种培养基培养结果之间无关联性
1
H:两种培养基培养结果之间有关联性
05
.0
=
α
Stata命令为:
05.0<P ,按α=0.05水准拒绝0H ,可认为两种培养基接种培养弯曲菌结果之间存在关联
性。
三、多个独立样本R*C 表资料
多个独立样本的无序分类资料可以整理成R 行C 列的二维交叉表格,即R*C 表资料。
例11-5 为探讨埃兹蛋白(Ezrin )在胃癌组织中的表达情况,采用免疫组化法检测50例胃癌组织、25例胃粘膜不典型增生和25例正常胃粘膜中Ezrin 的表达,结果见表11-9。
问不同胃组织Ezrin 表达阳性率是否相同?
表11-9 Ezrin 在不同胃组织中的表达
组别 观测例数
阳性例数 阴性例数 阳性率(%)
正常胃粘膜 25 7(15.250) 18(9.750) 28.0 不典型增生 25 11(15.250) 14(9.750) 44.0 胃癌组织 50 43(30.500)
7(19.500)
86.0 合计
100
61
39
61.0
注 :括号内为理论频数
这是一个3个样本率的比较问题,假设检验步骤为: 1.建立检验假设,确定检验水准
0H :321πππ==,即3种不同胃组织Ezrin 表达阳性率相等
1H :1π、2π、3π不全相等,即3种不同胃组织Ezrin 表达阳性率不全相等
05.0=α
05.0<P ,按α=0.05水准拒绝0H ,差别有统计学意义,可认为3种不同胃组织Ezrin 表
达阳性率不全相等。
例11-6 为评价国产注射用头孢美唑钠(A )治疗中、重度呼吸系统细菌性感染性疾病的临床有效性及安全性,以先锋美他醇(B )为对照进行临床试验,入组受试者疾病类型构成情况见表11-10。
问A 、B 两组受试者疾病类型总体构成有无差别?
表11-10 两组受试者疾病类型
组别 急性扁桃体炎 肺炎 急支炎 慢支炎急发 支扩伴感染 A 5(6.042) 21(19.636) 21(21.650) 20(20.643) 5(4.028) B
7(5.958)
18(19.364)
22(21.350)
21(20.357)
3(3.972)
注:括号内为理论频数
这是一个2组构成比比较的问题,其假设检验步骤为:1.建立检验假设,确定检验水准
H:A、B受试者疾病类型总体构成相同
H:A、B受试者疾病类型总体构成不同
1
α
=
05
.0
P=0.894,A、B受试者疾病类型总体构成相同。