定性资料的统计推断共51页文档
9-定性资料的统计分析2
定性资料的统计分析
statistical analysis for qualitative data
Gene 2006
主要内容
二项分布简介 总体率的可信区间估计 Poisson分布简介 总体事件数的可信区间估计 样本率与总体率的比较 两样本率比较的u检验
四格表资料的2检验 行列表资料的2检验
20.05,1=3.84>2.00,所以 P>0.05。
⑤结论:按=0.05 水准,不能拒绝 H0,
差别无统计学意义。故尚不能认为
两药对控制牙科术后疼痛的疗效不同。
三、四格表资料专用公式
理论频数由四格表中实际频数计算得来
对于四格表资料,可直接用专用公式计算2
值,以简化计算过程。
2
例,每例观察5年,其中单纯手术治疗组观察
n1=84例,存活x1=57例,联合治疗组观察n2=47 例,存活x2=39例。将资料整理成以下形式的分类 频数表。
组别 联合治疗 单纯手术 合计
存活数 39(a) 57(c) 96(a+c)
死亡数 8(b) 27(d)
35(b+d)
合计 阳性率(%)
47(a+b)
因此,2值计算公式是一个近似计算公式。
英国统计学家Yates F认为,应将实际频数 与理论频数之差的绝对值减去0.5作连续性 校正。
2值公式在四格表的基本数据均不太小时,
近似程度相当高。
但是,当四格表中的有一基本数据出现较
小值,则求得的2值往往偏大,相应的P值
偏小,从而扩大了I型误差。
实际频数Ai与理论频数Ti之间的抽样误差,
可以用2统计量表示:
2
13定性资料的统计推断
2011-1-4
22/78
资料类型: 资料类型:定性资料 设计类型:单样本率的比较, 设计类型:单样本率的比较,目的是推断 样本所代表的总体率π 与已知的总体率π 样本所代表的总体率 π 与已知的总体率 π0 是否相等。 是否相等。 分析方法:率的 检验 分析方法:率的u检验
2011-1-4
23/78
一、要有严密的抽样研究设计 这是假设检验的前提。 这是假设检验的前提 。 样本必须是从 同质总体中随机抽取的; 同质总体中随机抽取的 ; 要保证组间的均 衡性和资料的可比性, 衡性和资料的可比性 , 即除对比的主要因 如用新药和用安慰剂) 素 ( 如用新药和用安慰剂 ) 外 , 其它可能影 响结果的因素(如年龄,性别,病程, 响结果的因素( 如年龄,性别,病程,病情 轻重等)在对比组间应尽可能相同或相近。 轻重等)在对比组间应尽可能相同或相近。
计算公式为: 计算公式为:
u= p −π0
π0 (1−π0 ) / n
p −π0 −1/ 2n
=
p −π0
σp
σp =
π (1−π )
n
u=
π0 (1−π0 ) / n
=
p −π0 −1/ 2n
σp
式中, 为样本率 为样本率, 为已知的总体率, 式中 , p为样本率 , π0 为已知的总体率 , σp 为 计算的标准误, 为校正数, 由总体率 π0 计算的标准误 , 1/2n为校正数 , n 为校正数 很大时可以省略。 很大时可以省略。
)
D P 值和α值都不可以由研究者事先设定 E P 值的大小与α值的大小无关
2011-1-4
9/78
简答题
1. 假设检验的基本原理是什么? 假设检验的基本原理是什么? 2. 什么是一类错误?什么是二类错误?二者之间有 什么是一类错误?什么是二类错误? 什么关系? 什么关系? 3. 什么是概率?什么是小概率事件?怎样理解假设 什么是概率?什么是小概率事件? 检验中“小概率不可能原理” 检验中“小概率不可能原理”? 4. 假设检验中,如何确定单、双侧? 假设检验中,如何确定单、双侧? 5. 假设检验的注意事项是什么? 假设检验的注意事项是什么? 6. P 与α有什么区别和联系? 有什么区别和联系? 有什么区别和联系
定性资料统计推断-医学统计学
疗法 联合治疗 单纯治疗
合计
生存 39 57 96
死亡 883.0 67.9 73.3
一、 2检验的基本思想
表1 两种疗法治疗乳腺癌患者存活率比较
疗法 联合治疗 单纯治疗
合计
生存 39 57 96
死亡 8 27 35
合计 47 84 131
存活率(%) 83.0 67.9 73.3
发生数
未发生数
合计
甲
a
b
a+b
乙
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
一、 2检验的基本思想
表1
疗法
联合治疗
两种疗法治疗乳腺癌患者存活率比较
生存
死亡
合计
存活率(%)
39 (a)
8(b)
47 (a+b)
83.0
单纯治疗 57(c)
27 (d)
84 (c+d)
67.9
合 计 96 (a+c.) 35 (b+d.) 131(n=a+b+c+d)
婚姻状况 单身 单身 单身 已婚 已婚 已婚 已婚 已婚 离异 离异 分居 分居 分居 分居
不同性别的婚姻状况 性别
婚姻状况 男女
单身 2 1 已婚 2 3 离异 1 1 分居 2 2
常用的比例指标
绝对数: 资料整理后各组的例数
相对数: 两个绝对数之比中得到的一种数值
常用的比例指标
1. 率: 速率(rate):与时间有关,如某年某病发病率、死亡率。 比率(proportion):与时间无关,如某病治愈率。 2. 比: 构成比(constituent ratio):部分与全部之比 相对比(relative ratio):两指标之比 3. 动态数列: 定基比:各时间的指标分别与基数(某个时间的指标)作对比 环比:以相邻的后一个时间的指标与前一个时间的指标作对比 增长量:分为累积增长量、逐年增长量
【SPSS统计挖掘】第7章 定性资料统计推断
7.3 成组设计行乘列表资料的卡方检验
•例题
1、多个样本率之间的比较 例7-3:某地调查了2000~2003四个年度中小学女生的贫血
状况,如图7-17所示,问各年度间学生贫血率有无差别?
模块解读
1、建立数据库
2、分析步骤
1)单击“数据”|“加权个案”命令,弹出加权个案对话 框,如下图所示。“加权个案”框中放入本次需要加权的 变量“频数”。
2
n(
A2 nR nC
1)
7.3 成组设计行乘列表资料的卡方检验
• 2、多个构成比之间的比较 对多个构成比检验的目的是推断各样本分别代表的总体构
成比是否相同,用2检验,基本思想同前。首先假设各样 本所代表的总体构成比相同,均等于合计的构成比,据此, 可算得每个格子的理论频数。 如果检验假设是真实的,则每一格子的理论频数与实际频 数一般均不会相差很大,即2值一般不会很大;若根据样 本信息算得一个很大的2值,则有理由怀疑H0的成立,进 而拒绝它。
7.2 配对设计四格表资料卡方检验
• 原理
如果在定性资料的统计分析中,如两组率之间的比较,设 计类型如果是按配对设计,则要按配对设计的卡方检验来 完成。不能采用成组设计的卡方检验,否则会降低统计学 的检验效能。
7.2 பைடு நூலகம்对设计四格表资料卡方检验
•例题
例7-2:某医院采用甲乙两种方法测定60例恶性肿瘤患者体 内ck20基因表达阳性率,甲法测定阳性率为70.0%,乙法 测定阳性率为38.3%,两种方法一致测定阳性率为26.7%。 为比较甲乙两种方法的测定阳性率是否有差异?,如图79所示。
2)单击“分析”|“描述统计”|“交叉表”命令,弹出交 叉表对话框,如下图所示。“行”框中放入本次需要比较
定性资料统计推断医学统计学演示文档
四格表 (fourfold table,2×2 table)
实际频数(actual frequency, A)
行合计 (row total, nR) 列合计(column total, nC) 总例数 (n)
一、 2检验的基本思想
表 2 四格表(fourfold table)资料的基本形式
处理组
发生数
96
35
合计 47 84
131
存活率(%) 783.30 7637..39 73.3
Ta4 77.3 3% 34.4 T b 4 4 2 7.7 % 6 1.5 2 . 6 T c 8 7 4.3 % 3 6 1 .56 T d 8 2 4.7 % 6 2 2 .44
χ2检验的基本公式
2 ( A T )2
0.585(1 0.585) 0.048 4.8% 106
▪ 总体率的可信区间
1、样本量足够大,总体率适中 (满 足np和n(1-p)均大于5)时,样本率 近似正态分布。其可信区间为
(p - uα/2 Sp, p + uα/2 Sp)
试估计 p=0.585,Sp =0.048 的总体率双侧 95%可信区间。 解: u0.05/2=1.96, (p - uα/2 Sp, p + uα/2 Sp) = (0.585-1.96×0.048,0.585+1.96×0.048)=(0.491,0.679) 即总体率的 95%可信区间为 49.1%~67.9%。
率的标准误与可信区间
率 总体率: ;样本率:p
率的标准误
p
sp
(1 )
n p(1 p)
n
标准误的计算
例 观察某医院产妇 106 人,其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。
定性资料的统计分析最新课件
若均数与标准差不用绝对数X而用率p 表示时,即对以上两式分别除以n:
p
p
(1 )
n
sp
p(1 p) n
样本率的标准差 又称为率的标准误。
定性资料的统计分析最新课件
二项分布的累计概率
常用的有左侧累计和右侧累计两种方法。从
阳性率为 的总体中随机抽取n个个体,则:
1、最多有k例阳性的概率:
每种结果的概率
0.20.20.2=0.008 0.20.20.8=0.032 0.20.80.2=0.032 0.80.20.2=0.032 0.20.80.8=0.128 0.80.20.8=0.128 0.80.80.2=0.128 0.80.80.8=0.512
1.000
死亡数 生存数 不同死亡数的概率
可信度为95%时, u =1.96 可信度为99%时, u =2.58。
定性资料的统计分析最新课件
例1、从某地人群中随机抽取144人,检查乙型 肝炎表面抗原携带状况,阳性率为9.20%,求 该地人群的乙型肝炎表面抗原阳性率的95%可 信区间。
本例n =144,p=9.20%,可用近似正态法计算 可信区间。
0.4 P(X)
0.3
n =20 =0.5
n =5 =0.3
n =10 =0.3
n =30 =0.3
0.2
0.1
0.0 4
8 12 16 0 2 4
0246
X
定性资料的统计分析最新课件
4 8 12 16
在实际应用中,n足够大,且 不太大
也不太小,即既不接近于0也不接近于 1时,常可用正态近似原理处理二项分 布的问题。
因此,从阳性率为π的总体中随机抽取含量为 n的样本,恰有X例阳性的概率为:
定性资料的统计推断101102---研究生
)
问题:
1. P=P(x≤1), 而不是 P=P(x≤2)
2. P=P(x≤1), 而不是 P=P(x=1)(面积 啊)和正态分布的P代表的意思相同
3. P=P(x≤1), 而不是 P=P(x ≥ 1) (注意两者的一一对应关系啊)
例4 用一种新药治疗某种寄生虫病,受试者 50人在服药后1人发生某种严重反应,这 种反应在此病患者中也曾有发生,但过 去普查结果约为每5000人中仅有1人出 现。问此新药是否提高了这种反应的发 生率?(看准字眼啊)
χ2检验的原理
理论 10 10 10 10 10 10 实际 12 13 6 5 15 9 差值 -2 -3 4 5 -5 1
χ2检验的原理
衡量理论数与实际数的差别
2
( Ai Ti )2 Ti
Karl Pearson 1857~1936
英国统计学家 1901年10月与Weldon、
查χ2界值表得0.05< P <0.10,按 =0.05水准,不拒绝H0,差别无统计学
意义,尚不能认为穿不同防护服的皮肤 炎患病率有差别。
6.3.4 四格表的确切概率 Fisher’s exact probability
例9 两种方法治疗黑色素瘤疗效比较
方法 缓解 未缓解 合计 缓解率(%)
A
13
=0.05 (2) 2=1.41
(3) P>0.05
(4) 按0.05水准,不拒绝H0,尚不能认
为两种方法的治疗效果不同。
四格表2检验的专用公式
a
b
cd
43 10 40 16
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
第五章定性资料的统计描述精品PPT课件
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 … 足月
2020/10/25
第三章 分类资料的统计描述
7
按文化程度与分娩方式整理资料
文化程度 小学 中学 大学 合计
顺产 40 100 200 340
助产 5 20 10 35
剖宫产 5 30 90 125
合计 50 150 300 500
2020/10/25
第三章 分类资料的统计描述
19
例3:某县有人口10万人,1997年因各种疾病死亡1000 人,该年共发生结核300人,原有结核400人,1997年共 有60人死于结核,请问:
(1)该县的总死亡率为
a 300/10万
b 60/1000
c 60/ 10万
d 1000/ 10万
e 资料不足,不能计算
某 年 某 病 的 死 亡 率 = 因 该 某 年 病 的 死 平 亡 均 的 人 人 口 数 数 K
2020/10/25
第三章 分类资料的统计描述
18
3.常见率的计算: 病死率 fatality rate:表示一定时期内,患某 病的全部病人中因该病死亡者的比例。
某 年 某 病 的 病 死 率 = 一 同 定 期 时 内 期 确 内 证 因 为 某 某 病 病 死 的 亡 人 的 数 人 数 K
❖率 ❖ 构成比 ❖ 相对比
2020/10/25
第三章 分类资料的统计描述
10
常用的相对数指标
1、率 rate -频率指标或强度指标 o定义 o公式 o常见率的计算 o率的统计学意义
2020/10/25
第三章 分类资料的统计描述
11
(1)定义:它表示某现象发生的频率和强度。 说明某现象实际发生的例数占可能发生某现象 总数的比值。
[临床医学]3定性资料的统计描述_OK
表 某地1990~1998年床位发展动态
年份
1990 1991 1992 1993 1994 1995 1996 1997 1998
指标 符号
a0 a1 a2 a3 a4 a5 a6 a7 a8
年末床 位数
5420 5608 5766 5886 5991 6284 6609 6955 7352
绝对增长量
疾病种类
死亡人数
百分比(%)
恶性肿瘤
50
33.33
呼吸系统疾病
30
20.00
消化系统疾病
20
13.33
循环系统疾病
40
26.67
传染病
10
6.67
合计
150
100.00
5
第一节 定性变量的分布描述
二、描述定性资料的统计指标
除了用频数分布表、图全面反映定性资 料外,也可以用若干相对数指标从某个侧面 来描述定性变量。相对数指标大致有三种类 型:相对比型指标、频率型指标、强度型指 标。
两比较组的内部构成应相同或相近。
21
例 某病两种疗法的治愈率(%)比较的资料如表
表 某病两种疗法的治愈率(%)的比较
普通型
病例数 60
西医疗法组
中西医结合疗法组
治愈数 治愈率 病例数 治愈数 治愈率
(%)
(%)
36 60
20
13
65
重型
20
8 40
60
27
45
爆发型
20
4 20
20
5
25
合计
100
年龄 组
(1)
标准人 口构成 比
(2)
原死 亡率
定性资料的统计描述 PPT
病名 高血压 冠心病 恼卒中 风心病
某地某年四种常见心血管病死亡率
平均人口数 172665
人数 40
死 亡 率 ( 1/10 万)
23.2
172665
11
6.4
172665
253
146.5
172665
38
22.0
常用的频率指标
• 病死率(fatality rate):表示一定时期内(通常为1年),患某 病的全部病人中因该病死亡者的比例。
选择K的要点: • 依照习惯用法以便于比较,如治愈率、某病病死率、人工流
产率等用百分率;出生率、婴儿死亡率等用千分率;恶性肿 瘤死亡率用十万分率; • 使算得的率至少保留1~2位整数。
常用的频率指标
• 发病率(incidence rate):指在一定期间内、一定人群中某病新 病例出现的频率。用来说明居民在一定时期内某病的发病水
相对数种类
• 率(rate) • 构成比(proportion) • 相对比(relative ratio)
率 (rate)
• 概念:是指某种现象在一定条件下,实际发生的观察单位数与估计 发生该现象的总观察单位数之比,用以说明某种现象发生的频率大 小或强度。常以百分率(%)、千分率(‰)、万分率(/万)、十万分 率(/10万)等表示。
定性资料的统计描述
统计描述和推断的基本内容
计量资料
统计描述
频数分布 集中趋势 离散趋势 统计图表
统计推断
抽样误差、 标准误 t,u 检验
秩和检验 方差分析
应用 正常值范围
可信区间
计数资料
相对数及其标 准化
统计图表
二项分Poisson 分布
u 2检验
定性资料的统计描述
第五章 定性资料的统计描述在医学研究与实践中,大量资料都是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。
如性别、HIV 感染情况、病情轻重等都属于分类资料。
对于这类资料,其绝对数往往不便于进行相互比较。
例如甲医院某年因某病死亡105人,同年乙医院因该病死亡185人。
但不能据此认为乙医院该病的死亡情况比甲医院严重,因为两医院因该病住院的人数不一定相等,此时需要采用相对数指标进行统计描述。
第一节 常用相对数及其应用相对数是两个有关联的数值之比,常用的相对数指标有率、构成比和相对比三种。
一、率率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。
根据计算公式中分母的观察单位总数是否引入时间因素,率包括频率和速率两类指标。
频率(frequency)计算中,分母没有引入时间因素,无时间量纲,分子是分母的一部分,其取值在0~1之间,如常见的发病率、患病率、病死率、治愈率等指标,都属于频率型指标,其实质是比例,在流行病学中也常称为累积发生率。
其计算公式可表达为:K =⨯同时期实际发生某现象的观察单位数频率某时期可能发生某现象的观察单位总数(5.1) 式中,K 为比例基数,可以是100%、1000‰、100000/10万等。
比例基数的选择主要根据习惯用法或使计算结果保留1~2位整数,以便阅读。
例5.1 为研究吸烟与肺癌的关系,某医生收集了2003~2005年286例住院肺癌患者的吸烟史,吸烟的肺癌患者有166例,而同时期同年龄段的1855名非肺癌患者中,吸烟的有407例。
试计算该资料中肺癌患者与非肺癌患者的吸烟率。
由式(5.1),肺癌患者的吸烟率=166/286100%=58.04%⨯,非肺癌患者吸烟率=407/1855100%=21.94%⨯,肺癌患者的吸烟率比非肺癌患者的吸烟率高36.1%。
速率(rate)是带有时间因素的频率,根据数理统计的定义是指随时间变化而改变的速度,此处取其某现象在单位时间内的发生频率之意。
第8章 有序定性资料统计推断
实例讲解
§ 例8.3:甲乙两位专家同时对200名肿瘤患者的 病理切片的病理分期进行读片评定。分析两位 专家评定结果是否一致?详见8-3.sav数据库。
实例讲解
§ 例8.4:某研究者调查一批高血压患者的血压控 制情况和食用盐的口味,问血压情况与食盐口 味是否有相关性?详见8-4.sav数据库。
§THE END
单向有序行×列表
§ 两组单向有序分类资料
基本思想:比较的两个样本(样本含量分别为n1及n2)如
果来自同一总体或分布相同的两个总体(即H0成立),则n1样 本之秩和T 与其理论秩和 n1(N+1)/2 之差 [ T-n1(N+1)/2 ] 由抽 样误差所致,故此差值一般不会很大,差值很大的概率应很小 。若从现有样本中算得的 T 与其理论秩和相差很大,则说明从 H0 规定的总体中随机抽得现有样本及更极端样本的概率P很小 ,故按检验水准拒绝H0.
单向有序行×列表 § 多组单向有序分类资料
多组单向有序定性资料是两组单向有序分类资料的扩展,相当 于单因素方差分析的秩和检验。称为H检验(W.H.Kruskal与 W.A.Wallis,1952),又称Kruskal-Wallis法。
单向有序行×列表
§ 多组单向有序分类资料
基本思想:与单因素的方差分析类似。K个对比组,计算各
§ Kappa一致性检验
模块解读---双向有序属性不同
§ Spearman等级相关检验
实例讲解
§ 例8.1:用复方猪胆胶囊治疗老年性慢性支气管 炎患者403例,问该药对此两型支气管炎疗效是 否相同?详见8-1.sav数据库。
实例讲解
§ 例8.2:某医院用三种复方小叶枇杷治疗老年性 慢性支气管炎,比较其疗效有无差异?哪些总 体间分布有差异?详见8-2.sav数据库。
《统计推断》课件
01
单因素方差分析用于比较一个分类变量对数值型因 变量的影响。
02
它通过分析不同组之间的均值差异,判断各组之间 是否存在显著差异。
03
通常使用F统计量进行检验,并结合显著性水平判断 结果的可靠性。
双因素方差分析
1
双因素方差分析用于比较两个分类变量对数值型 因变量的影响。
2
它通过分析两个因素不同水平组合下的均值差异 ,判断各组合之间是否存在显著差异。
非参数回归分析
总结词
一种回归分析方法,不假设响应变量和 解释变量之间的关系形式,而是通过数 据驱动的方法来探索变量之间的关系。
VS
详细描述
非参数回归分析是一种回归分析方法,它 不假设响应变量和解释变量之间的关系形 式,而是通过数据驱动的方法来探索变量 之间的关系。这种方法能够适应各种复杂 的回归模型,并且能够有效地处理解释变 量和响应变量之间的非线性关系。
非参数秩次检验
总结词
一种不依赖于总体分布假设的统计检验方法,通过对观察值进行排序并比较秩次来推断统计显著性。
详细描述
非参数秩次检验是一种不依赖于总体分布假设的统计检验方法,它通过对观察值进行排序并比较秩次 来推断统计显著性。这种方法适用于总体分布未知或不符合正态分布的情况,能够提供稳健和可靠的 统计推断结果。
02
03
04
社会学
在调查研究中,统计推断用于 估计人口特征和趋势,如性别
比例、年龄分布等。
医学
统计推断用于临床试验和流行 病学研究,以评估治疗效果、
疾病发病率和死亡率等。
经济学
统计推断用于预测市场趋势、 评估政策效果和评估经济指标
等。
商业
统计推断用于市场调查、消费 者行为分析、产品质量控制等
定性资料的统计推断PPT学习教案
第17页/共51页
8.2 配对设计四格表资料的检验
适用于:配对设计、定性资 料(两分类)、以比较两种 处理的效果是否相同为目的。
注意比较:其与配对设计定
量资料的t检验的区别及联
系。
第18页/共51页
一、基本思想
表8.4 配对设计四格表资料比较的一般形式
甲方法
卡方检验中,采用似然法计算统计量 的公式 为:
ln
k
2 L
2
Ai
i 1
Ai Ti
第33页/共51页
二、似然比检验--方法步骤
例 8.8
接种疫苗 腮腺炎疫苗 麻风腮疫苗
合计
表8.9 两种疫苗的阳转率比较表
阳转(A/T) 未阳转(A/T)
合计
35/30.33
7/11.67
42
17/21.67
13/8.33
第2页/共51页
2检验的应用
k组(k≥2)总体率之间差别有无统计 学意义
k组(k≥2)总体构成比之间差别有无 统计学意义
两分类变量间有无相关关系 频数分布的拟合优度检验
第3页/共51页
主要内容 8.1 成组设计四格表资料的检验
8.2 配对设计四格表资料的检验 8.3 成组设计行乘列表的检验 8.4 似然比检验和确切概率法 8.5 检验的多重比较
第29页/共51页
这是三个独立样本频率分布的比较,R=3, C=4,称为3×4列联表。检验步骤如下。
1. 建立检验假设,确定检验水准 H0 :三个少数民族的血型分布构成比相同 H1 :三个少数民族的血型分布构成比不相同 =0.05。 2. 计算检验统计量 按式(8.9)计算得
第30页/共51页