4统计-4分类资料统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
第一节 分类变量资料的统计描述
6
常用的相对数
➢比例 ➢率 ➢比
相对数应用的注意事项 率的标准化
7
计数资料
用定性的方法得到的资料称作分类变量资料 按某种属性分类,然后清点每类的数据
住院号 2025655 2025653 2025830 2025677 2025647 2025848 2019915
计算公式:
相对比
甲指标 乙指标
(100%)
两个指标可以性质相同,也可以性质不相同;可 以是相对数、绝对数或平均数等。
20
21
4、动态数列(dynamic series)
概念:指一系列按时间顺序排列起来的统 计指标(包括绝对数、相对数和平均数),用 以说明事物在时间上的变化和发展趋势。
常用指标:有绝对增长量、发展速度和增 长速度、平均发展速度与平均增长速度。
sp
p(1 p) n
43
率的标准误越小,说明率的抽样误差越小, 用样本推论总体时,可信程度越高。
例4.5 某地随机抽取500名儿童,乙肝感染 率为4.50%,求乙肝感染率的标准误。
该地500名儿童乙肝感染率的标准误为 0.93%。
44
2、总体率的可信区间
点估计:就是把样本率看作总体率; 区间估计:按一定的概率,以样本信息
22
绝对增长量 :说明事物在一定时期内所增 减的绝对数量,表现为两指标之差。
➢累计绝对增长量 报告期与基期指标之差 。
➢逐年绝对增长量 报告期与前一期指标之差
23
发展速度和增长速度:说明事物在一定时 期内发展变化的幅度和速度。
➢定基比发展速度 ➢环比发展速度 ➢定基比增长速度 ➢环比增长速度
24
hypothesis.
62
Suppose you toss a coin 100 times
➢H: 40 times ➢T: 60 times
If you hypothesize that the coin is fair,
➢theoretical : 50 times each.
26
正确计算平均率
➢不能将这几个率直接相加求其均值,而应将各个 率的分子、分母分别相加后,再求总率即平均率
相互比较时注意可比性
➢除研究因素不同外,其他影响研究结果的因素应 尽可能相同或相近
➢研究对象同质、方法相同、其他基本条件一致、 ➢内部构成要相同,不同则进行率的标化后再比较 ➢同一地区不同时期资料的比较,应注意客观条件
统计指标量,对总体统计指标量进行估计。
假设检验:又称显著性检验,是指由样本间存在的 差别对样本所代表的总体间是否存在着差别做出 判断。
39
简要回顾
分类资料
Example
统计描述
率、比、构成比
统计分析
参数估计
统计推断
假设检验
总体率的可信区间
χ2检验、u检验
40
主要内容
率的抽样误差和总体率的区间估计 率的u检验
从附表(根据二项分布原理制成)查得, 在n=20与X=3纵列交叉处的数值为3~38,即 该药急性致死率的95%可信区间为3%~38% 46
正态近似法
条件:当n足够大,p和(1-p)均不太小,且 np和n(1-p)均大于5时,样本率p的抽样分 布近似服从正态分布。可用公式估计总体
率的Baidu Nhomakorabea信区间。
公式:(p-usp,p+ usp)
For a given phenomenon, the chi-square test compares the actual frequencies (A) with the theoretical frequencies (T).
➢实际频数(A) : observed frequencies ➢理论频数(T). : calculated from some
来估计总体率所在的范围,即计算总体 率的1-α置信区间。这里,α一般取0.05 或0.01
➢查表法: ➢正态近似法
45
查表法
对于小样本资料(n≤50),可根据样本阳性 例数X及样本例数n,直接查二项分布参数 π的置信区间表,
例:某新药的毒理研究中,用20只小白鼠作
急性毒性实验,死亡3只,估计该药急性致死 率的95%可信区间。
式中,uα:标准正态分布曲线下,双尾面积 为 α 时 对 应 的 u 界 值 , 当 α=0.05 时 ,
u0.05=1.96;α=0.01时,u0.01=2.58。
47
例 某地随机抽取500名儿童,乙肝感染率为4.50%, 估计该地儿童乙肝感染率的95%可信区间?
(p-usp,p+ usp) =(0.045-1.96×0.0093,
2检验
41
一、率的抽样误差和总体率的估计
42
1、率的抽样误差与标准误
概念:样本率(p)和总体率(π)的差异称为率
的抽样误差(sampling error of rate) ,用
率的标准误(standard error of rate)度
量。
p
(1 )
n
如果总体率π未知,用
样1 本率p估计
10
一、常用的相对数指标
构成比( proportion) 率(rate) 比(ratio) 动态数列(dynamic series)
11
1、构成比( proportion)
概念:说明某一事物内部各组成部分所占 的比重,常以百分数表示,又称比例。
计算公式:
构成比
某一组成部分的观察单位数 同 一 事 物 各 组 成 部 分 的观 察 单 位 总 数 100%
12
例:手术前后胸腔积液白细胞分类
13
构成比特点:
各部分构成比的总和为100%,值在0-1间 变动;
某部分构成比发生变化时,其他部分也相 应变化。
14
2、率(rate)
定义:一定时间内,实际发生某现象的观 察单位数与可能发生该现象的观察单位总 数之比。
计算公式:K比例基数
15
关于率…
用以说明某现象发生的频率或强度 K:比例基数,常用百分率(%)、千分率
在两个及两个以上总率(总均数)进行对比时, 为了消除内部构成不同的影响,采用统一 标准,分别计算标准化率后再作对比的方 法称为标准化法。
31
2、标准化率的计算
标准化方法 1.以人口数作为标准 2.以人口构成比作为标准
选择标准人口 1.选择有代表性的、较稳定的、数量较大的人群 作标准。 2. 两组之和的人口数或人口构成比; 3. 两组间较稳定一组的人口数或人口构成比;
32
以人口数作为标准 预期发生数=标准人口数x原发生率
33
计算标准化率
34
以人口构成比作为标准
35
3、应用标准化时的注意事项
1.标准化法只适用于某因素两组内部构成不 同,并有可能影响两组总率比较的情况。 对于因其它条件不同而产生的不具可比性 的问题,标准化法不能解决。
2.由于选择的标准人口不同,算出的标准化 率也不同。当比较几个标准化率时,应采 用同一标准人口。
的变化
27
样本率或构成比的比较应进行假设检验
➢样本率(或构成比)是通过抽样得到的,存在抽 样误差,因此不能只凭数值表面相差的大小作结 论,应进行差别的假设检验。
28
三、 标准化法
29
为什么要进行标化
30
1、标化法的基本思想
当两组资料进行比较时,如果其内部不同 小组率有明显差别,而且各小组内部构成 也明显不同 ,直接比较不合理。
两样本率的比较除可用u检验,还可 采用2检验,且ν=1时,u2= 2 。
59
三、 2检验
60
用途:
➢推断两个总体率或构成比之间有无差别 ➢ 多个总体率或构成比之间有无差别 ➢ 多个样本率比较的分割 ➢ 两个分类变量之间有无关联性 ➢ 频数分布拟合优度的检验。
检验统计量: 2
应用:计数资料
61
一、 2检验基本思想
1)建立假设,确定水准
52
2)计算u值
53
3)确定P值,做出结论
54
2、两样本率的比较
条件:两样本含量n1与n2均较大;两样本率p1、
(1-p1)及p2、(1-p2)均不太小;如n1p1、或 n1(1-p1)及n2p2、或n2(1-p2)均大于5时, 可采用正态近似法。
公式:
式中,p1和p2:分别为两个样本率;Sp1-p2:两率之差的标准误;Xl和X2: 分别表示两样本发生某现象的观察单位数。
第四章 分类变量资料的统计分析
statistical analysis for categorical data
李云
1
简要回顾
数值变量 分类变量:将观察单位按事物的某种属性
或类别进行分组,再清点每组观察单位的 个数得到的资料。
2
简要回顾
数值资料
Example
统计描述
均数、标准差
统计分析
参数估计 总体均数估计
(‰)、万分率(1/万)或十万分率(1/10万)等表 示。使计算结果保留1~2位整数。 平均率不能由各组率相加后求平均,应为 分子合计除以分母合计。
16
例 几种药物不良反应发生情况
(‰)
半合成青霉素不良反应发生水平最高,达35.5‰ 总发生率:87/3803=22.9 ‰
17
率常用统计指标
发病率
50
1、样本率与总体率的比较
条件:当样本率的分布近似服从正态分布 时,样本率p与已知总体率π0的比较,可用 u检验
公式:
➢式中,π0:总体率,一般为理论值、经验值或大 量观察得到的稳定值。
51
例4.6 根据以往经验,一般胃溃疡患者中有20%发生 胃出血症状。某医院观察65岁以上溃疡病患者152例, 有31.6%的患者出现胃出血症状。问老年人溃疡病 患者是否容易发生胃出血?
0.045+1.96×0.0093)=(2.68%,6.32% ) 该地儿童95%乙肝患病率置信区间为(2.68%,
6.32%)。
48
二、率的u检验
49
样本率存在抽样误差,比较两样本的率时, 应作假设检验。
当样本例数n较大,样本率p和1-p均不太 小,且np和n(1-p)均大于5时,样本率与 总体率、两样本率间差别进行比较时,可 采用u检验。
相对数
➢是两个有联系的数据的比值。 ➢目的:将基数化为相同,便于比较。
9
问题
某部队野营训练,发生中暑12人,北方籍 战士10人,南方籍战士2人,结论:北方 籍战士容易中暑。
1999年某幼儿园有36名儿童患了腮腺炎, 该幼儿园有200名儿童(其中25名儿童以 前患过腮腺炎),该幼儿园儿童1999年腮 腺炎发病率是多少?
统计推断
假设检验 t检验,方差分析
3
分类资料
Example
统计描述
率、比、构成比
统计分析
参数估计
统计推断
假设检验
总体率可信区间
χ2检验
4
主要内容
分类变量资料的统计描述
➢常用的相对数指标 ➢应用相对数时应注意的几个问题; ➢率的标准化法。
分类变量资料的统计推断
➢估计率的抽样误差 ➢总体率可信区间的估计 ➢两个率的比较
55
例4.7 调查两个城市的甲状腺肿患病率,其中甲市 调查3315例,甲状腺肿患病率为1.78%,乙市调查 3215例,患病率为5.60%,问两个城市甲状腺肿患 病率有无差别?
1)建立假设,确定检验水准
56
2)计算u值
57
3)确定P值,做出结论
58
当样本量不大,或几个率进行比较时 ——2检验
发病率
某时期新发病人次 同时期平均人口数1000

患病率 患病率 调查调时查患人某数病人数1000‰
18
病死率
病死率
病死人数 经治疗人数100%
死亡率
死亡率
某地某时期死亡人数 该地同时期平均人口数1000

19
3、比(ratio)
定义:也称相对比,指两个有联系的指标之比, 常以百分数或倍数表示。
年龄 27 22 25 24 30 32 27
职业 无 无
管理人员 知识分子 管理人员
无 无
文化程度 中学 小学 大学 中学 大学 小学 中学
分娩方式 顺产 助产 顺产 顺产 顺产
剖宫产 顺产
妊娠结局 足月 足月 足月 早产 足月 足月 死产
8
绝对数和相对数
绝对数:实际数
➢反映某事物现象发生的实际情况,总量指标 ➢缺点:不利于比较。
36
3.标准化率已经不再反映当时当地的实际 水平,它只是表示相互比较的资料间在 共同标准下的相对水平,用于比较。
4.两样本标准化率是样本值,存在抽样误 差。比较两样本的标准化率,当样本含 量较小时,应作假设检验。
37
第二节 分类变量资料的统计推断
38
统计推断
用样本信息推论总体特征的过程。
包括: 参数估计: 运用统计学原理,用从样本计算出来的
107.5%-100%
25
二、应用相对数应注意的问题
计算相对数的分母不宜过小
➢稳定性差,缺乏代表性 ➢例数较少时,用绝对数
分析时不能以构成比代替率
➢构成比是比例指标,它用来说明事物内部各组成 部分所占的比重或分布,分子仅是分母中同一事 物现象的一部分,是概率的估计值。
➢率则与时间有关,它具有速率的概念,也具有概 率估计值的意义,是与时间有关的比例
相关文档
最新文档