分类变量的统计描述
第三单元3分类变量的统计分析
第三单元3分类变量的统计分析一、分类变量的描述统计分析分类变量的描述统计分析主要包括频数分布、频率分布和柱状图等。
1.频数分布频数(frequency)是每个类别在样本或总体中的出现次数。
频数分布(frequency distribution)是指将各个类别的频数按照从小到大的顺序列出,以显示它们的分布情况。
频数分布可以通过计算或绘制柱状图来展示。
2.百分比分布百分比(percentage)是每个类别频数与总频数的比例。
百分比分布(percentage distribution)是指将各个类别的百分比按照从小到大的顺序列出,以显示它们的分布情况。
百分比分布可以通过计算或绘制饼状图来展示。
3.柱状图柱状图(bar chart)是一种常用的展示分类变量分布情况的图形。
在柱状图中,每个类别在x轴上对应一个竖直的条形,条形的高度表示该类别的频数或百分比。
柱状图不仅可以展示各个类别的分布情况,还可以进行不同类别之间的比较。
二、分类变量的关联性分析分类变量的关联性分析可以帮助我们了解两个或多个分类变量之间的相关性。
其中常用的关联性分析方法包括卡方检验和列联表分析。
1.卡方检验卡方检验(chi-square test)是一种非参数统计方法,用于检验两个分类变量之间是否存在相关性。
卡方检验的原假设是两个变量独立无关,备择假设是两个变量相关。
通过计算卡方统计量和对应的P值,可以判断两个变量之间的关联性。
2.列联表分析列联表(contingency table)是用来描述两个或多个分类变量之间关系的表格。
通过计算每个类别的频数或百分比,并绘制列联表的热图或堆积图,可以直观地展示两个变量的关联性。
此外,通过计算列联表的卡方值和判断显著性水平,还可以进行进一步的关联性分析。
三、分类变量的预测分析分类变量的预测分析可以帮助我们根据已有数据对未知数据进行分类。
其中常用的预测分析方法包括逻辑回归和决策树。
1.逻辑回归逻辑回归(logistic regression)是一种用于建立分类模型的统计学方法。
spss-统计描述
23
SPSS12.0统计软件
例
题
数据背景:调查对象为某大专院校的大学生,文件名student.sav。主要调查 内容代码如下:性别( 1 男、 2 女),出生年、月、日(具体数字),身高 (cm),体重(kg),血型(A、AB、B、O),血型代码(1A、2B、3AB、 4O),教育背景(1重点大学本科、2普通大学本科、3大专、4中专/职校),学
Sum:求和
Dispersion:离散程度统计量 Std. deviation:标准差 Variance:方差 Minimum :最小值 Maximum:最大值
Range:全距
Distribution:分布指标 Skewness:偏度系数 Kurtosis:峰度系数 Display Order:输出排列方式 Variable list:按变量选择清单的顺序 Alphabetic:按变量的字母顺序
10
SPSS12.0统计软件
连续变量的统计描述
11
SPSS12.0统计软件
连续变量的统计描述概况
1、集中趋势 如均数、中位数、几何均数、众数、调和均数等 2、离散趋势 如全距、方差和标准差、百分位数、四分位数和四分位间 距、变异系数等
12
SPSS12.0统计软件
Descriptive过程
Analyze->Descriptive Statistics->Descriptive… 可对资料进行简单统计描述;
Lev ene Statistic d f1 1 1 1 1 d f2 2 13 2 13 2 08 .85 5 2 13 Sig. .7 60 .8 08 .8 08 .7 64
身 高
Based on Mean Based on Median Based on Median an d with ad ju sted df Based on trimmed mean
描述分类变量资料的主要统计指标
描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
医学统计学第七讲分类变量统计描述
平均发展速度和平均增长速度
➢平均发展速度是各环比发展速度的几何 平均数,说明某事物在一个较长时期中 逐期(如逐年)平均发展的程度。
➢平均增长速度是各环比增长速度的平均 数,说明某事物在一个较长时期中逐期 平均增长的程度。
其计算公式为
平 均 发 展 速 度 nan/a0
9.5 12 28
5.2
6
58 10.8 合计 536 100.0
7
66 12.3
第二节 相对数应用注意事项
3、相对数作相互比较时应注意其可比性。 (1)研究对象是否同质;研究方法是否 统一;观察时间是否一致;客观环境和影 响因素是否相当;等等。 (2)当比较两组或两组以上的总率(平 均率)时,要考虑各率的内部构成是否相 同,否则要经过标准化,才能得出正确结 论。
• 在计数资料分析中有时要考虑资料的时间特性。
• 分子和分母都是时点ຫໍສະໝຸດ 料:高血压患病率= (检出高血压病人数÷受检查人数)×100%
• 分子和分母都是时期资料:
痢疾病死率= (某年痢疾死亡数÷该年痢疾发病数)×1000‰
• 分子是时期资料而分母是时点 资料:
– 时间段为年的,称为年率;时间是一个月的, 称月率。凡是年率都不须注明。不是年率的必 须注明是周率、月率、季率。
第三节 率的标准化法
一、率的标准化概念: 把两个或两个以上内部构成不同的总
率统一到同一水平(或标准水平),使之 具有可比性,然后再进行比较的方法即率 的标准化法。
由标准化法计算的率称标准化率(或 调整率),简称标化率。
率的标准化的意义:便于合理比较。
第三节 率的标准化法
二、选择标准的原则: 1.尽可能选择有代表性的、内部构成相
6.分类变量的统计描述
某一事物各组成部分的个体数 构成比 = —————————————— × 100% 同一事物各组成部分的个体总数
医学统计学
DR. 朱彩华
3. 相对比 (Relative ratio) ratio)
医学统计学
DR. 朱彩华
如:
麻疹病人
甲地 乙地 200 240
哪个地方发病严重? 哪个地方发病严重?
易感者
甲地 乙地 1000 2000
哪个地方发病严重? 哪个地方发病严重?
医学统计学
DR. 朱彩华
甲地麻疹发病率: 甲地麻疹发病率: 200/1000 × 100% = 20% 乙地麻疹发病率: 乙地麻疹发病率: 240/2000 × 100% = 12% 一、相对数的作用 1、反映某现象当时当地的实际水平; 反映某现象当时当地的实际水平; 2、便于不同资料之间的比较。 便于不同资料之间的比较。
即得年龄标准化死亡(或发病)率。 医学统计学 DR. 朱彩华
P72表7-8,其基本操作用的是第1种方法:
各年龄组标准人( 栏 各年龄组标准人(口)数(2栏) 各年龄组的预期死亡数( 、 栏 各年龄组的预期死亡数(4、6栏) 两地标化率: 两地标化率: 甲县: 甲县 p´ = 6146 / 6152992 ×10000/10万 万 = 99.9 /10万 /10万 乙县: 乙县 p´ = 5245 / 6152992 ×10000/10万 万 = 85.2 /10万 /10万 医学统计学 DR. 朱彩华
22.3
医学统计学
DR. 朱彩华
四、率的标准化
分类变量的描述性统计讲解
相对危险度(relative risk,简称RR)是指暴露于某种 危险因素的观察对象的发病的危险度与低暴露或无暴 露的观察对象的发病危险度之间的相对比值。相对危 险度常用于队列研究,可用暴露与未暴露于危险因素 的累积发病率(Pl和P0)或人时发病率(F1和F0)估计, 公式为
RR P1 或 RR F1
第三讲 分类变量的统计描述
分类变量的整理(1)
14名成人的原始数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
性别 男 女 男 女 男 女 男 女 男 女 男 女 男 女
身高 175 167 187 176 167 178 174 170 167 186 182 159 167 182
OR=odds1/odds2=ad/bc
病人
表3-2 COPD病人与非病人的吸烟情况资料
有吸烟史
无吸烟史
合计
231
125
356
非病人
183
296
479
合计
414
421
835
例3-4 采用例3-1的资料,将基本数据用表3-2表示,试 计算优势与优势比。
病人有吸烟史的优势
odds1
231/ 356 125/ 356
科室 标准组出院
甲院
乙院
病 人 构 成 比 原 治 愈 率 (%) 分 配 治 愈 率 (%) 原 治 愈 率 (%) 分 配 治 愈 率 (%)
Ni/N
pi
⑴
⑵
⑶
(Ni/N)pi
pi
⑷ =⑵ ⑶
⑸
(Ni/N)pi ⑹ =⑵ ⑸
内科
0.2792
妇科
0.2907
医学统计学第七讲分类变量统计描述
柱状图
柱状图是最常用的可视化工具。 它适用于展示不同类别的数量或 频数,并能够直观显示不同类别 之间的差异。
堆积图
堆积图适用于比较不同类别的数 量,并且能够突出显示整体和各 组别的比例大小。
分类变量的描述方法
频数表
频数表是分类变量最常用的描述方法之一。它可以罗列出每个类别的频数和相对频数,直观 展示每个类别的数量与比例。
探索医学统计学中的分类 变量
欢迎来到本课程的第七节,今天我们将深入探索医学统计学中的分类变量。 我们将介绍什么是分类变量,它们的分类方式以及常用的数据收集方法。
比例、频数和累积频数
比例和比率
分类变量的比例和比率是非 常重要的统计描述。比例指 某一类别在总体中所占的比 例,而比率则是一个类别与 另一个类别之间的比例。
百分比表
百分比表是频数表的补充,它将每个类别的相对频数转化成百分比,更容易为人们所理解。
统计量
除了频数和相对频数以外,描述分类变量的统计量还包括众数、中位数和分位数等。
分类变量的展示技巧
1
不要使用图形太多
过多的图形会分散读者的注意力,降低课程的效果。
2
使用图形突出重点
图形和文字的结合可以使主要内容更加醒目易懂。
3
避免引用虚假数据
在使用分类变量的具体数据时,请务必保证数据的真实性和准确性。
分类变量举例分析
最后,我们以现实中的实例来说明如何使用分类变量进行分析。通过收集病 人的分类变量数据,我们可以更好地了解病人的健康情况并为他们提供更好 的医疗服务。
分类变量的有效应用
通过本课程的学习,您将能够更好地理解和运用分类变量在医学研究和临床实践中的应用。希望您能够发挥所 学的知识,探索出更多医学统计学的奥秘。
class520111017分类变量的统计描述
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
已知1998到2002年我国某地区的医护人 员数为4721、4833、5162、5884和6997人。
猜一猜:搜集该资料的目的?
利用该资料可以说明什么问题? 利用该资料可以计算什么指标?
动态数列
我们一步一步地算:列表计算,excel
已知
年份 医护 人员数 指 标
*数值变量资料可转化为分类变量资料进行分析
分类变量资料或计数资料的表达
体检资料:文字-数量化 性别: 个体:男性/女性
群体/汇总:男性受检者人数 女性受检者人数
总人数
实际数
实际数
把研究对象按某特征进行分类后,由原 始数据直接汇总得到的某个或各个类别的人 数或研究单位数。
*实际数和相对数都是对汇总数据的群体指 标
ቤተ መጻሕፍቲ ባይዱ
收缩压 sbp
舒张压 dbp
心电图:
超声诊断:
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
2-数值变量与分类变量的统计描述分析
实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
第6章 分类变量的统计描述与参数估计
6.1.2 多个分类变量的联合描述 分类变量的联合描述使用列联表; 列联表是因分类变量的各类别交叉而成的复合频 数表,被称为行×列表; 列联表的分析结果直观、易比较; 应用列联表进行变量的交叉分析是数据分析报告 中分析结果显示的主要方式之一; 列联表分二维表和多维表(或n维表); 单元格内可给出原始频数、行与列百分比和总百 分比。
(3)率(Rate) 率是一个具有时间、速度、强度含义 的概念或指标,用于说明某个时期内某个 事件发生的频率或强度,其计算公式为: 某事件的发生率=观察期内发生某事件的对 象数/该时期开始时的观察对象数
相对数在使用时应当注意适用条件: 样本量较大时相对数比较稳定; 基数不同相对数不能直接相加求和。
第6章 分类变量的统计描述 与参数估计
2013.10
离散变量是把取值范围为有限个数或者是 一个数列构成的变量。 分类变量是表示分类情况的离散变量。 根据类别的有序性,分类变量可分为有序 分类变量(Ordinal Variable)和无序分类 变量(Nominal Variable),这两类变量 在统计描述上没有差别。
(2)构成比(Proportion) 构成比是把观察对象分为k个部分,其中 某一个/多个部分的例数占总例数的比例。它 描述某个事物内部各构成部分所占的比重,其 计算公式为: 构成比=某一组成部分的样本数/总样本数 构成比的分子必须是分母的一部分,所以 其取值0-1,百分比是一个标准的构成比,而 累计频率则是构成比概念的直接延伸。
6.1 指标体系概述
6.1.1 单个分类变量的统计描述 1.频数分布 频数(绝对频数)是指本类别出现的次数; 百分比(构成比)是指本类别出现的次数占 总次数的百分比,即本类别出现次数/总次 数×100%。
分类变量资料的统计描述
(二)标准化率的计算 1、选择标准人口
✓ 代表性的、内部构成相对稳定的较大人群 ✓ 要比较的两组资料内部各相应小组的观察单位数
相加,作为共同的标准 ✓ 两组中任选一组的内部构成作为标准
26
2、计算预期发生数 预期发生数=标准人口数×原发生率
表4-6 甲、乙两地用“标准人口数”计算标准化死亡率(1/10万)
2. 标准化的目的是在两个(或多个)总体率 比较时,采用统一标准消除内部构成不同 的影响。
30
3. 计算资料标准化率时各比较组应选用同一 标准。选用的标准不用,算得的标准化率 也不同。标准化率只反映资料的相对水平, 不代表实际水平,仅在比较时使用,原率 才能反映某时某地某现象的实际水平。
4. 样本标准化率同样存在抽样误差,若要进 行比较,应进行假设检验。
18
例:某医师对本院某年收治的1907例麻疹患者做了年龄 的分布描述,资料如下。该医生认为,1岁儿童的麻疹发 病率高于其他各年龄组,年龄越大,发病率越低。
某医院某年收治的1907例麻疹儿童的年龄分布
1. 该医生的分析是否正确? 2. 由上述资料可以得出什么结论?
19
率和构成比的区别:
1. 二者在概念和计算方法上都不相同,所得结论也不同 2. 率是说明某现象发生的频率或强度的 3. 构成比可以说明某事物内部各组成部分的比重或分布 4. 不能以构成比代替率。
术前中性白细胞构成比
= 术前中性白细胞计数 术前白细胞总数
= 4156 5800
100 %=71.66%
术前中性白细胞构成比是71.66%。
构成比的特点:
①各组成部分的构成比之和为100 %或1。 ②事物内部某一部分的构成比发生变化,其它
部分的构成比也相应地发生变化。
分类变量资料描述
二 发病样本与未发病样本的暴露比数比
基因A突变与胃癌发病资料
分组 病例组 对照组 合计
基因A突变
基因A未突变 合计
50
160 210
70
350 420
120
510 630
P 1 P 1 /( 1) OR P 1 P 2 /( 2)
OR=1.56 变的1.56倍
基因A突变的胃癌发病率是基因A不突
PRR暴露及未暴露与危险因素的患病率之比
相对危险度数值范围对暴露与疾病关联的意义 RR值范围 0~0.3 0.4~0.5 0.6~0.8 0.9~1.1 1.2~1.6 关联意义 高度关联 中度关联 微弱有益 不产生影响 微弱有害
1.7~2.5
≥2.6
中度有害
高度有害
表3-8 组别 高血压患者 非高血压患 者 随访人年 1510
第三章 第三节 分类资料的统计描述
一 常用的相对数指标 相对数是两个有关的绝对数之比或者有联系的指标的比值, 用于对计数资料进行统计描述。 1、比(相对比):表示两个有联系的指标之比
相对比=甲指标/乙指标; 如我国2008年人口普查的男性人口数和女性人口数之比 R=68357/64445=1.06 习惯上若甲指标大于乙指标,则用小数表示,说明甲是乙的 几倍;若甲指标小于乙指标,则用百分数表示,说明甲是乙 的百分之几。
四格表 2值专用公式: (不用计算理论数 )
2 ( ad bc ) n 2 (a b)(c d )(a c)(b d )
其中abcd为四格的四个实际频数 , n为总例数
Chi-Square Tests Asymp . Sig. (2-sided) .040 .058 .040 .050 4.178 184 1 .041 .029 Exact Sig. (2-sided) Exact Sig. (1-sided)
分类变量的统计描述与参数估计
2、如果是二维列联表分析, 可以将行变量选择进入 Row(s) 中,将列变量选择 进入Column(s)框中。如进 行三维以上的列联表,可 以将其它变量作为控制变 量选到 Layer框中。多控制 变量可以是同层次的也可 以是逐层叠加的。
3、Display clustered bar chart选择项,可以指定绘制各变量交叉频数分 布柱形图。Suppress table表示不输出列联表,只有在分析行列变量间关 系时选择此项。此例中不选择这一项。
第6章 分类变量的统计描述与参数估计
根据类别的有序性,分类变量可以分为有序分类变量(Ordinal
Variable)和无序分类变量(Nominal Variable)。
6.1分类变量的统计描述概述
6.1.1分类变量的统计描述指标体系 一、频数分布情况描述 各个类别的样本数和所占比例分别称为频数(绝对
二、二项分布的参数估计
当n较大时,p不接近0也不接近1时(一般认为n > 40, np
>5和nq > 5),二项分布B(n,p)近似正态分布,这样可 利用正态分布中的相应结果来进行参数估计。
6.2分类变量的统计描述实例
1、Define Sets过程 该过程指定变量组成一个多重响应或多重两分数集,并应用于频数表和交 叉列表。 2、Frequencies过程 该过程对定义的多重响应或多重两分数提供一个频数表。
频数)和百分比(构成比)。 累计频数是较低类别出现的次数之 和占总次数的百分比。
二、集中趋势的描述
当集中趋势显著时,用众数(Mode)作为总体的代表值。 所谓众数,使之出现次数最多的那个数。如果只有一个众数称为单众 数,多于一个的称为复众数。
4 、单击 Cell 按纽,打开 Crosstabs : Cell Display对话框,如图所示。从 对话框中指定列联表单元格中的输 出 内 容 。 在 Counts 框 中 选 择 Observed 观 察 值 ( 系 统 默 认 ) 或
分类变量的描述统计
4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。
下表展现了不同城市的女性对新款夏装的接受态度的调查数据表
表1.3 列联表
对新款夏装的态度
非常喜 欢
有点 喜欢
既不反对 有点不 完全不 不知 Row 也不喜欢 喜欢 喜欢 道 Total
Statistics: principle and application
南京大学金陵学院
12
(1)点图
1.2 频数分布表
图1.3 饮料的点图
(2)条形图
条形图是用宽度相同的柱子的高度或长短来表示各类别数据的图形
Statistics: principle and application
图1.4 饮料的条形图
1.1 变量的类型 1.2 频数分布表 1.3 两个分类变量的关系
Statistics: principle and application
南京大学金陵学院
3
学习目标及重难点
【学习目标】: 1.用频数分布表描述数据的分布 2.用点图、条形图等图形来展示数据 3.用列联表分析两个分类变量之间的关系 【重难点】: 1.掌握用条件相对频数表示的对比条形图 2.两个分类变量是否独立
态度
非常喜 欢
有点喜欢
既不反对也 有点不
不喜欢
喜欢
完全不 喜欢
不知 道
合计
南京 上海
34.44% 22.58%
38.41% 30.97%
16.56% 25.81%
7.95% 13.55%
1.99% 0.66% 100.00% 5.81% 1.29% 100.00%
医学统计学-分类变量的统计描述
高血压 172665
40
23.2
冠心病 172665
11
6.4
脑卒中 172665
253
146.5
风心病 172665
38
22.0
例:某医院部分科室院内感染情况
科室
调查 感染 感染 感染人数 病人数 人数 率% 构成比
呼吸内科 100 10
心血管内科 100 8
泌尿外科 40 6
胸外科
42 2
普外科
定基比发展速度: 环比发展速度 定基比增长速度 环比增长速度
相对比的应用:某事物不同时间的动态分析
表5-9 某医院1991-1993年门诊量动态分析
门诊 发展速度% 增长速度%
年份 人数 定基比 环比 定基比 环比
1991 1200
100
100
—
—
1992 1500
125
125
25
ቤተ መጻሕፍቲ ባይዱ25
1993 1600
无变化
样本率或构成比的比较应进行假设检验
第二节 标准化法
什么是标准化? 为什么要进行标(准)化?
内部结构不同的两组对象进行比较:例如A组病情严 重者多,B组病情较轻的多,但要比较两种不同方法的治 疗效果,结果会怎样?
表1 两种疗法疗效比较
旧疗法
治疗
分组
治疗 人数
痊愈 人数
治愈 率%
成人组 100
绝对数:即各分类事物的合计数,绝对数反映某事物 实际发生的规模大小。
相对数:是两个有联系的(数值)指标之比。
相对数的意义: 1.消除基数影响,便于事物间的比较。 2.给出事物发生频率(强度)的估计。 3.相对数是工作决策的依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表 3-2 COPD病 人 与 非 病 人 的 吸 烟 情 况 资 料
有吸烟史 无吸烟史 合计
COPD病 人
231
125
356
非病人
183
296
479
合计
414
421
835
吸烟率 64.89% 38.02% 49.58%
第一节 定性变量的分布特征
二、常用的相对数指标 2.速率:
速率表示单位时间内某现象发生的频率。如人
符号 (2)
a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10
学生 人数 (3)
4200 4500 4800 4900 5150 5320 5510 5780 5950 6000 6200
绝对增长量
累计 逐年 (4) (5)
-
-
300
300
600
300
700
100
950
250
1120
第二节 标准化法及其应用
表 5-7 1998 年某省城乡女性原发性骨质疏松症患病率比较
年龄组
城市
农村
(岁) (1)
调查人数 患病人数 患病率(%)
(2)
(3)
(4)
调查人数 (5)
患病人数 (6)
50~
354
…
…
241
…
60~
251
…
…
315
…
70~
130
…
…
175
…
80 及以上
41
…
…
58
…
合计
第一节 分类变量的频数分布及其统计指标
二、常用的相对数指标 1.比率
构成比 同一某事一物组各成组部成分部的分观的观察察单位单数位总数100%
问: 结合例3.1谈谈构成比与频率的区别。
表3-1 某单位高血压患病情况
年龄(岁) (1) 20~ 40~ 50-60 合计
检查人数 (2) 2000 1500 500 4000
时发病率的分子是新发生的事件数,分母是人时
数(观察人数乘以时间)的总和,多用于大人群 长时间随访的资料。
速率
某事件发生的观察单位数
(可能发生某事件的观察单位数时间)
K
第一节 定性变量的分布特征
二、常用的相对数指标 2.速率:
人年发病率
观察期间内某疾病新发病例数
(每个观察单位数 观察年数)
K
发病率
病型
(1) 普通型 重型 合计
表 5-5 按式(5-10)用直接法计算标准化治愈率(%)
甲疗法
乙疗法
标准治
疗人数 原治愈率 预期治愈数 原治愈率 预期治愈数
(Ni) (2)
(pi)
(Nipi)
(pi)
(3) (4)= (2)(3) (5)
(Nipi) (6) = (2)(5)
400
60.0
240
65.0
1.00 1000
5
0.50
10000 190 1.90 10000 455 4.55
观察的对象是否同质,研究的方法(如检测手段、抽样
方法)是否相同,观察的时间是否一致等;被比较的总体
是否具有可比性。
→对相对数的统计推断
第二节 标准化法及其应用
一、标准化法的基本思想
例如表3-2两种疗法的治愈率比较。
工龄 (年) <3 ≥3 合计
人数
表 3.2 甲厂 患病人数
甲、乙两厂同工种工人某病的患病率
乙厂
患病率(%)
人数 患病人数
患病率(%)
400
12
3.0
100
18
18.0
500
30
6.0
100
2
2.0
400
40
10.0
500
42
8.4
第二节 标准化法及其应用
一、标准化法的基本思想
要正确比较两厂的合计患病率,必须先将两 组工人的工龄构成按照统一标准进行校正,然 后计算出校正后的标准化患病率再进行比较。 这种用统一的内部构成,然后计算标准化率的 方法,称为标准化法。
例3-1 某医生研究了慢性阻塞性肺病(COPD)病人的吸 烟情况,自1998~2000年收治COPD病人356人,其中 231人有三十年及以上的经常吸烟史(日平均1支以上),在 本院其它科室收治的同年龄组段的非COPD病人(无其它呼 吸系统疾患)479人,其中有三十年及以上的经常吸烟史的 183人,试计算并比较两组病人的吸烟率。
一、常用的相对数指标
三种类型:
比率 速率 比
第一节 分类变量的频数分布及其统计指标
二、常用的相对数指标 1.比率
频表示事物内部某个组成部分所占的比重,包 括:频率指标和构成比指标。
频率
发生某现象的观察单位 数 可能发生某现象的观察 单位总数
K
分子是分母的一部分;无量纲,在0~1范围内取值;K
是比例基数,可取100%,1000‰、10万/10万等,根据 习惯用法来决定。
第二节 标准化法及其应用
一、标准化法的基本思想
标准化法的基本思想是:采用某影响因素 的统一标准构成,对内部构成不同的各人群 率进行调整,以消除人口构成不同对人群总 率的影响,使标准化率具有可比性。
常用计算方法: 直接法 间接法
第二节 标准化法及其应用
二、标准化率的计算
根据已有资料的条件,采用不同的方法计算标准化率 如:对死亡率的年龄构成标准化
2.标准化率已不再反映当地的实际水平,它只表示相互 比较的几组资料间的相对水平。
3.两样本标准化率为样本值,若了解两样本标准化率之 间的差别是否有统计学意义,应进行假设检验。
第三节 动态数列及其分析指标
表3-9 某大学1992-2002年本科专业招生动态变化
年份 (1)
1992 1993 1994 1995 1996 1997 1998 1998 2000 2001 2002
患病人数 患者构成比 患病率 (3) %(4) %(5)
140
33.3
7.0
180
42.9
12.0
100
23.8
20.0
420
100.0
10.5
第一节 定性变量的分布特征
二、常用的相对数指标
1.比率
男 81.6%
不详
女
1.5%
16.9%
中国累积报告的HIV感染者按性别分布图
1985 — 2001.6
作为两者的“共同标准”。这种方法适用于直接法。 3.另外选用一个通用的或便于比较的标准作为两者的
“共同标准”,如采用全国、全省或全地区的数据作为 标准。
第二节 标准化法及其应用
二、标准化率的计算
计算标准化率的步骤: 1.根据对比资料所具备的条件选用直接法或间
接法。 2.选定标准构成。 3.选择公式计算标准化率
第二节 标准化法及其应用
病型 普通型 重型 合计
病人数 300 100 400
表 5-4 甲疗法 治愈数
180 35 215
甲、乙两种疗法治疗某病的治愈率比较
乙疗法
治愈率(%) 病人数 治愈数
60.0
100
65
35.0
300
125
53.8
400
190
治愈率(%) 65.0 41.7 47.5
第二节 标准化法及其应用
170
1310
190
1580
270
1750
170
1800
50
2000
200
发展速度% 定基比 环比 (6) (7) 100.0 100.0 107.1 107.1 114.3 106.7 116.7 102.1 122.6 105.1 126.7 103.3 131.2 103.6 137.6 104.9 141.7 102.9 142.9 100.8 147.6 103.3
776
322
41.5
789
335
患病率(%) (7) … … … …
42.5
第二节 标准化法及其应用
年龄组
(岁)
(1)
50~ 60~ 70~ 80 及以上 合计
表 5-8
标准患病率
Pi
(2)
21.3 46.1 65.5 71.7 42.1
按式(5-12 )用间接法计算标准化患病率(%)
城市
农村
人口数
预期患病人数人口数来自预期患病人数ni
(3)
ni Pi
(4)=(2)(3)
ni
(5)
ni Pi
(6)=(2)(5)
354
75
251
116
130
85
41
29
776
305
241
51
315
145
175
115
58
42
789
353
第二节 标准化法及其应用
三、应用标准化时的注意事项
1.标准化法只适用于某因素两组内部构成不同,并有可 能影响两组总率比较的情况。
该年新发某病的病例数 同年内能发生某病的平 均人口数
K
第一节 定性变量的分布特征
二、常用的相对数指标 2.速率:
例 在某医院的院内感染调查中,5031个病人共 观察了127859人日(例均25.4日),其中有 596人在医院发生感染,求医院感染率。
医院感染率=596/127859=0.0047人/人日 意味着平均每天有0.47%的病人将在医院获得感染。
全国出生人口性别比为117。
第一节 定性变量的分布特征
二、常用的相对数指标