第3章 分类资料的统计描述
统计学基础第三章统计整理
第三章统计整理【教学目的】1. 深刻理解统计分组的作用,并且能够对不同的社会经济现象进行统计分组2. 运用分配数列对原始数据进行系统整理3. 制作统计表,运用计算机绘制统计图【教学重点】1. 能够对不同的社会经济现象进行统计分组2. 运用分配数列对原始数据进行系统整理3. 制作统计表,运用计算机绘制统计图【教学难点】1. 运用分配数列对原始数据进行系统整理2. 制作统计表,运用计算机绘制统计图【教学时数】教学学时为8 课时【教学内容参考】第一节统计整理的意义一、统计整理的意义统计整理,就是根据统计研究的目的和任务的要求,对统计调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化,从而得到表现总体特征的综合统计资料的工作过程。
对于已整理过的初级资料进行再整理,也属于统计整理。
统计调查取得的各种原始资料是分散的、不系统的,只能表明各个被调查单位的具体情况,反映事物的表面现象或一个侧面,不能说明事物的总体情况与全貌。
因此,只有对这些资料进行加工、整理,才能认识事物的总体及其内部联系。
例如,工业企业普查中,所调查的每个工业企业资料,只能说明每个工业企业的经济类型、注册资本、职工人数、工业总产值、工业增加值、实现利税等具体情况。
必须通过对所有资料进行分组、汇总等加工处理后,才能得到全国工业企业的综合情况,从而分析工业企业的构成、经营状况等,达到对全国工业企业的全面的、系统的认识。
统计整理是统计调查的继续,也是统计分析的前提,它在统计研究中起着承前启后的作用。
因此,资料整理得是否正确,直接决定着整个统计研究任务的完成,不恰当的加工整理,不完善的整理方法,往往使调查得来的丰富、完备的资料失去价值。
因此,必须十分重视统计整理工作。
二、统计整理的步骤统计整理的基本步骤是:(一)对原始资料进行审查。
1. 审查被调查单位的资料是否齐全;2. 应审查数据是否准确。
审查的办法主要有:①逻辑审查:主要是从定性角度审查数据是否符合逻辑,内容是否合理,各项目或数量之间有无相互矛盾的现象。
《统计描述》课件
05
统计描述的注意事项
数据来源的可靠性
01 确保数据来源的可靠性和权威性,避免使用不可 靠的数据源。
02 在数据收集过程中,应遵循科学的方法和程序, 确保数据的准确性和客观性。
02 对于网络数据,需要注意数据的来源和可信度, 避免使用虚假或错误的数据。
数据的异常值处理
在数据分析前,需要对异常值进 行识别和处理。
《统计描述》ppt课 件 (2)
目录
• 统计描述概述 • 数据收集与整理 • 数值型数据的统计描述 • 分类数据的统计描述 • 统计描述的注意事项
01
统计描述概述
定义与目的
定义
统计描述是对数据进行整理、归纳和总结,以简明的方 式呈现数据的基本特征和规律。
目的
帮助人们更好地理解数据,为进一步的数据分析提供基 础。
03
数值型数据的统计描述
平均数
01 平均数
表示一组数据的总体“平 均水平”的统计量。
03 计算方法
将一组数据加起来,然后
除以这组数据的个数。
02 分类
算术平均数、调和平均数
、几何平均数等。
04 应用场景
分析数据集中各数值的一
般水平,如工资、成绩等。Βιβλιοθήκη 中位数和众数中位数
将一组数据从小到大排列 后,位于中间位置的数。
根据实际情况,可以采用不同的 方法处理异常值,如删除、替换 或保留异常值并对其进行合理的
解释。
处理异常值时应保持客观和科学 ,避免主观臆断或随意处理。
数据的可视化呈现
数据可视化是统计描述的重要 部分,通过图表、图像等形式 呈现数据。
选择合适的图表类型,如柱状 图、折线图、饼图等,以便更 直观地展示数据的特点和趋势 。
统计教程-分类资料统计描述
分类资料统计描述对分类变量资料进行统计描述的一般步骤,是先对观察测量得到的变量值(即观察值)进行分类汇总(即“计数”)得到分类资料频数表(属于绝对数指标),再在此基础上计算相对数指标(即两个指标之比)才能对分类变量资料进行正确的描述。
一、常用的相对数指标1. 比又称相对比,其基本计算公式为:比=A/B,说明A为B的若干倍或百分之几。
A、B可为绝对数、相对数或平均数。
如某市某年I区的急性传染病发病数为2433人,II区的急性传染病发病数为3033人,则II区与I区急性传染病发生数之比为3033/2433=1.25。
2. 构成比又称构成指标。
其计算公式为:构成比=(某一组成部分的观察单位数/(同一事物各组成部分的观察单位总数)*100%。
构成比用来说明事物内部各组成部分所占比重或分布。
如上例中若全市的急性传染病发病数为12884人,则I区占全市急性传染病发病数的比重为2433/12884*100%=18.9%3.率又称频率指标,计算公式为:率=(发生某现象的观察单位数)/可能发生某现象的观察单位数)*K,k为100%,万/万等。
率用来说明某现象发生的频率或强度。
如上例I区的年平均人口数为636723人,则I区该年急性传染病发病率=(2433/636723)*100000/10万=382/10万。
二、应用相对数时应注意的问题1. 计算相对数时,分母不宜过小。
2. 构成比和率不能相互混淆。
两者的区别如下:构成比 率概念 说明事物内部各组成部分所占比重或分布说明某现象发生的频率或强度合计 必为100% 分率不能直接相加改变 任一部分比重增减会影响其他部分 某一分率改变对其他无影响3. 求平均数或总率时,分子、分母应分别相加;4. 注意资料同质性、可比性;5. 样本率或构成比的比较应建立在随机抽样的基础上,并要作假设检验。
三、动态数列1. 概念:动态数列是一系列按时间顺序排列的统计指标(可以是绝对数、相对数或平均数),用以说明事物在时间上的变化和趋势。
2-3分类资料的统计描述PPT课件
*以A地区为基数
相对数应用时的注意事项
计算相对数时,观察单位数应足够多; 分析时不能以构成比代替率; 计算平均率时也要严格遵守率的计算公式; 相对数比较时要注意可比性。
例题
某产院拟分析畸形儿于母亲分娩年龄的关系,检查了新生儿4470例, 畸形儿116例,得以下资料,据此得出结论:母亲年龄在24-29岁时,畸形 儿最多,占总数的92.2%,因此在24-29岁分娩,风险最大。
247.3
有
793 0.6338
502.6
0.5060
401.3
合计 1138
-
770.9
-
648.5
思考题
1. 对率进行标准化的目的是( ) ⑴使率更客观地反映实际水平 ⑵消除研究因素在对比组间的差异 ⑶消除内部构成差异造成的干扰,使对比总率间具有可比性 ⑷消除内部构成差异的干扰,使对比分率(小组率)间具有可比性 2. 甲乙两地的冠心病粗死亡率为40/10万,按年龄构成标化后,甲 地标化率为45/10万;乙地为38/10万,因此可认为( ) (1)甲地年龄别人口构成较乙地年轻; (2)乙地年龄别人口构成较甲地年轻; (3)甲地冠心病诊断比乙地准确; (4)甲地年轻人患冠心病较乙地多。
地区编号
调查人数
患病人数
患病率 (%)
A
9777
685
7.01
B
11410
632
5.54
C
12181
698
5.73
D
10391
541
5.21
E
10511
627
5.97
合计
54270
3183
5.87
构成比 (%) 21.52 19.86 21.92 17.00 19.70 100.00
分类资料的统计描述课件
病床周转次数=报告期出院人数/平均开放病床数 床位周转次数是指在一定时期内每张床位的病人
出院人数,其数值的大小与收治病人的病种和病情密切 相关。收治慢性病人和病情重的科室病床周转次数较慢 。 床位周转次数、病床使用率和出院者平均住院日三个 指标,是医院工作效率与管理状况的晴雨表。医院管理部 门往往以这“三个指标”制定标准值作为奖惩各临床专科
k
某病死亡率 (疾病别死亡率 )=某同 年年 因平 某均 病人 死口 亡数 人数 k
某年龄组死亡率 (年龄别死亡率 )=同某年年同某年年龄龄组组平死均亡人人口数数 k
新生儿死亡率=同年28天以内死亡数/同年活产总数×1000‰
③疾病统计指标:
发病率= 某时期内某病新病例数 同时期平均人口数
血型(A,B,O,AB)
变
量有
有程度差异的多类属 文化程度(初中、 等级资料
序 多项分类 性(又称等级资料) 高中、大学...) 半定量资料
第一节 分类资料的统计描述
一、分类资料的频数分布表
对于无序分类资料,编制频数分布表的办法就是直接 统计出每一个类别的频数,以及计算的频率、累计频数和 累计频率,然后将它们列在一个表格中。
率
实际发生某现象的观察 单位数 可能发生该现象的观察 单位总数
K
K 为比例基数,如100%、1000‰等。比例基数的选择主
要依习惯而定或使计算结果能保留1~2位整数。
例题:
例:某学者对肿瘤诊断的新指标细胞内端粒酶活性表达 情况进行研究,资料如下表,试计算端粒酶在不同肺癌 病理组织中活性表达的阳性率。
下面各率中那个率最能反映疾病对人群的威胁程度
分类资料的统计描述
本卷须知
1.标准不同得到的标化值不同 2.内部各小组比较时,可不标化 3.标化后的数值不再反映实际水平。
2024/10/29
22
第四节 动态数列(自学)
• 概念:按照一定的时间顺序,将某事物的统计指标依 次排列起来,以便于观察和比较该事物在时间上的开 展变化趋势。
• 常用指标: • 1.绝对增长量:说明事物在一定时期内所增长的绝对
1.选择标准:任意一组、两组之和、有代表性的人口 2.计算标准化率p' : 直接法: 标准组年龄别人口数时:p' = Ni pi /N 标准组年龄别人口构成时: p' = 〔Ni / N〕 pi 间接法: p' = P r / ni pi = P SMR
计算标准化率的符号
年龄组
1 2 3
标准组
人口数 死亡数 死亡率
标准化法(Standardization method)
标准化的原因: 当两组资料进行比较时,如果其内部不同小
组率有明显差异,而且各小组内部构成也明显不 同 ,直接比较不合理,需要进行标准化后再进行 比较。
标准化的方法: 按照统一标准进行校正,然后进行比较.
标准化率的计算 〔常用于人口年龄构成的标准化〕
概念:是指某种现象在一定条件下,实际发生的观察单位数 与可能发生该现象的总观察单位数之比,用以说明某种现 象发生的频率大小或强度。
计算公式: 发生某种现象的观察单位数 可能发生某种现象的观察单位数 100%〔1000‰…〕
例如:发病率、患病率、死亡率、病死率等。 注意:不受其它指标的影响;各率相互独立,其之和不为1
主要内容
第一节、相对数 第二节、应用相对数的本卷须知 第三节、标准化法 第四节、动态数列及其分析指标
分类资料的统计描述.ppt
r P SMR ni Pi
SMR为标准化死亡比
甲地的标化死亡率 p =15.42 ‰*(845/929)=14.03 ‰
乙地的标化死亡率 p =15.42 ‰*(697/613)=17.58 ‰
23
应用标准化法应注意的问题
满足以下两个条件才使用标化率 1)欲比较的人群内部的年龄分布不同; 2)每个人群内部年龄别死亡率也不同。如果不计算标化 率,而分别比较各组的率,也能得到正确结论,只是不 能比较总率。
16
不同年龄组人口构成的对死亡率影响
例:某山区进行医疗防治工作检查,发现在 1975 年有 5000 人,该年的死亡人数 为 40 人,死亡率为 8.0‰,在 1985 年有 7500 人,该年的死亡人数为 63 人,死 亡率为 8.4‰。即 85 年的死亡率高于 75 年死亡率,研究人员进一步计算各个年 龄组的死亡率如下: 年龄 <15 岁 15-60 岁 60 以上 合计 75 年人口数与死亡人数 人口数 死亡人数 死亡率 1000 10 10‰ 3000 15 5‰ 1000 15 15‰ 5000 40 8.0‰ 85 年人口数与死亡人数 人口数 死亡人数 死亡率 2000 16 8‰ 3000 12 4‰ 2500 35 14‰ 7500 63 8.4‰
8
相对数方法---构成比proportion
当比例中的分母是一个随机抽样的结果时,常 常称这种比例为构成比(proportion)
例如:2001年某医院死亡者中5种疾病死亡各自所 占的比重。如:5种疾病死亡人数为520人,其中有 110名因慢性白血病而死亡,占所有死亡人数的比例 为21.15%,即:死于慢性白血病的构成比为 21.15%。 注意:这种构成比上升不能理解为这种病的死亡率增 高,因为其他死因的比例下降,就会导致慢性白血病 的构成比上升。
分类资料的统计描述及参数估计(预防医学)课件
绘制坐标轴
确定横轴和纵轴的范围,并标记 刻度。
绘制直方图
用长方形表示频数,并合理设计观测值分组统计计数并计算 出频率和频率累计值。
绘制多边形
用折线连接频率累计值的各个 点,形成频率多边形。
图形解读
通过观察多边形的走势来描述 数据的分布。
饼图
用于显示各类别的占比情况。
雷达图
展示多个分类变量在不同维度 上的指标比较。
组距的选择
1
根据数据范围选择组距
更广泛的数据范围需要更大的组距。
根据数据分布选择组距
2
数据分布越分散,组距越大。
3
根据数据显示效果选择组距
组距过小或过大都会影响数据的展示效 果。
直方图的绘制
计算频率
将观测值分组统计计数。
分类资料的统计描述及参 数估计(预防医学)课件
课程包括分类资料的概念、分类方法、数据整理方法、图形表示方法、组距 选择以及直方图、频率多边形、核密度图和箱线图的绘制。
分类资料的概念
什么是分类资料?
解释分类资料的含义和使用场景。
分类资料的类型
介绍名义变量和有序变量的区别以及实际应用。
分类资料的分类方法
频数表
展示分类资料的频数和百分比。
条形图
用条形表示各类别的频数。
饼图
用扇形表示各类别的百分比。
分类资料的数据整理方法
1 数据编码
将分类资料转化为数字以便进行统计分析。
2 数据输入
将编码后的数据输入计算机或统计软件。
3 异常值处理
探索和处理分类资料中的异常值。
分类资料的图形表示方法
条形图
用于比较各类别的频数或百分 比。
分类资料的统计描述
相对数在应用中应注意的事项
正确计算总率,对观察单位数不等的几个率,不能直 接相加求平均率。
相对数比较时应注意可比性。决定率(或构成比)高 低的因素往往是多方面的,除了研究因素外,其余的 重要影响因素应相同或相近,才可相比。
病死率=
观察期间因某病死亡人 该期间的某病患者数
数
K
相对数的计算
课堂练习:
某厂男职工370人,女职工456人,慢性 苯中毒人数男女分别是8和10人。问:
1.男女慢性苯中毒患病率各为多少? 2.男性患病率是女性的多少倍? 3.该厂男女平均患病率为多少? 4.该厂男职工占该厂职工总数的百分比是多少?
比(ratio)
比又称相对比,是两个有关的指标之比,表示 对比指标间的数量关系,可用倍数或百分数表 示。 比=甲指标/乙指标(或×100%)
甲、乙两个指标可以是绝对数,也可以是平均 数或率;可以性质相同,也可以性质不同。
例如,某地2002年男婴的出生人口数是231人, 女婴的出生人口数为218人,则该地出生婴儿性 别比为:231/218=105.96:100
对样本率(或构成比)的比较应遵循随机抽样,要做 假设检验,不能仅从相对数的大小上做结论。
急性脑出血病死率的比较
某省医院
患者 死亡 病死率 例数 例数 (%)
某县医院
患者 死亡 病死率 例数 例数 (%)
1600 255 15.9 920 101 11.0
急性脑出血病死率的比较
病情 轻
某省医院
患者 死亡 病死率 例数 例数 (%)
医学统计学课件:分类资料的统计描述
交叉表是一种更为复杂的表格形式 ,可以展示两个或多个分类变量之 间的关系,进一步分析变量之间的 关联。
分层资料的统计描述
分层平均数
对于分层资料,可以使用分层平 均数来描述各层内数据的平均水 平,通过比较不同层的平均数,
可以了解各层之间的差异。
层间方差
层间方差是用来衡量不同层次间 的变异程度,通过计算和比较层 间方差,可以了解各层次之间的
辅助决策制定
准确的分类资料统计描述 能够为决策制定提供有力 支持,帮助决策者了解情 况、制定合理方案。
分类资料统计描述的应用场景
临床研究
在临床研究中,分类资料 统计描述常用于分析患者 的疾病分布、治疗反应等 。
流行病学
流行病学中,分类资料统 计描述用于分析疾病的地 区分布、人群特征等。
公共卫生
公共卫生领域中,分类资 料统计描述用于监测和评 估公共卫生状况、健康问 题分布等。
动态数的计算与解读
动态数的计算
动态数是用来描述某一指标在不同时间点上的变化情况,通常通过将某一指标在 不同时间点的数值进行对比来计算。例如,某医院某年的治愈率与前一年的治愈 率之比。
动态数的解读
动态数的值越大,说明该指标的变化趋势越明显;反之,则越小。动态数可以用 来预测未来的发展趋势,以及评估政策或措施的效果。
相对数与动态数的应用场景
相对数在医学研究中应用广泛,如比较不同地区、不同时间 、不同人群的发病率、患病率、死亡率等指标,以了解疾病 在特定人群中的分布和发生情况。
动态数在医学监测和流行病学研究中应用较多,如监测某种 疾病的发病率、死亡率等指标的变化趋势,以及评估干预措 施的效果等。
04
统计图表在分类资料中的应用
在制作箱线图时,应将数据按照数值 大小进行排序,并使用合适的横轴和 纵轴尺度。
第三章 分类变量的统计描述 第一节 常用相对数
相对数:率、构成比、相对比等指标。
一、构成比=(某一组成部分的观察单位数/
同一事物各组成部分观察单位总数)*100% 1)各部分构成比之和为100% 2)某一部分所占的比重增大,其他部分的比 重会相应减少。 二、率=(发生某现象的观察单位个数/可能 发生某现象的观察单位总数)*100%
三、比
1.两个有关联指标之比。 2.用于性质不同的两个有联系指标之比。
第二节 应用相对数时的注意事项
1.构成比与率,是意义不同的两个指标。
2.样本含量太小时,不宜计算相对数 3.对各组观察例数不等的几个率,不能直接
相加求其总率。 4.在比较相对数时应注意资料的可比性。
(三)应用标准化法的注意事项 1.标准化职能解决不同人群内部构成不同对其总率 有影响的情况。 2.标准化后的标化率,已经不再反映当时当地的实 际水平,只表示相互比较的几组资料间的相对水平。 3.由于选择的共同标准不同,计算出来的标准化率 会有所不同,但相对水平不变。 4.各年龄组率间若出现明显交叉,宜比较年龄组死 亡率,而不用标准化法。
第四节 动态数列及其分析指标
一、绝对增长量
1.累积增长量 2.逐年增长量 二、发展速度 1.定基发展速度可以反映事物在一定时期的
发展速度。 2.环比发展速度
三、增长速度
增长速度=发展速度-1 四、平均发展速度和平均增长速度。 平均增长速度=平均发展速度-1
第三节 标准化法
除人口构成
不同对人群总率的影响,使算的标准化率具 有可比性。 (一)直接法计算标化率需2个条件 1.资料条件 2.选择标准
(二)直接法标化率的计算
分类资料的统计描述课件
峰态及其测度
峰态
描述数据分布的集中程度,可以通过计算峰态系数来衡量。
峰态系数的计算方法
利用数据分布的均值、标准差和四分位距,通过公式计算得出峰 态系数。
峰态系数的值域
正值表示尖峰分布,负值表示平峰分布。
偏态与峰态的图形描述
01
02
03
直方图
通过绘制直方图可以直观 地展示数据的分布情况, 从而观察偏态和峰态。
THANKS
感谢观看
Q-Q图
通过绘制Q-Q图可以比较 数据分布与正态分布的偏 离程度,从而判断偏态和 峰态。
P-P图
通过绘制P-P图可以比较 数据分布与正态分布的理 论概率,从而判断偏态和 峰态。
05
分类资料的统计图表
条形 图
总结词
直观展示不同类别数据的大小关系
详细描述
条形图通过长度相等的条形来代表各类别的数值,条形之间的横向距离表示数 值的大小。条形图能够直观地展示不同类别数据的大小关系,便于比较。
分类资料的统计描述课件
目 录
• 分类资料统计描述概述 • 分类资料的频数分布 • 分类资料的集中趋势与离散趋势 • 分类资料的偏态与峰态 • 分类资料的统计图表 • 分类资料统计描述的应用场景
contents
01
分类资料统计描述概述
定义与特点
定义
分类资料是指将观察单位按照某 种属性或类别进行分类的统计数 据,例如性别、婚姻状况、学历等。
医学数据分析
要点一
总结词
医学数据分析也是分类资料统计描述的一个重要应用场景, 通过对医学数据的统计描述,可以了解疾病分布、治疗效 果和药物反应等。
要点二
详细描述
医学研究是提高疾病防治水平和医疗服务质量的重要途径, 通过临床试验、流行病学调查等方式收集数据,然后利用 分类资料统计描述的方法对数据进行整理和分析,可以得 出疾病流行特征、治疗方案效果等方面的信息,为医生制 定治疗方案和开展医学研究提供依据。
统计学II第3章 统计数据的描述-1
分数分组
95~99
90~94 85~89 80~84 75~79 70~74 65~69 60~64 55~59 50~54 45~49 40~44 35~39 30~34 25~29 20~24 15~19
~
次数 向上累积次数 向下累积次数 向上累积相对次数
7
1640
7
100%
16
1633
53
1617
(2)组距数列算术平均数的计算:以组中值代替变量x,尔后按 公式计算。
年龄 人数(f) 组中值(x)
xf
14—20
2
17
34
21—27
5
24
120
28—34
3
31
93
合计
10
247
x xf 247 24.7岁 f 10
STAT
(3)是非标志的平均数(成数、比率)
是非标志及哑变量
女性总录用率:10%×(100/130)+50%×(30/130) =19.23%
2.虽然在每个单位,女性录用率都高于男性,但录用率 低的甲单位女性的应聘率(即权数:100/130)高,录用率高 的乙单位,女性应聘率(即权数:30/130)低,而男性的情 况正相反,造成加权后的总录用率女性反而比男性低。
3.该现象(悖论)的产生是由于“权重”的倾斜造成的。
STAT
三、几何平均数
1、定义:n个变量值连乘积的n次方根。
2、适用前提:总体标志总量=总体各单位标志值,宜计算比率 或速度的平均数。
3、公式:
简单几何平均数 : G n x1 x2 xn n x
加权几何平均数 : G f
50
50
分类资料的统计描述
2. 标准化率的计算
计算标准化率的数据符号
年龄组
被标准化组
标准组
人口数 死亡数
N1
R1
P1
2
n2
r2
p2
N2
R2
P2
… … … … … … …
k
nk
rk
pk
Nk
Rk
Pk
合计 n
r
p
N
R
P
直接法标化率 已知标准组年龄别人口数:
p'
Ni pi
N
已知标准组年龄别人口构成:
分类资料的统计描述
一、常用的相对数
1、率(rate):某种现象发生的频率或强度 发生某种现象的观察单位数
率= ———————————————— × k 可能发生某种现象的观察单位总数
① 发病率 ( incidence rate ) 该时期新发生的某病病例数
发病率= ————————————————————— × k 一定时期内可能发生某病的人群(平均人口数)
年龄组
甲地
乙地
人口数 死亡率 人口数 死亡率
0~
9300
57.2
4800
72.9
5~
12200
3.6
6600
4.6
20 ~ 19000
5.3
35300
7.2
40 ~
7600
12.1
2800
14.2
60 ~
1900
40.0
500
46.0
合计 50000 16.19 50000 13.90
比较甲、乙两地总死亡率时,因两地各年龄组
常用的构成比指标有三种:
定性资料的统计描述(1)
例如 1个人患病10天,为 10个人日,10个人患病1 天也为10个人日。
例3-3 在某医院的院内感染调查中,5031个 病人共观察了127859人日(例均25.4日),其中 有596人在医院发生感染,则 院内感染率=596/127859=0.0047人/人日 意味着平均每天有0.47%的病人将在医院获得感染。
5
2022466 25 159 62.0
11
2024535 27 157 68.0
2
2025834 20 158 66.0
4
2019464 24 158 70.5
3
2025783 29 154 57.0
7
职业 无 无
管理员 无
商业 无 无 无
干部
变量 variables
文化程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
定性变量 无序分类:如性别、职业、血型等;
有序变量(有序多分类 )
定量资料(计量资料)
资料的类型
计数资料(二项分类 、无序多分类)
定性资料 有序分类:如血清反应、疗效划分等。
(分类资料) 等级资料(有序多分类 )
计量资料:变量值是定量的,有单位的,表示为数值的大小。
计数资料:变量值是定性的,没有单位,表示为互不相容的类别。
率和构成比的区别(补充)
构成比
率
1。各部分可直接相加
各率不可直接相加。
2。各部分之和等于100%。 总率不一定等于各率之和。
3。某部分变化,其它部分随 某率的变化,不影响其它各
之变化。
率。
4。是说明比重和分布的,反映事 物内部各个部分之间的比例关系。
表示某现象发生的频率和强度。
(三) 相对比型指标
第三章 2-定性资料的统计描述
二、疾病和死因分类
疾病的命名(nomenclature of diseases):标 准化的术语 疾病分类(classification of diseases):将具有 共性的疾病归纳、分类。 区别:前者为疾病名称标准化,后者是统计研究 需要。
1853年,国际统计学会着手编制了统一的疾病 名称和死因分类,先是在欧洲使用。 1893年开始建立国际疾病和死因分类 (International Classification of Diseases,简记 为ICD)
2. 计算相对数时分母应有足够数量 例 甲医院治疗某类患者100人,40人有效; 乙医院治疗同类患者5人,2人有效 有效频率均为40% !?
如果资料的总例数过少,计算得到的相对数 偏差可能会很大,直接报告原始数据更为可取: 甲医院有效率40% 乙医院有效 2/5
3. 正确地合并估计 例 甲医院治疗某类患者100人,40人有效; 乙医院治疗同类患者90人,30人有效 如果两医院总体有效率的确相等, 合并估计: 40 30 有效率 36.8% 100 90 不可将两个频率相加除以2:
(一)人口死亡资料的来源
我国人口死亡资料主要由公安部门负责收集。 国家规定居民死亡后,必须及时报告并注销户口。 死于医院者,医师应负责填写死亡报告单 ----正确填写死因 死因依据:国际统计分类第十版(International classification of diseases, ICD-10)中的死因分类。 注意杜绝婴儿死亡的漏报。
实际工作中,有时近似地 平均人口数 ≈人口总数 理论上, 平均人口 = 各时点人口数相加再除以总时点数 实际中,
平均人口≈相邻两年年末人口数相加再除以2
(二)人口构成及其统计指标
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3-1)
表 3-2 第 7 栏“0~”的患病率为 1820/60030=3.03%,由第 2、3 栏的数据算得,依次 类推,可算得“20~” 、 “40~”和“60~”岁组的患病率分别为 7.94%、10.90%和 21.36%。 比例基数可以取 100%或 1000‰100 000/10 万等。 比例基数的选择主要根据习惯用法或 使计算的率有适当位数的整数,而且整数不太大;小数位数保留 1~2 位即可。 3.特点 例 3-3 南华大学某医师在研究乳腺癌与 C-erbB-2 表达的关系时,数据显示:55 例特征 表现为肿块的其 C-erbB-2 阳性表达率为 69.1%,19 例乳腺癌 X 线特征表现为局限浸润致密 影的其 C-erbB-2 阳性表达率为 73.7%,17 例乳腺癌 X 线特征表现为单纯钙化的其 C-erbB-2 阳性表达率为 82.4%,三者之间差异无统计学意义( 2 =1.162,P=0.559) 。 表 3-3 乳腺癌 X 线直接征象与 C-erbB-2 表达的关系
C-erbB-2 影像表现 例数 阳性 肿块 局限浸润致密影 单纯钙化 合计 55 19 17 91 38 14 14 66 阳性率(%) 69.1 73.7 82.4 72.5
100.00
80.00
阳 性 率
60.00
乳腺癌 X 线直接征象与 C-erbB-2 表达的关系 从表 3-2、表 3-3 和图 3-2 看出,率有以下两个特点: (1) 一般合计率或总率不等于 100%。 (2) 某一部分的分率改变不影响其它分率的变化。
25
18%
21%
0~岁 20~岁 40~岁 60~岁
患病率(%)
20 15 10 5
26% 35%
0 0~ 20~ 40~ 60~ 年龄组(岁)
A 图 3-1
B 某年某地不同年龄组某病的患病情况比较
一、率(rate)
27
1.意义 率( rate)是说明某现象发生的频率或强度,又称为频率指标。 2.计算公式
第二节
动态数列
例 3-5 某县医院 1995~2005 年门诊就诊人数的统计数据见表 3-5,试作动态分析。
表 3-5
年份 (1) 1995 符号 (2) a0 门诊就诊 人数 (3) 4700
某县医院 1995-2005 年门诊就诊人数动态变化
绝对增长量 累计 (4) — 逐年 (5) — 发展速度(%) 定基比 (6) 100.0 环比 (7) 100.0 增长速度(%) 定基比 (8) — 环比 (9) —
表 3-2
年龄组(岁) (1) 0~ 20~ 40~ 60~ 合计 调查人数 (2) 60030 38013 20260 7120 125423
某年某地不同年龄组某病ቤተ መጻሕፍቲ ባይዱ患病情况比较
患病人数 (3) 1820 3019 2208 1521 8568 患病构成比(%) (4) 21.24 35.24 25.77 17.75 100.00 与 0~之比 (5) 1.00 1.66 1.21 0.84 — 患病率(%) (6)=(3)/(2) 3.03 7.94 10.90 21.36 6.83
25%
25%
20%
20%
20%
25% 25%
40%
内科
外科
妇产科
2000 年
其它科
内科
外科
2005 年
妇产科
其它科
图 3-3
某县医院 2000 年和 2005 年病床数比较
例表 3-4 中各个科室的病床构成比等于各个科室数除以合计病床数乘 100%,如 2000 年内 科病床构成比=100÷ 400× 100%=25.0%, 其余依次类推, 各科室病床数构成比总和等于 100%。 在 2005 年,由于外科病床数增加 100 张,外科病床数构成比从 25.0%增加为 40.0%,其余 科室的病床数没有改变, 但构成比从 25.0%下降为 20.0%, 因要保持总病床构成比为 100.0%。
30
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10
5000 5300 5400 5650 5820 6010 6280 6450 6500 6700
300 600 700 950 1120 1310 1580 1750 1800 2000
三、相对比(relative ratio)
1.意义 相对比(relative ratio)是表示两个有关事物指标之比,常以百分数和倍数 表示,用以说明一个指标是另一个指标的几倍或百分之几。 2. 计算公式
相对比
甲指标 (或 100%) 乙指标
(3-3)
式中甲、乙指标可以是相对数、 绝对数、平均数。 如果甲指标大于乙指标,用倍数表示; 如果甲指标小于乙指标,用百分数表示。 例表 3-3 中,试验组和对照组有效率相对比为 95.2%÷ 82.2%=1.2 倍。 3. 特点 (1) 甲乙两个指标的性质可相同也可不同。 (2) 甲乙两个指标可以是绝对数、相对数或平均数。 4. 应用 在医疗卫生工作和科学研究的分析中应用也非常广泛, 如性别比、 人口密度、 医生(护士)床位比等。
与 0~之比 (5) 1.00 1.66 1.21 0.84 —
【分析】该结论不正确。原因是以患病构成比代替患病率来说明问题。上表第 4 栏是 每一组患病人数除以总患病人数得到的;第 5 栏是定基比,以“0~”岁组的患病构成比作 基数,每组患病构成比与之相比。从第 4 栏和第 5 栏可以看出,患病构成比是随着年龄的增 加而增大, “20~”岁组达到最高峰(达 35.24%) ,以后随着年龄的增加而逐渐减少, “60~” 岁组最低, 但这并不能说明 “20~” 岁组的患病情况最为严重, 见图 3-1 (A) , 只能说明 “20~” 岁组患病构成比重最大。 要说明患病的严重程度, 需要用患病率来比较。 在表 3-1 的基础上, 用患病人数除以调查人数计算出患病率,见表 3-2 第 6 栏和图 3-1(B) 。从患病率可以看出, 患病率是随着年龄的增加而增大, “60~”岁组患病最严重,原因是疾病免疫力或抵抗力是 随着年龄的增加而减少。因此,该医师用患病构成比来代替患病率分析是错误的。
图 3-2
28
( % )
40.00
82.4 69.1 73.7
20.00
0.00 肿块 局部浸润致密影 单纯钙化
影像表现
4. 应用 在医疗卫生工作和科学研究的分析中应用非常广泛,如患病率、发病率、死 亡率、病死率、阳性率、治愈率、有效率等。
二、构成比(proportion)
1. 意义 构成比( proportion)是表示某事物内部各组成部分所占的比重或分布,常 以百分数表示。 2. 计算公式
表 3-1 某年某地不同年龄组某病的患病情况比较
26
年龄组(岁) (1) 0~ 20~ 40~ 60~ 合计
调查人数 (2) 60030 38013 20260 7120 125423
患病人数 (3) 1820 3019 2208 1521 8568
患病构成比(%) (4) 21.24 35.24 25.77 17.75 100.00
【知识点 3-2】 1.率是说明某现象发生的频率或强度。某一分率改变不影响其它分率 变化。 2.构成比是表示某事物内部各组成部分所占的比重或分布。某一部分构 成比的改变将影响其它构成比的变化。 3.相对比表示两个有关事物指标之比,用以说明一个指标是另一个指标 的几倍或几分之几。两个指标可以是绝对数、相对数或平均数。
构成比 事物内部某一组成部分的观察单位数 100% 该事物各构成部分的观察单位总数
(3-2)
表 3-1 第 4 栏的患病构成比是由第 3 栏算得的,其中“0~”占全部患病人数的比重为 1820/8568× 100%=21.24%,依次类推,可算得“20~” 、 “40~”‖和“60~”所占的比重分别为 35.24%、25.77%和 17.75%。 例 3-4 某县医院 2000 年各科病床数均为 100 张病床, 2005 年各科病床数如 2005 年外 科病床增加了 100 张病床,见表 3-4 和图 3-3。 表 3-4 某县医院 2000 年和 2005 年各科病床数比较
·第三章
分类资料的统计描述
名人名言
吾志所向,一往无前;愈挫愈奋,再接再励。孙中山
第一节
常用相对数
例 3-1 某医生调查甲乙两中学初中三年级学生的近视眼患病情况,结果甲校近视眼患 者为 100 人,乙校近视眼患者 60 人,甲校比乙校多 40 人,由此得出甲校近视眼患病情况比 乙校严重。你认为该结论是否正确?为什么? 【问题 3-1】 1.这是什么资料? 2.该医生分析结论是否正确?为什么? 3.如何正确分析比较? 【分析】(1) 近视眼患病人数是按患病与未患病分类,属于二分类资料,即计数资料。 (2) 该医生分析结论不正确。因为患病人数是根据患病与未患病分组直接清点各组所得数据 即绝对数,可以说明某现象在一定条件下的规模和实际水平,但不能互相比较,因基数(或 调查人数) 未知。 (3) 若要比较两校近视眼患病严重程度, 还需要考虑两校被调查的学生数, 计算两校学生近视眼患病率后才能比较。 近视眼患病率是近视眼患病人数除以调查人数所得 的比值,是一种相对数。相对数(relative number)是分类资料的描述性统计指标,是两个 有联系指标之比。常用相对数有率、构成比、相对比和动态数列,对比的两个指标可以是绝 对数、相对数、平均数等,性质可以相同,也可以不同。假如调查了甲校 400 人,乙校 200 人, 则甲校近视眼患病率为 100/400×100%=25%, 乙校近视眼患病率为 60/200×100%=30%, 可见乙校近视眼患病率高于甲校。 【知识点 3-1】 1.绝对数是分类资料整理中,根据资料的类别直接清点各组所得 的数据。 2.相对数是分类资料的描述性统计指标,是两个有联系指标之比。 常用相对数有率、构成比、相对比和动态数列。 3.对比的两个指标可以是绝对数、相对数、平均数等,性质可以 相同,也可以不同。 例 3-2 某年某地不同年龄组某病的患病情况见表 3-1,某医师由此认为“20~”年龄 组的患病情况最为严重。该结论是否正确?为什么?