卫生统计学第7版方积乾主编课件第二章定量资料的统计描述新选
2018精选版卫生统计学第7版 方积乾主编 课件第二章 定量资料的统计描述-精心整理
8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μ mol/L)
6~
8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μ mol/L)
图2-2 120名健康成年男子血清铁含量(μmol/L)分布
努力
30 25 20
数据如下。试编制血清铁含量的频率分布表。
努力
频率表的编制步骤如下:
1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最 大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (μmmo/L)。
2. 确定组段数与组距(class interval)
靠近的整数作为组距,本例取i=2。
6~ 8~ 10~ 12~ 14~ 16 ~ 18 ~ 20 ~ 22 ~ 24 ~ 26 ~ 28~30
1 3 6 8 12 20 27 18 12 8 4 1
120
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83
100.00
最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后
一个组段可包括其上限值,如本例28~30。 4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。
努力
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布 组段 (1) 频数 (2) 频率(%) (3) 累计频数 (4) 累计频率(%) (5)
检查次数 (1) 0 1 2 3 4 5 >5 频数 (2) 4 7 11 13 26 23 12 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 累计频数 (4) 4 11 22 35 61 84 96 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0
医学统计学课件第二章 定量资料的统计描述
第四节
正态分布
一、正态分布的概念和特征
正态分布(normal distribution ):也 称高斯分布,是医学和生物学最常见的连续性 分布。如身高、体重、红细胞数、血红蛋白等。
图2-1 120名12岁健康男孩身高的频数分布
图2-2 频数分布逐渐接近正态分布示意
㈠ 正态分布的函数和图形
第二章 定量资料的统计描述
目 录
第一节 频数分布表
第二节 集中趋势的描述 第三节 离散趋势的描述
第四节 正态分布
学习要求
1.掌握频数分布表的编制步骤和方法 2.熟悉频数分布表的用途 3.掌握集中趋势、离散趋势的概念,适用条件和计
算方法 4.掌握正态分布的概念,意义和特点;正态曲线下 面积的分布规律
159.99 33.46 / 7 S . 0.089 7 1
2
加权法-标准差计算实例:
例
对表2-4资料用加x=17168,∑fx2 =2460040, 代入公式
2460040 17168 / 120 S 5.70(cm) 120 1
算术均数 (arithmetic mean): 简称均数。
适用条件:对称分布或近似对称分布的资料。
以希腊字母μ---总体均数(population mean)
以英文字母 ---样本均数(sample mean)
计算方法
1. 直接法:用于观察值个数不多时
X X n
2.加权法(weighting method):用于变量 值个数较多时
适用条件:对于变量值呈倍数关系或呈对 数正态分布(正偏态分布),如抗体效价及抗体 滴度,某些传染病的潜伏期,细菌计数等。 计算公式:有直接法和加权法。
卫生统计学 第二章 定量资料的统计描述
9
30
25
频 率
20
15 (%) 10
5
0
0
1
2
3
4
5
〉5
产前检查次数
图2-1 某地96名孕妇产前检查次数频率分布
二、连续型定量变量的频率分布
(一)频率分布表 例2-2 :抽样调查某地120名18岁~35岁健 康男性居民血清铁含量(μmol/L)见P12, 试编制频率分布表。
11
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
最新统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案资料
第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x x L x iP L n x f f P u P u P u =+?==+?==+?==+?S离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布Group Frequency Percent Cumulative Percent49.0- 1 .8 .850.0- 4 3.3 4.251.0- 8 6.7 10.852.0- 6 5.0 15.853.0- 19 15.8 31.754.0- 18 15.0 46.755.0- 14 11.7 58.356.0- 26 21.7 80.057.0- 10 8.3 88.358.0- 9 7.5 95.859.0- 4 3.3 99.261.0-62.0 1 .8 100.0Total 120 100.0(2)(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L x i P L n f f P x P P ==+?==+?==+?=+?S2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
医学统计学课件:02_统计描述(定量定性)
中位数(median,M)
将一组观察值从小到大按顺序排列,居于中心位置 的数值。在全部观察值中有半数的值比M大,另有半数 的值比M小。 适用于当大部分观测值比较集中,少数观测值偏向 一侧时;或资料分布情况不清楚时;或数据的最大值
(最小值)无准确测量数据时。如传染病的潜伏期。任
何分布的定量数据均可用中位数描述其分布的集中趋势, 使用范围广。
2003年4月22日全国SARS发病人数频数表
发病地区 北京 山西 广东 河北 内蒙 天津 广西 其他省市 频数 105 16 14 6 3 2 1 0 频率/% 71.4 10.9 9.5 4.1 2.0 1.4 0.7 0.0 累积频数 105 121 135 141 144 146 14移,向右侧拖尾
负偏态(左偏态)
峰向右偏移,向左侧拖尾
集中趋势的特征值
—— 平均水平的度量
算术均数(arithmetic mean,M)
适用于正态分布和近似正态分布的资
料。
总体均数用µ表示;样本均数用 x 表示。
直接计算法
将所有观察值直接相加再除以观察值的个数。
f i lg X i f1 lg X 1 f 2 lg X 2 f n lg X n 1 lg G lg f f i i
1
频数表资料的几何均数
抗体滴度 ⑴
人数,f ⑵
滴度倒数,X ⑶
lgX ⑷
f· lgX ⑸
累积频率/%
71.4 82.3 91.8 95.9 98.0 99.3 100.0 100.0
合计
147
100.0
某药物疗效的频数表
治疗效果 治愈 频数 65 频率/% 43.3 累积频数 65
统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案
第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
五、医学正常值范围的估计
定义:又称参考值范围,是指特定健康人群的解剖、 生理、生化等各种数据的波动范围。习惯上是确定包 括95%的人的界值。
单双侧:根据指标的实际用途,有的指标有上下界值, 过高过低均属异常;某些指标过高为异常,只需确定 上限;某些指标过低为异常,只需确定下限。
估计的方法: 1、正态分布法
计五算、:医C学V(156.41 cm , 171.27 cm ) =10107名3.18岁女大学生身高均数的计算
频数:当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。 应用:原始数据分布不对称,经对数转换后呈对称分布的资料。
29
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
32
思考题:
1976年美国8岁男孩的平均身高 为146厘米,标准差为8厘米,估计 在该研究中有%多少的男孩平均身 高在138与154之间?又有多少在
130到162之间?
33
4
100名18岁女大学生身高均数的计算
身高组段 频数 f 组中值 X
f·X
(1)
(2)
(3)
(4)
154~
2
155
310
156~
4
157
628
158~
11
159
1749
160~
13
161
2093
162~
22
163
3586
164~
19
165
3135
166~
15
167
2505
168~
9
169
1521
卫生统计学第7版方积乾主编课件第二章定量资料的统计描述
2020/6/24
11
正偏态(右偏态)
负偏态(左偏态)
2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理
2020/6/24
12
第二节 描述集中趋势的统计指标
医学定量资料中,描述集中趋势的统计指标主要有 算术均数、几何均数和中位数。 一、算术均数(arithmetic mean)
本例
X X 31.26 3.9075 (U/L) n8
2020/6/24
14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
X fX 0 fX 0
f
n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 X fX 0 2228 18.57 (μmmo/L) f 120
2020/6/24
2
统计描述是用统计图表、统计指标来描述资料的分布 规律及其数量特征的。
第一节 频率分布表与频率分布图
医学研究资料变量值的个数较多时,对个变量值出现的 频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称频数表或频率表。
2020/6/24
2020/6/24
5
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
2020/6/24
6
频率表的编制步骤如下:
1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最 大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (μmmo/L)。
卫生统计02 定量资料的统计描述
第二章定量资料的统计描述[教学要求]了解:通过电脑实验了解定量资料的频数分布表的编制方法和分布规律;通过电脑实验了解描述分布形态的偏度系数与峰度系数的计算和意义。
熟悉:熟悉利用统计图表描述定量资料的基本方法;熟悉制作统计图表的基本要求和规则;熟悉百分位数的计算方法。
掌握:掌握描述定量资料集中趋势的算术均数、几何均数、中位数的计算方法和适用条件;掌握描述定量资料离散趋势的极差、四分位数间距、方差、标准差和变异系数的计算方法和适用条件;掌握常用统计图表的制作方法。
[重点难点]第一节频数与频数分布一、离散型定量变量的频数分布基本概念:离散型变量定义参见有关章节。
此型变量的特点是:实测值之间有间断,或实测值可数。
特点:离散型定量变量的频数表即频数分布表,可直接反映该变量的分布规律。
离散型定量变量的频数分布图可用直条图表达。
二、连续型定量变量的频数分布基本概念:定义参见有关章节。
此型变量的特点是:实测值之间没有间断,或实测值不可数。
实测值之间的间断可以忽略时,也可近似地视为连续型变量。
特点:连续型定量变量各观察值的频数表不是频数分布表,不能正确反映该变量的分布规律,只有划分特定数值组段后的频数表才能成为频数分布表。
连续型定量变量的频数分布图可用直方图表达,其纵坐标为频率密度,即频率/组距,直方图的面积之和等于1。
第二节 定量变量的特征数 一、描述集中趋势的统计指标基本概念:由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。
在应用中,有一些统计量常称为统计指标。
㈠ 算术均数意义:算术均数简称均数,常用符号X 表示样本均数,μ表示总体均数。
均数是描述一组数据集中趋势或平均水平的最常用统计指标。
计算:1.直接法(基于原数据)nxn x n x n x x x X i ini in ∑=∑=∑=+++==121...其中, n x x x ,...,,21为观察值。
2. 加权法(基于频数表)nfx ffx X ∑∑∑==其中, f 为组段的频数,0x 为组段的中值。
卫生统计学第7版
卫生统计学第7版卫生统计学(本科预防)(第7版) 目录第一章绪论第一节医学中统计思维的进化第二节统计学与公共卫生互相推动第三节统计学的若干概念第四节目标与方法第二章定量变量的统计描述第一节频率分布表与频率分布图第二节描述平均水平的统计指标第三节描述变异程度的统计指标第四节描述分布形态的统计指标第五节统计表和统计图第六节统计内容的报告与中英文表达第七节案例讨论第八节计算机实验第九节小结第三章定性变量的统计描述第一节定性变量的频率分布第二节常用相对数指标第三节医学人口统计常用指标第四节疾病统计常用指标第五节粗率的标准化法第六节动态数列及其指标第七节定性变量统计图第八节中英文结果报告第九节案例讨论第十节计算机实验第十一节小结第四章常用概率分布第一节二项分布第二节Poisson分布第三节正态分布第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结第五章参数估计基础第一节抽样分布与抽样误差第三节多个样本均数的两两比较第四节方差分析的前提条件和数据变换第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第八章χ2检验第一节独立样本四格表资料的χ2检验第二节多个独立样本R×c列联表资料的χ2检验第三节配对设计资料的χ2检验第四节列联表资料的确切概率法第五节χ2检验用于拟合优度检验第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第九章基于秩次的非参数检验第一节配对设计资料的符号秩和检验第二节两组独立样本比较的秩和检验第三节多组独立样本比较的秩和检验第四节随机区组设计资料的秩和检验第五节多个样本问的多重比较第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第十章两变量关联性分析第一节线性相关第二节秩相关第三节分类变量的关联性分析第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结第十一章简单线性回归第一节线性回归第二节线性回归的应用第三节残差分析第四节非线性回归第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第十二章多重线性回归与相关第一节多重线性回归的概念及其统计描述第二节多重线性回归的假设检验第三节复相关系数与偏相关系数第四节自变量筛选第五节多重线性回归的应用第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第十三章医学研究的统计学设计第一节统计设计的基本要素第二节统计设计的基本原则第三节误差来源及其控制方法第四节资料统计分析第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第十四章实验研究的设计与分析第一节实验设计中的对照设置和随机分组方法第二节常用实验设计方案与统计分析第三节样本含量的估算第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结第十五章临床试验设计与分析第一节临床试验概述第二节临床试验设计的原则第三节临床试验设计的基本类型第四节统计分析计划第五节临床试验中的三种试验类型第六节样本量估算第七节中英文结果报告第八节案例讨论第九节计算机实验第十六章观察性研究的实施与分析第一节观察性研究概述第二节横断面研究的实施与分析第二三节病例对照研究的实施与分析第四节队列研究的实施与分析第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第十七章寿命表第一节基本概念第二节简略现时寿命表的编制第三节去死因寿命表的编制第四节健康期望寿命表的编制第五节寿命表有关指标及其分析第六节其他相关指标简介第七节中英文结果报告第八节案例讨论第九节计算机实验第十八章logistic回归分析第一节logistic回归模型第二节logistic回归的参数估计及假设检验第三节条件logistic回归模型第四节logistic回归的样本含量估算第五节logistic回归的应用及注意的问题第六节中英文结果报告第七节案例讨论第八节计算机实验第九节小结第十九章生存分析第一节生存分析基本概念第二节生存曲线的估计第三节生存曲线的比较第四节Cox回归第五节中英文结果报告第六节案例讨论第七节计算机实验第八节小结第二十章meta分析第一节meta分析概述第二节meta分析的统计方法第三节meta分析的偏倚第四节中英文结果报告第五节案例讨论第六节计算机实验第七节小结附录附录一软件简介(见随书光盘)附录1—1SAS简介附录1—2EpiData简介附录二统计学指南(见随书光盘)附录2—1CONSOR Tstatement的清单和流程图附录2—2STROB Estatement的清单附录2—3PRISM Astatement的清单和流程图附录三统计用表附录四重要定理证明(见随书光盘)中英文名词对照索引。
第二章 定量资料的统计描述
表 2-2 120 名正常成年男子血清铁含量 (μmol/L)频数表
组段 频数 频率 累计频数 累计频率
(1)
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
(2)
1 3 6 8 12 20 27 18 12 8 4 1 120
(3)
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83 100
15
16(,ol
/
L)
P75
20
2 12
75120 100
77
21.44(mo; /
L)
3.方差(variance)
又称均方差(meaNn square deviation)
n
表 2-4 52 例慢性肝炎患者的 HBsAg 滴度资料
抗体滴度 频数(f) 滴度倒数(X) lgX
f(lgX)
1:16
2
16
1.20412 2.40824
1:32
7
32
1.50515 10.53605
1:64
11
64
1.80618 19.86798
1:128 13
128
2.10721 27.39373
1:256 12
256
2.40824 28.89888
1:512 7 合计 52
512
2.70927 18.96489
108.06977
G
lg1
108.06977 52
119.74705
卫生统计学定性资料统计描述课件
常用统计指标的介绍:详细 介绍了频数、百分比、构成 比等常用统计指标的概念、 计算方法和适用范围,并通 过实例演示了如何应用这些 指标进行数据描述。
数据整理与展示方法的讲解: 讲解了如何对定性资料进行 分类、分组和排序,以及如 何利用表格和图形进行数据 可视化展示。
常用统计分析方法的比较与 选择:比较了不同统计分析 方法的特点和适用范围,并 介绍了如何根据研究目的和 数据特点选择合适的分析方 法。
案例一:某地区慢性病调查数据定性资料分析
总结词
描述性统计在慢性病调查中的应用
详细描述
通过描述性统计方法,对某地区慢性病调查数据进行整理和分析,包括频数、 百分比、比率等指标,揭示慢性病的分布特点和规律。
案例二
总结词
疾病分布的统计描述
详细描述
利用描述性统计方法对某医院住院患者的疾病分布情况进行统计分析,了解各类疾病的发病情况和趋势,为医院 管理提供决策依据。
本课件旨在帮助学习者系统掌握定性资料统计描述的基本概念、方法和应用,提高 分析问题和解决问题的能力。
课程目标
学习者能够掌握定性资料的基本概念、 分类和特点。
学习者能够了解定性资料在医学研究 中的应用,包括病因研究、诊断试验 评价、疾病预后研究等。
学习者能够掌握定性资料的统计描述 方法,包括频数分布、集中趋势和离 散趋势的描述等。
统计指标是用来描述数据总体特征的 抽象数值,包括均值、中位数、众数、 标准差等。
在计算统计指标时,需要注意数据的 数量级和单位,以确保结果的准确性 和可比性。
通过计算统计指标,我们可以了解数 据的集中趋势和离散趋势,以及数据 的分布形态。
04 定性资料的分析与应用
在流行病学调查中的应用
描述疾病分布情况
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
料。习惯上以希腊字母 表示总体均数(population
mean),以表示样本均数X (sample mean)。常用计 算方法有直接法和频率表法(亦称加权法)。
2020/6/15
13
1.直接法
X X n
例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP) 含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试 求其算术均数。
1.直接法
G nX 1X 2X 3X n
对数的形式为 G l g 1 lg X 1 lg X 2 lg X n l g 1 lg X
n
n
2020/6/15
17
例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。
2020/6/15
33
一、极差和四分位数间距 1.极差
极差(range,R)亦称全距,即一组变量值中最大值与最 小值之差。R值大,离散度就大;R值小,离散度就小。
A组: R=34-26=8 B组:R=36-24=12 C组:R=34-26=8
极差的特点是计算简单,但只考虑最大值和最小值, 容易受个别极端值的影响,且不能反映组内其他变量值的 离散情况。另外,当调查例数增多时,遇到较大或较小变 量值的机会就大,极差就可能增大。
36~
48~ M 60~
小时
72~
84~
96~
108~
2020/6/15
29
1.百分位数
பைடு நூலகம்
百分位数(percentile,P)是一种位置指标,以Px表示。百 分位数是将频数等分为一百的分位数。一组观察值从小到
大按顺序排列,理论上有x%的变量值比Px小,有(100- x)% 的 变 量 值 比 Px 大 。 故 P50 分 位 数 也 就 是 中 位 数 , 即 P50=M 。百分位数的计算公式为
本例从累计频率看,M位于48~组段,即L=48,i=12,fm=11, ΣfL=19,
2020/6/15 M L fim (n 2 fL ) 4 8 1 1(5 2 1 2 0 1) 95.5 4(5 小时) 28
频数
12 10
n 2
f
L
i fm
(
n 2
fL )
8
6
ΣfL
4
fm
2
0 12~
24~
140
滴度倒数
2020/6/15
22
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
2020/6/15
23
三、中位数及百分位数
1.中位数(median , M)
将一组变量值从小到大按顺序排列,位次居中的变量值 称为中位数。在全部变量值中,大于和小于中位数的变量值 的个数相等。
用中位数表示平均水平主要适用于:①变量值中出现个别 特小或特大的数值;②资料的分布呈明显偏态,即大部分的 变量值偏向一侧;③变量值分布一端或两端无确定数值,只 有小于或大于某个数值;④资料的分布不清。
血清铁含量(μmol/L)
血清铁含量(μmol/L)
图2-2 120名健康成年男子血清铁含量(μmol/L)分布
2020/6/15
9
频数
30 25 20 15 10 5 0
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~
血清铁含量(μmol/L)
2-2 120名健康成年男子血清铁含量(μmmo/L)分布
P75又称为上四分位数(upper quartile ); P25又称为下四分 位数(lower quartile )。
3
一、离散型定量变量的频率分布
例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。
表2-1 1998年某地96名孕妇产前检查次数频率分布
2020/6/15
4
离散型定量变量的频率分布图可用直条图表达,以等 宽直条的高度表示各组频率的多少
频率(%)
30
25
20
15
10
5
0
0
1
2
3
4
5
>5
Px Lfix (nx%fL)
式中L为Px所在组段的下限,i为该组段的组距,fx为该组段
的频数,ΣfL为小于L的各组段累计频数。
2020/6/15
30
如 试求表2-5资料中百分位数P25、P75 。
由表2-5累计频数栏可见P25在“36~”组段,L=36,i=12,
fx=11, ΣfL=8,代入公式得
累计频率找出M所在的组段,然后按下式计算。
ML fim(n2fL)
式中L为中位数所在组段的下限,i为该组段的组距,fm为 该组段的频数,ΣfL为小于L的各组段累计频数。
例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5, 试计算潜伏期的中位数。
2020/6/15
27
表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表
2020/6/15
34
2.四分位数间距(quartile interval,Q)
极差的不稳定主要受两端值的影响,如将两端数据各去掉 一部分,这样所得的数据就比较稳定了。例如两端各去掉25
%,取中间50%的数据的极差,这样可先计算P25和P75,求 出P75与P25之差,即为四分位数间距。
Q= P75-P25
2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距 用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠 近的整数作为组距,本例取i=2。
3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称 为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的 整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括 最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后 一个组段可包括其上限值,如本例28~30。
4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。
2020/6/15
7
表2-2 120名正常成年男子血清铁含量(μmmo/L)频率分布
2020/6/15
8
概率密度(%)
概率密度(%)
12
10
12
8
10
6
8
4
6
4
2
2
0
0
6~ 8~ 6~10~8~ 1120~~ 121~4~14~161~6~ 1188~~20~20~22~ 2224~~ 262~4~28~26~ 28~
52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:①变量值中不能有0;②不能同时有
正值和负值;③若全是负值,计算时可先把负号去掉,得出 结果后再加上负号。
2020/6/15
20
2020/6/15
21
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
本例先求平均滴度的倒数
G 71 3 6 3 2 6 2 6 4 1 4 2 58 1 62 4
G l 1 g l1 g l6 3 g l2 3 g l2 6 g l4 6 g l4 1 g l 2 5 g 8 1 l 1 g 1 2 .8 0 6
7
7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。
本例
XX31.263.9075(U/L) n8
2020/6/15
14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
XfX0 fX0 f n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 XfX0 222818.57(μmmo/L) f 120
述一组资料在某百分位置上的水平;②用于确定正常值范围;
③计算四分位数间距。
2020/6/15
31
四、众数( mode)
一组数据中出现次数最多的数值,叫众数。众数在频率 分布表中是频数最多的那一组的组中值,有时众数在一组 数中有好几个或者没有众数。
例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4 的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42 和54。
P 25 3 61 1(2 1 5 02% 58)4.9 0(1小时)
同 理 可 知 P75 在 “ 72 ~ ” 组 段 , L=72 , i=12, ΣfL=74P ,代75 入7 公式 21 得5(2 5 0 7% 53)7 7.2 3(小时)
fx=5,
百分位数的使用条件同中位数一样。主要用途为:①描
本例n=9,为奇数 MX91X56.36
2
如果n=10例,生存时间为69.6,则中位数为
M ( X 1 0 X 1 1 ) 0 /2 ( X 5 X 6 ) /2 ( 6 . 6 3 6 . 6 ) / 5 2 6 . 6 4 22
2020/6/15
26
(2)频率表法 当例数较多时,先将变量值从小到大编制 频率表,并分别计算累计频数和累计频率(见表2-5)。先从
2020/6/15
18
2.频率表法:当资料中相同变量值的个数f(即频数) 较多时,可通过频率表法计算几何均数,公式为
Glg1flfgX
表2-4 52例慢性肝炎患者的 HBsAg滴度资料