【医学统计学】2.1定量资料的统计描述
医学统计学-定量资料的统计描述
11/21/2014
1
计量资料的统计描述
统计图表
频数表 频数/频率图 集中趋势 离散趋势
统计指标
2
频数表
某市1995年104名7岁男童身高资料
119.6 121.5 126.1 124.0 125.3 113.6 123.1 116.7 111.2 116.7 123.3 121.9 125.0 126.4 124.6 123.6 127.6 122.7 132.4 124.3 129.9 120.3 125.1 125.9 125.6 118.7 123.6 120.5 126.6 129.3 124.2 128.5 125.7 117.0 123.2 118.9 119.1 126.4 113.6 127.8 121.7 124.7 126.5 115.4 126.6 130.4 121.9 115.5 130.2 125.9 115.0 121.7 122.8 124.7 122.0 124.9 118.0 119.2 128.3 110.5 120.4 121.3 120.1 120.1 127.6 125.8 117.0 114.0 118.2 124.8 122.1 124.1 118.2 123.0 125.1 126.1 114.6 123.4 124.7 115.2 127.0 119.9 122.5 122.8 120.1 120.9 123.9 126.6 122.4 119.4 135.3 121.7 127.7
19
偏态分布资料统计描述---百分位 数
百分位数(percentile):位置指标,用于描述观察 值序列中某百分位上的数值大小
医学统计学课件第二章 定量资料的统计描述
第四节
正态分布
一、正态分布的概念和特征
正态分布(normal distribution ):也 称高斯分布,是医学和生物学最常见的连续性 分布。如身高、体重、红细胞数、血红蛋白等。
图2-1 120名12岁健康男孩身高的频数分布
图2-2 频数分布逐渐接近正态分布示意
㈠ 正态分布的函数和图形
第二章 定量资料的统计描述
目 录
第一节 频数分布表
第二节 集中趋势的描述 第三节 离散趋势的描述
第四节 正态分布
学习要求
1.掌握频数分布表的编制步骤和方法 2.熟悉频数分布表的用途 3.掌握集中趋势、离散趋势的概念,适用条件和计
算方法 4.掌握正态分布的概念,意义和特点;正态曲线下 面积的分布规律
159.99 33.46 / 7 S . 0.089 7 1
2
加权法-标准差计算实例:
例
对表2-4资料用加x=17168,∑fx2 =2460040, 代入公式
2460040 17168 / 120 S 5.70(cm) 120 1
算术均数 (arithmetic mean): 简称均数。
适用条件:对称分布或近似对称分布的资料。
以希腊字母μ---总体均数(population mean)
以英文字母 ---样本均数(sample mean)
计算方法
1. 直接法:用于观察值个数不多时
X X n
2.加权法(weighting method):用于变量 值个数较多时
适用条件:对于变量值呈倍数关系或呈对 数正态分布(正偏态分布),如抗体效价及抗体 滴度,某些传染病的潜伏期,细菌计数等。 计算公式:有直接法和加权法。
医学统计学-第二章 统计描述
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
卫生统计学第二章定量资料的统计描述
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定
医学统计学:定量资料的统计描述
统计学家在实际应用时发现,按 x x 2 式求出的值总是比实际偏小,于是再
n
做一些校正,得到 x x 2 。
n 1
这就是离散趋势的衡量指标——标准差,其表达式是 S= x x 2 ,计算式是
n 1
第 3 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
x2 x2
S
n。
n 1
依此,例 1 的四组数据可得到标准差为:1.5811,7.9057,15.8113,9.5131。
《医学统计学》定量资料的统计描述讲稿
定量资料的统计描述
课时:3 学时
教学目的与要求: 正确理解平均水平和离散趋势的概念 学会均数、标准差、变异系数的计算 理解频数分布表的含义 理解正态分布的特征,学会医学参考值范围的估算
本课重点与难点: 1、求均数和标准差是定量资料统计描述的基本功。关键还要记
第 2 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
三组数据更加松散,第四组数据有紧有松,可是均数是一模一样,怎么谈得上是“特 征”呢?
这提示我们,对于一组数据,光靠一个指标来描述“特征”是不够的,就像要记 住一个人的特征,不能只看眼睛,要眼睛加上嘴巴,或鼻子加上身材,等等。看来我 们要再寻找一个描述数据内在松紧形式的指标。
X2 =170.0cm,S2 =7.1cm,如何评价? 从总体上说,两个学校三年级男生的身高是一样的(因为身高的平均水平一样),
但从个体上看,甲校男生的身高十分一致(因为身高的标准差很小),形象地说,是 标准的“仪仗队”,而乙校男生的高度就显得参差不齐(因为身高的标准差很大)。
也可以用变异系数(CV)来考量。 CV= S 100%
离均差平方和—— x x2 ,它克服了离均差之和恒等于零的缺点,在统计学中
医学统计学定量资料的统计描述和变量分布
②确定Px所在组段:最为关键; ③再按公式计算:
P x
L
i f
x
X%n 100
f
L
式中:L为百分位数所在组段的下限,i为该组段的组距,fx为 该组段的频数,ΣfL为百分位数所在组段的前一组段的累计频 数,n为总例数。
个观察值X1,X2,X3…Xn的乘积开n次方
对数形式:G=lg-1{(lgX1+lgX2+lgX3+…lgXn)/n} =lg-1(∑lgX/n)
例4-2-4 3人血清抗体效价分别为1∶10,1∶100,1∶1000, 求其平均效价。
G lg 1 lg10 lg100 lg1000 lg 1 2 100
组段(mmol·L-1)(1) 2.5 3.0~
3.5~
4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~ 7.0~7.5 合计
划记(2) 一
正 正
正正正正 正正正正正 正正正 正 正一
一
频数(3) 1 8
9
23 25 17 9 6 2 1 101
(二)离散型定量变量的频数表制作
频率:各组的频数除以总例数 n 所得的比值。 频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
累计频数:本组段的频数与以前各组段的频数 相加;
累计频率:每组段的累计频数除以总例数。
由于同质性,所有实测值趋向 (三) 频数分布的两个特同征一数值的趋势称为集中趋势。
集中趋势:血清总胆固醇含量向中央部分集中, 即中等含量者居多,集中在4.0~5.5这3个组段, 这种现象为集中趋势。
医学统计学2. 定量数据的统计描述
S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8
《医学统计学》第四章定性资料的统计描述
1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3
否
265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听
率
某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
《医学统计学》第二章定量数据的统计描述
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学:第02讲定量资料的统计描述(1)
第二章 定量变量资料的统计描述
定量变量资料的统计描述过程 (一) 编制频率分布表与绘制频率分布图 (二) 用统计指标描述集中趋势 (三) 用统计指标描述离散趋势 (四) 用统计指标描述分布形态
第一节 频率分布表与频率分布图
频数— 观察数据的相同值个数
频数分布— 观察数据在其取值范围内的分布情况
频率 一个随机试验有几种可能结果,我们常常希望
(二) 描述分布的集中趋势和离 散趋势
1. 集中趋势(平均水平) 描述频数(率)分布集中的 位置,本例数据集中在 18- 组段。
2. 离散趋势(变异程度) 描述数据分散状况,本 例数据分布在7.42-29.64 μmol/L之间
(三) 便于发现某些特大或特小的可疑值 (四) 便于进一步计算指标和统计分析
例2-2 抽样调查某地120名18-35岁健康男性居民血清铁含 量(μmol/L),数据如下(见下页)。 试编制血清铁含量的频率分布表。
从上表可以看出: Á 某地18-35岁健康男性居民— 同质观察对象 Á 这些健康男性的血清铁含量并不完全相等— 同质的基础上存在变异 Á 120名— 样本含量
步骤:
第四步:在第二步得到的数据基础上计算累计频数和累 计频率(见表的第4-5列)。
表 1998年某地96名妇女产前检查次数频率分布
根据上表的频率分布表的数据可以直条图绘制频率分布 图(见P12图2-1),并可结合频率分布表和频率分布图分 析该地孕妇产前检查分布的一些规律。
二、连续型定量变量的频率分布
知道出现某种结果的可能性有多大。例如,某单位配制
一种蜂刺脱敏药。陆续试用于被蜂刺的患者,共计200
人,其中180人用药后症状减轻。有效率是
180 200
医学统计学定量数据的统计描述
方差和标准差
方差
一组数据与其平均值偏差的平方和的平均数。
标准差
一组数据各数值与其平均值的差的平方和的平均数 的平方根。
正态分布和偏态分布
1 正态分布
一组数据的分布符合正态曲线,均值、中位数和众数都在同一位置。
2 偏态分布
一组数据的分布不符合正态曲线,左右两侧的数据出现“偏斜”。
频率分布表和直方图
医学统计学定量数据的统 计描述
这个演示文稿将介绍医学统计学中定量数据的基本统计指标和统计描述方法, 为您提供更深入的理解。
医学统计学的介绍
1 定义
医学统计学是一门研究医 学数据的统计量和结果的 学科。
2 目的
通过数据分析,帮助医学 研究者更好地了解疾病的 特点和分布规律,指导医 学决策和治疗方案。
假设检验和t检验
1 假设检验的基本原理
通过样本数据推断总体参数是否符合某个假 设条件。
2 单样本t检验
一种假设检验方法,用于检验某个样本的均 值是否符合总体的规律。
3 多样本t检验
用于比较两组及以上样本的均值是否存在显 著差异。
4 配对t检验
用于比较同一组样本在两个不同时间或条件 下的差异。
方差分析和回归分析
3 应用
医学统计学应用广泛,包 括临床试验、流行病学调 查、疫情监测和医疗卫生 管理等领域。
基本统计指标
均值
一组数据的平均值,即所有数 值相加后再除以数据的个数。
中位数
一组数据中,位于中间位置的 数值。当数据个数为偶数时, 中位数为中间两个数的平均值。
众数
一组数据中出现次数最多的数 值。可能有多个众数。
频率分布表
一种展示数据分布的表格,包括数值范围、频 数、频率和累计频率等。
02定量数据的统计描述(医学统计学)
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
卫生统计学 定量资料的统计描述
均数的特性
各观察值与均数之差(离均差)的总和等于零,即:
(X X ) 0
各观察值的离均差平方和最小,即:
( X X ) ( X a) , a X
2 2
均数是一组观察值最理想的代表值。
均数的应用
均数反映一组同质观察值的平均水平,并可作为样 本的代表值与其他样本进行比较。
中男生引体向上完成次数的情况,根据该资料编制频数
表。 本资料的引体向上次数是一个定量变量,且属于离散型。 欲编制其频数分布表: 第一步:整理出变量值的各个取值(见表的第1列);
第二步:清点出各个取值出现的频数(见表的第2列);
第三步:计算各个取值出现的频率(见表的第3列);
第四步:在第二步得到的数据基础上计算累计频数和累 计频率(见表的第4-5列)。
表2 2005年某市120名9岁男孩肺活量(L)均数计算表
fX X f 5 1.045 4 2.345 200.800 5 4 120 1.673(L)
均数注意事项
加权法中X1, X2, , Xk与f1, f2, , fk分别为频数表资料 中各组段的组中值和相应组段的频数(或相同观察值 与其对应的频数)。
统计推断。
定量变量资料的统计描述
编制频数分布表和绘制频数分布图
集中位置的统计描述
离散趋势的统计描述 分布形态的统计描述
第一节
频数分布表
频数— 观察数据的相同值个数 频数分布— 观察数据在其取值范围内的分布情况 频率— 一个随机试验有几种可能结果,我们常常希 望知道出现某种结果的可能性有多大。例如,某单 位配制一种蜂刺脱敏药。陆续试用于被蜂刺的患者, 共计200人,其中180人用药后症状减 轻。
统计学简答题
医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
医学统计学课件:02_统计描述(定量定性)
为什么引入相对数?
-----绝对数的局限性 Example: 有效100人。结论:B法优于A法!
某病用A法治疗100人,有效80人;B法治疗150人,
相对数的概念
两个有联系的(数值)指标之比。它表示两 者的对比水平,常以百分数或倍数表示。
同类指标的比值,如: 人口的性比例=男性人数/女性人数、医护比等。 非同类指标的比值,如:医护人员/床位数。
是一样的,但是三组的分布不一样 ,也就是离散程度不同。因此,要 全面把握数据的分布特点,不仅需 要了解数据的集中位置,还要了解 数据的离散状况。
描述计量资料要从两个方面进行:平均水平(集中趋势) 变异程度(离散趋势)
极差(Range) 全距
优点:简便 缺点:1. 只利用了两个极端值 2.样本量大,R也会大 3.不稳定
135 150
73.6
90.0 100.0
140名成年男子红细胞数
频数表的编制步骤
(1)求全距(range,R):即最大值与最小值之差; 本例极差: R=5.95-3.82=2.13 (2) 决定组数和组距:组数通常取10-15个组,组距为全距的十
分之一, 再略加调整;
本例 i= R /10=2.13/10=0.213≈0.20 (3) 列出组段:第一组段必须包括最小值,最后一个组段必须包 含最大值; (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段 的频数。
18 16 14
25
12
病例数
10 8 6 4 2 0 12 24 36 48 60 72 84 96 108 120 潜伏期(h)
20 15
人数
10 5 0 0 5 10 15 20 25 30 35 40 45 50 肌红蛋白含量(ug/mL)
医学统计学- 统计 02 定量资料的统计描述
5.12 5.13 4.58 … … … … … 4.24 5.45 4.32
4.84 4.91 5.14 … … … … … 4.04 5.14 5.46
┊
┊
┊
5.39 5.27 6.18 … … … … … 4.43 4.02 5.86
5.12 5.36 3.86 … … … … … 4.11 3.29 4.18
75.00
100~
39
270
87.66
125~
21
291
94.48
150~
12
303
98.38
175~
5
合计
308
308
100.00
—
—
M
P50
L
i fx
(n x%
f
L
)
50
25 95
(308
50%
81)
69.21(mmol
/
L)
P75
L
i fx
(n x%
fL
)
75
25 55
(308
于描述抗体的平均滴度等。
2. 计算方法: (1) 直接法—观察单位较少
G n x1x2...xn
lg G lg(x1x2...xn ) lg x1 lg x2 ... lg xn lg xi
公式:
n
n
n
G lg1(
lg
xi
)
lg 10 n
xi
n
例题 某地 5 例微丝蚴血症患者治疗 7 年后用间接荧光抗 体试验测得其抗体滴度分别为 1:10,1:20,1:40,1:40, 1:160,求抗体的平均滴度。 解:平均指标选用几何均数(观察值呈倍数关系) 首先取观察值的倒数
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频数表
组段
64.0~ 66.0~ 68.0~ 70.0~ 72.0~ 74.0~ 76.0~ 78.0~ 80.0~ 82.0~ 84.0~86.0 合计
2 统计描述
青岛大学医学院公共卫生学院 流行病与卫生统计学教研室
姜秀波
定量资料的统计分析
定量资料的统计描述
集中趋势指标 离散趋势指标
定量资料的统计推断
总体均数的估计 假设检验
2.1 定量资料的统计描述
主要内容
•频数分布表 •集中趋势指标 •离散趋势指标
定量资料的 频数/频率分布表
(frequency distribution table)
集中趋势指标
(central tendency)
平均数(average)
定义:描述一组性质相同的定量观察值的 集中趋势、中心位置或平均水平的指标。 平均数是一组定量数据典型的或有代表性 的值。
常用平均数的种类
算术均数 中位数 几何均数 ➢众数* ➢调和均数*
一、算术均数
(arithmetic mean)
表 3-2 100 名健康女大学生血清总蛋白含量的频数分布表
含量(g/L)
划记
频数(人数)
64.0~ III
3
66.0~
IIIII
5
68.0~
IIIII III
8
70.0~
IIIII IIIII I
11
72.0~
IIIII IIIII IIIII IIIII IIIII IIIII
25
74.0~
IIIII IIIII IIIII IIIII IIIII IIII
2.可以根据频数分布的不同类型,选 择适当的统计方法,进行计算与分 析。
频数分布的两个特征:
①集中趋势:变量值集中位置。
②离散(/中)趋势:变量值围绕集中位置的分布情况。离“中心”位置 越远,频数越小;且围绕“中心”左右对称。
频数分布的类型:
对称分布
例题直方图
偏态分布(集中位置偏向小的一侧叫正偏态,偏向大的一侧叫负偏
100.0 —
频数表的概念
100名健康女大学生血清总蛋白含量的频数 分布
25 20 15 10 5 0
64~ 66~ 68~ 70~ 72~ 74~ 76~ 78~ 80~ 82~ 84~
血清数表的意义:
1.由频数表可以看出频数分布的两个 重要特征:集中趋势和离散趋势。
24
76.0~
IIIII IIIII
10
78.0~
IIIII II
7
80.0~
IIIII I
6
82.0~
0
84.0~ I
1
合计
—
100
步骤
编制频数表的步骤
1.求全距(R)。R=最大值-最小值=84.3-64.3=20(g/L) 2.确定组数和组距。频数表
一般设8-15组。各组段的起点和终点分别称为下限 和上限。
态)。偏态分布图示
120
100
80
60
40
20
0 2.50
3.00
3.50
4.00
4.50
5.00
5.50
6.00
6.50
7.00
7.50
Std. Dev = .85 Mean = 4.90 N = 816.00
8.00
CHO
曲线下面积的含义
400
300
200
100
Std. Dev = 1.12
75.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4
步骤
•频数:将定量资料的变量值按大小进行 分组,则某组段内所包含的变量值的个 数称为频数,以f 表示。频率是某组段 频数在总例数中所占的百分比。
•频数表(/频率表):表示各组段及其对 应的频数(/频率)的表格称为频数表或 频数分布表。频数分布表格
算术均数简称为均数(mean)
1.适用资料:适用于正态分布或近似
正态分布资料。
2.符号:样本均数 3.计算:
x,总体均数μ。
(1)不分组资料的均数计算法
x x1 x2 xn x
n
n
(2)分组资料的均数计算法
编制频数分布表
注意:合理分组才能求均数,否则没有意义 。
组中值
65.0 67.0 69.0 71.0 73.0 75.0 77.0 79.0 81.0 83.0 85.0 —
频数分布表
频数 f
3 5 8 11 25 24 10 7 6 0 1
100
频率%
3.0 5.0 8.0 11.0 25.0 24.0 10.0 7.0 6.0 0 1.0
100.0
累计频率% 3.0 8.0 16.0 27.0 52.0 76.0 86.0 93.0 99.0 99.0
73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5
75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3
Mean = 1.55
0
N = 1049.00 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00
TG
频数表的用途:
1.揭示资料的分布特征和分布类型;
2.发现特大值和特小值;
3.由组中值近似代表原始数据,便于 手工计算集中趋势指标与离散趋势 指标。
表 3-1 上海医科大学健康女大学生 100 名血清总蛋白含量(单位:g/L) 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0