02-医学统计学定量数据的统计描述
医学统计学课件第二章 定量资料的统计描述
第四节
正态分布
一、正态分布的概念和特征
正态分布(normal distribution ):也 称高斯分布,是医学和生物学最常见的连续性 分布。如身高、体重、红细胞数、血红蛋白等。
图2-1 120名12岁健康男孩身高的频数分布
图2-2 频数分布逐渐接近正态分布示意
㈠ 正态分布的函数和图形
第二章 定量资料的统计描述
目 录
第一节 频数分布表
第二节 集中趋势的描述 第三节 离散趋势的描述
第四节 正态分布
学习要求
1.掌握频数分布表的编制步骤和方法 2.熟悉频数分布表的用途 3.掌握集中趋势、离散趋势的概念,适用条件和计
算方法 4.掌握正态分布的概念,意义和特点;正态曲线下 面积的分布规律
159.99 33.46 / 7 S . 0.089 7 1
2
加权法-标准差计算实例:
例
对表2-4资料用加x=17168,∑fx2 =2460040, 代入公式
2460040 17168 / 120 S 5.70(cm) 120 1
算术均数 (arithmetic mean): 简称均数。
适用条件:对称分布或近似对称分布的资料。
以希腊字母μ---总体均数(population mean)
以英文字母 ---样本均数(sample mean)
计算方法
1. 直接法:用于观察值个数不多时
X X n
2.加权法(weighting method):用于变量 值个数较多时
适用条件:对于变量值呈倍数关系或呈对 数正态分布(正偏态分布),如抗体效价及抗体 滴度,某些传染病的潜伏期,细菌计数等。 计算公式:有直接法和加权法。
卫生统计学 第二章 定量资料的统计描述
9
30
25
频 率
20
15 (%) 10
5
0
0
1
2
3
4
5
〉5
产前检查次数
图2-1 某地96名孕妇产前检查次数频率分布
二、连续型定量变量的频率分布
(一)频率分布表 例2-2 :抽样调查某地120名18岁~35岁健 康男性居民血清铁含量(μmol/L)见P12, 试编制频率分布表。
11
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
医学统计学-第二章 统计描述
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
医学统计学定量资料的统计描述和变量分布
②确定Px所在组段:最为关键; ③再按公式计算:
P x
L
i f
x
X%n 100
f
L
式中:L为百分位数所在组段的下限,i为该组段的组距,fx为 该组段的频数,ΣfL为百分位数所在组段的前一组段的累计频 数,n为总例数。
个观察值X1,X2,X3…Xn的乘积开n次方
对数形式:G=lg-1{(lgX1+lgX2+lgX3+…lgXn)/n} =lg-1(∑lgX/n)
例4-2-4 3人血清抗体效价分别为1∶10,1∶100,1∶1000, 求其平均效价。
G lg 1 lg10 lg100 lg1000 lg 1 2 100
组段(mmol·L-1)(1) 2.5 3.0~
3.5~
4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~ 7.0~7.5 合计
划记(2) 一
正 正
正正正正 正正正正正 正正正 正 正一
一
频数(3) 1 8
9
23 25 17 9 6 2 1 101
(二)离散型定量变量的频数表制作
频率:各组的频数除以总例数 n 所得的比值。 频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
累计频数:本组段的频数与以前各组段的频数 相加;
累计频率:每组段的累计频数除以总例数。
由于同质性,所有实测值趋向 (三) 频数分布的两个特同征一数值的趋势称为集中趋势。
集中趋势:血清总胆固醇含量向中央部分集中, 即中等含量者居多,集中在4.0~5.5这3个组段, 这种现象为集中趋势。
医学统计学2. 定量数据的统计描述
S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8
医学统计学(执医)
第一章绪论1.双盲指研究者、受试者及所有与试验相关的人员在整个试验过程中都不知道受试者所接受的是何种处理。
第二章定量数据的统计描述1.平均数是描述一组观察值集中趋势或平均水平的统计指标,它常作为一组数据的代表值用于分析和进行组间的比较。
平均数有多种,常用的有算术均数、几何均数和中位数等。
2.算术均数简称为均数,用于说明一组观察值的平均水平或集中趋势,是描述定量数据的一种最常用的方法。
3.医学研究中有一类比较特殊的资料,如抗体滴度、细菌计数、血清凝集效价、某些物质浓度等,其数据特点是观察值间按倍数关系变化,对此可以计算几何均数以描述其平均水平;有些明显呈偏态分布的资料经过对数变换后呈对称分布,也可以采用几何均数描述其平均水平。
4.在频数分布呈明显偏态或频数分布的两端无确定数值时,描述其集中趋势或平均水平是中位数。
5.百分位数可以用来描述资料的观察值序列在某百分位置的水平。
6.衡量变异程度大小的指标有多种,但大体可以分为两类:一类是按间距计算,有极差和四分位数间距;另一类则按平均差距计算,有方差、标准差和变异系数等。
7.极差也称作全距,即观测值中最大值和最小值之差,用符号R表示,是变异指标中最简单的一种。
极差只是简略地说明一组数据的波动范围。
8.四分位数间距的特点是它不像极差容易受到极端值的影响,但仍未用到每一个具体的观测值,其主要用于描述明显偏态分布资料的变异特征,并常常结合统计图应用。
9.方差与正态分布的形状有明确的关系,它与均数结合能够完整地概括一个正态分布。
在实际中,标准差或方差是使用最多的变异指标。
10.在我们需要对均数相差较大或单位不同的几组观察值的变异程度进行比较,这时直接使用标准差就不再适宜。
这种情况下可以使用变异系数。
第三章正态分布与医学参考值范围1.正态分布是单峰分布,以X=μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。
2.正态分布完全由两个参数μ和σ决定,μ是位置参数,描述正态分布的平均水平,决定着正态曲线在X轴上的位置;σ是形状参数,描述正态分布的变异程度,决定着正态曲线的分布形状。
《医学统计学》第二章定量数据的统计描述
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学:第02讲定量资料的统计描述(1)
第二章 定量变量资料的统计描述
定量变量资料的统计描述过程 (一) 编制频率分布表与绘制频率分布图 (二) 用统计指标描述集中趋势 (三) 用统计指标描述离散趋势 (四) 用统计指标描述分布形态
第一节 频率分布表与频率分布图
频数— 观察数据的相同值个数
频数分布— 观察数据在其取值范围内的分布情况
频率 一个随机试验有几种可能结果,我们常常希望
(二) 描述分布的集中趋势和离 散趋势
1. 集中趋势(平均水平) 描述频数(率)分布集中的 位置,本例数据集中在 18- 组段。
2. 离散趋势(变异程度) 描述数据分散状况,本 例数据分布在7.42-29.64 μmol/L之间
(三) 便于发现某些特大或特小的可疑值 (四) 便于进一步计算指标和统计分析
例2-2 抽样调查某地120名18-35岁健康男性居民血清铁含 量(μmol/L),数据如下(见下页)。 试编制血清铁含量的频率分布表。
从上表可以看出: Á 某地18-35岁健康男性居民— 同质观察对象 Á 这些健康男性的血清铁含量并不完全相等— 同质的基础上存在变异 Á 120名— 样本含量
步骤:
第四步:在第二步得到的数据基础上计算累计频数和累 计频率(见表的第4-5列)。
表 1998年某地96名妇女产前检查次数频率分布
根据上表的频率分布表的数据可以直条图绘制频率分布 图(见P12图2-1),并可结合频率分布表和频率分布图分 析该地孕妇产前检查分布的一些规律。
二、连续型定量变量的频率分布
知道出现某种结果的可能性有多大。例如,某单位配制
一种蜂刺脱敏药。陆续试用于被蜂刺的患者,共计200
人,其中180人用药后症状减轻。有效率是
180 200
医学统计学定量数据的统计描述
方差和标准差
方差
一组数据与其平均值偏差的平方和的平均数。
标准差
一组数据各数值与其平均值的差的平方和的平均数 的平方根。
正态分布和偏态分布
1 正态分布
一组数据的分布符合正态曲线,均值、中位数和众数都在同一位置。
2 偏态分布
一组数据的分布不符合正态曲线,左右两侧的数据出现“偏斜”。
频率分布表和直方图
医学统计学定量数据的统 计描述
这个演示文稿将介绍医学统计学中定量数据的基本统计指标和统计描述方法, 为您提供更深入的理解。
医学统计学的介绍
1 定义
医学统计学是一门研究医 学数据的统计量和结果的 学科。
2 目的
通过数据分析,帮助医学 研究者更好地了解疾病的 特点和分布规律,指导医 学决策和治疗方案。
假设检验和t检验
1 假设检验的基本原理
通过样本数据推断总体参数是否符合某个假 设条件。
2 单样本t检验
一种假设检验方法,用于检验某个样本的均 值是否符合总体的规律。
3 多样本t检验
用于比较两组及以上样本的均值是否存在显 著差异。
4 配对t检验
用于比较同一组样本在两个不同时间或条件 下的差异。
方差分析和回归分析
3 应用
医学统计学应用广泛,包 括临床试验、流行病学调 查、疫情监测和医疗卫生 管理等领域。
基本统计指标
均值
一组数据的平均值,即所有数 值相加后再除以数据的个数。
中位数
一组数据中,位于中间位置的 数值。当数据个数为偶数时, 中位数为中间两个数的平均值。
众数
一组数据中出现次数最多的数 值。可能有多个众数。
频率分布表
一种展示数据分布的表格,包括数值范围、频 数、频率和累计频率等。
02定量数据的统计描述(医学统计学)
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
医学统计学-2-定量资料的统计描述2
4.96 CV = × 100 % = 9.23% 53.72
由此可见,该地20岁男子体重的变异度大 于身高的变异度。
例 某地年龄儿童身高(cm)的变异
年龄组 1~2月 5~6月 3~3.5岁 5~5.5岁 人数 100 120 300 400 均数 56.3 66.5 96.1 107.8 标准差 2.1 2.2 3.1 3.3 变异系数(%) 3.7 3.3 3.2 3.1
24 26 28 30
=30kg X甲 =30kg X乙 =30kg X
丙
32 34
n=5 n=5 n=5
36
分别求出三组的极差 : 甲组:R=34-26= 8(Kg) 乙组:R=36-24= 12(Kg) 丙组:R=34-26= 8(Kg)
优点:方法简单 缺点: ① 不灵敏:反映最大值与最小值之间的差 异,当组内其它数据变动时,全距不变。 ② 不稳定:当样本例数增加时,获得过大 或过小极端变量值的可能性增大,因而全 距可能会变大。 全距对变异度的描述很粗略,用来初步反 映变异的大小。
(四)变异系数(coefficient of variation)
变异系数,简记为CV,是标准差s与均数之 比。 s
CV = X × 100%
变异系数派生于标准差,它的应用价值在 于排除了平均水平的影响,并且消除了单 位。 常用于:① 比较度量衡单位不同的两组或 多组资料的变异度。② 比较均数相差悬殊 的两组或多组资料的变异度。
医学统计学
Medical Statistics
二、离散趋势的描述
例、三组同性别、同年龄儿童的体重(kg)数
据如下,试分析其集中趋势和离散程度。
甲组 26 28 30 32 34 X甲=30kg 乙组 24 27 30 33 36 X乙=30kg 丙组 26 29 30 31 34 X 丙=30kg
统计学简答题
医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
医学统计学课件:02_统计描述(定量定性)
为什么引入相对数?
-----绝对数的局限性 Example: 有效100人。结论:B法优于A法!
某病用A法治疗100人,有效80人;B法治疗150人,
相对数的概念
两个有联系的(数值)指标之比。它表示两 者的对比水平,常以百分数或倍数表示。
同类指标的比值,如: 人口的性比例=男性人数/女性人数、医护比等。 非同类指标的比值,如:医护人员/床位数。
是一样的,但是三组的分布不一样 ,也就是离散程度不同。因此,要 全面把握数据的分布特点,不仅需 要了解数据的集中位置,还要了解 数据的离散状况。
描述计量资料要从两个方面进行:平均水平(集中趋势) 变异程度(离散趋势)
极差(Range) 全距
优点:简便 缺点:1. 只利用了两个极端值 2.样本量大,R也会大 3.不稳定
135 150
73.6
90.0 100.0
140名成年男子红细胞数
频数表的编制步骤
(1)求全距(range,R):即最大值与最小值之差; 本例极差: R=5.95-3.82=2.13 (2) 决定组数和组距:组数通常取10-15个组,组距为全距的十
分之一, 再略加调整;
本例 i= R /10=2.13/10=0.213≈0.20 (3) 列出组段:第一组段必须包括最小值,最后一个组段必须包 含最大值; (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段 的频数。
18 16 14
25
12
病例数
10 8 6 4 2 0 12 24 36 48 60 72 84 96 108 120 潜伏期(h)
20 15
人数
10 5 0 0 5 10 15 20 25 30 35 40 45 50 肌红蛋白含量(ug/mL)
医学统计学- 统计 02 定量资料的统计描述
5.12 5.13 4.58 … … … … … 4.24 5.45 4.32
4.84 4.91 5.14 … … … … … 4.04 5.14 5.46
┊
┊
┊
5.39 5.27 6.18 … … … … … 4.43 4.02 5.86
5.12 5.36 3.86 … … … … … 4.11 3.29 4.18
75.00
100~
39
270
87.66
125~
21
291
94.48
150~
12
303
98.38
175~
5
合计
308
308
100.00
—
—
M
P50
L
i fx
(n x%
f
L
)
50
25 95
(308
50%
81)
69.21(mmol
/
L)
P75
L
i fx
(n x%
fL
)
75
25 55
(308
于描述抗体的平均滴度等。
2. 计算方法: (1) 直接法—观察单位较少
G n x1x2...xn
lg G lg(x1x2...xn ) lg x1 lg x2 ... lg xn lg xi
公式:
n
n
n
G lg1(
lg
xi
)
lg 10 n
xi
n
例题 某地 5 例微丝蚴血症患者治疗 7 年后用间接荧光抗 体试验测得其抗体滴度分别为 1:10,1:20,1:40,1:40, 1:160,求抗体的平均滴度。 解:平均指标选用几何均数(观察值呈倍数关系) 首先取观察值的倒数
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X为组段的组中值。 X=(组段上限+组段下限)/2
【例】120名健康男性居民血清铁含量的频数分布表,试求 其算术均数。
组段 频数 组中值 6~ 1 7 8~ 3 9 10~ 6 11 12~ 8 13 14~ 12 15 16~ 20 17 fX 7 27 66 104 180 340 组段 频数 组中值 18~ 27 19 20~ 18 21 22~ 12 23 24~ 8 25 26~ 4 27 28~30 1 29 fX 513 378 276 200 108 29
概 述 平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数 算术均数(arithmetic mean),等于一个变量所有观 察值的和除以观察值个数。 总体均数用希腊字母μ表示,样本均数用符号 X 表示。 算术均数适用于对称分布的资料,如分布均匀的小 样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响 大于受极小值的影响。
n为总频数。
【例】52例慢性肝炎患者的HBsAg滴度数据表,试求其 几何均数。
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计 频数 2 7 11 13 12 7 52 滴度倒数 16 32 64 128 256 512 lgX 1.20412 1.50515 1.80618 2.10721 2.40824 2.70927 f (lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
中位数 中位数(median,M),是在按大小顺序排列的变 量的所有观察值中,位于正中间的一个或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值, 均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此 对极端值不敏感。
中位数
1、直接法 n为奇数时, n为偶数时,
M =X(n+1)/2 M =(Xn/2+Xn/2+1)/2
算术均数 1、直接法
X
X
n
n为样本量, X为个体观察值。
【例】测得8只正常大鼠血清总酸性磷酸酶(TACP)含 量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
算术均数 2、加权法(频数表法)
X
fX
n
f为组段的频数, n为总频数,
1
【例】某医院测得10个某种传染病人的白细胞计数(×103), 测定值为:11,9,35,5,9,8,3,10,12,8。计算这10 个观察值的几何均数。
几何均数 2、加权法(频数表法)
f lg X G lg n
1
f为组段的频数,
X为组段的组中值,
【例】抽样调查某地120名18~35岁健康男性居民血清铁含 量(μmol/L),试编制此血清铁资料的频数分布表。
7.42 20.38 8.65 8.40 23.02 17.32 21.6 29.64 21.31 19.69 21.46 21.69 9.97 23.90 22.73 17.45 14.94 19.08 20.18 20.52 21.62 24.14 23.07 23.77
12.50
24.75 15.51 19.83
20.40
12.73 10.86 23.12
20.30
17.25 27.81 19.22
19.38
19.09 21.65 19.22
23.11
16.79 16.32 16.72
12.67
17.19 20.75 27.90
23.02
19.32 22.11 11.74
频数表(frequency table)的编制
d、计算各组段频数(frequency):即计算各组段内观察值 的个数。
e、计算各组段频率(percent):即计算各组段频数与总观 察值个数之比,用百分数表示。 f、计算累计频数(cumulative frequency)和累计频率 ( cumulative percent):累计频数是由上至下将频数累加; 累计频率是由上至下将频率累加。
【例】抽样调查某地120名18~35岁健康男性居民血清铁含 量(μmol/L),试编制此血清铁资料的频数分布表。
频 率 密 20 度
30
10
0 6 8 10 12 14 16 18 20 22 24 26 28
血清铁( μ mol/L )
图 120名健康男性居民血清铁含量频数分布图
集中趋势的统计指标
百分位数
Px L i (nx % fx
fL )
L、i、fx分别为所在组段的下限、组距和频数,n 为总频数,∑fL为所在组段之前各组段的累计频数。
【例】101名正常人血清肌红蛋白含量(μg/ml)的频数分布 表。试求其百分位数 P25% 、 P50% 、 P75% 。
组段 0~ 5~ 10~ 15~ 20~ 组中值 2.5 7.5 12.5 17.5 22.5 频数 1 2 4 6 7 累计频数 1 3 7 13 20 组段 25~ 30~ 35~ 40~ 45~50 组中值 27.5 32.5 37.5 42.5 47.5 频数 9 13 23 34 2 累计频数 29 42 65 99 101
【例】101名正常人血清肌红蛋白含量(μg/ml)的频数分 布表。试求其中位数。
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 组中值 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 频数 1 2 4 6 7 9 13 23 34 2 累计频数 1 3 7 13 20 29 42 65 99 101
18.36
14.27 14.89 24.52
23.04
17.40 18.37 19.26
24.22
22.55 19.50 26.13
24.13
17.55 17.08 16.99
21.53
16.10 18.12 18.89
11.09
17.98 26.02 18.46
18.89
20.13 11.34 20.87
24.36
19.59 13.17 24.66
25.61
19.12 17.55 14.18
19.53
15.31 19.26 16.52
表 120名健康男性居民血清铁含量频数分布表
组段 频数 6~ 1 8~ 3 10~ 6 12~ 8 14~ 12 16~ 20 18~ 27 20~ 18 22~ 12 24~ 8 26~ 4 28~30 1 合计 120
频数表(frequency table)的编制
a、计算全距(range,R):是一组数据的最大值与最小值 之差。R=Max-Min
b、确定组数与组距 样本量在100例左右,组数选择8~15之间,一般取10组左 右。 组距≈全距/组数 c、确定组限 第一组段必须包括最小值,最后一组段必须包括最大值。 最后一组段包括最大值,且一般情况下应包含该组段上 限,其余各组段区间左闭右开。
百分位数 百分位数不论资料分布类型均可计算,在实际工作 中常用于确定医学参考值范围;在假设检验中用作拒 绝或不拒绝检验假设的界值。 百分位数并非由全部观察值综合计算得来,因此, 它不如均数和标准差精确;然而中间部分的百分位数 因不受资料中个别极端数据的影响,具有较好的稳定 性。
小 结
指标
意义
适用场合
常用的有极差、四分位数间距、方差、标准差和变 异系数。
极 差 极差(range,R),等于一个变量所有观察值中最 大值与最小值之间的差值。
R =Max - Min
【例】A组:26,28,30,32,34;B组:24,27,30,33, 36;C组:26,29,30,31,34。试用极差说明三组数据 的离散状况。
18.26
21.00 13.81 17.51
23.29
14.56 10.25 13.12
17.67
19.89 15.94 11.75
15.38
19.82 15.83 17.40
18.61
17.48 18.54 21.36
17.14
14.77 21.75 12.65
13.77
14.37 19.47 18.48
极 差 缺点: ①没有利用观察值的全部信息,不能反映其它数据 的离散度; ②各样本含量大小悬殊时,不宜比较其极差; ③极差的抽样误差也较大,所以不够稳定。
极差仅适用于对未知分布的小样本资料作粗略的分析。
四分位数间距 四分位数,是统计学对特殊的三个百分位数P25% 、 P50% 和 P75%的统称。 四分位数间距(quartile range,Q), 等于第三四分 位数与第一四分位数之间的差值。
【例】某药厂观察9只小鼠口服高山红景天醇提物(RSAE) 后在乏氧条件下的生存时间(分钟)为:49.1,60.8,63.3, 63.6,63.6,65.6,65.8,68.6,69.0。试求其中位数。
中位数
2、频数表计算法
M L (
0.5n fL
fM
) iM
L、iM、fM分别为M所在组段的下限、组距和频数, n为总频数,fL为所在组段之前各组段的累计频数。
均数
几何均数 中位数
个体的平均值
平均倍数 位次居中的观察值
对称分布,特别是正态分布资料。
取对数后对称分布。 ①非对称分布;②半定量资料; ③末端无确切数值;④分布不明。