计量资料汇总统计描述
2 计量资料的统计描述指标
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
计量资料统计描述
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料
医学统计学计量资料的统计描述
正确应用集中趋势指标
• 算数均数:适用于单峰对称分布资料; • 几何均数:适用于变量值呈等比级数关系和呈对
数正态分布的资料; • 中位数和百分位数:适用于任何分布的资料,但
在样本含量较少时不稳定,越靠两端越不稳定; • 中位数在抗极端值的影响方面,比均数具有较好
• 计算公式: Q= QU - QL = P75 - P 25 • 意义: Q值越大,说明变异程度越大。
• 特点:包括了居于中间位置50%的变量值,该指
标比全距稍稳定,但仍未考虑每个观察值。
某传染性疾病的潜伏期(天)
平均偏差(mean difference)
• 定义:各观察值偏离平均数的绝对平均差距 • 计算公式:
差、标准差。
极差(range)
• 表示法:R • 定义:一组资料中最大值与最小值之差。
• 计算公式: R = max-min
• 意义:反映个体变异范围的大小。R越大,变异度(离
散程度)越大, R甲=188-142=46、R乙=166-158=8
• 优点:计算简便,概念清晰,如说明传染病、食物中毒 的最长、最短潜伏期等
125.5296
若应用算术均数为:
问题:
• 为什么表达该资料的平均水平宜用几何均 数?
• 几何均数适用条件是什么? • 何种情况不宜计算几何均数? • 利用频数表计算几何均数时应注意什么?
几何均数的应用
• 几何均数适用于变量值呈等比级数关系和呈对数 正态分布的资料;有些呈轻度偏态分布的资料经 过对数变换后呈对称分布的资料。
• 算术均数 • 几何平均数 • 中位数 • 众数
算术均数(mean)
计量资料的统计描述
分 层 抽 样
整 群 抽 样
样
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,
计量资料的统计描述
1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
2 11 18 36 22 8 3
2 4 8 16 32 64 128
0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216
含义 离散趋势是指计量资料所有观察值偏离中
心位置的程度,反映一组同质变量值相互之间参
差不齐的程度,即离散度或变异度。
常用指标 全距、方差、标准差、变异系数。
1、全距(range, R)
又称极差,是一组变量值中最大值与最小值的差。
优点 缺点
计算简单 仅考虑了资料的最大值和最小值,不能反映
组内其它数据的变异程度。
是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:
u
X
式中的u值称为标准正态变量,其频数曲线图即为标准正
态分布( u分布),一般的正态分布N(μ,σ2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。
是一个度量相对离散程度的指标。
例1: 身高 体重
CV = 4.95/166.06× 100% = 2.98% CV = 4.96/53.72 × 100% = 9.23%
例2:新生儿 CV = 3/50 × 100%= 6%
几种重要的连续性随机变量分布:
正态分布 标准正态分布X75%统
计量资料的统计描述
中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。 百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
计算器功能简介
MODE或D·R·G:模式转换
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x ×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
H = R 1 + 3 . 322 lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势 集中趋势。 集中趋势 另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势 离散趋势。 离散趋势 集中趋势和离散趋势是频数分布的两个重要特征。
计量资料和计数资料的统计方法
计量资料和计数资料的统计方法计量资料和计数资料是统计学中常见的两种数据类型,它们在统计分析中有着不同的处理方法和应用场景。
本文将分别介绍计量资料和计数资料的统计方法,并探讨其在实际问题中的应用。
一、计量资料的统计方法计量资料是指可以用数值表示的数据,例如身高、体重、温度等。
统计学中常用的计量资料分析方法有描述统计和推断统计。
1. 描述统计描述统计是对收集到的数据进行总结和描述的方法。
常用的描述统计量有平均值、中位数、众数、标准差、方差等。
平均值是计量资料最常用的描述统计量,它可以反映数据的集中趋势。
中位数和众数则可以反映数据的位置和分布情况。
标准差和方差则可以衡量数据的离散程度。
2. 推断统计推断统计是基于样本数据对总体进行推断的方法。
在推断统计中,常用的统计分析方法有假设检验和置信区间估计。
假设检验用于验证关于总体的某个参数的假设,例如总体均值是否等于某个特定值。
置信区间估计则可以给出总体参数的一个区间估计,例如总体均值的置信区间。
二、计数资料的统计方法计数资料是指不连续的、以计数形式出现的数据,例如人数、次数、事件发生次数等。
计数资料的统计方法主要包括频数分布、列联表分析和卡方检验。
1. 频数分布频数分布是计数资料最常用的分析方法之一,它将数据按照不同的取值进行分类,并统计每个类别的频数。
通过频数分布可以直观地了解数据的分布情况和特征。
2. 列联表分析列联表分析是用于分析两个或多个分类变量之间关系的方法。
通过构建列联表可以清晰地展示不同变量之间的交叉频数,并计算各个格子的期望频数和卡方值。
列联表分析可以帮助我们判断两个变量之间是否存在相关性。
3. 卡方检验卡方检验是用于检验两个或多个分类变量之间是否存在显著差异的统计方法。
卡方检验基于计数资料的频数分布和列联表,通过计算观察频数与期望频数的差异,并进行假设检验来判断变量之间是否独立。
三、计量资料和计数资料的应用计量资料和计数资料在实际问题中具有广泛的应用。
第3讲 计量资料与计数资料的统计描述
1、计量资料 (measurement data)
用仪器、工具等测量方法获得的数据,又称数值变量。 特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.
2、计数资料 (count data)
按某种属性分类计数后得到的数据,又称无序分类变量,有二分 类和多分类两种情形.
366
28 34
35
10
34
78
57
248
30 11
14
11
22
39
17
114
32 14
2
3
14
24
3
60
34
4
2
5
3
12
2
28
36
2
1
1
4
5
1
14
38
3
1
1
0
2
1
8
40
0
0
2
0
0
0
2
合计 207
141
102
208 537 206 1401
2、常用相对数指标
计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数 等.但绝对数不具可比性,需要计算相对数.
2、三线表
表号 标题(包括何时、何地、何事)
横标目的 总标目 横标目
┋
总标目
纵标目 纵标目
××× ×××
××
××
总 标 目(单位)
纵标目
纵标目
××. ×× ××. ××
×. ×× ×. ××
┋ ┋ 合计
┋ ┋ ×××
┋ ┋ ×××
┋ ┋ ×:
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
计量资料的统计描述
频数表法
i Px Lx ( nx% f L ) fx
其中
Lx 第x百分位数所在组段下限
i 组距
f x 第x百分位数所在组段的频数
f 第x百分位数所在组段前一组的累计频数
L
[案例4-10] 根据表4-4,计算P25 、P75 。
p25 i L ( n.x % f L ) fx
均数
几何均数 中位数
平均数量水平
平均增减倍数 位次居中的观察值 水平
对称分布,尤其是正 态分布 等比、对数正态分布 偏态、分布不明确、 分布末端无确定值
百分位数 ( Percentile,Px )
观察值从小到大排列,处于第x百分位位 置上的数值,用 Px 表示。一个百分位数将全 部数据分成两部分,有x%的数据小于Px,有 (100-x)%的数据大于Px
0.6021 2.7093 7.2246 15.5051 23.4806 21.0720 16.8574 86.9977(
f ilg xi
)
1 lg 4 3 lg 8 lg 256 1 86.9977 G lg ( lg ( ) 54 1 3 7 50
滴度倒数 xi
(3)
频数 fi
(2)
lgxi
(4)
fi lgxi
(5)
1/4 1/8 1/16 1/32 1/64 1/128 1/256 合 计
1 3 6 10 13 10 7 50 (
fi
4 8 16 32 64 128 256 ) -
0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 -
141.5 151.1 144.6 151.8 149.5 153.6 140.5 150.3 141.3 153.9 140.8 141.8 140.7 151.4 139.1 145.8 148.4 136.5
计量资料的统计描述
第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
第二章 计量资料的统计描述
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
统计学-计量资料的统计描述方法
计量资料得统计描述方法怎样表达一组数据?描述计量资料得常用指标—A 、描述平均水平(中心位置):均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 与标准差standard deviation1、 (算术)均数X均数就是描述一组计量资料平均水平或集中趋势得指标。
*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别就是正态分布资料。
2、 中位数(median )M 与百分位数(percentile)A 、中位数M就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限得资料。
计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位得数值即为第X 百分位数。
中位数就是第百分50位数。
四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。
百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有得教材X= r ;L f ∑=C)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天例:求频数表得第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在得组段:n X %=130×25%=32、5,65~组最终得累积频数=34,32、5落在65~组段内;P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90P 75=74+3x[(130x75%-85)/19]=74、66四分位数间距=65、90~74、66 (次/分)3、几何均数G (geometric mean)应用:适用于成等比数列得资料,特别就是服从对数正态分布资料。
计量资料的统计描述
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03
计量资料与计数资料统计描述
第3讲 计量与计数资料的统计描述
本讲结构
一、数据类型的分类 二、计量资料的统计描述 三、SPSS实现计量资料的统计描述 四、计数资料的统计描述 五、统计表与统计图
一、数据类型的分类
1、计量资料 (measurement data)
用仪器、工具等测量方法获得的数据,又称数值变量。 特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.
频数表的编制步骤
(1)求极差(range):即最大值与最小值之差,又称为全距。 (2)数据分组: 由样本容量n确定组数、通常分10-15个组; 一般采取等距分 组, 组距=极差/组数。 (3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包 含最大值,其它组段上限值忽略。 (4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
住院 天数
5 5 6 5 11 2 4 3 7
职业
无 无 管理员 无 商业 无 无 无 干部
文化 程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
分娩 方式 顺产 助产 顺产 剖宫产 剖宫产 顺产 助产 助产 剖宫产
妊娠 结局 足月 足月 足月 足月 足月 早产 早产 足月 足月
计量资料
计数资料
大学
32
无
小学
27
无
中学
29
无
大学
25
农民
中学
26无小学源自分娩方式 顺产 助产 顺产 顺产 顺产
剖宫产 顺产
剖宫产 顺产 顺产
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 足月 足月
按年龄(2岁一组)与职业整理
医学统计学:计量资料的统计描述
方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反
计量资料的统计描述
4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency
计量资料描述
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
统计学计量资料的统计描述方法
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A、描述平均水平(中心位置):均数X、中位数和百分位数、几何均数G、众数(mode)B、描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数mean和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M和百分位数(percentile)A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数注:有的教材X= r ; L f =C例:求频数表的第25、第75百分位数(四分位数间距)组段频数f 累积频数∑f 56~2 2 59~5 7 62~12 19 ∑f 25 L 25 65~15 34 P 25在此 68~25 59 71~26 85 ∑f 75 L 75 74~19 104 P 75在此 77~15 119 80~10 129 83~851 130 合 计 130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段② 确定Px 所在组段的X L 、X i 、f x 、L Σf③ P 25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G(geometric mean)应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 计量资料的统计描述一、教学大纲要求(一)掌握容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X 表示,其计算方法如下:(1)直接法:直接用原始观测值计算。
nX X ∑= (2-2)(2)加权法:在频数表基础上计算,其中X 为组中值,f 为频数。
∑∑=ffX X (2-3) 2.几何均数几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G 。
其计算公式为:(1)直接法⎪⎭⎫ ⎝⎛∑=-n X G lg lg 1 (2-4) (2)加权法⎪⎪⎭⎫ ⎝⎛∑∑=-f X f G lg lg 1 (2-5) 3.中位数中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
为奇数时 ⎪⎭⎫ ⎝⎛+=21n X M (2-6)为偶数时 ()(1)2212n nM X X +⎛⎫=+ ⎪⎝⎭(2-7)2-1 常用平均数的意义及其应用场合平均数 意义 应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数 平均增(减)倍数 等比资料;对数正态分布中位数 位次居中的观察值水平 偏态分布;分布不明;分布末端无确定值(一)反映数据变异程度大小的变异指标变异指标的应用亦根据资料的不同而选取不同指标进行描述。
常用的变异指标有极差、四分位数间距、方差、标准差和变异系数,尤其是方差和标准差更为常用。
1.极差极差(range )亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
min max X X R -= (2-1) 2.百分位数与四分位数间距(1)百分位数(percentile )是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。
百分位数的另一个重要用途是确定医学正常参考值围。
百分位数用P x 表示,0< x <100,如25%位数表示为P 25。
在频数表上,百分位数的计算公式为:()∑-⋅+=L xxx x f x n f i L P % (2-8) (2)四分位数间距(inter-quartile range )是由第3四分位数(Q 3= P 75)和第1四分位数(Q 1= P 25)相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,比极差稳定。
其计算公式:31QR Q Q =- (2-9)3.方差方差(variance )表示一组数据的平均离散情况,其计算公式为:()122-∑-=n X Sμ (2-10)4.标准差标准差(standard deviation )是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用,其计算公式为:S ==(2-11)5.变异系数 变异系数(coefficient of variation )用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
用CV 表示,计算公式为:%100⨯=XS CV (2-12)平均指标和变异指标分别反映资料的不同特征,作为资料的总结性统计量,两类指标要求一起使用。
如常用S X ±或M (QR )。
三、典型试题分析1.名词解释:平均数答案:平均数(average )是描述数据分布集中趋势的指标,在卫生领域中最常用的平均数指标:算术均数、几何均数和中位数。
[评析]本题考察平均数的概念。
平均数是一类统计指标,并不单纯指算术均数。
2.描述一组偏态分布资料的变异度,以( )指标较好。
A.全距 B.标准差 C.变异系数 D.四分位数间距 答案:D[评析]标准差和变异系数均用于描述正态分布资料的变异度,全距和四分位数间距可用于任何资料,而四分位数间距更为稳定,故选D 。
3.用均数和标准差可以全面描述( )资料的特征。
A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 答案:C[评析]本题考察均数和标准差的应用条件。
4.同一资料的标准差是否一定小于均数?答案:均数和标准差是两类不同性质的统计指标。
标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度小,则该值小。
标准差可大于均数,也可小于均数。
5.试述极差、四分位数间距、标准差及变异系数的适用围。
答案:这三个指标均反映计量资料的离散程度。
极差与四分位数间距可用于任何分布,后者较前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料近似服从正态分布;变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。
四、习题(一)名词解释1.频数表2.算术均数3.几何均数4.中位数5.极差6.百分位数7.四分位数间距8.方差9.标准差10.变异系数(二)单项选择题1.各观察值均加(或减)同一数后()。
A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变2.比较身高和体重两组数据变异度大小宜采用()。
A.变异系数B.差C.极差D.标准差3.以下指标中()可用来描述计量资料的离散程度。
A.算术均数B.几何均数C.中位数D.标准差4.偏态分布宜用()描述其分布的集中趋势。
A.算术均数B.标准差C.中位数D.四分位数间距5.各观察值同乘以一个不等于0的常数后,()不变。
A.算术均数 B.标准差C.几何均数D.中位数6.()分布的资料,均数等于中位数。
A.对称B.左偏态C.右偏态D.偏态7.对数正态分布是一种()分布。
A.正态B.近似正态C.左偏态D.右偏态8.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。
A.均数B.标准差C.中位数D.四分位数间距9.()小,表示用该样本均数估计总体均数的可靠性大。
A. 变异系数B.标准差C. 标准误D.极差10.血清学滴度资料最常用来表示其平均水平的指标是()。
A. 算术平均数B.中位数C.几何均数D. 平均数11.变异系数CV的数值()。
A. 一定大于1B.一定小于1C. 可大于1,也可小于1D.一定比标准差小12.数列8、-3、5、0、1、4、-1的中位数是()。
A. 2B. 0C. 2.5D. 0.513.关于标准差,那项是错误的()。
A.反映全部观察值的离散程度B.度量了一组数据偏离平均数的大小C.反映了均数代表性的好坏D.不会小于算术均数14.中位数描述集中位置时,下面那项是错误的()。
A. 适合于偏态分布资料B.适合于分布不明的资料C.不适合等比资料D.分布末端无确定值时,只能用中位数15. 5人的血清滴度为<1:20、1:40、1:80、1:160、1:320描述平均滴度,用那种指标较好()。
A.平均数 B.几何均数C.算术均数D. 中位数16.数列0、48、49、50、52、100的标准差为()。
A.50 B. 26.75C. 28.90D. 70.7817.一组变量的标准差将()。
A.随变量值的个数n的增大而增大B.随变量值的个数n的增加而减小C.随变量值之间的变异增大而增大D.随系统误差的减小而减小18.频数表计算中位数要求()。
A.组距相等B.原始数据分布对称C.原始数据为正态分布或近似正态分布D.没有条件限制19.一组数据中20%为3,60%为2,10%为1,10%为0,则平均数为()。
A.1.5 B. 1.9C. 2.1D. 不知道数据的总个数,不能计算平均数20.某病患者8人的潜伏期如下:2、3、3、3、4、5、6、30则平均潜伏期为()。
A.均数为7天,很好的代表了大多数的潜伏期B.中位数为3天C.中位数为4天D.中位数为3.5天,不受个别人潜伏期长的影响21.某地调查20岁男大学生100名,身高标准差为4.09cm,体重标准差为4.10kg,比较两者的变异程度,结果( )。
A. 体重变异度大B.身高变异度较大C.两者变异度相同D.由单位不同,两者标准差不能直接比较 (三)判断正误并简述理由 1.均数总是大于中位数。
( ) 2.均数总是比标准差大。
( ) 3.变异系数的量纲和原量纲相同。
( ) 4.样本均数大时,标准差也一定会大。
( ) 5.样本量增大时,极差会增大。
( ) (四)计算题1.某卫生防疫站测得大气中的二氧化硫的浓度,用两种计量单位表示: mg/m 3 : 1 2 3 4 5 ug/m 3 : 1000 2000 3000 4000 5000分别计算几何均数及标准差,会发现两种不同单位得标准差相等,试解释其原因。
2.尸检中测得北方成年女子80人的肾上腺重量(g )如下,试(1)编制频数表,(2)求中位数、均数和标准差。
19.0 12.0 14.0 14.0 8.2 13.0 6.5 12.0 15.0 17.2 12.0 12.7 25.0 8.5 20.0 17.0 8.4 8.0 13.0 15.0 20.0 13.0 13.0 14.0 15.0 7.9 10.5 9.5 10.0 12.0 6.5 11.0 12.5 7.5 14.5 17.5 12.0 10.0 11.0 11.5 16.0 13.0 10.5 11.0 14.0 7.5 14.0 11.4 9.0 11.1 10.0 10.5 8.0 12.0 11.5 19.0 10.0 9.0 19.0 10.0 22.0 9.0 12.0 8.0 14.0 10.0 11.5 11.0 15.0 16.0 8.0 15.09.98.512.59.6 18.511.012.012.03.测得某地300名正常人尿汞值,其频数表如下。