医学统计学2.统计描述
医学统计学复习重点

整理分析和2.计描述4.(集合)。
1.抽样随机2.分组随机3.实验顺序随机。
称全距,用离散系数,为标准差与均数只比,常:CV=s/x究,1.抽样研究2.个体变异。
系统误差:指数据搜集和测量过程中由于仪器不准确、造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差由于一些非人真实性(validity):观察值与真值的接近程度,受系统误差的影响( (reliabiliy)——也称精密度(precision)或重复性(repeatability)是直接用样本统计量作为对应的总体参数最常用的是95%10095有5在描述两变量间的关系时,若散点图呈直线趋势或有直线相关关系,可进行直线回归分析。
参数:根根据样本的分布特征而计算得到的1、★医学统计学工作基本步骤:统计设计;收集资料.;整理资料;分析资料2、★统计分析包括:统计描述、统计推断3、频数分布的两个重要特征:集中趋势和离散趋势4、正态分布的两个参数:均数;标准差。
5、★频数表的用途:揭示计量资料的分布类型;揭示计量资料的分布特征;便于发现特大值和特小值;便于进一步进行统计分析★常见的统计资料的类型有:计量资料;计数资料;等级资料7、★t检验的应用条件是:①正态分布:当样本含量较小时,要求样本来自正态总体。
②方差齐性:两样本均数比较时,要求两总体方差相等。
U检验的应用条件是:①大样本(如n>50);②小样本,σ已知且样本来自正态总体。
8、★.描述分类变量常用的指标有率、构成比、相对数。
9、率是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,常用来描述某种现象发生的频率大小或强度构成比是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,常用来描述某一事物内部各组成部分所占的比重或分布。
10、★四格表卡方专用公式应用条件n≥40,且Tmin≥5 研究事物或现象间的线性关系用相关分析,研究事物或现象间的线性数量依存关系用回归分析。
医学统计学描述

分位数X*是介于x1(最小值)与xn(最大值)之间的 一个数值,它使得n个数据中的一部分观察值小于 或等于它,另一部分观察值大于或等于它。
x1
X*
xn
精选课件
13
如果将顺序排列的一组数据分为q个相等频数 的区间(即每个区间中有相同的数据个数),这 时共有q-1个分位点,则称这些分位点为q分位数。
精选课件
3
步骤:
求全距 R=max-min= 278.8-97.5=181.3
定组数 K 通常取8~15组为宜。本例取K=10.
求组距 I=R/K (注意取整)。 本例I=181.3/10=18.13≈20
制表
确定各组段的下限、统计各组段内的频 数、算出各组段的频率、累计频数、累计 频率,将所得数据填入表中。
1)全距: R=MAX-MIN 2)四分位数间距 :上下四分位数之差
Q=Q3-Q1
称为四分位数间距。
精选课件
22
3).方差
n 2
S2
1 n n1i1
(xi
X)2
n11in1
xi2
xi i1
n
4).标准差
S
1n n1i1 (xi
X)2
1
n
n1i1
xi2
n
xi
i1
n
2
5).变异系数
n
定义式: Gn xi i1
对 数 式 : Glg11ni n1lgxi
加 权 对 数 式 : Glg11 n flgx
精选课件
10
例2 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16, 1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几 何均数。
医学统计学-第二章 统计描述

1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
02-医学统计学定量数据的统计描述

X为组段的组中值。 X=(组段上限+组段下限)/2
【例】120名健康男性居民血清铁含量的频数分布表,试求 其算术均数。
组段 频数 组中值 6~ 1 7 8~ 3 9 10~ 6 11 12~ 8 13 14~ 12 15 16~ 20 17 fX 7 27 66 104 180 340 组段 频数 组中值 18~ 27 19 20~ 18 21 22~ 12 23 24~ 8 25 26~ 4 27 28~30 1 29 fX 513 378 276 200 108 29
概 述 平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数 算术均数(arithmetic mean),等于一个变量所有观 察值的和除以观察值个数。 总体均数用希腊字母μ表示,样本均数用符号 X 表示。 算术均数适用于对称分布的资料,如分布均匀的小 样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响 大于受极小值的影响。
n为总频数。
【例】52例慢性肝炎患者的HBsAg滴度数据表,试求其 几何均数。
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计 频数 2 7 11 13 12 7 52 滴度倒数 16 32 64 128 256 512 lgX 1.20412 1.50515 1.80618 2.10721 2.40824 2.70927 f (lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
中位数 中位数(median,M),是在按大小顺序排列的变 量的所有观察值中,位于正中间的一个或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值, 均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此 对极端值不敏感。
第二章 统计描述习题 医学统计学习题

第二章统计描述习题一、选择题1.描述一组偏态分布资料的变异度,以()指标较好。
A.全距B.标准差C.变异系数D.四分位数间距E.方差2.各观察值均加(或减)同一数后()。
A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变E.以上都不对3.偏态分布宜用()描述其分布的集中趋势。
A.算术均数B.标准差C.中位数D.四分位数间距E.方差4.为了直观地比较化疗后相同时点上一组乳腺癌患者血清肌酐和血液尿素氮两项指标观测值的变异程度的大小,可选用的最佳指标是()。
A.标准差B.标准误C.全距D.四分位数间距E.变异系数5.测量了某地152人接种某疫苗后的抗体滴度,宜用()反映其平均滴度。
A.算术均数B.中位数C.几何均数D.众数E.调和均数6.测量了某地237人晨尿中氟含量(mg/L),结果如下:尿氟值:0.2~0.6~ 1.0~ 1.4~ 1.8~ 2.2~ 2.6~ 3.0~ 3.4~ 3.8~频数:7567302016196211宜用()描述该资料。
A.算术均数与标准差B.中位数与四分位数间距C.几何均数与标准差D.算术均数与四分位数间距 E.中位数与标准差7.用均数和标准差可以全面描述()资料的特征。
A.正偏态资料B.负偏态分布C.正态分布D.对称分布E.对数正态分布8.比较身高和体重两组数据变异度大小宜采用()。
A.变异系数B.方差C.极差D.标准差E.四分位数间距9.血清学滴度资料最常用来表示其平均水平的指标是()。
A.算术平均数B.中位数C.几何均数D.变异系数E.标准差10.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。
A.均数B.标准差C.中位数D.四分位数间距E.几何均数11.现有某种沙门菌食物中毒患者164例的潜伏期资料,宜用()描述该资料。
A.算术均数与标准差B.中位数与四分位数间距C.几何均数与标准差D.算术均数与四分位数间距 E.中位数与标准差12.测量了某地68人接种某疫苗后的抗体滴度,宜用()反映其平均滴度。
医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
医学统计学基本概念与常用统计描述指标

医学统计学为医学研究提供了理论基础和方法指导。
决策辅助
它帮助医生和研究人员作出更准确的医学决策。
结果解释
通过统计描述指标,它可以帮助我们理解和解释研究结果。
研究设计与样本
研究设计选择
选择适当的研究设计有助于获得 可靠和有效的结果。
样本量确定
确定合适的样本量是研究的重要 步骤。
随机抽样
通过随机抽样,保证样本代表总 体,结果的推广性更有说服力。
医学统计学基本概念与常 用统计描述指标
医学统计学是研究医学数据的收集、分析和解释的科学。它涉及统计学的基 本概念,以及常用的统计描述指标,以帮助我们理解和解释医学研究结果。
统计学的定义
1 了解数据
统计学是一门研究数据收集、处理和解释的 科学。
2 分析与推断
它提供了分析和推断医学数据的方法和工具。
医学统计学的概念与意义
数据收集与存储
1
数据源
确定数据收集来源,如医院记录、问卷
数据收集
2
调查等。
采用适当的方法收集数据,确保数据质
量和准确性。
3
数据存储
使用合适的方法和工具储存数据,便于 后续分析和使用。
数据分析与解释
中心趋势
通过均值、中位数和众数等指 标来描述数据的集中趋势。
离散程度
用标准差、范围和四分位数等 指标来描述数据的离散程度。
相关性分析
通过相关系数来研究变量之间 的相关性。
常用统计描述指标
生存分析
研究事件发生概率和生存时间的统计方法。
假设检验
用于比较两个或多个组之间差异的统计方法。
效应量与。
统计报告与呈现
将统计结果用适当的图表、表格和文字进行报告和呈现,使其易于理解和传 达。
《医学统计学》第二章定量数据的统计描述

累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数(对称分布)算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
医学统计学:计量资料的统计描述

方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反
医学统计学第讲计数资料统计描述

标准人口数
甲
原死亡率
县 预期死亡人数
乙
县
原死亡率 预期死亡人数
Ni (2)
pi (3)
Nipi (4)
pi (5)
Nipi (6)
3240494
0.0
0.0
0.0
0.0
512018
4.9
25.0
8.6
44.0
489946
36.2
177.4
49.9
244.5
386029
148.3
572.5
179.9
694.5
0.16 0.16 0.40 0.21 0.57 0.12
a4 24723 a5 29734 a6 34614 a7 39780 a8 47381 a9 51526 a10 56608
4123 5011 4880 5166 7601 4145 5082
1.68 1.07 1.82 1.08 1.96 1.07 2.10 1.07 2.31 1.10 2.43 1.05 2.57 1.06
基数 100% 100% 100%
100% 100% 100% 100%
人口死亡统计指标
指标
分子
分母
基数
粗死亡率 某年龄组死亡率
同年内死亡人数 同年年龄组死亡人数
婴儿死亡率 新生儿死亡率 围产儿死亡率
5 岁以下儿童死亡率 孕产妇死亡率 某死因死亡率 某病病死率 比例死亡比
同年<1 周岁死亡人数 同年<28 天死亡人数 同年围产期死胎数+死产 数+<7 天死亡人数 同年 5 岁以下儿童死亡数 同年孕产妇死亡数 同年内某原因死亡人数 同年某病死亡人数 同年某死因死亡数
医学统计学统计描述

缺点:仅考虑两端数据的差异,未考虑其它数据的变异情 况,不能全面反映一组资料的离散程度,受样本含量n的 影响较大,且不稳定,易受极端值的影响。
四分位数间距(inter-quartile range)
▪ 定义:把全部变量值值分为四等分的分位数,其
分位数。它是一个位置指标。 Px ▪ 中位数是第50百分位数,用P50表示。 ▪ 第25,第75,第95百分位数记为P25, P75, P95
是统计学上常用的指标。
百分位数(percentile)
▪ 百分位数(percentile)
X%
PX
(100-X)%
▪ 50%分位数就是中位数 ▪ 25%,75%分位数称四分位数(quartile)
方差(variance)
▪ 定义:离均差平方和的均数 ▪ 表示法:总体方差用2表示;样本方差用
S2表示
▪ 计算公式:
▪ 意义: 方差值越大,说明变异程度越大。
▪ 特点:包括了每个变量值与均值的差异,
但该指标的单位为平方。
标准差(standard deviation, sd) :
▪ 定义:方差开平方,取平方根的正值,每
▪ 例 对于某项风险较高的新手术术后的生存 时间进行跟踪,共调查了7人, 6人死亡之 前分别生存了5天、6天、10天、16天、25 天、29天,还有一人术后30天随访时仍存 活。
▪ 本资料属于“开口”资料。
▪ 本例数据已经按从小到大的升序排列,n=7, 为奇数,其中位数为16天。
2. 频数表法(n较大,已编成频数表)
62.05
1 3 1
79.00 72.25
409.75 4.06(mmol / L) 101
医学统计学第3章

均数的抽样示意图
X1 S1
μσ
X2 S2 XI Si Xn Sn
σx
X服从什么分布?
例3-1 若某市1999年18岁男生身高服从均数 =167.7cm、标准差 =5.3cm的正态分布。从该正态分布N(167.7,5.32)总体中随机抽样 100次即共抽取样本g=100个,每次样本含量nj=10人,得到每个样 本均数 及标准差Sj 如图3-1和表3-1所示。
95%CL 175.72 173.44 174.31 170.90 171.04 170.83 173.11 171.90 172.52 172.00 169.40 171.56 171.53 172.94
171.21 170.33 169.03 167.63 168.66 168.84 169.31 168.46 168.60 168.47 165.68 165.68 168.03 169.37
171.00 170.10 170.47 175.98 169.97 171.91 173.37
样本号 61 62 63 64 65 66 67 68 69 70 71 72 73 74
x
j
Sj 6.30 4.34 7.38 4.58 3.33 2.78 5.31 4.81 5.48 5.05 5.19 8.22 4.89 5.00 166.70 167.23 163.75 164.36 166.27 166.85 165.51 165.02 164.88 164.86 161.97 159.80 164.53 165.79
抽样误差:样本统计量与参数之间的差异, 称抽样误差。 样本统计量是一个随机变量,在随机的原则 下从同一总体抽取不同的样本,即使每个样 本的样本含量n相同,它们的结果也会不同。
医学统计学02 定量资料的统计描述

120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
医学统计学 描述性统计

位置上的观测值。
12 3 4 5 6 7 1 2 3 4 5 6----median=3.5
百分位数(percentile,Px)
位置指标 一组资料从小到大排序后,x%的观测值比
Px小,(100-x)%的观测值比Px大,则这 个位置点的数值,即为第x百分位数Px。 第5百分位数P5:有5%的观测值比P5小,有 95%的观测值比P5大。 中位数即第50百分位数。 用于偏态分布的资料。
位数间距。 如:年龄中位数为33.5岁,最小年龄3岁,最大 年龄55岁。
医学统计学
描述性统计 (一)
统计处理
统计描述: 描述样本特征:列表、图示、数字
统计推断:由样本信息来推断总体信息
计量资料分布特征和描述指标
集中趋势:平均水平 算术均数、几何均数、中位数
离散趋势:变异性 极差、四分位数间距、方差、标准差、变异 系数
频数表和直方图
集中趋势指标-均数mean
算术均数:简称均数,用以描述一组服从正 态分布或近似正态分布资料的平均水平。
总体均数 ,样本均数 x
离均差总和 离均差平方和
几何均数G(geometric mean)
用于对数正态分布的资料。即原变量值分布 不对称,但经对数转换后,近似或服从正态 分布的资料。
血清学平均抗体效价
中位数M(median)
变异系数CV
用于比较不同量纲上述指标都是用于计量资料的统计描述 除变异系数外,均有量纲 变异性指标中,指标值越大,说明数据变异越大 分布类型不同,适用的描述指标不同。 正态分布常用 x s 偏态分布常用中位数M和最小值、最大值或四分
离散趋势的指标-极差R
极差或全距range:最大值与最小值之差。
医学统计学——统计描述

布为最常见的一种。
偏态分布:正偏态分布—儿童疾病年龄分布;负偏态分布— 老年疾病年龄分布。
对称分布
频数分布高峰位于 中部,左右两恻的 频数大体对称。
正偏
偏态分布
负偏
生物医学研究的统计方法 第2章
高峰偏于左侧, 长尾向右侧延伸, 则为正偏态
高峰偏于右侧,长 尾向左侧延伸,则 为负偏态。
G lg 1(lg X1 lg X 2 ... lg X n ) lg 1(
lg X )
n
n
例3.2 设有5份血清样品,滴度分别 为:1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。
G= 5 110100100010000 100
或G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5) =lg-1((0+1+2+3+4)/5) =lg-12 =100
中位数、算术均数和众数的关系
正偏态分布
对称分布
众数 中位数 算术均数
众数 中位数 算术均数
负偏态分布
算术均数 中位数 众数
三、离散趋势指标
极差(Range, R) 四分位数间距(Quartile,Q) 方差(Variance) 标准差(Standard deviation)
(一)、极差(Range, R)
潜伏期(小时) 频数 f 累计频数 累计频率(%)
①
②
③
④
0—
21
21
15.24
12—
58
79
48.17
24—
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X
n
其中x1、x2…xn为各变量值,n为样本例数。
例
测得8只正常大白鼠总酸性磷酸酶(TACP)
含量(U/L)为4.20,6.43,2.08,3.45,2.26, 4.04,5.42,3.38。试求其算术均数。 分析:样本例数较少,n=8,用直接法计算。
X1 X 2 X n X n 4.2 6.43 ... 3.38 8 3.91( U / L )
组段 2.30~
频数(f) 1
组中值( ) X 2.45
fx 2.45
2.60~
2.90 ~
3
6
2.75
3.05
8.25
3.20 ~ 本组段下限与相邻组 8 3.50 ~ 段下限之和除以2 17
3.80 ~ 4.10 ~ 4.40 ~
3.35
3.65 3.95 4.25 4.55
X=(2.30+2.60)/2 18.30 26.80 =2.45
表2-1
某地101名正常成年女子血清总胆固醇的频数表
划记
(2)
血清胆固醇组段
(1)
频数
(3)
2.30 ~ 2.60 ~ 2.90 ~ 3.20 ~ 3.50 ~ 3.80 ~ 4.10 ~ 4.40 ~ 4.70 ~ 5.00 ~ 5.30 ~ 5.60 ~5.9
合计
一 下 正一 正下 正正正丅 正正正正 正正正丅 正正丅 正止 正 丅 一
2.统计分组
3.统计汇总
4.编制统计表
统计整理最后的 结果就是形成各 种统计表格和统
10
第一节
频数分布
原因:由于个体变异的存在,医学研究中某指标
在各个体的观察结果不是恒定不变的,但也不是杂 乱无章的,而是有一定规律的,呈一定的分布 (distribution)。
现状:医学研究得到的原始数据(raw data)往往
正偏态分布:
23 20 19
长尾向右延伸
14 11
人数
14 10 9 9 7 4 0 2 13.5 16.5 19.5 22.5 25.5 28.5 31.5 34.5 37.5 Std. Dev = 7.14 3 Mean = 25.1 N = 115.00 40.5 43.5
血 清 转 氨 酶 ( mmol/L))
62.05 79.00 72.25 54.60
X=(2.60+2.90)/2 20 =2.75 17
12
4.70 ~
5.00 ~
9
5
4.85
5.15
43.65
25.75
5.30 ~ 5.60~5.90
合计
2 1
101(Σf)
5.45 5.75
10.90 5.75
409.75(Σfx)
例2-3
根据表2-1的资料计算101名正常
同质:同一地区、同 一年度、同一民族、 同一年龄段、相同的 2. 描述频数分布的特征 性别、类似健康状况
集中趋势(central tendency):一组
数据向某一个位置聚集或集中的倾向。 离散趋势(tendency of dispersion): 一组数 据的分散性或变异度。
变异:遗传、营养、 行为、发育、心理 的各种因素
Medical statistics
医学统计学
第一篇 基本统计方法
第二章 计量资料的统计描述
教学目的要求 本章重点
本章难点
教学方法
教学时数
2
目的要求
1. 了解: 计量资料的频数分布表的编制方法和分布
规律;
2. 掌握: 描述计量资料集中趋势的算术均数、几何
均数、中位数 的计算方法和适用条件;描述计量资
几何均数(Geometric Mean)
中位数(Median)
百分位数(Percentile)
一、算术均数(arithmetic mean): 简称均数(mean),总体均数用希腊字母µ 表示, 样本均数用拉丁字母 X 表示。 1. 计算方法 1)直接法:适用于样本例数n较少的资料。
X1 X 2 X n X n
的频数,它权衡了各组中值由于频数不同对均数的 影响(式中变量值的频数愈大,则该变量值对均数 的影响愈大,因此频数也称为权数)。
X 12
10,10,10,15,15
10有3个,权数为3, 15有2个,权数为2, 计算均数时起2/5的作 用——频数小,权数 小,作用小
计算均数时起3/5的作
用——频数多,权数 大,作用大
是庞大的、混乱的。
解决:搜集到原始数据后,要了解数据分布的范
围、数据最集中的区间以及分布的形态,可通过编 制频数分布表或绘制频数分布图来实现。
分组前
25% 分 组 后
12
33%
42%
一、频数分布表
编制频数分布表的步骤
频数:对一个随机变量做重复观察,其中某变量 值重复出现的次数。 例2-1 从某单位1999年的职工体检资料中获 得101名正常成年女子的血清总胆固醇(mmol/L) 的测量结果如下,试编制频数分布表。
30
20
22
23
负偏态分布: 长尾向左延伸
14
人数
10 9 7 Std. Dev = 10.08 0 2 2.5 3 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 Mean = 25.8 2 47.5 N = 101.00 10 9
血 清 肌 红 蛋 白 ( ug/mL)
X
n
8只正常大白鼠总酸性磷酸酶平均含量为3.91(U/L)
2) 加权法(weight method):适用于变量值较多 的资料。
f1 x1 f 2 x2 f n xn X f1 f 2 f n
fx f
x1、x2 ...xn :各组段的组中值。f1、f2…fn:各组段
4
本章难点
1 . 权数的理解、百分位数概念的理解与计算
2. 正态分布的概念和正态曲线图形及正态曲线
下的面积分布规律。
5
本章教学时数
8学时
6
本章内容
第一节
第二节 第三节 第四节 第五节
频数分布 集中趋势的描述 离散趋势的描述
正态分布
医学参考值范围的制定
7
统计数据的整理
统计整理:就是对搜集得到的原始数据进行审 核、分组、汇总,使之条理化、系统化,变成 能反映总体特征的综合数据的工作过程。对已 整理过的资料(包括历史资料)进行再加工也属 于统计整理。
1 3 6 8 17 20 17 12 9 5 2 1 101
表2-5 122名食物中毒患者的潜伏期
小时
(1) 12~
人数f
(2) 4
24~ 36~ 48~ 60~ 72~ 84~ 96~ 120~ 〉132
17 48 24 18 7 1 1 1 1
表2-2 某医院1123名产后出血孕妇的人流次数分布
血 清 总 胆 固 醇 值 ( mmol/L)
三、频数表和频数分布图的用途
1.描述频数分布的类型
偏态分布:指集中位置偏向一侧,频数
频数分布 分布不对称。
对称分布:指集中位置在正中,左右
两侧频数分布大体对称。
正偏态分布:集中位置偏向数值小的一侧。
偏态分布 负偏态分布:集中位置偏向数值大的一侧。
30
第二节 集中趋势的描述
统计图表:频数分布表(图)
计量资料的 统计描述
统计用统计表对数据进行概括,用统计图对分布
形态及分布间的关系做直观的表达,统计指标可描
述资料的的数量特征与意义。
描述集中位置的指标
算术均数(Mean)
平均数(Average)
描述一组同质定量 资料的集中趋势; 反映一组观察值的 平均水平;分布的 平均位置。
成年女子的血清胆固醇的均数。
分析:样本例数较多,n=101,用加权法
计算。
f1 x1 f 2 x2 f n xn X f1 f 2 f n
fx f
X=(2.30+2.60)/2 101名成年女子血清总胆固醇值均数计算表(加权法) =2.45
组段 2.30~ 频数(f) 1 组中值( X ) 2.45 fx 2.45
二、频数分布图
30
以横轴表示被观察变量, 纵轴表示频数,以各矩形 (宽度为组距)的高度代 表各组段的频数。
20 17 17
20
频数
10 8 6 3 0
12 9
5 2
Std. Dev = .66 Mean = 4.03 N = 101.00
2.45 2.75 3.05 3.35 3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75
人流次数 (1) 产后出血人数 (2)
0 1 2 3 4 5 6 合计
402 330 232 118 27 11 3 1123
离散型变量的频数分布表 累计频率(%) 累计频数 每一个组段就是一个固定 (3) (4) 的取值 402 35.80 732 65.18 964 85.84 1082 96.35 1109 98.75 1120 99.73 1123 100.00 — —
3. 便于进一步计算统计指标和进行统计分析 处理。 4. 便于发现某些特大或特小的可疑值。
110名8岁男童身高(cm)的频数分布
90 ~ 92 ~ 94 ~ 96 ~ 98 ~ 100 ~ 110 ~ 112 ~ 114 ~ 116 ~ 118 ~ 120 ~ 122 ~ 124 ~ 126 ~ 128 ~ 130 ~ 132 ~ 134 ~ 136 1 0 0 0 0 0 1 3 9 9 15 18 21 14 10 4 3 2 1