医学统计学概述数值变量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

fX
f1 f2 ...... fm
f
式中f为各组的频数,x为各组的组中值。
二、几何均数 (geometric mean,G)
几何均数用G表示。适用于对数正态分布资料或 等比资料,例如抗体的平均滴度和平均效价。
计算方法: – 直接法:样本含量n较小时,选用此法。有n个观察
值X1, X2,……Xn,几何均数的计算公式为:
P≤0.05 小概率事件 发生的可能性很小
六、统计量与参数,statistic & parameter
–统计量:依据样本观察值所定出的量。如:样本均数、 样本标准差 、 样本率。
–参数:总体的统计指标数值。如:总体均数、总体标 准差、 总体率。
统计描述
数值变量的统计描述
频数与频数分布表 (frequency distribution)
计算方法
– 直接法:样本含量n较小时,可根据下式计算:
M X n1 2
M
X
n 2
X
n 2
1
2
n为奇数时
n为偶数时
某病患者5人潜伏期分别为2,4,6,7, 20,求中位数。本例n=5,为奇数
M X n1 X3 6 天 2
若上例在第25天又发现一例患者,患者数
增加为6名
M
X
(X )2
为了消除观察值的总个数 N的影响,将离均差平方 和除以N,这就是总体方 差,用σ2表示。
方差(variance)
2 (X )2
N
标准差
方差的单位是原度量单位(standard deviation)
(如kg)的平方,把总体方
差开平方,这就是总体标 准差,度量单位与原始观 察值一致,即
频数分布表,又称频数表,是对样本量较大 的资料进行统计描述的常用方法。
通过频数表可以显示数据分布的范围与形态。
一、连续型定量变量的频数分布
例:某地用随机抽样方法检查140名成年男子的红细胞数
5.95
3.82
频数表(frequency table)的编制:
–求极差(range):R=Max-Min
(X )2 N
实际工作中经常得到的是样本资料,总体均数是未
知的,只能用样本均数X代替。这样用 (X X)2 代
替 (X )2,用样本含量n代替N,所得的结果比σ
偏小。英国统计学家W.S.Gosset提出用n-1代替n, 求得样本标准差更接近总体标准差σ,样本标准差
用S表示,公式为:
S (X X )2 n 1
二、四分位数间距 (quartile range,Q)
四分位数间距是两个特定的百分位数之差, 用Q表示
Q=QU-QL=P75-P25 适用于任何分布的计量资料,尤其适用于
偏态分布的资料(不宜用标准差表示离散 度)
四分位数间距比全距稳定,但仍然未考虑 到每个观察值的变异。
三、方差与标准差
为克服全距的缺点,应全面考虑组内每 个观察值的离散情况。可考虑以总体中 每个变量值X与总体平均数之差,称为离 均差X-。由于离均差有正有负,其和为 0,这样仍不能反映变异度的大小。故将 离均差平方后再相加,称离均差平方和
上式n-1称为自由度(ν)。 样本标准差计算也可用直接法或加权法。n较小时,选择 直接法,n较大,选择加权法
直接法:由于
(X
X
)2
X
2
X
n
2
标准差的计算公式可改写为:
S
X
2
X
n
2
n 1
甲组:98,99,100,101,102
乙组:80,90,100,110,120
计算两组数据的标准差
甲组:n=5,
计算方法
–直接法:当样本含量n较小时,可选用此法。 设有n个观察值,分别为X1,X2 ……,Xn, 均数的计算公式为:
X X1 X 2 ...... X n X i
n
n
–加权法:当样本含量n较大时,一般将观察 值分组,列出频数表,再用加权法计算均数。 其计算公式为:
X f1X1 f2X2 ...... fmXm
身高
CV 4.95 100% 2.98%
166.06
体重
CV 4.96 100% 9.23%
53.72
正态分布的密度函数
f (x)
1
e
(
x) 2 2
2
2
3.14159
e 2.71828
式中μ为总体均数,σ为总体标准差,π为圆周率, e为自然对数的底,x为变量,当μ、σ已知,以x
二、变量的类型
数值变量( numerical variable ,计量资料)
其变量值是定量的,表现为数值的大小,一般 有度量衡单位。如身高、体重、浓度。
分类变量 (categorical variable,计数资料)
其变量值是定性的,表现为互不相容的类别或属性
无序分类变量(计数资料) • 二项分类:阳性和阴性,治愈和未愈等 • 多项分类: A、B、O、AB血型
集中趋势指标
•集中趋势指标用于描述一组同质计量资料 的集中趋势或反映一组观察值的平均水平 。常用的平均数有算术均数、几何均数及 中位数三种。
一、算术均数(mean)
算术均数简称平均数或均数。 X表示变量X的样本均数,(希腊字母)表
示总体均数。 均数适用于对称分布资料,正态或近似
正态分布资料。
计算公式:
PX
L
i fX
n x%
fL
第三节 离散趋势指标
两组计量数据如下,分析其分布特征。
甲组:98,99,100,101,102
X1 100
乙组:80,90,100,110,120
X 2 100
两组数据的均数都是100,说明集中趋势相 同。但两组数据的分布特征不尽相同,5个 数据间的参差不齐的程度不一样。甲组数 据的变化范围较小,而乙组数据的变化范 围较大,即两组的离散度不同,离散度是 一个非常重要的统计指标。
ΣX=98+99+100+101+102 =500
50010 5002
S甲
5 1.58 5 1
ΣX2=
982+992+1002+1012+1022=
50010
乙组:n=5,ΣX=500, ΣX2 =51000
51000 5002
S乙
5 15.81 5 1
四、变异系数 (coefficient of variation,CV)
有序分类变量(等级资料) • 血清反应可分 - + + ++ 四级
三、变量间的转化
计量资料: 计数资料:
等级资料 :
个体的血红蛋白量(g/dl) 正常人数、异常人数
(按正常异常分组) 0~,重度贫血 6~,中度贫血 9~,轻度贫血 12~,正常 16~,增高 (按血红蛋白量的多少分组)
二、同质和变异 同质(homogeneity)
一、全距(range,R)
亦称极差,用R表示,是一组观察值中最大值 与最小值之差,反映个体差异的范围。全距大, 说明变异度大;反之,说明变异度小。如上例 中甲组全距为4,乙组全距为40,表明乙组变 异度大。 但全距除了最大值和最小值之外,不能反映组 内其它数据的变异度;易受个别数据的影响, 稳定性较差,抽样误差较大,而且还受n大小 的影响,平均起来,n越大,全距越大。
抽样误差愈小,用样本推断总体的精确度愈高
五、概率 probability
描述某事件发生可能性大小的量, 用P表示
P的范围[0,1] 在一定条件下,
P=1
必然事件 肯定发生
P=0
不可能事件 肯定不发生
P(0,1) 随机事件 可能发生可能不发生
P→1
随机事件 发生的可能性越大
P→0
随机事件 发生的可能性越小
3.整理资料(sorting data)
– 按设计要求,使原始数据系统化、条理化,以便近一 步计算指标和分析 。
4.分析资料(analysis data)
–基础数据计算分析、统计处理,作出结论。
–包括:1.统计描述 2.统计推断
第三节 统计中的基本概念
一、变量(Variable)
对每个观察单位的某项特征进 行测量和观察,这种被测量或观 察的特征称为变量。
频数 2 6 11 25 32 27 17 13 4 2 1
频率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
直方图
35 频 数 30
25
20
15
10
5
0 3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 红细胞计数(1012/L) 140名正常男子红细胞计数直方图
G n X1X2 Xn
上式计算时需作连乘,还要开n次方,比较麻烦,一 般采用对数形式计算。
lg
G
lg x1
x2
x3
xn
1 n
1 n
lg
x1
lg
x2
lg
x3
lg
xn
1 lg x
n
G lg 1 lg x n
例.6份血清抗体滴度为:1:2,1:4,1:8,1:8, 1:16,1:32,求平均数。
G
log
1 2
(
log
2
2
log
2
4
log
2
8
log 6
2
8
log
2
16
log
2
16
)
log
1 2
(1
2
3
6
3
4
5
)
log
1 2
3
8
几何平均滴度为1:8
三、中位数(median,M)
将一组观察值从小到大按顺序排列,位次 居中的观察值就称中位数。用M表示。
中位数适用于任何一种分布的计量数据, 一般多用于描述偏态分布或数据一端无界 资料的集中趋势。
某地140名正常男子红细胞数频数表
红细胞数 3.80~ 4.00 ~ 4.20 ~ 4.40 ~ 4.60 ~ 4.80 ~ 5.00 ~ 5.20 ~ 5.40 ~ 5.60 ~ 5.80~6.00
组中值 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 5.70 5.90
集合。 – 如:测定二医大本科男生的身高。则总体就是所有二医大本科男
生的身高值;如果我们并没有测定所有符合条件的学生,而是随 机抽取两个班进行测定,则这两个班男生的身高值就是样本。
样本应该是总体中具有代表性(representative)的一部分
四、误差 (error)
– 系统误差:单向,可以避免 – 随机测量误差:双向,不可避免,但可控制 – 抽样误差:统计学主要研究部分
统计工作的步骤和内容
1.设计(design)统计工作中最关键的一环。设
计的内容包括资料搜集、整理和分析全过程总的设想和安 排,要周密考虑,细致安排。
2.收集资料(data collection)
–根据研究目的,按设计要求,及时取得准确完整的原 始数据。
–主要有四个来源:1.统计报表;2.报告卡(单);3.日 常医疗卫生工作记录;4.专题调查或实验
= 5.95-3.82= 2.13
–确定组段数、组距和组段
1.确定组段数(k):通常10-15个。
2.确定组距(i):相邻两组段的最小值(下限) 之差,一般用等距。 i=R /k,一般取整取偶 数。
3.确定组限:界限分明,每个组段的起点称 下限,终点称上限。最末一行应同时写出下 限和上限。
4.列表划记:得到各组段的观察单位数。Leabharlann n 2Xn 2
1
2
6 2
7
6.5
附:百分位数(PX)
百分位数是一种位置指标,用PX表示。对总体来 说,它表示总体中数值小于PX的个体恰有X%; 对样本来说,它表示按照升序排列的数列里小于 PX的个体恰占X%
百分位数是一个有序数列百等分的分割值。第50 百分位数(P50)也就是中位数,中位数是一个特 定的百分位数。
适用: –(1)比较度量单位不同的多组资料的变异 度 –(2)比较均数相差悬殊的多组资料变异度
计算公式为:
CV S 100% X
例:某地20岁男子100人,其身高均数为
166.06cm,标准差为4.95cm,其体重均数 为53.72kg,标准差为4.96kg。请比较何 者变异度较大。由于两者度量单位不同, 不能直接比较标准差,而应比较变异系数。
指研究对象具有相同的背景、条件、属性。
变异 (variation)
同质基础上的个体差异称为变异。
变异是绝对的、偶然的。如:同一窝小 白鼠,用同样的饲料,同样的方法,喂养同 样长的时间,其体重增加却不一样,这种个 体间的差异就是变异。
三、总体与样本 (population & sample)
– 总体:根据研究目的而确定的同质个体的全部 – 样本:按随机化原则从总体中抽取部分观察单位的某一变量值的
医学统计学概述
基本概念
什么是统计学?
统计学是一门处理数据中变异性的科学与 艺术,内容包括收集、分析、解释和表达数据, 目的是求得可靠的结果。
什么是医学统计学?
医学统计学是应用概率论和数理统计的 基本原理和方法,研究医学领域中数据的收 集、整理和分析的一门应用科学。
研究对象
基本概念
具有不确定性的医学数据,其基 本的研究方法是通过收集大量资料, 发现蕴含于其中的统计学规律。
相关文档
最新文档