第二章常用统计指标(计量资料的统计描述)
2 计量资料的统计描述指标
![2 计量资料的统计描述指标](https://img.taocdn.com/s3/m/14ff0c2c7375a417866f8fce.png)
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
计量资料统计描述
![计量资料统计描述](https://img.taocdn.com/s3/m/766eefe6c67da26925c52cc58bd63186bdeb9252.png)
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料
计量资料的统计描述
![计量资料的统计描述](https://img.taocdn.com/s3/m/76a64150e53a580217fcfe88.png)
分 层 抽 样
整 群 抽 样
样
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,
统计背诵版(三份整合)
![统计背诵版(三份整合)](https://img.taocdn.com/s3/m/250449b8dd3383c4bb4cd278.png)
统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。
2、用均数和标准差可以全面描述正态分布资料的特征。
3、各观察值均加(或减)同一数后标准差不变。
4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。
5、偏态分布宜用中位数描述其分布的集中趋势。
6、各观察值同乘以一个不等于0的常数后,变异系数不变。
7、正态分布的资料,均数等于中位数。
8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。
第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。
2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。
3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。
7、在两样本均数比较的t检验中,无效假设为两总体均数相等。
8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。
10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。
统计学第二章计量资料的统计描述
![统计学第二章计量资料的统计描述](https://img.taocdn.com/s3/m/06c91ff3c67da26925c52cc58bd63186bceb920a.png)
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
1计量资料统计描述(08硕)
![1计量资料统计描述(08硕)](https://img.taocdn.com/s3/m/545ebfeff8c75fbfc77db241.png)
(3)计算:直接法、间接法。 计算:直接法、间接法。 计算 计算机计算 (4)特征:∑(X- x 特征: )=0 估计误差之和为 。 估计误差之和为0。 特征 (5)应用:正态分布或近似正态分布 应用: 应用 (6)注意:合理分组,才能求均数,否则没有意义。 注意:合理分组,才能求均数,否则没有意义。 注意
M=51天 (QR=28.5天) 天 天
3.标准差和方差(Standard deviation and variance) 标准差和方差( 标准差和方差 ) 总体方差 总体标准差 样本标准差
σ2 = ∑
( X − µ)2 N
σ=
∑ (X − µ)
N
2
S=
∑(X − X)
n −1
2
样本标准差的简化计算公式: 样本标准差的简化计算公式: 例数较少 频数表资料
∑ X 2 − (∑ X )2 / n n −1
S=
S=
∑ fX 2 − (∑ fX)2 / ∑ f ∑ f −1
甲组5名同龄男孩的身高值 名同龄男孩的身高值( ) 例2-5 甲组 名同龄男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 ΣX = 500 ΣX 2 = 50250
(1)单位不同时组间变异程度的比较 )
表 体脂与胆固醇的变异系数 指标 体脂( ) 体脂(%) 胆固醇( 胆固醇(mmol)
x
18.90 4.84
S 5.80 1.04
CV 30.69 21.40
医学统计学 第二章 计量资料的统计描述
![医学统计学 第二章 计量资料的统计描述](https://img.taocdn.com/s3/m/71839634ad02de80d5d84028.png)
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
统计学2 计量资料的统计描述指标课件
![统计学2 计量资料的统计描述指标课件](https://img.taocdn.com/s3/m/e659bda7dd36a32d72758169.png)
N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
![卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)](https://img.taocdn.com/s3/m/f8efb67e571252d380eb6294dd88d0d233d43c4b.png)
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
计量资料的统计描述
![计量资料的统计描述](https://img.taocdn.com/s3/m/e902b4e1b90d6c85ec3ac6e1.png)
第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。
(2)频数分布的类型。
(3)频数分布表的用途。
2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。
算术均数、几何均数、中位数。
3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。
极差、四分位数间距、方差、标准差、变异系数。
(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。
二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
计量资料的统计描述
![计量资料的统计描述](https://img.taocdn.com/s3/m/02d9d35477c66137ee06eff9aef8941ea76e4bd4.png)
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03
第二章统计描述
![第二章统计描述](https://img.taocdn.com/s3/m/609c2337bed5b9f3f90f1cb8.png)
G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031
1 2.709Байду номын сангаас )
fi
40
lg1(67.1282) 48 40
G 1: 48
中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
血清总胆固醇 2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~
7.0~7.5 合计
频数f 1 8 9 23 25 17 9 6 2 1
101
fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25
13
174
单侧正常值范围的上限为 1.81
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。
计量资料的统计描述
![计量资料的统计描述](https://img.taocdn.com/s3/m/a9d13272f61fb7360b4c6598.png)
4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency
第02章 计量资料的统计描述课件
![第02章 计量资料的统计描述课件](https://img.taocdn.com/s3/m/801aa0ec25c52cc58bd6bee9.png)
组段数 5;组距 10分
表2.1 某医院产科某月顺产婴儿出生身长(单位:cm) 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
(1)直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6:9只大鼠存活天数如下: 4,10,7,3,15,2,9,13,>60 则这9只大鼠的平均存活天数为多少天?
排序:2,3, 4, 7, 9,10 ,13, 15, >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
血 清 总 胆 固 醇(mmol/L)
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX
大
统计学知识点(完整)
![统计学知识点(完整)](https://img.taocdn.com/s3/m/2482ed91f5335a8103d220a0.png)
基本统计方法第一章 概论1. 总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。
2。
参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章 计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2。
离散趋势:极差、四分位间距(QR =P 75—P 25)、标准差(或方差)、变异系数(CV )3。
正态分布特征:①X 轴上方关于X =μ对称的钟形曲线;②X =μ时,f (X )取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68。
27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
4。
医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2。
5-P 97.5.第三章 总体均数估计和假设检验1. 抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性.2. 均数的标准误(Standard error of Mean , SEM ):样本均数的标准差,计算公式:/X σσ=3。
降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4。
t 分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高; ③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 不同计量数据组间比较,此差距越大, 表示变异越大。
百分位数(PX%)
• 是描述一组计量数据分布特征的位置指 标 。将n个数据由小到大排列,将位次 转为百分位(%),常计算P25%、P50%、 P75%、 P95%百分位数作为分割点。
• X: 5 7 9… 20... 45 50, n=100
• 位次 1 2 3… 50… 99 100
变异指标的几点说明
• 全距(R):可表达任意分布的变异 大小。
• 四分位间距:用于表达偏态分布的 变异
• 标准差(SD):用于正态或近似正 态分布的变异(较常用的指标)。
• CV :主要用于单位不同时组间变异 的比较。
三、均数和变异指标的应用
• 在医学杂志中,常以 X S 的形式列出, 描述数据的平均水平和离散程度。
•
两组患者Pco2值的比较
• 组别
n X S
R CV(%)
• 肺心病组 12 65.97 ± 20.28 66 30.74
• 慢支肺气肿 10 43.90 ± 8.24 29 18.79
中位数和百分位数的应用
• 生存分析中,常用X25%、X50%、X75%做 描述和比较。同一分位数越大,说明生存 时间越长。
• 组段(d) 频数 累计频数
• 0-
29
29
• 15-
32
61
• 30-
18
79
• 45-
14
93
• 60-
4
97
• 75-
0
97
• 90-
0
97
• 105-
2
99
• 120-
1 100
• 135-
2 102
位次范围
1-29 30-61 62-79 80-93 94-97 97 97 98-99 100 101-102
试验的5次重复结果如下:
X
•
RS
• 甲 20 21 22 23 24 22 4 1.58
• 乙 18 20 22 24 26 22 8 3.16
• 丙 16 19 22 25 28 22 12 4.74
• 结论:三位检验员对该结果测定的平均水 平为22,但测定值的稳定性(变异程度)
不同,以丙测定的稳定性最差。
S (X X )2 n 1
S2 为方差
标准差的意义:表示一组数据的变异程 度大小。当比较组单位相同时, S越大, 表示一组数据间离散程度越大。反之越 小。
标准差的计算公式:
S X 2 ( X )2 / n n 1
(2-13) 例数较少
S fX 2 ( fX)2 / f f 1
的组 间变异程度。
意义:CV越大,表示数据变异越大。 常用于衡量方法、仪器的精密度。
某地7岁年龄组男童身高与体重
•
X
•
x
S CV(%)
• 身高(cm)。 123.10 4.71 3.83
• 体重(kg) 22.29 2.26 10.14
• 结论: 7岁年龄组男童身高与体重 值指标比较,体重指标的变异大于 身高指标。
FX100计算器统计功能计算
• 步骤
说明
• 1. MODE MODE 1 进入统计功能模式
• 2.SHIFT AC =
清除数据
• 3. 55 M+
数据输入
•
54 M+
•
58 M+
• 4 SHIFT 1 =
显示均数
• 5. SHIFT 3 = • 6. RCL C • 7. RCL B
显示标准差(S)
• 缺点:数据利用不全,部分信息损失, 在例数少时结果不稳定。
(二)、百分位数与四分位数间距 (percentile and quartile range)
• 四分位间距:用Q表示,即一组数据用 百分位数法计算的第75%位数与第 25%位数之差。
•
Q=P75%-P25%
• 常用于表示偏态分布的变异的指标。
显示例数x
显示
二、频数表统计功能计算
• 例数较多时计算均数
• 方法1:
• 例:X(年龄) 20
23 25
•
f: 10
5
3
• 步骤同前:
• 数据输入:20 SHIFT , 10 M+
•
23 SHIFT , 5 M+
•
25 SHIFT , 3 M+
• 步骤同前:
CASIO FX-100W计算器
• MODE 运算状态选择键
• 乙 18 20 22 24 26 22 8
• 丙 16 19 22 25 28 22 12
• 变异指标作用:用变异指标来反映计 量数据间相互离散的程度。
几个常用的变异指标
• (一)、极差(Range)或全距:用 (R)表示,即一组数据的R=最大值– 最小值
• 意义:R值越大,表示该组数据的变异 越大。
(n 50% fL )
表2-6 102名3岁以下儿童LgA含量的 中位数计算
• 组段(d) 频数 累计频数
• 0-
29
29
• 15-
32
61
• 30-
18
79
• 45-
14
93
• 60-
4
97
• 75-
0
97
• 90-
0
97
• 105-
2
99
• 120-
1 100
• 135-
2 102
位次范围
1(
f lg f
Xi
)
lg 1(102.1032) 72
26.19
结论:72名鼻咽癌病人唾液中EB病毒某
种抗体平均滴度为1:26
(三)、中位数(Median)
• 中位数(Md):适用于描述偏态分布 资料的平均水平。(例)
• 计算定义:将一组变量值由小到大依 次排列,居以中间位置的观察值即为 中位数,为这组数据的平均数。
• 1:2.5
14
2.5 03979 5.5706
• 1:10
18 10
1.0000 18.0000
• 1:40
22 40
1.6021 35.2462
• 1:160
12 160
2.2041 26.4492
• 1:640 • 合计
6 640 72
2.8062 16.8372 102.1032
•
XG
lg
感染出现症状的平均时间如下:
• 30,47,54,69,78,109,194天
XG
lg
1( lg n
Xi
)
lg 1(lg 30 lg 47 ...lg 194) / 7 70.5 (天)
X 83(d)
表2-5 72名鼻咽癌病人唾液中EB病毒 某种抗体滴度
• 抗体滴度 频数f 滴度倒数 lg(x) f•lg x
•例
•
• 类型 • ALL
儿科白血病患者生存时间(周)
生存分位数
例数 X25% 542 32
X50% 73
X75% 146
• AUL 369 30
70
134
• AML 107 9
25
60
作业
• 练习题(31页) • 习题1中的②题 • 习题4 • 要求: • 计算题要求写出公式、步骤、结论。
CASIO FX-100W述)
第二节 平均数指标 第三节 变异指标
平均数(average )指标
• 平均数指标的概念和作用 • 概念:平均数表示一组同质计量数据
集中趋势的位置和平均水平。
• 作用:是一组计量数据平均水平的代 表值(概括统计量);可作为不同组 间的比较值
• 医学中常用的平均数指标有: • 算数均数、几何均数、中位数
• 本例:
• 四分位数间距(Q)=P75-P25
•
=42.9-13.2=29.7
• 结论:某地102名3岁以下儿童lgA含 量的中位数为25.3(ug/ml),四分位 间距为29.7 (ug/ml)。
.(三)标准差(Standard deviation)
和方差(variance)
用S或SD表示样本标准差,计算公式
• P% 1% 2%
50%
100%
百分位数(PX%)法频数表计算
• 频数表计算公式(2-8)
PX
Lx
ix fx
(n
x% fL )
• 例:P25:即第25%位数值,有25%的 变量值小于P25 值,有75%的变量值 高于P25值。
表2-6 102名3岁以下儿童LgA含量的 中位数计算
(二)、几何均数 (Geometric
• 适用条件:X值m呈ea倍n)数增长或部分 数据偏离过大的正偏态分布资料。
• 计算公式:
XG
lg 1( lg n
Xi
)
例数较少用 (2-3)
XG
lg 1(
f lg f
Xi
)
频数表资料用 (2-4)
例2-5, 7名输血后感染乙肝患者从输 血至出现症状的时间如下:估计输血
(一)算术均数( mean)
简称均数,用 X 表示.
基本公式(2-1,2-2) 1.直接法
适用条件
X X
n
公式适用频数为 正态或近似正态
2.加权法公式
分布的计量资料.
X fX
f
• 表2、160名正常成年女性血清甘油三酯分布
• 组段 频数(f) 组中值(X) fx