第二章常用统计指标(计量资料的统计描述)

合集下载

2 计量资料的统计描述指标

2 计量资料的统计描述指标
M = X ⎛ n +1 ⎞ = X ⎛ 7 +1 ⎞ = X 4 = 92分
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠

某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -

计量资料统计描述

计量资料统计描述
• 几何均数(geometric mean)
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料

计量资料的统计描述

计量资料的统计描述

分 层 抽 样
整 群 抽 样

7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,

统计背诵版(三份整合)

统计背诵版(三份整合)

统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。

2、用均数和标准差可以全面描述正态分布资料的特征。

3、各观察值均加(或减)同一数后标准差不变。

4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。

5、偏态分布宜用中位数描述其分布的集中趋势。

6、各观察值同乘以一个不等于0的常数后,变异系数不变。

7、正态分布的资料,均数等于中位数。

8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。

第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。

2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。

3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。

7、在两样本均数比较的t检验中,无效假设为两总体均数相等。

8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。

10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

1计量资料统计描述(08硕)

1计量资料统计描述(08硕)
(1)意义:一组性质相同的观察值在数量上的平均水平。 意义:一组性质相同的观察值在数量上的平均水平。 意义 (2)表示:µ(总体) 表示: 总体) 表示 样本) x(样本)
(3)计算:直接法、间接法。 计算:直接法、间接法。 计算 计算机计算 (4)特征:∑(X- x 特征: )=0 估计误差之和为 。 估计误差之和为0。 特征 (5)应用:正态分布或近似正态分布 应用: 应用 (6)注意:合理分组,才能求均数,否则没有意义。 注意:合理分组,才能求均数,否则没有意义。 注意
M=51天 (QR=28.5天) 天 天
3.标准差和方差(Standard deviation and variance) 标准差和方差( 标准差和方差 ) 总体方差 总体标准差 样本标准差
σ2 = ∑
( X − µ)2 N
σ=
∑ (X − µ)
N
2
S=
∑(X − X)
n −1
2
样本标准差的简化计算公式: 样本标准差的简化计算公式: 例数较少 频数表资料
∑ X 2 − (∑ X )2 / n n −1
S=
S=
∑ fX 2 − (∑ fX)2 / ∑ f ∑ f −1
甲组5名同龄男孩的身高值 名同龄男孩的身高值( ) 例2-5 甲组 名同龄男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 ΣX = 500 ΣX 2 = 50250
(1)单位不同时组间变异程度的比较 )
表 体脂与胆固醇的变异系数 指标 体脂( ) 体脂(%) 胆固醇( 胆固醇(mmol)
x
18.90 4.84
S 5.80 1.04
CV 30.69 21.40

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

统计学2 计量资料的统计描述指标课件

统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
11111,11111,11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不

2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S

计量资料的统计描述

计量资料的统计描述

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。

(2)频数分布的类型。

(3)频数分布表的用途。

2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。

常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。

对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。

如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。

每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。

3.写出组段,逐一划记。

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。

1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。

计量资料的统计描述

计量资料的统计描述
医学参考值范围的制定方法
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03

第二章统计描述

第二章统计描述

G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031
1 2.709Байду номын сангаас )
fi
40
lg1(67.1282) 48 40
G 1: 48
中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
血清总胆固醇 2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~
7.0~7.5 合计
频数f 1 8 9 23 25 17 9 6 2 1
101
fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25
13
174
单侧正常值范围的上限为 1.81
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。

计量资料的统计描述

计量资料的统计描述

4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency

第02章 计量资料的统计描述课件

第02章 计量资料的统计描述课件

组段数 5;组距 10分
表2.1 某医院产科某月顺产婴儿出生身长(单位:cm) 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
(1)直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6:9只大鼠存活天数如下: 4,10,7,3,15,2,9,13,>60 则这9只大鼠的平均存活天数为多少天?
排序:2,3, 4, 7, 9,10 ,13, 15, >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
血 清 总 胆 固 醇(mmol/L)
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX

统计学知识点(完整)

统计学知识点(完整)

基本统计方法第一章 概论1. 总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。

2。

参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。

3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。

第二章 计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2。

离散趋势:极差、四分位间距(QR =P 75—P 25)、标准差(或方差)、变异系数(CV )3。

正态分布特征:①X 轴上方关于X =μ对称的钟形曲线;②X =μ时,f (X )取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68。

27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。

4。

医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2。

5-P 97.5.第三章 总体均数估计和假设检验1. 抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

抽样误差不可避免,产生的根本原因是生物个体的变异性.2. 均数的标准误(Standard error of Mean , SEM ):样本均数的标准差,计算公式:/X σσ=3。

降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。

4。

t 分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高; ③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 不同计量数据组间比较,此差距越大, 表示变异越大。
百分位数(PX%)
• 是描述一组计量数据分布特征的位置指 标 。将n个数据由小到大排列,将位次 转为百分位(%),常计算P25%、P50%、 P75%、 P95%百分位数作为分割点。
• X: 5 7 9… 20... 45 50, n=100
• 位次 1 2 3… 50… 99 100
变异指标的几点说明
• 全距(R):可表达任意分布的变异 大小。
• 四分位间距:用于表达偏态分布的 变异
• 标准差(SD):用于正态或近似正 态分布的变异(较常用的指标)。
• CV :主要用于单位不同时组间变异 的比较。
三、均数和变异指标的应用
• 在医学杂志中,常以 X S 的形式列出, 描述数据的平均水平和离散程度。

两组患者Pco2值的比较
• 组别
n X S
R CV(%)
• 肺心病组 12 65.97 ± 20.28 66 30.74
• 慢支肺气肿 10 43.90 ± 8.24 29 18.79
中位数和百分位数的应用
• 生存分析中,常用X25%、X50%、X75%做 描述和比较。同一分位数越大,说明生存 时间越长。
• 组段(d) 频数 累计频数
• 0-
29
29
• 15-
32
61
• 30-
18
79
• 45-
14
93
• 60-
4
97
• 75-
0
97
• 90-
0
97
• 105-
2
99
• 120-
1 100
• 135-
2 102
位次范围
1-29 30-61 62-79 80-93 94-97 97 97 98-99 100 101-102
试验的5次重复结果如下:
X

RS
• 甲 20 21 22 23 24 22 4 1.58
• 乙 18 20 22 24 26 22 8 3.16
• 丙 16 19 22 25 28 22 12 4.74
• 结论:三位检验员对该结果测定的平均水 平为22,但测定值的稳定性(变异程度)
不同,以丙测定的稳定性最差。
S (X X )2 n 1
S2 为方差
标准差的意义:表示一组数据的变异程 度大小。当比较组单位相同时, S越大, 表示一组数据间离散程度越大。反之越 小。
标准差的计算公式:
S X 2 ( X )2 / n n 1
(2-13) 例数较少
S fX 2 ( fX)2 / f f 1
的组 间变异程度。
意义:CV越大,表示数据变异越大。 常用于衡量方法、仪器的精密度。
某地7岁年龄组男童身高与体重

X

x
S CV(%)
• 身高(cm)。 123.10 4.71 3.83
• 体重(kg) 22.29 2.26 10.14
• 结论: 7岁年龄组男童身高与体重 值指标比较,体重指标的变异大于 身高指标。
FX100计算器统计功能计算
• 步骤
说明
• 1. MODE MODE 1 进入统计功能模式
• 2.SHIFT AC =
清除数据
• 3. 55 M+
数据输入

54 M+

58 M+
• 4 SHIFT 1 =
显示均数
• 5. SHIFT 3 = • 6. RCL C • 7. RCL B
显示标准差(S)
• 缺点:数据利用不全,部分信息损失, 在例数少时结果不稳定。
(二)、百分位数与四分位数间距 (percentile and quartile range)
• 四分位间距:用Q表示,即一组数据用 百分位数法计算的第75%位数与第 25%位数之差。

Q=P75%-P25%
• 常用于表示偏态分布的变异的指标。
显示例数x
显示
二、频数表统计功能计算
• 例数较多时计算均数
• 方法1:
• 例:X(年龄) 20
23 25

f: 10
5
3
• 步骤同前:
• 数据输入:20 SHIFT , 10 M+

23 SHIFT , 5 M+

25 SHIFT , 3 M+
• 步骤同前:
CASIO FX-100W计算器
• MODE 运算状态选择键
• 乙 18 20 22 24 26 22 8
• 丙 16 19 22 25 28 22 12
• 变异指标作用:用变异指标来反映计 量数据间相互离散的程度。
几个常用的变异指标
• (一)、极差(Range)或全距:用 (R)表示,即一组数据的R=最大值– 最小值
• 意义:R值越大,表示该组数据的变异 越大。
(n 50% fL )
表2-6 102名3岁以下儿童LgA含量的 中位数计算
• 组段(d) 频数 累计频数
• 0-
29
29
• 15-
32
61
• 30-
18
79
• 45-
14
93
• 60-
4
97
• 75-
0
97
• 90-
0
97
• 105-
2
99
• 120-
1 100
• 135-
2 102
位次范围
1(
f lg f
Xi
)

lg 1(102.1032) 72

26.19
结论:72名鼻咽癌病人唾液中EB病毒某
种抗体平均滴度为1:26
(三)、中位数(Median)
• 中位数(Md):适用于描述偏态分布 资料的平均水平。(例)
• 计算定义:将一组变量值由小到大依 次排列,居以中间位置的观察值即为 中位数,为这组数据的平均数。
• 1:2.5
14
2.5 03979 5.5706
• 1:10
18 10
1.0000 18.0000
• 1:40
22 40
1.6021 35.2462
• 1:160
12 160
2.2041 26.4492
• 1:640 • 合计
6 640 72
2.8062 16.8372 102.1032

XG

lg
感染出现症状的平均时间如下:
• 30,47,54,69,78,109,194天
XG

lg
1( lg n
Xi
)

lg 1(lg 30 lg 47 ...lg 194) / 7 70.5 (天)
X 83(d)
表2-5 72名鼻咽癌病人唾液中EB病毒 某种抗体滴度
• 抗体滴度 频数f 滴度倒数 lg(x) f•lg x
•例

• 类型 • ALL
儿科白血病患者生存时间(周)
生存分位数
例数 X25% 542 32
X50% 73
X75% 146
• AUL 369 30
70
134
• AML 107 9
25
60
作业
• 练习题(31页) • 习题1中的②题 • 习题4 • 要求: • 计算题要求写出公式、步骤、结论。
CASIO FX-100W述)
第二节 平均数指标 第三节 变异指标
平均数(average )指标
• 平均数指标的概念和作用 • 概念:平均数表示一组同质计量数据
集中趋势的位置和平均水平。
• 作用:是一组计量数据平均水平的代 表值(概括统计量);可作为不同组 间的比较值
• 医学中常用的平均数指标有: • 算数均数、几何均数、中位数
• 本例:
• 四分位数间距(Q)=P75-P25

=42.9-13.2=29.7
• 结论:某地102名3岁以下儿童lgA含 量的中位数为25.3(ug/ml),四分位 间距为29.7 (ug/ml)。
.(三)标准差(Standard deviation)
和方差(variance)
用S或SD表示样本标准差,计算公式
• P% 1% 2%
50%
100%
百分位数(PX%)法频数表计算
• 频数表计算公式(2-8)
PX
Lx
ix fx
(n
x% fL )
• 例:P25:即第25%位数值,有25%的 变量值小于P25 值,有75%的变量值 高于P25值。
表2-6 102名3岁以下儿童LgA含量的 中位数计算
(二)、几何均数 (Geometric
• 适用条件:X值m呈ea倍n)数增长或部分 数据偏离过大的正偏态分布资料。
• 计算公式:
XG

lg 1( lg n
Xi
)
例数较少用 (2-3)
XG

lg 1(
f lg f
Xi
)
频数表资料用 (2-4)
例2-5, 7名输血后感染乙肝患者从输 血至出现症状的时间如下:估计输血
(一)算术均数( mean)
简称均数,用 X 表示.
基本公式(2-1,2-2) 1.直接法
适用条件
X X
n
公式适用频数为 正态或近似正态
2.加权法公式
分布的计量资料.
X fX
f
• 表2、160名正常成年女性血清甘油三酯分布
• 组段 频数(f) 组中值(X) fx
相关文档
最新文档