医学统计学 第十四章数值变量统计描述

合集下载

医学统计学——数值变量资料的统计描述

医学统计学——数值变量资料的统计描述

血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=

n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k

预防医学选择题及标准答案

预防医学选择题及标准答案

统计流行病部分自测题与答案统计学部分选择题:第十三章医学统计学方法的基本概念和基本步骤1.统计学中所说的总体是指A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体2.对于由一个错误实验设计所产生的实验数据,在进行数据处理前,其补救办法靠A.统计方法 B.数学方法 C.重做实验 D.重新设计,重做实验3.为了由样本推断总体,样本应该是A.总体中任意的一部分B.总体中的典型部分C.总体中有意义的一部分D.总体中有代表性的一部分4.卫生统计工作的步骤为A.统计研究调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计推断C.统计研究设计、搜集资料、整理资料、分析资料D.统计研究调查、统计描述、统计推断、统计图表5.概率是描述某随机事件发生可能性大小的数值,以下对概率的描述哪项是错误的A.其值可由某一统计量对应的概率分布表中得到B.其值的大小在0和1之间C.随机事件发生的概率小于0.05或0.01时可认为在一次抽样中它一定不会发生D.必然发生事件的概率为16.调查某地高血压患病情况,以舒张压≥90mmHg为高血压,结果在1000人中有10名高血压患者,990名非患者,整理后的资料是A. 数值变量资料B. 二项分类变量资料C. 有序分类变量资料D. 以上都不是第十四章 数值变量的统计描述1.描述一组偏态分布资料的变异度,宜用A.全距B.标准差C.变异系数D.四分位数间距2.变异系数越大,表示A.相对变异程度越大B.平均数越大C.标准差越小D.样本含量越大3.用均数与标准差可全面描述其资料分布特点的是A.正偏态分布B.负偏态分布C.正态分布和近似正态分布D.对称分布4.比较身高和体重两组数据变异度大小宜采用A.变异系数B.方差C.极差D.标准差5.频数分布的两个重要特征是A.统计量与参数B.样本均数与总体均数C.集中趋势与离散趋势D.样本标准差与总体标准差6.常用的平均数指标不包括A.算术平均数B.几何均数C.均数D.极差7.常用离散趋势指标不包括A.方差B.极差C.标准差D. 50P8.下列有关中位数(M )的描述中,不正确的是A.一组观察值中最大值与最小值之差B.一组观察值从小到大排列后,位次居中的观察值C. n 为奇数时,M=2/)1(+n XD. n 为偶数时,M=()12/(2/++n n X X )/29.下列关于医学参考值范围描述中,不正确的是A.排除了有关疾病等因素对所研究指标有影响的正常人的解剖、生理、生化等数据的波动范围B.没有任何疾病的人的解剖、生理、生化等数据的波动范围C.习惯确定只包含95%或99%的人的界值D.根据专业知识确定取单侧界限或双侧界限10.下列有关四分位数间距描述中不正确的是A.四分位数间距=P 75-P 25B.四分位数间距比极差稳定C.四分位数间距即中间50%观察值的极差D.可用于描述正态分布资料的变异度11.正态分布的资料有A.算术均数=几何均数B.算术均数=中位数C.几何均数=中位数D.算术均数=几何均数=中位数12.正态分布曲线下右侧5%对应的分位点为A.μ+1.96σB.μ-1.96σC.μ+2.58σD.μ+1.64σ13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标(如血糖水平)的参考值范围一般指A.该指标在所有人中的波动范围B.该指标在所有正常人中的波动范围C.该指标在绝大部分正常人中的波动范围D.该指标在少部分正常人中的波动范围14.某病患者5人的潜伏期(天)分别为6,8,5,10,>13,则平均潜伏期为A. 5天B. 8天C. 6~13天D. 11天15.标准正态分布曲线下,在区间(-2.58,0)对应的曲线下面积为A. 45%B. 47.5%C. 49.5%D.49.95%16.测得200例正常人血铅含量(g g 100/μ)为X,令Y=log(X),Y 服从正态分布,则该地区正常人血铅值的95%上限为: A. Y S Y 96.1+ B. Y S Y 645.1+ C. )96.1(lg 1Y S Y +- D. )645.1(lg 1Y S Y +-第十五章 数值变量的统计推断1.已知A 药对某病有效。

医学统计学概述数值变量

医学统计学概述数值变量

fX
f1 f2 ...... fm
f
式中f为各组的频数,x为各组的组中值。
二、几何均数 (geometric mean,G)
几何均数用G表示。适用于对数正态分布资料或 等比资料,例如抗体的平均滴度和平均效价。
计算方法: – 直接法:样本含量n较小时,选用此法。有n个观察
值X1, X2,……Xn,几何均数的计算公式为:
P≤0.05 小概率事件 发生的可能性很小
六、统计量与参数,statistic & parameter
–统计量:依据样本观察值所定出的量。如:样本均数、 样本标准差 、 样本率。
–参数:总体的统计指标数值。如:总体均数、总体标 准差、 总体率。
统计描述
数值变量的统计描述
频数与频数分布表 (frequency distribution)
计算方法
– 直接法:样本含量n较小时,可根据下式计算:
M X n1 2
M
X
n 2
X
n 2
1
2
n为奇数时
n为偶数时
某病患者5人潜伏期分别为2,4,6,7, 20,求中位数。本例n=5,为奇数
M X n1 X3 6 天 2
若上例在第25天又发现一例患者,患者数
增加为6名
M
X
(X )2
为了消除观察值的总个数 N的影响,将离均差平方 和除以N,这就是总体方 差,用σ2表示。
方差(variance)
2 (X )2
N
标准差
方差的单位是原度量单位(standard deviation)
(如kg)的平方,把总体方
差开平方,这就是总体标 准差,度量单位与原始观 察值一致,即

医学统计学概述数值变量

医学统计学概述数值变量

医学统计学概述数值变量医学统计学是医学领域中的重要学科,它为医学研究提供了有力的工具和方法。

在医学统计学中,数值变量是一种常见的数据类型,用于描述和分析各种医学现象和指标。

本文将概述医学统计学中的数值变量概念、分类、测量和分析方法等内容。

一、数值变量的概念数值变量是指在统计分析中,用数值表示且具有可比性的变量。

它可以分为连续变量和离散变量两种类型。

连续变量是指取值可以是任意实数的变量,通常用于描述血压、体重、身高等连续性的生理指标。

这些指标可以在一定范围内连续变动,其取值可以是小数或整数。

离散变量是指取值只能是整数的变量,通常用于描述计数或计算次数的指标,比如病例数、手术次数等。

离散变量的取值通常是有限的,而且不可分割。

二、数值变量的测量为了能够准确地描述和分析数值变量,需要采用相应的测量方法。

数值变量的测量方法包括直接测量和间接测量。

直接测量是指通过测量工具直接获得变量的数值,比如使用体重秤来测量体重、使用血压计来测量血压等。

直接测量可以精确地得到数值变量的具体数值。

间接测量是指通过其他指标或计算方法得到数值变量的数值,比如通过身高和体重计算体质指数(BMI)。

间接测量可以在一定程度上估计数值变量的数值,但精确度不如直接测量高。

三、数值变量的描述统计分析在医学统计学中,常用的数值变量的描述统计方法包括均值、中位数、标准差和百分位数等。

均值是指将所有观察值相加后除以观察次数,用来表示数值变量的平均水平。

均值可以反映一组数据的集中趋势,但容易受到极端值的影响。

中位数是指将一组数据按大小顺序排列后的中间值,用来表示数值变量的中间位置。

中位数不容易受到极端值的影响,更适合用于描绘有偏分布的数据。

标准差是指一组数据与其均值的偏离程度,用来表示数值变量的离散程度。

标准差越大,数据的离散程度越大。

百分位数是指将一组数据按大小顺序排列后,某一特定百分比所对应的数值。

常用的百分位数有25%分位数(第一四分位数)、50%分位数(中位数)和75%分位数(第三四分位数)等。

医学统计学 描述性统计

医学统计学 描述性统计
位置指标 中位数:一组资料按大小顺序排列后,中间
位置上的观测值。
12 3 4 5 6 7 1 2 3 4 5 6----median=3.5
百分位数(percentile,Px)
位置指标 一组资料从小到大排序后,x%的观测值比
Px小,(100-x)%的观测值比Px大,则这 个位置点的数值,即为第x百分位数Px。 第5百分位数P5:有5%的观测值比P5小,有 95%的观测值比P5大。 中位数即第50百分位数。 用于偏态分布的资料。
位数间距。 如:年龄中位数为33.5岁,最小年龄3岁,最大 年龄55岁。
医学统计学
描述性统计 (一)
统计处理
统计描述: 描述样本特征:列表、图示、数字
统计推断:由样本信息来推断总体信息
计量资料分布特征和描述指标
集中趋势:平均水平 算术均数、几何均数、中位数
离散趋势:变异性 极差、四分位数间距、方差、标准差、变异 系数
频数表和直方图
集中趋势指标-均数mean
算术均数:简称均数,用以描述一组服从正 态分布或近似正态分布资料的平均水平。
总体均数 ,样本均数 x
离均差总和 离均差平方和
几何均数G(geometric mean)
用于对数正态分布的资料。即原变量值分布 不对称,但经对数转换后,近似或服从正态 分布的资料。
血清学平均抗体效价
中位数M(median)
变异系数CV
用于比较不同量纲上述指标都是用于计量资料的统计描述 除变异系数外,均有量纲 变异性指标中,指标值越大,说明数据变异越大 分布类型不同,适用的描述指标不同。 正态分布常用 x s 偏态分布常用中位数M和最小值、最大值或四分
离散趋势的指标-极差R
极差或全距range:最大值与最小值之差。

医学统计学2-1数值变量的统计描述

医学统计学2-1数值变量的统计描述

1
1
0.99
0.99
3
4
2.97
3.96
6
10
5.94
9.90
8
18
7.92
17.82
17
35
16.83
34.65
20
55
19.80
54.45
17
72
16.83
71.28
12
84
11.88
83.16
9
93
8.91
92.07
5
98
4.95
97.02
2
100
1.98
99.01
1
101
0.99
100.00
(二)描述频数分布的特征
表1 组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
97.02
2
100
1.98
99.01
1
101
0.99
100.00
101

100.00

频数分布表的编制步骤
➢ 求极差 ➢ 确定组数 ➢ 确定组距 ➢ 确定各组段的上、下限 ➢ 列表划记,统计频数
计量资料的频
Std. Dev = .66
Mean = 4.03
0
N = 101.00
101

100.00

(五)列表划记
统计出各组段内的数据个数(频数)
表1 组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计

02-数值变量资料的统计描述

02-数值变量资料的统计描述
• 为什么要对资料进行统计描述?
医学研究得到的原始数据(raw
data)往往是庞大的、混乱的
个体变异的存在,医学研究中某指标在各个体上的观察结
果不是恒定不变的,但也不是杂乱无章的;从总体的角度上
个体值的变异是有一定规律的,即呈一定的分布
统计描述的结果为进一步的统计推断提供参考
统计描述
• 统计描述的思路:
X
i 1
n
i
n
算术均数
• 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量 (U/L)为:4.20、6.43、2.08、3.45、2.26、4.04、 5.42、3.38;求其品均水平。 解

(4.20 6.43 2.08 3.45 2.26 4.04 5.42 3.38) x f 3.908 (U/L)

Negative skewness:老年人生存质量自评分
400
300
人 数
200
100
0 0 10 20 30 40 50 60 70 80 90 100
自评分
Positive skewness: 黑色素瘤患者的生存时间
4 0
3 0
人 数
2 0
1 0
0
0
5
10
15
20
25
30
35
40
45
生存时间(月)
原始数据: 排 序: 位 置: 49.1 60.8 63.3 63.6 63.6 65.6 65.8 68.6 69.0 49.1 60.8 63.3 63.6 63.6 65.6 65.8 68.6 69.0 1 2 3 4 5 6 7 8 9

n 1 9 1 位置 5;中位数= .6 63 2 2

医学统计学数值变量统计描述教学

医学统计学数值变量统计描述教学

医学统计学数值变量统计描述教学医学统计学是医学领域的重要学科之一,它关注的是通过收集、整理和分析数据来提取有关医学问题的信息。

数值变量统计描述是医学统计学中的一个重要概念,它通过使用统计学方法来总结和描述数值变量的各种特征,包括中心趋势、离散程度和分布形态等。

一、数值变量的中心趋势统计描述中心趋势是指一组数据向中间值倾斜的程度,常用的中心趋势统计描述指标包括均值、中位数和众数。

1. 均值(mean)是一组数据的平均值,它是通过将所有数据进行求和并除以数据个数来计算得到的。

均值是数值变量的重要测量指标,它可以反映一组数据的整体水平。

然而,均值受极端值的影响较大,所以在进行均值统计描述时,应注意排除异常值的影响。

2. 中位数(median)是一组数据按大小排序后,处于中间位置的值。

中位数对极端值的影响相对较小,能够比较准确地反映数据的集中位置。

3. 众数(mode)是一组数据中出现次数最多的值。

众数一般用于描述具有明显峰值的数据分布,如血型、治疗效果的评价等。

二、数值变量的离散程度统计描述离散程度是指一组数据呈“分散”态势的程度,常用的离散程度统计描述指标包括标准差、方差和四分位距等。

1. 标准差(standard deviation)是一组数据离均值的平均距离的度量,它能够反映数据的离散程度。

标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小。

2. 方差(variance)是标准差的平方,它在统计学中用于度量数据的离散程度。

通常情况下,方差越大,数据的离散程度越大;方差越小,数据的离散程度越小。

3. 四分位距(interquartile range)是一组数据中位于第25%和第75%位置之间的区间长度。

四分位距能够反映数据的分散程度,同时也对异常值的影响较小。

三、数值变量的分布形态统计描述分布形态是指一组数据的分布特点,常用的分布形态统计描述指标包括偏态系数和峰态系数等。

1. 偏态系数(skewness)是一组数据分布偏离正态分布的程度的度量。

2-数值变量资料的统计描述 ppt课件

2-数值变量资料的统计描述 ppt课件

血糖(mol/L)组段 组中值(xi)
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50
频数(f)
3 3 8 23 24 25 20 12 10 4 132
4.30
23
37
17.42
28.03
4.40~
4.50
24
61
18.18
46.21
4.60~
4.70
25
86
18.94
65.15
4.80~
4.90
20
106
15.15
80.30
5.00~
5.10
12
118
9.09
89.39
5.20~
5.30
10
128
7.58
96.97
5.40~5.60
5.50
4
132
(n5% 0fL) i; fm
下限值L
中位数M
上限值U
2020/10/6
26
例2.1频数表中位数的计算
血糖(mol/L)组段
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
组中值(
x
)
i
3.70
3.90
4.10
4.30
中位数是第50百分位数, 用P50表示。
2020/10/6
28
频数表法
公式:
L X: 第 X百 分 位 数 所 在 组 段 下 限 fL: 小 L 于 X 各 组 段 的 累 计 频 数 iX: 第 X百 分 位 数 所 在 组 段 组 距 n: 为 总 例 数

预防医学-数值变量的统计描述PPT

预防医学-数值变量的统计描述PPT

M
n为偶数时,
M=
x n x n 1
2
2
2
(2)频数表法:适用于频数表资料 步骤: ①从小到大计算累计频数和累计频数; ②确定百分位数和中位数所在组段; ③计算百分位数Px和中位数M
Px=
L
i fx
n
x
%


fL

M=P50=
L
i fx

n 2


fL

L=Px或M所在组段的下限 i=Px或M所在组段的组距 fx=Px或M所在组段的频数
P25:下四分位数,简记QL P75:上四分位数,简记QU 2、意义:中间一半观察值的极差,意义与R相似。 3、特点:(1) 比R稳定,但仍未考虑每一个观察
M=23.52 (h)
fx=63(或M所在组段的频数)
f L =30(小于L各组段的累计频数)
Descriptive Statistics
描述数值变量资料的集中趋势(central tendency)指标 • 中位数( median )和百分位数( percentile )
M 所在组段下限值 组距 (n 50% 至该下限值的累计频数)
⑶组距=极差/组数(拟采用等距分组) ⑷定组段:划范围 ⑸统计各组段的人数:
划记
80.1
读取数据,然后“对号入座”
100.1
Descriptive Statistics
频数分布表(frequency table)
• 频数表的用途: 1.描述频数分布的类型和特征
2.便于发现一些特大或特小的可疑值
3.便于进一步做统计分析和处理
fL =小于L各组段的累计频数
起点

医学统计学数据描述

医学统计学数据描述

医学统计学数据描述
医学统计学中常用的数据描述方法包括以下内容:
频数和比例:对样本中不同分类变量的频数和比例进行描述,通常以表格或图形的形式呈现。

中心趋势:通过测量数据的中心位置来描述数据的特征。

常用的中心趋势统计量包括均值、中位数和众数等。

变异程度:通过测量数据的分散程度来描述数据的特征。

常用的变异程度统计量包括标准差、方差和极差等。

分布形态:通过测量数据分布的形状来描述数据的特征。

常用的分布形态统计量包括偏态系数和峰态系数等。

置信区间:对样本中参数的估计给出一个置信区间,表示这个估计值在一定程度上是可靠的。

相关性:通过测量两个变量之间的相关性来描述它们之间的关系。

常用的相关性统计量包括相关系数和协方差等。

在医学研究中,数据描述是非常重要的一步,能够帮助研究者更加深入地了解数据,从而制定更加合理的研究设计和数据分析方案。

预防医学选择题及答案2

预防医学选择题及答案2

预防医学选择题及答案2统计流行病部分自测题与答案统计学部分选择题:第十三章医学统计学方法的基本概念和基本步骤1.统计学中所说的总体是指A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体2.对于由一个错误实验设计所产生的实验数据,在进行数据处理前,其补救办法靠A.统计方法 B.数学方法 C.重做实验 D.重新设计,重做实验3.为了由样本推断总体,样本应该是A.总体中任意的一部分B.总体中的典型部分C.总体中有意义的一部分D.总体中有代表性的一部分4.卫生统计工作的步骤为A.统计研究调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计推断C.统计研究设计、搜集资料、整理资料、分析资料D.统计研究调查、统计描述、统计推断、统计图表5.概率是描述某随机事件发生可能性大小的数值,以下对概率的描述哪项是错误的A.其值可由某一统计量对应的概率分布表中得到B.其值的大小在0和1之间C.随机事件发生的概率小于0.05或0.01时可认为在一次抽样中它一定不会发生D.必然发生事件的概率为16.调查某地高血压患病情况,以舒张压≥90mmHg为高血压,结果在1000人中有10名高血压患者,990名非患者,整理后的资料是A. 数值变量资料B. 二项分类变量资料C. 有序分类变量资料D. 以上都不是第十四章数值变量的统计描述1.描述一组偏态分布资料的变异度,宜用A.全距B.标准差C.变异系数D.四分位数间距2.变异系数越大,表示A.相对变异程度越大B.平均数越大C.标准差越小D.样本含量越大3.用均数与标准差可全面描述其资料分布特点的是A.正偏态分布B.负偏态分布C.正态分布和近似正态分布D.对称分布4.比较身高和体重两组数据变异度大小宜采用A.变异系数B.方差C.极差D.标准差5.频数分布的两个重要特征是A.统计量与参数B.样本均数与总体均数C.集中趋势与离散趋势D.样本标准差与总体标准差6.常用的平均数指标不包括A.算术平均数B.几何均数C.均数D.极差7.常用离散趋势指标不包括A.方差B.极差C.标准差D. 50P8.下列有关中位数(M )的描述中,不正确的是A.一组观察值中最大值与最小值之差B.一组观察值从小到大排列后,位次居中的观察值C. n 为奇数时,M=2/)1(+n XD. n 为偶数时,M=()12/(2/++n n X X )/29.下列关于医学参考值范围描述中,不正确的是A.排除了有关疾病等因素对所研究指标有影响的正常人的解剖、生理、生化等数据的波动范围B.没有任何疾病的人的解剖、生理、生化等数据的波动范围C.习惯确定只包含95%或99%的人的界值D.根据专业知识确定取单侧界限或双侧界限10.下列有关四分位数间距描述中不正确的是A.四分位数间距=P 75-P 25B.四分位数间距比极差稳定C.四分位数间距即中间50%观察值的极差D.可用于描述正态分布资料的变异度11.正态分布的资料有A.算术均数=几何均数B.算术均数=中位数C.几何均数=中位数D.算术均数=几何均数=中位数12.正态分布曲线下右侧5%对应的分位点为A.μ+1.96σB.μ-1.96σC.μ+2.58σD.μ+1.64σ13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标(如血糖水平)的参考值范围一般指A.该指标在所有人中的波动范围B.该指标在所有正常人中的波动范围C.该指标在绝大部分正常人中的波动范围D.该指标在少部分正常人中的波动范围14.某病患者5人的潜伏期(天)分别为6,8,5,10,>13,则平均潜伏期为A. 5天B. 8天C. 6~13天D. 11天15.标准正态分布曲线下,在区间(-2.58,0)对应的曲线下面积为A. 45%B. 47.5%C. 49.5%D.49.95%16.测得200例正常人血铅含量(g g 100/μ)为X,令Y=log(X),Y 服从正态分布,则该地区正常人血铅值的95%上限为:A. Y S Y 96.1+ B. Y S Y 645.1+ C. )96.1(lg 1Y S Y +- D. )645.1(lg 1Y S Y +-第十五章数值变量的统计推断1.已知A 药对某病有效。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⎛ lg 2 + lg 4 + lg 8 + lg 8 + lg 16 + lg 32 ⎞ −1 G = lg − 1 ⎜ ⎟ = lg (0 .9031 ) = 8 6 ⎝ ⎠
几何平均滴度为1:8
加权法
加权法: 当样本含量较大时,可将资料整理 成频数表,用下式计算:
G = lg
−1
⎛ ⎜ ⎜ ⎝
第十四章 数值变量的统 计描述
频数表的编制方法
1.找全距:Range = Max - Min 2. 划分组段 (1)确定组数:8~15组,一般取10组 (2)确定组距:组距(i)= 全距 / 组段数 (3)确定各组段的上下限:各组的起点为下 限, 终点为上限。 要求:(1)第一组含最小值 (2)最后组含最大值 3.归纳计数:划计法 4. 计算频率与累计频率
X ± us
如制定95%参考值范围,双侧界值 u=1.96,单侧界值u=1.645。 双侧界值:x±1.96s 单侧上界:x+1.645s 单侧下界:x-1.645s
例题
[例1-12]某地调查正常成年男子144人的红细胞 数近似正态分布,得均数=5.38(1012/L),标 准差s=0.44(1012/L),试估计该地成年男子 红细胞数的95%参考值范围。 因红细胞数过多或过少均为异常,故按双 侧估计95%界值。 下限为:x - 1.96s=5.38-1.96 ×0.44 =4.52 (1012/L) 上限为:x + 1.96s=5.38+1.96×0.44 =6.24(1012/L) 故该地成年男子红细胞数的95%参考值范围 (4.52—6.24)1012/L
(三)中位数(median)
将一组观察值从小到大按顺序排列,位 次居中的观察值就称中位数。 中位数适用于任何一种分布的计量 数据,一般多用于描述偏态分布或数据 一端无界资料的集中趋势。中位数用M 表示。
直接法
样本含量较小时,可根据下式计算: M = X ⎛ n+1 ⎞ n为奇数时 ⎜ ⎟ ⎝ 2 ⎠ n为偶数时

f lg X ⎞ ⎟ ⎟ f ∑ ⎠
例题
[例1-4]某地102名健康人的钩端螺旋体血 清抗体滴度如表1-2,计算平均滴度。 ⎛ ∑ f lg X ⎞ ⎟ = lg ⎛ 272 . 026 ⎞ = 464 G = lg ⎜ ⎟ ⎜ ⎜ ⎟ 102 f ⎝ ⎠ ∑ ⎝ ⎠
−1 −1
102名健康人的钩端螺旋体血清滴度的几何 平均滴度为1:464
表14-1 102名健康人的钩端螺旋体 血清抗体平均滴度的计算
抗体滴度 (1) 1:100 1:200 1:400 1:800 1:1600 合计 人数 f (2) 7 19 34 29 13 102 滴度倒 数X (3) 100 200 400 800 1600 lgX (4) 2.000 2.301 2.602 2.903 3.204 flgX (5)=(2)(4) 14.000 43.719 88.468 84.187 41.652 272.206
几何均数 适用于对数正态分布的资料,例如 抗体的平均滴度和平均效价。几何均数 用G表示。 例:5人的抗体滴度为: 1:10, 1:100, 1:1000, 1:10000, 1:100000
直接法
直接法: 样本含量较小时,选用此法。有n个观察 值X1,X2,…Xn,几何均数的计算公式为:
G = n X1 X 2 ⋅ ⋅ ⋅ X n
5−1 5
= 1.58
S乙 =
(500 )2 51000 −
5−1 5
= 15.81
标准差应用
表示观察值的变异程度 在两组(或几组)均数相近、单位相同的条 件下,标准差大,表示变量值的变异度大,均 数的代表性较差;反之,标准差小,表示变量 组变异度小,数据多集中在均数周围,则均数 的代表性较好。 计算变异系数 结合均数描述频数分布的特征和制定医学参考 值范围。 计算标准误
i ⎛n 4 ⎛ 107 ⎞ ⎞ M = L + ⎜ − ∑ fL ⎟ = 29 + ⎜ − 36⎟ = 10.41 mg/ L) ( f ⎝2 65 ⎝ 2 ⎠ ⎠
(四)百分位数(percentile)
百分位数是一种位置指标,用PX表示。 百分位数是一个有序数列百等分的 分割值。第50百分位数(P50)也就是中位 数,中位数是一个特定的百分位数。 计算百分位数的计算公式为:
六、变异系数
(coefficient of variation)
当单位不同时,均数相差较大时,用标准 差就不适宜了,此时用变异系数更好。 变异系数是一种相对的离散程度指标,它 无单位,用CV表示,其计算公式为:
CV = S × 100 X %
例题
[例1-11 ]某地20岁男子100人,其身高均数为 166.06cm,标准差为4.95cm,其体重均数为 53.72kg,标准差为4.96kg。请比较何者变异 度较大。 由于两者度量单位不同,不能直接比较标准 差,而应比较变异系数。 4.95 × 100 % = 2.98 % 身高 CV =
二、四分位间距 (inter-quartile range)
四分位间距是两个特定的百分位数之 差,即第75百分数P75(上四分位数QU)和 第25百分位数P25(下四分位数QL)之差, 用Q表示,适用于任何分布的计量资料, 尤其适用于偏态分布的资料.
Q=QU-QL
四分位间距比全距稳定,但仍然未 考虑到每个观察值的变异。
(一)算术均数 ( mean)
算术均数 简称均数。用于说明一组观测值的 趋中位置或平均水平。 均数用于对称分布、正态或近似正 态分布的资料。x表示变量X的样本均 数,μ(希腊字母)表示总体均数。 常用的计算方法是直接法和加权 法。
直接法
当样本含量较小时,可选用此法。 有n个观察值,分别为X1,X2,……Xn, 均数的计算公式为:
S=
∑ (X − X )
n−1
2
可改写为: = S
X2 − ∑
(∑ X )
n
2
n−1
上式n-1称为自由度。
例题
[例1-9]对例1-8的数据计算标准差 甲组:n=5, ΣX=98+99+100+101+102=500 ΣX2=982+992+1002+1012+1022=50010
S甲 =
(500 )2 50010 −
一般采用对数形式计算:
⎛ lg X ⎛ lg X 1 + lg X 2 + ... + lg X n ⎞ −1 ∑ G = lg ⎜ ⎟ = lg ⎜ ⎜ n n ⎝ ⎠ ⎝
−1
⎞ ⎟ ⎟ ⎠
式中lg为取常用对数的符号,lg-11:2,1:4,1:8, 1:8,1:16,1:32,求平均数。
⎤ ⎡ M = ⎢X⎛ n ⎞ + X⎛ n ⎞ ⎥ ÷ 2 ⎜ +1⎟ ⎥ ⎢ ⎜ 2⎟ ⎝2 ⎠⎦ ⎣ ⎝ ⎠
⎛ n + 1⎞ ⎜ ⎟ 2 ⎠ ⎝
上式中n为一组观察值的总个 ⎛n⎞ ⎛n ⎞ ⎜ ⎟ 数, 1⎟ 、 及 ⎜ + 均为下标,表示有序 2⎠ ⎝2 ⎠ ⎝ 数列中观察 值的位次。
频数表法
正态分布曲线下的面积
图1-2 正态分布曲线及其面积分布
正态分布的主要特征
1. 以均值μ为中心,左右对称。 2. X取值范围理论上没有边界。X离μ越远,函 数f(x)值越接近0,但不会等于0。 3. 正态分布曲线下的面积分布有一定的规律。 4. 正态分布完全由参数μ和σ决定。 μ是位置参 数(即平均水平),决定分布曲线在横轴的偏 移位置。当 σ一定后, μ 增大,曲线右移; 反之μ减小,曲线左移。σ是变异参数,决定 分布曲线的形态。 σ越大,曲线的形态越“矮 胖”,表示数据分布越分散; σ越小,曲线的 形态越“瘦高”,表示数据分布越集中。
X 2 = 100
乙组 80,90,100,110,120 描述离散趋势的常用指标有全距、四分位 间距、方差和标准差等。
一、全距(range)
亦称极差,用R表示,是一组观察值 中最大值与最小值之差,反映个体差异 的范围。全距大,说明变异度大;反 之,说明变异度小。 如例1-8中甲组全距为4,乙组全距为 40,表明乙组变异度大。 但全距易受个别数据的影响,稳定 性较差,抽样误差较大,而且还受n大小 的影响,一般n越大,全距越大。
样本含量较大时用此法
i ⎛n ⎞ M = L + ⎜ − ∑ fL ⎟ f⎝2 ⎠
L为本组(中位数所在组)下限, i为本组组距, f为本组频数, ΣfL为上一组的累计频数。 本组位置可根据累计频数的数值来判断。当某一 组的累计频数首先超过n/2时或累计频率首先 超过50%时,即定为本组。
例题
[例1-6]调查某地107名正常人尿铅含量 (mg/L)结果列于下表,计算中位数: 本例,第3组的累计频数为65,超过n/2= 53.5,即第3组为本组。
166 .06
体重 结果表明该地20岁男子体重的变异大于身 高的变异。
4.96 CV = × 100% = 9.23% 53.72
正态分布
正态分布的图形

频数分布逐渐接近正态分布状态
正态分布的特点
正态分布是一种很重要的连续型分 布。正态分布以均数为中心,左右两侧 对称,靠近均数两侧的频数较多,而距 均数两侧较远处,频数逐渐减少,形成 钟形分布。正态曲线下的面积分布有一 定的规律。
X 1 + X 2 + ... + X n X = = n
∑X
n
式中,Σ是求和的符号 。
例题
例 14-1 10名12岁男孩身高(cm)分别为 125.5,126.0,127.0,128.5,147.0, 131.0,132.0,141.5.0,122.5, 140.0。求平均数。
相关文档
最新文档