定量变量的统计描述资料
医学统计学定量资料的统计描述和变量分布
滴度 1∶8 1∶16 1∶32 1∶64 1∶128
人数 17 15
11 3
0
G lg 117 lg 8 15 lg16 11 lg 32 3 lg 64
46
=lg-1 1.2041
=16.0
46例正常人血清的HBsAg滴度的几何均数为1:16
2.几何均数应用的注意事项: 1)几何均数常用于等比级数资料或资料 呈倍数关系或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
第二节 定量资料的统计描述和变量分布
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
一、定量变量的频数分布
(一)连续型定量变量频数表的编制:
频数(frequency):指对一个随机变量做重复观察, 其中某变量值出现的次数。
取整数为0.5 mmol·L-1
(3) 划组段:
下限:每个组段的起点(最小值)
上限:每个组段的终点(近似最大值)
注:①第一个组段的起点数据必须为小于或等于最小值的整数
②最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表4-2-1 某地101例30~49岁骨科病人血清总胆固醇值划记表
例4-2-8 50例咽峡炎患者的潜伏期如下,求M,P25, P75,P2.5,P97.5。
表4-2-3 50例咽峡炎患者潜伏期的M和Px的计算
潜伏期(小时) (1) 12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~
【统计学】04 第二章 定量资料的统计描述
频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
定量资料的统计描述
例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
定量变量的统计描述
数据分布的判断方法
观察数据的分布图如直方图、箱线图等
计算数据的均值、中位数、众数等统计量
计算数据的方差、标准差等离散度指标
应用统计检验方法如卡方检验、t检验等判断数据是否符合某种分布形态
方差
方差的定义:描述一组数据的离散程度
定序尺度:将变量按照一定的顺序排列如成绩、满意度等
定类尺度:将变量分为不同的类别如性别、民族等
定距尺度:将变量按照一定的距离进行测量如温度、身高等
定比尺度:将变量按照一定数表示数据分布的中心位置
计算方法:将所有数据相加后除以数据个数
特点:受极端值影响较小能较好地反映数据的整体水平
变异系数的计算公式:标准差/平均值
变异系数的应用:在数据分析中变异系数常用于比较不同数据集的离散程度
变异系数的优点:不受数据量、均值和标准差大小的影响可以比较不同数据集的离散程度
离散系数
离散系数的作用:衡量数据离散程度反映数据分布的集中程度
离散系数的应用:在统计学、经济学、社会学等领域广泛应用
离散系数的定义:描述数据离散程度的统计量
偏态分布的峰度可以衡量数据分布的尖锐程度峰度越大数据分布越尖锐。
偏态分布的偏度可以衡量数据分布的偏斜程度偏度越大数据分布越偏斜。
峰态分布
峰态分布是指数据分布的形态包括正态分布、偏态分布和尖峰分布等
正态分布是最常见的峰态分布其特点是数据分布对称中心趋势明显
偏态分布是指数据分布不对称中心趋势不明显常见的有左偏态和右偏态
描述性统计量
数据的分布形态
数据的离散程度
数据的集中趋势和离散趋势的描述方法
单击添加标题
定量变量的统计描述
定量变量
变 量
定性变量
研 究 内 容
统计描述 统计推断
从资料中获取信息最基本的方法 统计描述:
把握资料基本的特征 为统计分析打下基础
表2-2 120名18-35岁健康男性居民血清铁含量(umol/L)
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.4 23.04 17.4 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.5 26.13 12.5 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.4 12.73 10.86 23.12 21.31 19.69 21.53 16.1 18.12 18.89 20.3 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.9 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21 13.81 17.51 12.67 17.19 20.75 27.9 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.4 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
卫生统计学 第二章 定量资料的统计描述
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
32
3、描述资料的分布特征
集中趋势:血清铁含量向中央部分集中,即中
等含量者居多,集中在18 这个组段,这种现
象为集中趋势
离散趋势:从中央部分到两侧的频数分布逐渐
减少,而且血清铁含量的值参差不齐,最低的 接近6 最高的接近30,这种现象称为离散趋势
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
①两端的组段应分别包含最小值或最大值; ②尽量取较整齐的数值作为组段的端点,便于对 数据进行表述; ③最后一个组段应同时写出上限和下限来
17
L X U
4、列表整理、统计各组段的频数、频率
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
28
25 人 数 20 15 10 5 0 14 17 20 23 26 29 32 35 38 41 44 47
血清转氨酶(mmol/L)
115名正常成年女子血清转氨酶的频数分布
29
负偏态(峰)分布
101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 数 2 3 7 9 10 22 23 14 9 2
划记
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
18
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
定量资料的统计描述
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
定量资料的统计描述
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
定量变量的统计描述
指变量倒数的算术平均数。调和平均数又称倒数平均 数。
lzhmin
20
lzhmin
21
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
定量变量的统计描述
lzhmin
1
统计分析模式图
• 资料的类型:
定量资料
定性资料
• 统计分析方法:
数值变量资料的 统计分析方法
分类变量资料的 统计分析方法
• 统计分析: - 描述统计
- 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标
-可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比)
7
lzhmin
8
频率分布表(图)的用途
➢描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布
➢揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion)
➢便于发现某些极端值或离群值 ➢便于计算统计指标和进行统计分析
-正偏态分布(skewed positively distribution):若高峰位于左侧。 -负偏态分布(skewed negatively distribution):若高峰位于右侧。
lzhmin
4
离散型定量变量的频率分布
➢离散型定量变量的取值是不连续的(P11,例2-1) ➢可用频数、频率;累计频数、累计频率来表示(P12,表2-1) ➢可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
定量资料统计描述07224
频数fi (2)
1 3 4 8 12 17 21 20 14 10 6 3 1
120( f i )
组中值xi (3)
131 133 135 137 139 141 143 145 147 149 151 153 155
-
fixi (4)
131 399 540 1096 1668 2397 3003 2900 2058 1490 906 459 155
12
2.便于进一步计算指标和统计处理 利用频数表计算百分位数、中位数、标准差等
3. 便于发现某些特大或特小的可疑值。 对于频数表,如果连续某几个组段的频数为0, 接下来的组段出现频数不为0的数值,此数值 即为可疑值。
13
二、频数图(graph of frequency)
(一)、频数图的概念
频数图(graph of frequency)是以变 量值为横坐标、频数(频率)为纵坐标 (不等距分组时以频率/组距=频率密度为 纵坐标),以每个等宽的矩形面积表示每 组的频数(或频率)。
图 101名正常人血清肌红蛋白的频数分布
17
§2 集中趋势的描述
18
定量资料集中趋势的描述,常用平均数(average) —表达一组同质定量数据的平均水平或集中位置。
算术均数 几何均数 中位数 众数 调和均数
19
算术均数(arithmetic mean) 又称均数(mean),是用一组观察值 相加除以观察值的个数所得。样本均
QQUQL
49
【例4-12】根据例4-7资料,计算四分位数间距。
QLP251.54小时 QUp7536小时
四分位数间距: Q Q U Q L 3 1 6 .4 5 2.6 0 (小时)
定量资料统计描述
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
定量资料统计描述(1)
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统计 指标有两类:
一类是描述数据分布集中趋势的指标,即 平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据在
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
【精品】定量资料的统计描述
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
第二讲定量资料的统计描述和正态分布
Analyze
Frequencies
选项有:statistics、chart和format
2、2 Descriptives 过程
Analyze
Descripitive statistics
Frequencies
2、3 Expore过程
Analyze
Descriptive Statistics Explore Dependent List框:要分析变量 Plots Normality plots with test Continue OK
算数均数 (mean)
适用条件:对称分布,特别是正态或者近似正态分 布的资料。
几何均数 (geometric mean)
适用条件:偏态分布,但是经过对数变换之后呈正 态或近似正态分布的资料。
中位数 (median)
适用条件:偏态分布资料及两端无确切值或分布不 明确的资料。
定量资料的统计描述---离散程度
计算医学参考值范围常用的方法:
正态分布法 参考值 范围% 单侧 双侧 只有 下限
X 1.64S
百分位数法 单侧 只有 上限
X 1.64S
双侧
只有 下限 P5
只有 上限 P95
95
X 1.96S
P2.5~P97.5
99
X 2.58S
X 2.32S
X 2.32S
P0.5~P99.5
变异系数 (CV)
适用条件:比较度量单位不同或均数相差悬殊的资料
描述定量变量指标的正确选择
正态或近似正态分布的资料
均数和标准差
偏态分布的资料
中位数和四分位数间距
定量资料的统计描述指标
第二节 描述集中趋势的统计指标
描述定量资料的分布特征的指标有两 类,一类是描述分布集中趋势的,另一 类是描述分布的离散趋势的。
今介绍描述定量资料分布集中趋势的 指标平均数(average)。平均数包括算 术均数、几何均数、中位数、众数、调 和均数。
一、算术均数:简称均数
(mean,x ) x 总体均数用希腊字母μ,样本均数
27
22.50
20~
18
15.00
22~
12
10.00
24~
8
6.67
26~
4
3.33
28~30 合计
1
0.83
120
100.00
三、频数分布表的用途
1、揭示资料的分布类型
频数分布可分为对称分布和偏态分布两种 类型。对称分布是指集中位置在中间,左 右两侧频数大体对称的,对称分布包括正 态分布,如第14页图2-2所示。
1:32
7
32
1.50515 10.53605
1:64
11
64
1.80618 19.86798
1:128
13
128
2.10721 27.39373
1:256
12
256
2.40824 28.89888
1:512
7
合计
52
512
2.70927 18.96489
108.06977
G' lg 1(
f lg X )
2、几何均数的计算方法:
直接法(用于小样本) G lg 1(
lg x )
n
式中:log 对数符号,log-1反对数符号
例如 7名慢性迁延性肝炎的HBsAg滴度 资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。计算其几 何均数,即求平均滴度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lzhmin
离散型定量变量的频率分布
➢离散型定量变量的取值是不连续的(P11,例2-1) ➢可用频数、频率;累计频数、累计频率来表示(P12,表2-1) ➢可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
- 适用条件:
* 明显的偏态分布资料;
* 未知分布资料。
- 计算方法
* 直接法(P17,例2-7)
- n为奇数时,M X([ N 1)/ 2]
式(2-6)
- n为偶数时,M [ X(N / 2) X([ N / 2)1] ] / 2 式(2-7)
lzhmin
* 频数表法(P18,例2-8,表2-6)
lzhmin
lzhmin
计算极差,或称全距(range) 决定组数、组段和组距 列表划记 绘制频数分布图
lzhmin
lzhmin
算术平均数(arithmetic mean) 几何平均数(geometric mean) 中位数(median) 众数(mode) 调和均数(harmonic mean)
式(2-3, 2-4)
lzhmin
* 频数表法或加权法(P17,例2-6,表2-5)
G lg 1( fi lg xi ) f1 lg x1 f2 lg x2 fn lg xn
fi
fi
式(2-5)
lzhmin
中位数(median)和百分位数(percentile)
中位数是指一组数据中位置居中的数值。用M表示。
lzhmin
算术平均数(arithmetic mean)
指一组同质的数值之和除以数值个数所得的商。
总体均数用希腊字母μ表示,样本均数用 表示。
- 适用条件: 正态分布或近似正态分布资料。
- 计算方法: * 直接法(P15,例2-3)
xi x1 x2 x3 xn
n
n
式(2-1)
lzhmin
lzhmin
极差或称全距(range) 指一组资料最大值和最小值之差。用R表示。
四分位数间距(quartile range) 指上四分位数QU(P75)和下四分位数QL
(P25)之差。用Q表示。 Q=P75 -P25
lzhmin
方差(variance)
指离均差平方和的均数。总体方差用σ2表示, 样本方差用S2表示。
2 (x ) 2
N
S 2 (x x) 2
n 1
式(2-9)
式中 (n-1)称为自由度,用 df 或 v 表示。
自由度(degree of freedom):随机变量能“自由”取值的个数。
lzhmin
v n 限制条件的个数
标准差 (standard deviation)(P21,例2-13,14)
* 频数表法或加权法(P15,例2-4,表2-4)
fi xi f1x1 f2 x2 f3x3 fn xn
fi
f1 f2 fn
式(2-2)
※各组的权数越大,权数和组中值(class mid-value) 乘积越大,作用也越大;反之依然。
lzhmin
几何均数(geometric mean)
lzhmin
频率分布表(图)的用途
➢描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布
➢揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion)
➢便于发现某些极端值或离群值 ➢便于计算统计指标和进行统计分析
调和均数(harmonic mean)
指变量倒数的算术平均数。调和平均数又称倒数平均 数。
lzhmin
lzhmin
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
lzhmin
• 资料的类型:
定量资料
• 统计分析方法:
数值变量资料的 统计分析方法
定性资料
分类变量资料的 统计分析方法
• 统计分析: - 描述统计
- 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标
-可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比)
-可信区间估计 - 统计检验
lzhmin
lzhmin
lzhmin
连续型定量变量的频率分布
➢连续型定量变量的取值是连续的(P11,例2-2; P12,表2-2)。 ➢可用组段的频数、频率;组段的累计频数、累计频率来表示 (P13,表2-3)。 ➢可用直方图(histogram)来表达各组段频率的分布状况 (P13,图2-2)
lzhmin
频数(frequency) 频率分布表(frequency distribution table) 频率分布图(frequency distribution chart) 集中趋势(central tendency) 离散趋势(tendency of dispersion) 正态分布(normal distribution)
指各观察值x对数值均值的反对数。用G表示。 - 适用条件:
* 偏态分布资料; * 各观察值呈倍数关系或近似倍数关系资料。
如抗体的平均滴度、药物的平均效价等。
- 计算方法: * 直接法(P16,例2-5)
G
n
x1x2
xn
lg 1
lg
x1 lgx2 nBiblioteka lg xnlg 1(
lg xi ) n
指方差开平方的值。总体标准差用方差σ表示,样本 标准差用S表示。
在实际计算中,样本标准差较总体标准差小,故英国 统计学家W.S.Gosset提出了校正方法,即N用n-1的自由 度代替。
PX
L
i fx
(n x%
fL)
式(2-8)
※百分位数是把数据从小到大分成100等份, 各等份分成1%的观察值,分割界限上的值。 用Px表示。中位数实际上就是50百分位数, 用P50表示。
lzhmin
众数(mode)(P18, 例2-9)
指一组数据中出现频率最多的那个数据。一组数据可 以有多个或没有众数。