定量数据的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
G lg1 2 1.20412 7 1.50515 ... 7 2.7027
52
lg1 108.06977/ 52 lg2.7017 119.74705
52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。
1. 计算方法 1) 直接法:适用于样本例数n较少的资料。
X X1 X2 ... Xn X
一个百分位数Px将总体或样本的全部观察值分为两部分,理 论上,在不包括Px的全部数据中有X%的观察值比它小,有 (100-X)%的观察值比它大。
1. 中位数和百分位数的计算
1) 直接法:适用于样本例数n较少的资料。
将观察值按大小顺序排列,当n为奇数时,中
间那个数就是中位M 数。当Xnn为1偶数时,中间两个数
样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
2. 便于进一步计算统计指标和进行统计分析处理。 3. 便于发现某些特大或特小的可疑值。
110名7岁男童身高(cm)的频数分布
合计
120
M P 5 0 L f i x n . x % f L 1 2 2 8 1 7 5 2 % 5 0 0 1 0 . 7 8 m 4 / L
例 某市大气中SO2的日平均浓度见表2.5,求P25,P50,P75。
例 某市大气中SO2的日平均浓度见表2.5,求中位数,P25,P50,P75。
划记
一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
二、离散型定量变量的频数分布
离散型变量的频数分布图
直条图
横坐标为产前检查次数;纵坐标为 频率,即产前检
查K次的妇女在被统计妇女中所占的比例%。图中等宽矩
M P 5 L 0 f i x n . x % f L 1 6 2 0 3 3 5 5 0 % 6 1 0 1 1 7 . 1 0 g 0 / m 7 3 4
P 2 L 5 f i x n . x % f L 5 6 2 0 3 7 5 2 6 % 3 5 1 6 9 . 1 g 9 / m 3
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30
频数
1 3 6 8 12 20 27 18 12 8 4 1
累计频数
1 4 10 18 30 50 77 95 107 115 119 120
累计频率
0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17 100.00
12
15
180
2700
16~
20
17
340
5780
18~
27
19
513
9747
20~
12
21
378
7938
22~
10
23
276
6348
24~
26X ~
f84 0 x2222 57 1 2.5 8 821m 7 0008 /L ol52090106
28~30
1f 12920 29
841
合计
120(∑f)
2228(∑fX0) 43640( fX02)
2. 均数的两个重要特性
1). 各离均差的总和等于0。(总体中各变量值X与均 数之差称为离均差)
X0
2). 离均差的平方和小于各观察值X与任何数a之差的
平方和。( a X ) 即 XX2< Xa2
设:a≠ X,则a= X±d,d>0
Xa2 XXd2 XXd2
Gn X1X2..X .n 对数形式:G=lg-1{(lgX1+lgX2+lgX3+…lgXn)/n} =lg-1(∑lgX/n)
例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资 料为1:16,1:32,1:32,1:64,1:64,1:128, 1:512。求其平均效价。
Glg1 lngXlg1lg16 lg32 7 lg32 ..l.g512 l g 11 .80 6 62 4
例2-3 测得8只正常大白鼠总酸性磷酸酶 (TACP)含量(U/L)为4.20,6.43,2.08, 3.45,2.26,4.04,5.42,3.38。试求其算术均数。
X X 1 X 2 . .X .n /n X /n 4 .2 6 .4 2 3 .0 .8 .3 ..3 /8 8 3 .90 U /L 7 5
二)几何均数应用的注意事项: 1)几何均数常用于等比级数资料或对数 正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
(三)中位数和百分位数
中位数(median,M):将一组变量值从小到大按顺序排列, 位次居中的那个变量值就是中位数。
百分位数(percentile, Px):指把数据从小到大排列后位于 第X%位置的数值。有n个观察值X1,X2…Xn,把他们由小到大按 顺序排列成X1≤X2≤X3…≤Xn,将这n个观察值平均的分为100等份, 对应于每一等份的数值就是一个百分位数,对应于前面X%个位 置的数值称为第X百分位数,用Px表示。
P 7 5 L f i x n . x % f L 1 4 2 2 3 5 5 5 7 6 % 2 5 1 1 3g / 4 3 m 3
2. 中位数和百分位数的应用
1)中位数常用于描述偏态分布资料的集中趋势,反映位 次居中的观察值的平均水平。在对称分布的资料中,中位数和 均数在理论上是相同的。
等距分组 以横轴表示被观察变量,纵轴表示频率密度,以
各矩形(宽度为组距)的面积代表各组段的频率。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于wk.baidu.com应组段的频率。
由于同质性,所有实测值趋向 三、 频数分布同的一两数个值特的征趋势称为集中趋势。
集中趋势:血清铁含量向中央部分集中, 即中等含量者居多,集中在18 mo/lL 这个组段,这种现象为集中趋势。
7份HBsAg的平均滴度为1:64
2) 加权法:适用于样本例数n较多的资料。
G l g 1 f1lg X 1 f 1 f2 fl2 g X .2 . .f .n f.n l.g X n
lg
1
f lg f
X
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
的平均数就是中位数。 2
例2-7 某药厂观察9只小M 鼠口服Xn2高山Xn2红1景/天2 醇
提物(RSAE)后在乏氧条件下的生存时间(分钟)
如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,
68.6,69.0
n为奇数,M=63.6 (cm)
2)频数表法计算中位数和百分位数:适用于
步骤:
①两端的组段应分别包含最小值或 最大值;
(1) 求全距:(极差)②R尽=2量9.6取4-7较.42整=2齐2.2的2 数值作为组段的
(2) 定组段数与组距 :端8点~,15便个组于段对,数组据距进i=全行距表/组述段;数 (3) 划组段:以一个稍③小组于距或以等于相最等小为值宜的。整数作为第一个
2)百分位数可用于确定医学参考值范围(详后)。
3)分布在中部的百分位数相当稳定,具有较好的代表性, 但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。
形长条的高度与相应检查次数的频率呈正比。
频率:各组的频数除以总例数 n 所得的比值。 频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
累计频数:本组段的频数与以前各组段的频数 相加;
累计频率:每组段的累计频数除以总例数。
连续变量的频数分布图
直方图
连续型变量的频数分布图,以直方的面积大小表 示频率的多少。
n
n
其中X1,X2…Xn为各变量值,n为样本例数。
2) 加权法:适用于变量值较多的资料。
X fx 0 fx 0 f n
f1,f2…fn分别为各组段的频数,X1,X2…X0 为各组段 的组中值, 组中值=(本组段下限+下组段下限)/2。
即频数多,权数大,作用也大,频数小,权数小,作 用也小。
组段的起点数据。
下限:每个组段的起点(最小值) 。
上限:每个组段的终点(近似最大值)。
注:最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表2 120名正常成年男子血清铁含量的频数分布表
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30
XX22d XXn2d 由于 XX0
X a 2 X X 2 n 2d
3. 均数的应用 但它最适用于对称分布资料,尤其是 正
态分布资料。因为这时均数位于分布的中心, 最能反映资料的集中趋势。
( 二)几何均数(geometric mean): (几何均数也称为倍数均数,用G表示)
1. 几何均数的计算方法 1) 直接法:适用于样本例数n较少的资料。 将n 个观察值X1,X2,X3…Xn的乘积开n次方
90 ~
1
92 ~
0
94 ~
0
96 ~
0
98 ~
0
100 ~
0
110 ~
1
112 ~
3
114 ~
9
116 ~
9
118 ~
15
120 ~
18
122 ~
21
124 ~
14
126 ~
10
128 ~
4
130 ~
3
132 ~
2
134 ~ 136
1
第二节 定量变量的特征数
总体中的某些个体总是具有某些同质性,同一地区、同 一年度、同一民族、同一年龄段、相同的性别与类似的健康 状况,这些共同点使得该人群的血清铁含量应趋向同一数值, 即集中趋势。不同总体间比较的方式之一就是对他们的集中 趋势进行比较。另一方面,同一总体中的个体之间又普遍存 在着各种差别,也就是说由于遗传、营养、行为、发育、心 理的各种因素在个体之间都不会完全相同,即个体间存在差 异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
卫生统计学
第二章 定量资料的统计描述
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
第一节 频数与频数分布
一、连续型定量变量的频数分布
频数表的编制: 频数(frequency):对一个随机变量做重复观察, 其中某变量值出现的次数。 频数分布表(frequency distribution table):将各变 量值及其相应的频数列成表格的形式。 例2-2 抽样调查某地120名18岁~35岁健康男性居 民血清铁含量(μmol/L)见P12,试编制频数分布表。