第四章 数据特征与统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25 20
人 数
15 10 5 0 2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μ g / m L) 图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料分布的 集中趋势和离散趋势
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~”。 ——平均水平指标
R X max X min
580 560 540 520 500 480 460 440 420
120
40
20
2.百分位数与四分位数间距 Percentile and quartile range
百分位数 :数据从 小到大 排列;在百分 尺度下,所占百分比 对应的值。记为Px。 四分位间距:
(n x% f L )
下限值L
i; fm
上限值U
百分位数Px
潜伏期/h (1) 0~ 6~ 12~ 18~ 24~ 30~ 36~
频数,f (2) 17 46 38 32 6 0 4
累计频数f (3) 17 63 101 133 139 139 143
42~48 合计
2
145
145
P25=6+6x[(145x25%-17)/46]=8.51(h) P75=18+6x[(145x75%-101)/32]=19.45(h) Q=19.45-8.51=10.94(h)
抗体滴度 ⑴ 1:4 1:8 1:16 1:32 ┇ 1:512 合计
人数,f ⑵ 1 5 6 2 ┇ 5 72
lgX 滴度倒数,X ⑶ ⑷ 4 0.6021 8 0.9031 16 1.2041 32 1.5051 p51,例4-5:几何 ┇ ┇ 512 2.7093 均数=反对数(
72.2471/40)= 64.00
②离散趋势(tendency of dispersion):变量 值围绕集中位置的分布情况。离“中心”位 置越远,频数越小;且围绕“中心”左右对 称。
——变异水平指标
3.便于发现一些特大或特小的可疑值*
组 段 (1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合 计 频数 f (2) 1 0 0 0 17 20 17 12 9 0 0 8 101
G lg
1
频数表资料的几何均数 f lg X f lg X f lg X f lg f f
i i 1 1 1 2 2 i i
n
lg X n
f· lgX ⑸ 0.6021 4.5155 7.2246 3.0102 ┇ 13.5465 72.2471
例:设甲、乙、丙三人,采每人的耳垂血,然后红细 胞计数,每人数5个计数盘,得结果如下(万/mm3) 盘编号 1 甲 乙 丙
580 560 540 520 500 480 460 440 420
2
3
4
5 合计
440 460 500 540 560
2500
480 490 500 510 520
2500
25
20
15
人数
10
5
0
13.5
19.5
25.5
31.5
37.5
43.5.
血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖 尾。 表4- 101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 2 3 7 9 10 22 23 14 9 2 数
4.便于进一步做统计分析和处理
第二节 计量资料的常用统计指标
描述集中趋势的特征数 描述离散趋势的特征数
计量资料(定量资料、数值变量资料)
总体:有限或无限个(定量)变量值
样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
一、描述集中趋势的特征数(平均指标)
3. 中位数(median)
意义:中位数是将一批数据从小至大排 列后位次居中的数据值,反映一批观察值在 位次上的平均水平。
符号:Md 适用条件:适合各种类型的资料。尤其 适合于①大样本偏态分布的资料; ②资料 有不确定数值;③资料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:
资料类型 计数和等级 计量 组段 观察结果的所有 分类 根据观察结果重 新划分 频数 相同类别出现的 次数 分组统计
P44 表4-1,4-2,4-3
表4-3 某地150名正常成年男子红 细胞数(1012/L)
编号 红细胞数
1
2 3 4 5 6 7
3.98
4.54 4.74 5.13 4.43 4.81 4.98
总称为平均数(average)反映了资料的集
中趋势( central tendency )。常用的 有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median)
1. 均数(mean)
符号:总体 样本 X 适用条件:资料呈对称分布,尤其是正 态或近似正态。 计算: X 1 X 2 X n X 例4-2 (1)直接法 X (2)频数表法 f1 X 1 f 2 X 2 f3 X 3 f k X k fX i X f1 f 2 f3 f k fi
第四章 数据特征与 统计描述
本章结构
第一节 第二节 第三节 第四节
频数分布表与频数分布图 计量资料的常用统计指标
计数资料的常用统计指标
统计图表
第一节 频数分布表与频数分布图
一、频数分布表 (frequency table)
用途:用于描述资料的分布特征 频数:在一批样本中,相同情形出现的次数称为 该情形的频数。
百分位数的应用
确定医学参考值范围 (reference range): 如95%参考值范围=P97.5-P2.5;
表示有95%正常个体的测量值在此范围。
中位数Md与四分位半间距QD一起使用,描 述偏态分布资料的特征
(n 50% f L )
下限值L
i; fm
上限值U
中位数Md
潜伏期/h (1) 0~ 6~
频数,f (2) 17 46
累计频数f (3) 17 63
12~
18~ 24~
38
32 6
101
133 139
30~
36~ 42~48 合计
0
4 2 145
139
143 145
例4-8 中位数=12+6x[(145x50%-63)/38] =13.5(h)
x( n1) / 2 Md xn / 2 x1 n / 2 2
n为奇数 n为偶数
Baidu Nhomakorabea
特点:仅仅利用了中间的1~2个数据 p51,例4-6:5人潜伏期:
2,3,5,8,20
频数表资料的中位数
Md 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) Md L i fm
编号 … 143 144 145 146 147 148
红细胞数 … 4.67 5.40 5.29 4.77 5.38 5.15
8 …
3.79 …
149
150
4.64
5.19
1. 频数表的编制步骤
(1)求极差(range):即最大值与最小值之差 ,又称为全距。
本例极差: R=5.88-3.79=2.09
490 495 500 505 510
2500
均数
500
500
500
甲
乙 丙
1.极差(Range) (全距)
符号:R 意义:反映全部变量值 的变动范围。 优点:简便,如说明传染 病、食物中毒的最长、 最短潜伏期等。 缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定 适用范围:任何计量资 料;是参考变异指标
100% 80% 60% 40% 20% 0% 0
P100(max)
P75
P50(中位数)
(定义:P53)
Q=P75- P25
四分位半间距 quartile deviation :QD=QR/2
P25
P0(min)
Px
频数表资料的百分位数
Px 所在组段下限值 (n x% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n x% f L ) Px L i fm
(1012/L) (2) 决定组数、组段和组距:根据研究目的和 样本含量n确定。组距=极差/组数,通常分10-15 个组,为方便计,组距参考极差的十分之一, 再 略加调整。 本例i= R /10=2.09/10=0.209≈0.2。
(3) 列出组段:第一组段的下限略 小于最小值,最后一个组段上限必须 包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数 据归纳到各组段,得到各组段的频数 。
lg 表示以10为底的反对数 X 0, 为正值
1
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
lg 101 lg 102 lg 103 lg 104 lg 105 1000 G lg 1 5 此例的算术均数为22222,显然不能代表滴度的 平均水平。同一资料,几何均数<均数
右偏态分布(正偏态分布):频数最多组段右侧的组段数 多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
表4- 115名正常成年女子血清转氨酶(mmol/L)含量分布
人 2 9 14 23 19 14 11 9 7 4 3 数 转氨酶含量 12~ 15~ 18~ 21~ 24~ 27~ 30~ 33~ 36~ 39~ 42~45
4.6
4.8 5.0 5.2 5.4 5.6 5.8
119.6
153.6 130.0 93.6 54.0 22.4 5.8 719.8
三、频数分布图
P47
二、频数表和频数分布图用途
1.描述频数分布的类型* (1)对称分布 :若各组段频数的分布以频 数最多的组段为中心左右两侧大体对称 (总体则完全对称),就认为该资料是 对称分布 (图4-2) (2)偏态分布 :
组段 (1)
3.7~
频数,f (2)
1
组中值,X (3)
3.8
fX (4)= (2)×(3)
3.8
3.9~
4.1~ 4.3~
4
11 17
4.0
4.2 4.4
16.0
46.2 74.8
4.5~
4.7~ 4.9~ 5.1~ 5.3~ 5.5~ 5.7~5.9 合计
26
32 26 18 10 4 1 150
均数、中位数二者关系
正态分布时: 均数=中位数
正偏态分布时:均数>中位数
负偏态分布时:均数<中位数
小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或 平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大 的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期)
Σ为求和符号,读成sigma,k, X , f 意义
“权数” 例4-
n
n
p49,例4-3:均数 =719.8/150=4.8
2. 几何均数(geometric mean)
X G n X1 X 2 X n 1 lg X lg X G (lg X 1 lg X 2 lg X n ) n n lg X 1 几何均数:变量 X G lg n 对数值的算术均 lg 表示以10为底的对数; 数的反对数。
二、 描述离散趋势的特征数 (变异(variation)指标)
反映数据的离散度( Dispersion )。即 个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation