卫生统计学第八版李晓松第一章 数据分布的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
组段 (1) 10~ 20~ 30~ 40~ 50~ 60~ 70~ 80~ 90~100 合计
频数 (2) 2 4 11 25 29 25 14 6 2 118
频率(%) (3) 1.69 3.39 9.33 21.19 24.58 21.19 11.86 5.08 1.69 100.00
累计频数 (4) 2 6 17 42 71 96 110 116 118 —
第二节 集中位置
(一)算术均数
基于频数分布表数据计算慢性鼻窦炎患者生命质量评估总分的均数
组段 (1) 10~ 20~ 30~ 40~ 50~ 60~ 70~ 80~ 90~100 合计 频数( fi) (2) 2 4 11 25 29 25 14 6 2 118 组中值(xMi) (3) 15 25 35 45 55 65 75 85 95 — fixMi (4)=(2)×(3) 30 100 385 1125 1595 1625 1050 510 190 6610
65
40
25
45
65
45
第一节 数据分布表与直方图
(一)频数分布表
1. 频数表的编制方法
(1)找出最小值和最大值,本例为10与92。
(2)计算全距 (range,R) :最大值与最小值之差,本例 R=92−10=82。
(3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取8~12组。本 例共设9个组段,组距取10。
(4)确定组段的上、下限:每个组段的起点为下限(lower limit),终点为上限(upper
limit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。 (5)列表整理:计算频数、频率、累计频数及累计频率。
第一节 数据分布表与直来自百度文库图
(一)频数分布表
广州市118名慢性鼻窦炎患者生命质量评估总分的频数分布表
第一节 数据分布表与直方图
(三)数据分布特征
分布形态图示:
成都市238名正常居民发汞值分布直方图
第一节 数据分布表与直方图
(三)数据分布特征
分布形态图示:
冠心病患者的年龄分布直方图
第一节 数据分布表与直方图
(三)数据分布特征
2. 集中趋势和离散趋势的描述
(1)集中趋势(central tendency):指一组数据向某一中心值靠拢的趋势,反映 了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最 大的组段。 (2)离散趋势(dispersion tendency):部分数据偏离中心位置的变异特征。
第二节 集中位置
(三)中位数
第二节 集中位置
(三)中位数
下表是成都市238名正常居民发汞含量测量结果,求发汞含量的中位数。
238名居民发汞含量(μg/g)的频数分布表
组段 (1) 0.3~ 0.7~ 1.1~ 1.5~ 1.9~ 2.3~ 2.7~ 3.1~ 3.5~ 3.9~4.3 合计
频数 (2) 19 62 63 51 22 13 4 1 2 1 238
第二节 集中位置
第二节 集中位置
1. 集中位置(center) 反映一组观察值的平均水平或中心位置。描述
集中位置的常见指标有以下三种:
(1)算术均数(arithmetic mean) (2)几何均数(geometric mean,G) (3)中位数(median,M)
第二节 集中位置
(一)算术均数
第二节 集中位置
(二)几何均数
广州市6名3岁以上儿童接种麻疹疫苗后,麻疹IgG抗体滴度水平如下: 1 : 200 , 1 : 800 , 1 : 800 , 1 : 800 , 1 : 3200 , 1 : 12800 。计算 6 名儿 童麻疹IgG抗体滴度的几何均数。
求G的倒数,得到6名儿童接种麻疹疫苗后麻疹IgG抗体滴度的几何均数 为1:1270。
x ) / (n 1)
2
第三节 变异程度
(三)方差与标准差
第三节 变异程度
(四)变异系数
s CV 100% x
第三节 变异程度
(四)变异系数
第三节 变异程度
集中位置和变异程度指标小结:
特征 指 标 均数 对称分布 对数正态、等比资料 偏态分布、分布不明、末端有不确定值 偏态分布 偏态分布、分布不明、末端有不确定值 对称分布 单位不同、均数相差悬殊、评价测量精度 应 用
从第(5)列可知,累计有34.03%的观
测值小于1.1,有60.50%的观测值小 于1.5,故可判断P50在1.1~1.5这个组 段,代入公式得:
0.4 P50 1.1 238 50% 81 =1.34 63
第二节 集中位置
(三)中位数
2. 中位数的应用
(1)对任何资料(对称分布、偏态分布、分布未知或分布末端有极端值、不确定
集中位置 几何均数
中位数 极差 变异程度 四分位间距 方差/标准差 变异系数
第四节 箱式图
第四节 箱式图
(一)箱式图
1. 表示中位数的横线在箱体中间位置 则表明数据呈对称分布。 2. 中间横线靠下端则提示右偏态分布。 3. 中间横线靠上端则提示左偏态分布。
15例大骨节病患者白细胞数箱式图
第四节 箱式图
1 1
fi ln xMi f ln x 1 i Mi (2)频数表资料(加权法): G ln ln n fi
1
2. 应用 几何均数常用于数据呈倍数变化或对数正态分布资料的平均水平,计
算几何均数时,观察值中不能有零且不能同时有正数和负数。
(2 15 4 25 11 35 14 75 6 85 2 95) x= =56.02 118
第二节 集中位置
(二)几何均数
1. 计算方法
1 (1)原始资料(直接法): G ln ln x = ln ( ln xi )= n x1 x2 ...xn n
1
抗体滴度倒数的对数和 (5)=(2)×(4) 424.86 284.48 242.34 135.66 328.90 1416.24
fi ln xMi 1 1416.24 G ln = ln =223 n 262
即262名患儿体内肺炎支原体抗体平均滴度水平为1:223。
值) 都适用。日常应用中,对称分布资料更常用均数。 (2)与均数相比,中位数存在一些不足:
①中位数未考虑大部分观测值的实际大小,而均数充分利用了全部数据的信息;
②两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可 基于两组的均数和例数用求得; ③均数可通过如估计截尾均数等方法进行修正,而中位数无法进行此修正。
累计频率(%) (5) 1.69 5.08 14.41 35.59 60.17 81.36 93.22 98.31 100.00 —
第一节 数据分布表与直方图
(二)直方图
慢性鼻窦炎患者生命质量评估总分的直方图
慢性鼻窦炎患者生命质量评估总分的直方图
(非等距分组造成错觉)
第一节 数据分布表与直方图
(三)数据分布特征
(一)箱式图
广州市一项关于慢性鼻窦炎患病率的横断面调查中,用SF-36量表测得所有调查对 象的生活质量,所调查的1411名成年居民中有118名患有慢性鼻窦炎。以慢性鼻窦炎患 者和正常人的精力评分为例,绘制箱式图。
第三节 变异程度
(一)极差
1. 极差(range,R)也称全距,为所有观测值中最大值与最小值之差。
极差越大说明数据变异程度越大。可用来反映传染病、食物中毒的最短和
最长潜伏期等。 2. 极差的不足之处
(1)仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况。 (2)极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的 可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较。
卫生统计学
第一章 数据分布的描述
欧春泉
南方医科大学
目录
01 第一节:数据分布表与直方图 第二节:集中位置 第三节:变异程度 第四节:箱式图 第五节:数据核查与离群值 第六节:分类变量的常用统计图
02
03 04 05 06 05
重点难点
※ 频数分布表与直方图的编制原则和方法 ※ 集中位置和变异程度的常用指标及其适用条件 ※ 基本箱式图和箱式百分位数图的绘制和作用 ※ 常用的逻辑核查方法
第三节 变异程度
(三)方差与标准差
方差(variance)是指所有观测值的离均差平方和的平均值,描述所有观测
值与均数的平均偏离程度;标准差(standard deviation,SD)是方差的平方
根。
s ( x x ) / ( n 1) i 方 差:
2 2
标准差: s
2
(x
i
第二节 集中位置
不同分布中三种指标的大小比较
第三节 变异程度
第三节 变异程度
仅描述数据的集中位置还不足以反映数据完整的分布特征
三组儿童身高特征的比较示意图
第三节 变异程度
1. 变异(variation) 一组数据中个体值之间的差异。描述变异程度的 常见指标有:
(1)极差 (2)四分位数间距(inter-quartile range,IQR) (3)方差(variance) (4)标准差(standard deviation,SD) (5)变异系数(coefficient of variation,CV)
第三节 变异程度
(二)四分位数间距 四分位数间距(inter-quartile range,IQR)
IQR=P75−P25
P0
Min
下四分位数(QL)
P25
中位数
P50
上四分位数(QU) Max
P75
P100
IQR可看做中间一半观测值的极差R,适于偏态分布或分布未知资料,由于不受两端极
大或极小数据的影响,四分位数间距比极差更为稳定,但仍未考虑每个观测值的变异。 常与中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25, P75)。适于
频率(%) (3) 7.98 26.05 26.47 21.43 9.24 5.46 1.69 0.42 0.84 0.42 100.00
累计频数 (4) 19 81 144 195 217 230 234 235 237 238 238
累计频率(%) (5) 7.98 34.03 60.50 81.93 91.18 96.64 98.32 98.74 99.58 100.00 —
※ 离群值的探索和处理方法
※ 各种图形的适用条件
第一节 数据分布表与直方图
第一节 数据分布表与直方图
(一)频数分布表
采用SF-36自测健康量表测得118名慢性鼻窦炎患者的生命质量评估总分如下:
72 52 67 66 55 67 92 72 30 60 80 55 72 60 65 72 80 65 62 62 45 40 61 40 57 72 62 45 50 45 35 30 72 35 45 45 35 35 35 52 72 62 52 52 72 50 15 45 72 45 47 72 60 72 65 53 30 35 45 57 47 25 87 50 65 30 57 57 57 60 92 52 25 66 52 57 52 40 40 57 10 81 67 45 60 62 85 45 52 65 52 55 40 40 65 45 75 55 57 50 45 55 57 30 82 65 40 77 45 55 72 25
第二节 集中位置
(二)几何均数
下表是262名患儿体内肺炎支原体抗体滴度水平,计算其平均抗体滴度。
262名患儿体内肺炎支原体抗体滴度水平
抗体滴度 (1) 1:80 1:160 1:320 1:640 1:1280 合计 频数 抗体滴度倒数 抗体滴度倒数的对数 (2) (3) (4) 97 80 4.38 56 160 5.08 42 320 5.77 21 640 6.46 46 1280 7.15 262 — —
1. 分布形态分类
(1)对称分布:集中位置在正中,左右两侧频数分布对称。
(2)偏态分布:集中位置偏向一侧,左右两侧频数分布不对称。 ①正偏态(positive skewness):有小部分数据偏大、直方图呈现右侧拖尾,又 称右偏态(right skewness); ②负偏态(negative skewness):有小部分数据偏小、直方图呈现左侧拖尾, 又称左偏态(left skewness)。