定量数据描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ý µ Ê Æ
15 10 5 0 0 5 10 15 20 25 30 35 40 45
负偏态分布
(五)频数分布表的用途
揭示资料的分布特征及类型 便于发现某些特大或特小的可疑值
组段的频率作为概率的估计
便于进一步计算统计指标和作统计处理
计量资料描述统计指标
甲、乙2个班的英语成绩,随机抽取5个同学。 甲班:60 65 70 75 80 乙班:50 60 70 80 90 平均分:70分 最高(低)分:
各组段不能重叠,每一组段均为闭开区间
3、统计频数绘制频数表
125 129 133 137 141 145 149 153 157
对称分布
(二)频数分布特征
从频数表,特别是频数分布图可以看到频数分布 有两个特征: 集中位置:数据向某个位置聚集或集中地倾向。 大多数12岁男童的身高集中在中央部分; 离散程度:数据分散性和变异程度。少数男童具 有较低和较高身高,频数向两端逐渐减少。
fX k
8 6 4 2 0 7 9 11 13 15 17 19 21 23 25 27 29
血清铁(μ mol/L)
合计
利用频数表,将每组段的组中值,即(下限+上
限)/2,代替该组段观察值的实际取值(假定各
组均匀取值),用加权法求算术平均数
在样本例数较多的情况下,加权法与直接法算 得的结果相差不大。
频率与累计频率
频率:频数表中的各组频数之和等于总例数n, 将各组的频数除以n所得的比值被称为频率。
累计频数:某组段及前面各组段的频数之和。 累计频率:累计频数除以总例数。
频 率 25 (%)
20 15 10 5 0 0 1 2 3 4 5
Baidu Nhomakorabea
30
6 >5
产前检查次数 图2-1 某地96名妇女产前检查次率分布
表 1998年某地96名妇女产前检查次数分布 检查次数 (1) 0 1 2 3 4 5 6 合计 频数 (2) 4 7 11 13 26 23 12 96 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计频数 (4) 4 11 22 35 61 84 96 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0
例3
一、描述集中位置的特征数(平均指标)
•总称为平均数(average)反映了资料的集中倾向 (central tendency)的位置和平均水平。 •作用:是一组计量数据平均水平的代表值;可作为 不同组间的比较值。 •常用的有: 1. 算术均数(arithmetic mean),简称均数(mean) 2. 几何均数(geometric mean) 3. 中位数 (median)
组距=极差/组数
取整数,或根据专业习惯取整齐数值
本例组距=35/10=3.5≈4
(3)确定各组段的组限: 下限(low limit):每个组段的起点 上限(upper limit):每个组段的终点 上限=下限+组距
第一组段必须包含最小值,其下限一般取包含最小 值的较为整齐的数值。本例最小值为125.9,取125 为第一组段的下限。其上限=125+4=129。
1、求数据的极差(全距): 极差是全部数据中的最大值与最小值 之差,它描述了数据变异的幅度。
本例极差: R=160.9-125.9=35cm
142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9
2. 连续型变量的频数分布 将数据分成适当组段,计数每组的频数, 编制成的频数分布表,则能显示出数据分布 的特点。
例:某年某市120名12岁男童的身高 (cm)资料如下,作统计描述。
142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9
1. 离散型变量的频数分布 例 1998年某山区96名孕妇产前检查次 数资料如下:0,3,2,0,1,5,6, 3,2,4,1,0,6,5,1,3,3,…, 4等共96个数值
制作要点: 分别清点每一种产前检查取值的个数; 也可以将尾部的多个取值作为一个组进行计数。 本例编制频数表如下:
1、算术均数
简称均数
总体均数用
表示
样本均数用 X 表示
适用条件
频数为正态或近似正态分布的计量资料
1、直接法(样本例数较少) 将所有数据直接相加,再除以总例数n:
X1 X2 X N N X1 X2 X n X n
X
N X n
例如:测定了5名健康人第一小时末血沉,分别是6、
重庆市 2001~2013年主城区居民恶性肿瘤死亡及趋势分析。 频数
男男 女女
35
50
年龄
重庆市胎儿、婴幼儿营养不良对成人颈椎退行性病变的影响
1. 统计分析数据
2. 关联性分析
计量资料
离散型计量资料:变量取值为可一一列举 的整数。如:正常人的脉搏次数、每个育 龄妇女的现有子女数等。 连续型计量资料:变量取值是一定范围内 的任意值。如人体身高、体重的变化、大 气中二氧化碳浓度等。
3、2、9、10 mm,求均数
6 3 2 9 10 30 x 6(mm) 5 5
2、加权法( 样本例数较多,近似计算)
观察例数较多,编制频数表后,用各组段的组 中值代替该组段中的任一实测观察值,该组段的频 数是f,即有f个组中值,则有组中值与频数的乘 积代替该组段的各个值相加。 计算公式:
(三)频数分布的类型
1、对称分布: 指集中位置在中间,左右两侧对称。 正态分布:中间组段频数最多,两侧对称,规律下降 2、偏态分布: 指集中位置偏向一侧,频数分布不对称。 正偏态:集中位置偏向数值较小一侧(左侧) 负偏态:集中位置偏向数值较大一侧(右侧)
25 20 15
频 数10
5 0 2.3 2.6 2.9 3.2 3.5 3.8 4.1 4.4 4.7 5.0 5.3 5.6 5.9
12 10
频率密度(%)
表4 频率表法计算均数
组段 ( 1) 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 组中值 (x0) ( 2) 7 9 11 13 15 17 19 21 23 25 27 29 频数 (f) ( 3) 1 3 6 8 12 20 27 18 12 8 4 1 120 fxk (4)=(2)(3) 7 27 66 104 180 340 513 378 276 200 108 29 2228
f1 x1 f 2 x2 f k xk x n
fx
n
(b)频率表(加权)法
f1 X1 f2 X 2 f3 X 3 f k X k fX X f1 f2 f3 f k f
1 7 3 9 1 29 X 1 3 1 f 18.57(μmol/L)
资料的统计描述
卫生统计与信息管理教研室
陈
强
统计描述的意义
社会活动看似杂乱无章,对个体来说有很 多不确定性,但总体上都是服从一些统计 规律的。 医学工作有很多数据,统计学描述就是对 这些数据进行加工和提炼,找出规律、预 测未知。
概念: 用适当的统计图、统计表和统计指标对 原始数据的分布规律及其数量特征进行测 定和描述。 特点: 用直观、简单的形式揭示数据资料蕴含 的内在信息。是统计推断的基础。
计量资料的统计描述方法(单变量):
通过频数表(图)描述数据特征。 用统计指标描述数据的特征。
频数和频数表
频数:在样本中,相同情形出现的次数称为该情形 的频数,即某个(段)测量值的个(例)数。表示 观察值在各组内出现的频繁程度。 频数表:又称频数分布表,是将原始数据进行适当 分组后得到各组的频数而形成的表格。可了解数据 分布的范围、形态和规律等特征。 编制方法:手工、软件(如SAS、SPSS等)
血清总 胆固醇
对称分布 图2-1 101名正常成年女性血清总胆固醇频数分布
20 15
病例数
10 5 0 12 24 36 48 60 72 84 96 108
潜伏期/h
图2-2 59名链球菌咽喉炎患者潜伏期
正偏态分布
101À ý Õ ý ³ £ È Ë µ Ä Ñ ª Ç å ¼ ¡ º ì µ °× °¬ º Á ¿ 25 20
精确or近似?
均数的特征
当数据呈单峰对称分布时, X 位于分布的 中心,它是频数分布最集中的位置。但易 受极端值影响
各观察值与均数之差的总和等于0
(x x) 0
各观察值的离均差平方和最小 2 2 ( x x ) < ( x a ) ( a x )
2、划分组段 (1)确定组数: 制作频数表是为了简化资料,显示数据 的分布规律,因此组数不能太多。也不能太 少,太少会掩盖数据分布的规律。 适宜的分组数与观察值的个数n的多少 有关。n在50以下,可分5~8组, n在50以上 ,可分9~15组,一般取10组左右。
(2)确定组距 一般采取等距分组。
15 10 5 0 0 5 10 15 20 25 30 35 40 45
负偏态分布
(五)频数分布表的用途
揭示资料的分布特征及类型 便于发现某些特大或特小的可疑值
组段的频率作为概率的估计
便于进一步计算统计指标和作统计处理
计量资料描述统计指标
甲、乙2个班的英语成绩,随机抽取5个同学。 甲班:60 65 70 75 80 乙班:50 60 70 80 90 平均分:70分 最高(低)分:
各组段不能重叠,每一组段均为闭开区间
3、统计频数绘制频数表
125 129 133 137 141 145 149 153 157
对称分布
(二)频数分布特征
从频数表,特别是频数分布图可以看到频数分布 有两个特征: 集中位置:数据向某个位置聚集或集中地倾向。 大多数12岁男童的身高集中在中央部分; 离散程度:数据分散性和变异程度。少数男童具 有较低和较高身高,频数向两端逐渐减少。
fX k
8 6 4 2 0 7 9 11 13 15 17 19 21 23 25 27 29
血清铁(μ mol/L)
合计
利用频数表,将每组段的组中值,即(下限+上
限)/2,代替该组段观察值的实际取值(假定各
组均匀取值),用加权法求算术平均数
在样本例数较多的情况下,加权法与直接法算 得的结果相差不大。
频率与累计频率
频率:频数表中的各组频数之和等于总例数n, 将各组的频数除以n所得的比值被称为频率。
累计频数:某组段及前面各组段的频数之和。 累计频率:累计频数除以总例数。
频 率 25 (%)
20 15 10 5 0 0 1 2 3 4 5
Baidu Nhomakorabea
30
6 >5
产前检查次数 图2-1 某地96名妇女产前检查次率分布
表 1998年某地96名妇女产前检查次数分布 检查次数 (1) 0 1 2 3 4 5 6 合计 频数 (2) 4 7 11 13 26 23 12 96 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计频数 (4) 4 11 22 35 61 84 96 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0
例3
一、描述集中位置的特征数(平均指标)
•总称为平均数(average)反映了资料的集中倾向 (central tendency)的位置和平均水平。 •作用:是一组计量数据平均水平的代表值;可作为 不同组间的比较值。 •常用的有: 1. 算术均数(arithmetic mean),简称均数(mean) 2. 几何均数(geometric mean) 3. 中位数 (median)
组距=极差/组数
取整数,或根据专业习惯取整齐数值
本例组距=35/10=3.5≈4
(3)确定各组段的组限: 下限(low limit):每个组段的起点 上限(upper limit):每个组段的终点 上限=下限+组距
第一组段必须包含最小值,其下限一般取包含最小 值的较为整齐的数值。本例最小值为125.9,取125 为第一组段的下限。其上限=125+4=129。
1、求数据的极差(全距): 极差是全部数据中的最大值与最小值 之差,它描述了数据变异的幅度。
本例极差: R=160.9-125.9=35cm
142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9
2. 连续型变量的频数分布 将数据分成适当组段,计数每组的频数, 编制成的频数分布表,则能显示出数据分布 的特点。
例:某年某市120名12岁男童的身高 (cm)资料如下,作统计描述。
142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9
1. 离散型变量的频数分布 例 1998年某山区96名孕妇产前检查次 数资料如下:0,3,2,0,1,5,6, 3,2,4,1,0,6,5,1,3,3,…, 4等共96个数值
制作要点: 分别清点每一种产前检查取值的个数; 也可以将尾部的多个取值作为一个组进行计数。 本例编制频数表如下:
1、算术均数
简称均数
总体均数用
表示
样本均数用 X 表示
适用条件
频数为正态或近似正态分布的计量资料
1、直接法(样本例数较少) 将所有数据直接相加,再除以总例数n:
X1 X2 X N N X1 X2 X n X n
X
N X n
例如:测定了5名健康人第一小时末血沉,分别是6、
重庆市 2001~2013年主城区居民恶性肿瘤死亡及趋势分析。 频数
男男 女女
35
50
年龄
重庆市胎儿、婴幼儿营养不良对成人颈椎退行性病变的影响
1. 统计分析数据
2. 关联性分析
计量资料
离散型计量资料:变量取值为可一一列举 的整数。如:正常人的脉搏次数、每个育 龄妇女的现有子女数等。 连续型计量资料:变量取值是一定范围内 的任意值。如人体身高、体重的变化、大 气中二氧化碳浓度等。
3、2、9、10 mm,求均数
6 3 2 9 10 30 x 6(mm) 5 5
2、加权法( 样本例数较多,近似计算)
观察例数较多,编制频数表后,用各组段的组 中值代替该组段中的任一实测观察值,该组段的频 数是f,即有f个组中值,则有组中值与频数的乘 积代替该组段的各个值相加。 计算公式:
(三)频数分布的类型
1、对称分布: 指集中位置在中间,左右两侧对称。 正态分布:中间组段频数最多,两侧对称,规律下降 2、偏态分布: 指集中位置偏向一侧,频数分布不对称。 正偏态:集中位置偏向数值较小一侧(左侧) 负偏态:集中位置偏向数值较大一侧(右侧)
25 20 15
频 数10
5 0 2.3 2.6 2.9 3.2 3.5 3.8 4.1 4.4 4.7 5.0 5.3 5.6 5.9
12 10
频率密度(%)
表4 频率表法计算均数
组段 ( 1) 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 组中值 (x0) ( 2) 7 9 11 13 15 17 19 21 23 25 27 29 频数 (f) ( 3) 1 3 6 8 12 20 27 18 12 8 4 1 120 fxk (4)=(2)(3) 7 27 66 104 180 340 513 378 276 200 108 29 2228
f1 x1 f 2 x2 f k xk x n
fx
n
(b)频率表(加权)法
f1 X1 f2 X 2 f3 X 3 f k X k fX X f1 f2 f3 f k f
1 7 3 9 1 29 X 1 3 1 f 18.57(μmol/L)
资料的统计描述
卫生统计与信息管理教研室
陈
强
统计描述的意义
社会活动看似杂乱无章,对个体来说有很 多不确定性,但总体上都是服从一些统计 规律的。 医学工作有很多数据,统计学描述就是对 这些数据进行加工和提炼,找出规律、预 测未知。
概念: 用适当的统计图、统计表和统计指标对 原始数据的分布规律及其数量特征进行测 定和描述。 特点: 用直观、简单的形式揭示数据资料蕴含 的内在信息。是统计推断的基础。
计量资料的统计描述方法(单变量):
通过频数表(图)描述数据特征。 用统计指标描述数据的特征。
频数和频数表
频数:在样本中,相同情形出现的次数称为该情形 的频数,即某个(段)测量值的个(例)数。表示 观察值在各组内出现的频繁程度。 频数表:又称频数分布表,是将原始数据进行适当 分组后得到各组的频数而形成的表格。可了解数据 分布的范围、形态和规律等特征。 编制方法:手工、软件(如SAS、SPSS等)
血清总 胆固醇
对称分布 图2-1 101名正常成年女性血清总胆固醇频数分布
20 15
病例数
10 5 0 12 24 36 48 60 72 84 96 108
潜伏期/h
图2-2 59名链球菌咽喉炎患者潜伏期
正偏态分布
101À ý Õ ý ³ £ È Ë µ Ä Ñ ª Ç å ¼ ¡ º ì µ °× °¬ º Á ¿ 25 20
精确or近似?
均数的特征
当数据呈单峰对称分布时, X 位于分布的 中心,它是频数分布最集中的位置。但易 受极端值影响
各观察值与均数之差的总和等于0
(x x) 0
各观察值的离均差平方和最小 2 2 ( x x ) < ( x a ) ( a x )
2、划分组段 (1)确定组数: 制作频数表是为了简化资料,显示数据 的分布规律,因此组数不能太多。也不能太 少,太少会掩盖数据分布的规律。 适宜的分组数与观察值的个数n的多少 有关。n在50以下,可分5~8组, n在50以上 ,可分9~15组,一般取10组左右。
(2)确定组距 一般采取等距分组。