第02章 集中趋势的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
�
高峰位于中央,左右两侧的频数大体对称 (central tendency): 变量值集中位置。 ①集中趋势 集中趋势(central tendency):变量值集中位置。 数据多集中在 “4.6 ~”附近。 数据多集中在“ 4.6~ 平均水平指标 —— ——平均水平指标 (tendency of dispersion): 变量值围 ②离散趋势 离散趋势(tendency dispersion):变量值围 “中心 ”位置越 绕集中位置的分布情况。离 绕集中位置的分布情况。离“ 中心” 远,频数越小;且围绕 “中心 ”左右对称。 远,频数越小;且围绕“ 中心” —— 变异水平指标 ——变异水平指标
4.76 4.92 4.70 5.24 4.63 5.26 4.27 4.81 4.97 …… 5.61 5.95 4.46 5.00 4.40 4.94 4.57 4.73 5.27 5.05 4.31 4.47 4.63 4.78 5.18 5.34 5.50 4.52
4.77 4.88 4.93 5.04 4.71 4.44
(arithmetic mean) ,简称均数 (mean) 1. 算术均数 算术均数(arithmetic mean),简称均数 (geometric mean) 2. 几何均数 几何均数(geometric 3. 中位数 (median)
15
(一)算术均数
�样本均数用 Χ
均数 (mean ) 简称 简称均数 均数( mean)
对各组段计数:划记或由软件完成 4. 4.对各组段计数:划记或由软件完成
5
(1)确定全距 全距 R=xmax-xmin,本例 R=5.95全距R ,本例R =2.13 3.82 3.82= :相邻两组之间的距离,取决于资料 (2)确定组距 确定组距:相邻两组之间的距离,取决于资料 的性质和组段数。常以全距的十分之一估计。组段 8-15 组。将全距除以组数可得到组据的近 数通常取 数通常取8-15 8-15组。将全距除以组数可得到组据的近 =全距 /组数。,若分 10 组,则参考组距 似值:组距 似值:组距= 全距/ 组数。,若分10 10组,则参考组距 为i= R /10=2.13/10 ≈0.21 。 /10=2.13/10≈ 0.21。 :各组段的终点称组段的上 (3)确定组段的上下限 确定组段的上下限:各组段的终点称组段的上 限,起点称组段的下限。整个资料范围的每一个数 据必须能归属于某一组。实际组限在每组中只包含 下限而不包含上限。 写出各组段的频数:用划记法将所 (4)列表整理: 列表整理:写出各组段的频数:用划记法将所 有数据归纳到各组段,得到各组段的频数。 6
X G = 10 2 × 2 × 4 × 4 × 8 × 8 × 8 × 8 × 32 × 32 = 7
⎛ lg 2 + lg 2 + lg 4 + lg4 + lg8 + lg8 + lg8 + lg8 + lg32 + lg32 ⎞ G = lg ⎜ ⎟≈ 7 10 ⎝ ⎠
表示,总体均数用
µ 表示
:用于反映一组呈 对称分布 或近似 适用条件: 用于反映一组呈对称分布 对称分布或 �适用条件 数据的集中位置或平均水平。 对称分布 对称分布数据的集中位置或平均水平。
16
�计算方法
(1)直接法 公式 :
x1 + x2 + ⋯+ xn Σxi = x= n n
17
140名成年男子的红细胞数( ×1012/L ) 某地 某地1 名成年男子的红细胞数(× /L)
1
3
5
7
9
11
13
15
0
5
10
15
潜伏期(h)
20 25 30 35 肌红蛋白含量(ug/mL)
40
45
50
百度文库
图 2-2 59名链球菌咽喉炎患者的潜伏期(h)
图2-3 101名正常人的血清肌红蛋白含量
14
第二节 计量资料的常用统计指标
一、描述集中趋势的特征数
average )这一指标体系来 统计上使用平均数( 统计上使用平均数(average average)这一指标体系来 描述一组变量值的集中位置或平均水平。 常用的有:
公式 : X
f1 X1 + f2 X 2 + f3 X 3 + ⋯ + fk X k ∑ fX = = f1 + f 2 + f3 + ⋯ + fk ∑f
本组段下限值+下组段下限值 其中 X = 2
K:频数表的组段数 f:频数 x:组中值
20
1 某地 140 名正常男子红细胞数的频数表 表22-1 某地140 140名正常男子红细胞数的频数表
7
-
三、频数表的用途
1. 作为陈述资料的形式 1.作为陈述资料的形式 2. 便于观察数据的分布类型 2.便于观察数据的分布类型 描述计量资料分布的集中趋势和离散趋势 3. 3.描述计量资料分布的集中趋势和离散趋势 4.便于发现资料中含有的异常值(极大极小值) 5.可用各组段的频率作为概率的估计值
8
4.76 4.92 4.70 5.24 4.63 5.26 4.27 4.81 4.97 …… 5.61 5.95 4.46 5.00 4.40 4.94 4.57 4.73 5.27 5.05 4.31 4.47 4.63 4.78 5.18 5.34 5.50 4.52
4.77 4.88 4.93 5.04 4.71 4.44
�
�
11
频数分布的类型
正态分布 对称分布 其它对称分布 血清学滴度资料 频数分布 正偏态 (对数正态分布) 其它
偏态分布
负偏态
12
对称分布与偏态分布
1. 对称分布 1.对称分布 偏态分布 2. 2.偏态分布
),也称正偏态 右偏态( skewed to the right right),也称正偏态 ),数值集中位置在 较小 的一侧; (positive skewed skewed) 数值集中位置在较小 较小的一侧; ),也称负偏态 左偏态( skewed to the left left),也称负偏态 ),数值集中位置在 较大 的一侧; (negative skewed skewed) 数值集中位置在较大 较大的一侧;
2 × 3.9 + 6 × 4.10 + ⋅ ⋅ ⋅ + 1× 5.9 669.8 x= = = 4.7843 140 140
21
geometric mean ) (二)几何均数( (二)几何均数(geometric mean)
X G = n x1 x2 ⋯ xn
lg xi 1 ∑ lg X G = (lg x1 + lg x2 + ⋯ + lg xn ) = n n lg xi 几何均数:变量 −1 ∑ X G = lg ( ) 对数值的算术均 n 数的反对数。 lg 表示以10为底的对数;
第二章 集中趋势的统计描述
) (Measures of Central Tendency Tendency)
预防医学系 芮东升
1
课程设置
� 课时:
学时 理论课: 22 22学时 实习课: 10 学时 10学时 授 课 人:理论课 芮东升 联系方式:预防医学系卫生统计学教研室 :2057153 Tel. Tel.: :ruidongsheng@shzu.edu.cn Email Email: 贴吧: yfyxx Baidu Baidu贴吧: 贴吧:yfyxx (讨论、答疑)
1 某地 140 名正常男子红细胞数的频数表 表22-1 某地140 140名正常男子红细胞数的频数表
红细胞数 3.80 ~ 3.80~ ~ 4.00 4.00~ ~ 4.20 4.20~ ~ 4.40 4.40~ ~ 4.60 4.60~ ~ 4.80 4.80~ ~ 5.00 5.00~ ~ 5.20 5.20~ 5.40 ~ 5.40~ ~ 5.60 5.60~ ~ 6.00 5.80 5.80~ 合计 正 正正 正正正正正 正正正正正正 正正正正正 正正正 正正 正 划记 频数 2 6 11 25 32 27 17 13 4 2 1 140 频 率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7 (%) 累积频率 累积频率(%) 1.4 5.7 13.6 31.5 54.4 73.7 85.8 95.1 98.0 99.4 100.0 100.0
13
35 30 25 20 15 10 5 0
频
数
对称分布:中间高、 两边低、左右对称
红细胞数( ×10 12/L)
图4-2 150名正常男子红细胞数的直方图
70 60 50 40
25
负偏态分布:
集中在数值大 的一侧
病例数
30 20
人数
正偏态分布: 集中在数值小 的一侧
20
15
10
5 10 0 0
lg − 1表示以10为底的反对数 X > 0, 为正值
22
几何均数的适用条件与实例
适用条件: 1、非对称分布,差距较大 倍数关系 的等比资料 或对数正 2、呈 、呈倍数关系 倍数关系的 等比资料或 (正偏态)资料;如抗体 态分布 态分布(正偏态)资料;如抗体 滴度、血清凝集效价资料
23
10人血清滴度的倒数分别为 例2.2 测得 测得1 求平均滴度。 2,2,4,4,8,8,8,8,32,32, 2,4,4,8,8,8,8,32,32,求平均滴度。
http://tieba.baidu.com/f?kw=yfyxx#
→教学资源 →(作业、 ppt ) 大学一类课程网站 大学一类课程网站→ 教学资源→ (作业、ppt ppt)
http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204
5.02 4.76
4.76 + 5.26 + 5.61 + ⋯ + 5.02 + 4.76 x= = 4.77 140
18
�计算方法
4,4,4,6,6,8,8,8,10 举例:试计算 举例:试计算4 的均数?
3×4+ 2×6+ 3×8+1×10 x= 3+ 2+ 3+1
19
(利用频数表): (2)加权法 )加权法(
红细胞数 3.80 ~ 3.80~ ~ 4.00 4.00~ ~ 4.20 4.20~ ~ 4.40 4.40~ ~ 4.60 4.60~ ~ 4.80 4.80~ ~ 5.00 5.00~ 5.20 ~ 5.20~ ~ 5.40 5.40~ ~ 5.60 5.60~ ~ 6.00 5.80 5.80~ 合计 划记 正 正正 正正正正正 正正正正正正 正正正正正 正正正 正正 正 频数 2 6 11 25 32 27 17 13 4 2 1 140 组中值 3.9 4.1 4.3 4.5 4.7 4.9 5.1 5.3 5.5 5.7 5.9 fX 7.8 24.6 47.3 112.5 150.4 132.3 86.7 68.9 22 .4 11 11.4 5.9
三、频数分布图
�
计量资料-直方图
� 以垂直条段代表频数分布的一种图形 � 纵轴为各组的频数,横轴为各组的组限 � 从中可以看出数据的分布特点:
9
Histogram ) 直方图( 直方图(Histogram Histogram)
直观、形象地表示频数分布的形态和特征 。
图2-1 140 名正常男子红细胞计数的直方图 140名正常男子红细胞计数的直方图
5.02 4.76
如何有效地组织、整理和表达数据的信息?
4
一、频数表 (Frequency Table)
频数表:同时列出观察指标的可能取值区间及其 在各区间内出现的频数。 1. 确定组数k:通常选择在 8~15 之间 1.确定组数 :通常选择在8 15之间 确定组距: 参考组距为R/k , R为全距 2. 2.确定组距: 3. 确定组限 : 3.确定组限 确定组限: 应符合专业习惯
2
第一节 频数分布 (Frequency Distribution)
由实验或临床观察等各种方式得到的原始数 据,如果是计量资料并且观察的例数较多, 为了能够显示数据的 分布规律 ,可以对数据 为了能够显示数据的分布规律 分布规律,可以对数据 进行分组,然后制作频数表或绘制直方图。
3
例2.1 某地用随机抽样方法检查了 140 名成年男子的 某地用随机抽样方法检查了140 140名成年男子的 红细胞数,检测结果如表所示:
�
高峰位于中央,左右两侧的频数大体对称 (central tendency): 变量值集中位置。 ①集中趋势 集中趋势(central tendency):变量值集中位置。 数据多集中在 “4.6 ~”附近。 数据多集中在“ 4.6~ 平均水平指标 —— ——平均水平指标 (tendency of dispersion): 变量值围 ②离散趋势 离散趋势(tendency dispersion):变量值围 “中心 ”位置越 绕集中位置的分布情况。离 绕集中位置的分布情况。离“ 中心” 远,频数越小;且围绕 “中心 ”左右对称。 远,频数越小;且围绕“ 中心” —— 变异水平指标 ——变异水平指标
4.76 4.92 4.70 5.24 4.63 5.26 4.27 4.81 4.97 …… 5.61 5.95 4.46 5.00 4.40 4.94 4.57 4.73 5.27 5.05 4.31 4.47 4.63 4.78 5.18 5.34 5.50 4.52
4.77 4.88 4.93 5.04 4.71 4.44
(arithmetic mean) ,简称均数 (mean) 1. 算术均数 算术均数(arithmetic mean),简称均数 (geometric mean) 2. 几何均数 几何均数(geometric 3. 中位数 (median)
15
(一)算术均数
�样本均数用 Χ
均数 (mean ) 简称 简称均数 均数( mean)
对各组段计数:划记或由软件完成 4. 4.对各组段计数:划记或由软件完成
5
(1)确定全距 全距 R=xmax-xmin,本例 R=5.95全距R ,本例R =2.13 3.82 3.82= :相邻两组之间的距离,取决于资料 (2)确定组距 确定组距:相邻两组之间的距离,取决于资料 的性质和组段数。常以全距的十分之一估计。组段 8-15 组。将全距除以组数可得到组据的近 数通常取 数通常取8-15 8-15组。将全距除以组数可得到组据的近 =全距 /组数。,若分 10 组,则参考组距 似值:组距 似值:组距= 全距/ 组数。,若分10 10组,则参考组距 为i= R /10=2.13/10 ≈0.21 。 /10=2.13/10≈ 0.21。 :各组段的终点称组段的上 (3)确定组段的上下限 确定组段的上下限:各组段的终点称组段的上 限,起点称组段的下限。整个资料范围的每一个数 据必须能归属于某一组。实际组限在每组中只包含 下限而不包含上限。 写出各组段的频数:用划记法将所 (4)列表整理: 列表整理:写出各组段的频数:用划记法将所 有数据归纳到各组段,得到各组段的频数。 6
X G = 10 2 × 2 × 4 × 4 × 8 × 8 × 8 × 8 × 32 × 32 = 7
⎛ lg 2 + lg 2 + lg 4 + lg4 + lg8 + lg8 + lg8 + lg8 + lg32 + lg32 ⎞ G = lg ⎜ ⎟≈ 7 10 ⎝ ⎠
表示,总体均数用
µ 表示
:用于反映一组呈 对称分布 或近似 适用条件: 用于反映一组呈对称分布 对称分布或 �适用条件 数据的集中位置或平均水平。 对称分布 对称分布数据的集中位置或平均水平。
16
�计算方法
(1)直接法 公式 :
x1 + x2 + ⋯+ xn Σxi = x= n n
17
140名成年男子的红细胞数( ×1012/L ) 某地 某地1 名成年男子的红细胞数(× /L)
1
3
5
7
9
11
13
15
0
5
10
15
潜伏期(h)
20 25 30 35 肌红蛋白含量(ug/mL)
40
45
50
百度文库
图 2-2 59名链球菌咽喉炎患者的潜伏期(h)
图2-3 101名正常人的血清肌红蛋白含量
14
第二节 计量资料的常用统计指标
一、描述集中趋势的特征数
average )这一指标体系来 统计上使用平均数( 统计上使用平均数(average average)这一指标体系来 描述一组变量值的集中位置或平均水平。 常用的有:
公式 : X
f1 X1 + f2 X 2 + f3 X 3 + ⋯ + fk X k ∑ fX = = f1 + f 2 + f3 + ⋯ + fk ∑f
本组段下限值+下组段下限值 其中 X = 2
K:频数表的组段数 f:频数 x:组中值
20
1 某地 140 名正常男子红细胞数的频数表 表22-1 某地140 140名正常男子红细胞数的频数表
7
-
三、频数表的用途
1. 作为陈述资料的形式 1.作为陈述资料的形式 2. 便于观察数据的分布类型 2.便于观察数据的分布类型 描述计量资料分布的集中趋势和离散趋势 3. 3.描述计量资料分布的集中趋势和离散趋势 4.便于发现资料中含有的异常值(极大极小值) 5.可用各组段的频率作为概率的估计值
8
4.76 4.92 4.70 5.24 4.63 5.26 4.27 4.81 4.97 …… 5.61 5.95 4.46 5.00 4.40 4.94 4.57 4.73 5.27 5.05 4.31 4.47 4.63 4.78 5.18 5.34 5.50 4.52
4.77 4.88 4.93 5.04 4.71 4.44
�
�
11
频数分布的类型
正态分布 对称分布 其它对称分布 血清学滴度资料 频数分布 正偏态 (对数正态分布) 其它
偏态分布
负偏态
12
对称分布与偏态分布
1. 对称分布 1.对称分布 偏态分布 2. 2.偏态分布
),也称正偏态 右偏态( skewed to the right right),也称正偏态 ),数值集中位置在 较小 的一侧; (positive skewed skewed) 数值集中位置在较小 较小的一侧; ),也称负偏态 左偏态( skewed to the left left),也称负偏态 ),数值集中位置在 较大 的一侧; (negative skewed skewed) 数值集中位置在较大 较大的一侧;
2 × 3.9 + 6 × 4.10 + ⋅ ⋅ ⋅ + 1× 5.9 669.8 x= = = 4.7843 140 140
21
geometric mean ) (二)几何均数( (二)几何均数(geometric mean)
X G = n x1 x2 ⋯ xn
lg xi 1 ∑ lg X G = (lg x1 + lg x2 + ⋯ + lg xn ) = n n lg xi 几何均数:变量 −1 ∑ X G = lg ( ) 对数值的算术均 n 数的反对数。 lg 表示以10为底的对数;
第二章 集中趋势的统计描述
) (Measures of Central Tendency Tendency)
预防医学系 芮东升
1
课程设置
� 课时:
学时 理论课: 22 22学时 实习课: 10 学时 10学时 授 课 人:理论课 芮东升 联系方式:预防医学系卫生统计学教研室 :2057153 Tel. Tel.: :ruidongsheng@shzu.edu.cn Email Email: 贴吧: yfyxx Baidu Baidu贴吧: 贴吧:yfyxx (讨论、答疑)
1 某地 140 名正常男子红细胞数的频数表 表22-1 某地140 140名正常男子红细胞数的频数表
红细胞数 3.80 ~ 3.80~ ~ 4.00 4.00~ ~ 4.20 4.20~ ~ 4.40 4.40~ ~ 4.60 4.60~ ~ 4.80 4.80~ ~ 5.00 5.00~ ~ 5.20 5.20~ 5.40 ~ 5.40~ ~ 5.60 5.60~ ~ 6.00 5.80 5.80~ 合计 正 正正 正正正正正 正正正正正正 正正正正正 正正正 正正 正 划记 频数 2 6 11 25 32 27 17 13 4 2 1 140 频 率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7 (%) 累积频率 累积频率(%) 1.4 5.7 13.6 31.5 54.4 73.7 85.8 95.1 98.0 99.4 100.0 100.0
13
35 30 25 20 15 10 5 0
频
数
对称分布:中间高、 两边低、左右对称
红细胞数( ×10 12/L)
图4-2 150名正常男子红细胞数的直方图
70 60 50 40
25
负偏态分布:
集中在数值大 的一侧
病例数
30 20
人数
正偏态分布: 集中在数值小 的一侧
20
15
10
5 10 0 0
lg − 1表示以10为底的反对数 X > 0, 为正值
22
几何均数的适用条件与实例
适用条件: 1、非对称分布,差距较大 倍数关系 的等比资料 或对数正 2、呈 、呈倍数关系 倍数关系的 等比资料或 (正偏态)资料;如抗体 态分布 态分布(正偏态)资料;如抗体 滴度、血清凝集效价资料
23
10人血清滴度的倒数分别为 例2.2 测得 测得1 求平均滴度。 2,2,4,4,8,8,8,8,32,32, 2,4,4,8,8,8,8,32,32,求平均滴度。
http://tieba.baidu.com/f?kw=yfyxx#
→教学资源 →(作业、 ppt ) 大学一类课程网站 大学一类课程网站→ 教学资源→ (作业、ppt ppt)
http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204
5.02 4.76
4.76 + 5.26 + 5.61 + ⋯ + 5.02 + 4.76 x= = 4.77 140
18
�计算方法
4,4,4,6,6,8,8,8,10 举例:试计算 举例:试计算4 的均数?
3×4+ 2×6+ 3×8+1×10 x= 3+ 2+ 3+1
19
(利用频数表): (2)加权法 )加权法(
红细胞数 3.80 ~ 3.80~ ~ 4.00 4.00~ ~ 4.20 4.20~ ~ 4.40 4.40~ ~ 4.60 4.60~ ~ 4.80 4.80~ ~ 5.00 5.00~ 5.20 ~ 5.20~ ~ 5.40 5.40~ ~ 5.60 5.60~ ~ 6.00 5.80 5.80~ 合计 划记 正 正正 正正正正正 正正正正正正 正正正正正 正正正 正正 正 频数 2 6 11 25 32 27 17 13 4 2 1 140 组中值 3.9 4.1 4.3 4.5 4.7 4.9 5.1 5.3 5.5 5.7 5.9 fX 7.8 24.6 47.3 112.5 150.4 132.3 86.7 68.9 22 .4 11 11.4 5.9
三、频数分布图
�
计量资料-直方图
� 以垂直条段代表频数分布的一种图形 � 纵轴为各组的频数,横轴为各组的组限 � 从中可以看出数据的分布特点:
9
Histogram ) 直方图( 直方图(Histogram Histogram)
直观、形象地表示频数分布的形态和特征 。
图2-1 140 名正常男子红细胞计数的直方图 140名正常男子红细胞计数的直方图
5.02 4.76
如何有效地组织、整理和表达数据的信息?
4
一、频数表 (Frequency Table)
频数表:同时列出观察指标的可能取值区间及其 在各区间内出现的频数。 1. 确定组数k:通常选择在 8~15 之间 1.确定组数 :通常选择在8 15之间 确定组距: 参考组距为R/k , R为全距 2. 2.确定组距: 3. 确定组限 : 3.确定组限 确定组限: 应符合专业习惯
2
第一节 频数分布 (Frequency Distribution)
由实验或临床观察等各种方式得到的原始数 据,如果是计量资料并且观察的例数较多, 为了能够显示数据的 分布规律 ,可以对数据 为了能够显示数据的分布规律 分布规律,可以对数据 进行分组,然后制作频数表或绘制直方图。
3
例2.1 某地用随机抽样方法检查了 140 名成年男子的 某地用随机抽样方法检查了140 140名成年男子的 红细胞数,检测结果如表所示: