第二章 集中趋势的统计描述
定量资料统计描述——集中趋势与离散程度
度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5
2统计描述(集中趋势的描述)
4.13 4.28 4.91 3.95 4.23
2.78 3.26 3.18 5.08 3.57
4.26 3.50 3.68 4.53 4.83
3.58 2.70 4.83 3.92 3.52
4.34 4.61 3.87 3.58 3.84
4.84 4.75 3.95 5.35 4.50
4.41 2.91 3.91 3.84 3.96
第三章: 统计描述
一、数值变量资料的统计描述
1、频数分布 2、集中趋势的统计描述 3、离散趋势的统计描述 4、正态分布及其应用
二、分类变量资料的统计描述
2
概述 :
统计描述:用适当的统计图(表)和统计指 标来描述资料的分布规律及其数量特征. 资料性质
离散型:变量取值可以列举,如心跳、脉搏 连续型:变量取值不能明确列举,如血糖
1.描述频数分布的 类型 (1)对称分布 : (2) 偏态分布
25 20
人数
15
Æ µ Ê ý
10 5
0
2.45
3.05
3.65
4.25
4.85
5.45
6.10
Ñ ª Ç å × Ü µ ¨¹ Ì ´ ¼ £ ¨mmol/L£ ©
Í ¼ 2 - 1 101 à û Õ ý ³ £ ³ É Ä ê Å ® Ó ×Ñ ª Ç å Ü ×µ ¨¹ Ì ´ ¼ µ Ä Æ µ Ê ý Ö ·² ¼
4.34 4.61 3.87 3.58 3.84
4.84 4.75 3.95 5.35 4.50
4.41 2.91 3.91 3.84 3.96
4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
第二章 集中趋势的统计描述
1.集中趋势(central tendency):平均水 平,向中间集中,中等数据的人数最多。 2.离散趋势(tendency dispersion):变 异水平,即随着红细胞数测量值逐渐变大 或变小,人数越来越少,向两端分散。
频数表的主要用途
1.作为陈述资料的形式,可以替代繁杂的原始资料, 便于进一步分析 2.便于观察数据的分布类型 3.便于发现资料中某些远离群体的特大或特小的 可疑值
xi x1 x2 xn x n n
例2.1 见书P10
式(2-1)
加权法
适用条件:当无原始数据或观察例数很多又 缺乏计算机及统计软件时,若用直接法很 容易出错,可以用加权法处理。
f i X i f1 X 1 f 2 X 2 f n X n x f i f1 f 2 f n
x
二、特征: ∑(X-
x )=0
估计误差之和为0。
三、适用资料类型: 1.描述正态分布和近似正态分布资料集中 趋势的最好指标。 2. 适用于大多数正常人的生理、生化指标。 四、计算方法:
1.直接法
2.加权法
直接法
适用条件: 当观察例数不多时,或观察例数虽然 很多,但有计算机及统计软件,宜选择直接法。
0 .0 15 0 .0 14 0 .0 13 0 .0 12 0 .0 11 0 .0 10 00 9. 00 8. 00 7. 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0.
400
300
200
100
0
TG
对数据的描述指标也分为两类: 1. 描述集中趋势(central tendency)或 平均水平的指标。 2. 描述离散趋势(tendency dispersion) 或变异水平的指标。
医学统计学定量资料统计描述集中离散
1 5 5
1 5 5
2020/11/14
24
加权法:
25
2020/11/14
设分组后的数据为:X1 ,X2 ,… ,XK
相应的频数为:
f1 , f2, … ,fK
计算公式为
X
X1 f1 X 2 f2 X k f1 f2 fk
fk
fx n
对于频数表资料,用每个组段的组中值代替 该组段观察值的实际取值:
采用加权法计算加权 均数,作为算术均数 的近似值
2020/11/14
红细胞数(1012/L) 3.07~ 3.27~ 3.47~ 3.67~ 3.87~ 4.07~ 4.27~ 4.47~ 4.67~ 4.87~ 5.07~
5.27~5.47
例数 2 3 9 14 22 30 21 15 10 6 4 2
27
算术均数
组段 3.07~ 3.27~ 3.47~ 3.67~ 3.87~ 4.07~ 4.27~ 4.47~ 4.67~ 4.87~ 5.07~ 5.27~5.47 合计
2020/11/14
频数 2 3 9 14 22 30 21 15 10 6 4 2 138
组中值 3.17 3.37 3.57 3.77 3.97 4.17 4.37 4.57 4.77 4.97 5.17 5.37 —
2020/11/14
32
几何平均数(直接法)
将原始数据X取对数后得到的对数值视为一个新变量 Y,求Y的算术均数为:
Yi logXi;
Y Y1 Y2 ……+Yn N
Y logx1 logx2 ……+logxn logx
N
N
G log1 Y
求得Y的算术均数后将其换算为原数值X,即对其取 反对数得几何均数G
描述集中趋势的数据特征
描述集中趋势的数据特征集中趋势是统计学中用来描述一组数据中心位置的量。
它提供了对数据分布的整体概括和集中位置的估计。
在数据分析中,了解集中趋势能够帮助我们进行数据的比较、判断和预测。
常见的集中趋势测量指标包括平均数、中位数和众数。
平均数是最常用的集中趋势测量指标之一。
它是将一组数据中所有观测值相加后再除以观测值的总数。
平均数可以被计算为总和除以观测值的个数,它能够提供一个数据的总体趋势。
然而,平均数受极端值的影响较大,可能不太适合描述非对称分布的数据。
中位数是将一组数据按升序或降序排列后,位于中间位置的数值。
中位数不受极端值的干扰,能够更好地反映数据的中心位置。
对于非对称分布的数据,中位数更能代表整体趋势,而不会被极端值所影响。
众数是一组数据中出现次数最多的数值。
众数常用于描述离散型数据的集中趋势,如人口统计中的年龄分布等。
众数不受极端值的影响,能够很好地描述数据中频繁出现的数值,但当数据中没有出现重复的数值时,众数无法提供对集中趋势的描述。
除了平均数、中位数和众数,还有其他用来描述集中趋势的方法。
比如四分位数(quartiles),它将一组数据分为四等分,分别是第一四分位数、中位数和第三四分位数。
四分位数能够提供数据的分布范围和分位数信息,对于外部异常值的探测有较好的性能。
另外,极差和标准差也是用来描述数据集中趋势的测量指标。
极差指的是最大值和最小值之间的差异,它可以告诉我们数据的范围大小。
标准差是测量数据与平均值的偏离程度,它表示数据的离散程度。
标准差越大,数据的分散程度越大,集中趋势越小;标准差越小,数据的分散程度越小,集中趋势越大。
在实际应用中,选择适当的集中趋势测量指标取决于数据的类型和分布。
如对于非对称分布的数据,可以使用中位数作为集中趋势的代表,因为它不会受到极端值的干扰。
对于对称分布的数据,平均数可能是一个更合适的选择。
同时,通过对数据的集中趋势进行分析,我们能够更好地理解数据的特征和规律,为后续的数据解释和决策提供有力的支持。
卫生统计学--集中趋势的统计描述(第一节 频数分布)
脉搏组段
(1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85
合计
组中值(Xi)
(2)
57.5 60.5 63.5 66.5 69.5 72.5 75.5 78.5 81.5 84.5
频数, fi (3)
2 5 12 15 25 26 19 15 10 1
N=∑f 130
料,特别是服从对数正态分布资料
第二节 集中趋势的描述
(三) 中位数 11个大鼠存活天数:
4,10,7,50,3,15,2,9,13,60, 70 平均存活天数? 1、中位数(median)
第二章 集中趋势的 统计描述
第一节 频数分布
第一节 频数分布
一、数值变量的频数分布 1、频数:即变量值的个数 2、频数表:同时列出观察指标的可能取值区间
及其在各区间出现的频数。 3、频数分布通常用频数分布表和频数分布图来
表示。 注意:了解频数分布是分析资料的第一步。 (一)频数分布表(frequency table)
之间,尤以组段的人数71~(次/分)最多。 且上下组段的频数分布基本对称。
3.便于发现一些特大或特小的可疑值
组段
频数 f
(1)
(2)
2.30~
12.60~02.90~03.20~
0
3.50~
17
3.80~
20
4.10~
17
4.40~
12
4.70~
9
5.00~
0
5.30~
0
5.60~5.90
8
合计
图 2-1 130 名 正 常 成 年 男 子脉搏的 频 数 分 布
第一节 频数分布
数值变量资料的集中趋势和离散趋势
2.几何均数(geometric mean)
常适用于一种特殊的偏态分布资料:等比资料或对 数正态分布资料(常见于抗体滴度)。
3.中位数(median,M) 10.12.9.7.11.39
主要适用于偏态分布资料。中位数是指将一组变 量值从小到大排列,位次居中的变量值。
S CV 100% X
CV: 单位不同,均数相差悬殊 S : 单位相同,均数相近
5.四分位数间距(quartile interval,Q):P75 、 P25分别表示第75百分位数和第25百分位数。
Q= P75-P25(上四分位数-下四分位数)
注:主要用于偏态分布资料离散程度的描述。
正态分布:集中趋势,平均数;离散趋势,方差 偏态分布:集中趋势,中位数;离散趋势,四分位数间距
最大值
统计结果
注:除了用“Frequencies”外,还可以使用 “Descriptives”进行统计描述 描述
三、用SPSS软件实现统计描述
操作步骤:
1.选择“Frequencies”
描述性统计
频数
操作步骤:
2.将变量选入变量框, 点击“Statistics”
操作步骤:
用Excel计算
2.选择相应描述性指标, 无几何均数,变异系数 点击“Continue” 均数
四分位数
间距 中位数 最小值 标准差 方差 极差
偏态分布பைடு நூலகம்集中位置偏向一侧,频数分布不对称的 分布。
正偏态
120 100
负偏态
80
60
40
20
0 0.0 10.0 20.0 30.0 40.0 50.0 60.0
集中趋势的统计描述
正态曲线下面积的分布规律
曲线下横轴上的总面积为100%或1。 下面是应用较多的三个区间的面积分布规 律。 (1)正态分布区间(-,+)下的面积,即 范围的面积占总面积为68.27%; (2)正态分布区间(-1.96,+1.96),即 1.96范围的面积占总面积为95.00%; (3)正态分布区间(-2.58,+2.58),即 2.58范围的面积为99.00%。(如图1-2)
式中,Σ是求和的符号 。
例题
例 14-1 10名12岁男孩身高(cm)分别为 125.5,126.0,127.0,128.5,147.0, 131.0,132.0,141.5.0,122.5,140.0。 求平均数。
X X n 125.5 126 ... 122.5 140 132.1 10
二、四分位间距
(inter-quartile range)
四分位间距是两个特定的百分位数之 差,即第75百分数P75(上四分位数QU)和 第25百分位数P25(下四分位数QL)之差, 用Q表示,适用于任何分布的计量资料, 尤其适用于偏态分布的资料.
Q= QU - QL
四分位间距比全距稳定,但仍然未 考虑到每个观察值的变异。
[例1-6]调查某地107名正常人尿铅含量 (mg/L)结果列于下表,计算中位数: 本例,第3组的累计频数为65,超过n/2= 53.5,即第3组为本组。
i n 4 107 M L fL 29 36 10.41(m g/ L) f2 65 2
(四)百分位数(percentile)
百分位数是一种位置指标,用PX表示。 百分位数是一个有序数列百等分的 分割值。第50百分位数(P50)也就是中位 数,中位数是一个特定的百分位数。 计算百分位数的计算公式为:
2.2 描述集中趋势的统计指标
表25 50例链球菌咽颊炎患者潜伏期(h)频率分布表
组中值(X0 ) (2)
频数(f) (3)
频率(%) (4)
累计频数(F) (5)
18
1
2
1
30
7
14
8
42
11
22
19
54
11
22
30
66
7
14
37
78
5
10
42
90
4
8
46
102
2
4
48
114
2
4
50
—
50
—
—
P50
=
48 +
12 (50´ 50%
1
120
fX 0
(4)=(2)(3) 7
27 66 104 180 340 513 378 276 200 108 29 2228
X
=
1´ 7 + 3´ 9 +L +1´ 29 1+ 3 +L+1
= 2228 = 18.57 120
6
2、几何均数(geometric mean,G)
适用于原始观察值分布不对称或观察值变化范围跨越多个数量级的 资料,但经对数转换后呈对称分布的变量,如服从对数正态分布的变量。
第二章 定量资料的统计描述
二、描述集中趋势的统计指标
描述集中趋势统计指标
1、算数均数(arithmetic mean) 2、几何均数(geometric mean,G) 3、中位数(median,M) 4、众数(mode)
2
1、 算术均数
简称均数(mean),适合描述对称分布资料的集中位置(也称为平 均水平)。直接法,计算公式为:
集中趋势和离散趋势的描述
n +1 ) 2
1 M = X n +X n ( +1) 2 (2) 2
例
7名病人患某病的潜伏期分别为 2,3,4,5,6,9,16 求其中位数。 求其中位数。 本例n=7,为奇数 本例n=7,为奇数 天,
M=X
7 +1 ( ) 2
= X 4 = 5(天)
例 8名患者食物中毒的潜伏期分别为 1,2,2,3,5,8,15,24 15, 求其中位数。 求其中位数。 本例n 本例n=8, 为偶数 小时, 小时,
12 P25 = 36 + (118 × 25% − 21) = 39.2 (天) 32
12 P75 = 60 + (118 × 75% − 77) = 67.7 (天) 18
离散变量百分位数
产后出血的产妇中平均有几次人工流产史? 例 产后出血的产妇中平均有几次人工流产史?
Valid Frequency
百分数: 为整数: (1)第5百分数:n=120, ×5% = 6,为整数: ) 百分数 , 120
1 1 P5 = X ( 6 ) + X ( 7 ) = (3 + 4) = 3.5( 天 ) 2 2
住院天数: 住院天数: 2 2 2 3 3 4 4 5 ⋯ 40 1 序 (2)第99百分位数: 99百分位数: 百分位数
40 42 45 号:1 2 3 4 5 6 7 8 9 ⋯ 117 118 119 120
120 × 99% = 118.8
带有小数,故取整后 带有小数,故取整后trunc(118.8)= 118 )
P = X (trunc(118.8)+1) = X (119) = 42(天) 99
第二章统计描述
G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031
1 2.709Байду номын сангаас )
fi
40
lg1(67.1282) 48 40
G 1: 48
中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
血清总胆固醇 2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~
7.0~7.5 合计
频数f 1 8 9 23 25 17 9 6 2 1
101
fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25
13
174
单侧正常值范围的上限为 1.81
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。
描述数据集中趋势的是
描述数据集中趋势的是数据集中的趋势是指一组数据中的值在整体上是如何变化的,以及数据分布的集中程度。
数据集中的趋势反映了数据的中心位置以及数据的分散程度,是统计学中最常用的数据描述方法之一。
数据集中趋势可通过多种统计指标来描述,包括均值、中位数、众数、四分位数等。
以下将对这些指标进行详细的介绍和解释。
1. 均值(Mean):均值是指一组数据的平均值,计算方法是将所有数据相加并除以数据的个数。
均值对于表示整体数据的中心位置非常有用,它对于数据中的极端值有很强的敏感性。
如果数据集中有离群值存在,均值可能会受到影响而不准确。
2. 中位数(Median):中位数是一组数据中的中间值,将数据从小到大排列后,中间的那个数就是中位数。
中位数对于数据中的极端值不敏感,因此它可以用来描述数据集中的趋势。
中位数通常在数据集分布不均匀或者存在离群值的情况下更为常用。
3. 众数(Mode):众数是指一组数据中出现频率最高的数值。
众数对于描述数据集中趋势有一定的参考价值,特别是当数据集中有明显的模式或者集群时。
一个数据集可以有一个或多个众数,也可以没有众数。
4. 四分位数(Quartiles):四分位数将一组数据分成四个部分,分别是下四分位数(Q1),中位数(Q2),上四分位数(Q3),中位数(Q2)也就是第二个四分位数,它将一组数据分成两半。
四分位数可以用来描述数据分布的集中程度,尤其是在数据中存在离群值的情况下。
除了上述统计指标外,数据集中的趋势还可以通过直方图、箱线图等图形工具进行描述。
直方图可以显示数据的分布情况,包括数据的中心位置和分散程度。
箱线图则可以用来展示数据的分散情况和异常值的存在。
需要注意的是,同一个数据集中的趋势指标可能会有所不同。
不同的指标适用于不同类型的数据和不同的分析目的。
因此,在描述数据集中趋势时,需要根据具体情况选择合适的指标进行分析。
同时,结合图形工具可以更加全面地了解数据集中的趋势。
平均水平(集中趋势)的统计描述
平均水平(集中趋势)的统计描述统计描述是对数据集的基本特征进行总结和概括的过程。
其中,平均水平是统计描述的一个重要指标,用来表示数据集的集中趋势。
在本文中,我们将以2000字的篇幅探讨平均水平的统计描述。
平均水平是一个常见的统计量,指代数据集中的“平均值”。
平均值是将数据集中的所有值相加,然后除以数据个数得到的结果。
它是一种反映整体趋势的度量,能够提供关于数据集的中心位置的信息。
计算平均值的步骤相对简单,首先将所有的观测值相加,然后除以观测值的个数。
例如,假设我们有一个包含10个观测值的数据集,数据值分别为1、2、3、4、5、6、7、8、9、10。
将这些值相加得到55,然后除以数据个数10,得到平均值为5.5。
平均值是一个重要的统计描述指标,它能够提供数据集的中心位置信息。
然而,平均值并不能反映出数据的全部特征。
有时候,数据集中存在异常值(极端值),这会对平均值产生较大的影响。
例如,如果一个数据集中有99个值都在0-1范围内,但存在一个异常值为1000,那么计算得到的平均值将会显著偏离数据集的整体特征。
为了更好地了解数据集的平均水平,我们可以使用更多的统计描述指标,如中位数、众数和四分位数。
中位数是指将数据集中的所有观测值按照从小到大的顺序排列,然后找到位于中间位置的值。
如果数据集的观测值个数为奇数,中位数就是位于中间位置的值;如果数据集的观测值个数为偶数,中位数可以通过将中间两个值相加再除以2来计算。
中位数具有一定的鲁棒性,它不会受到异常值的影响。
众数是指在数据集中出现次数最多的值。
它可以用来描述数据集的集中趋势,特别适用于离散型数据。
如果数据集中有多个值出现次数相同且都最多,那么这些值都可以被称为众数。
四分位数是将数据集按照从小到大的顺序排列后,分成四个等份的数值点。
其中,第一四分位数是将数据集平均分成四等份后,最靠近数据集最小值的一个数值点;第二四分位数是数据集的中位数,同时也是将数据集平均分成四等份后的两个分割点;第三四分位数是将数据集平均分成四等份后,最靠近数据集最大值的一个数值点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
xi
一步作统计分析。
2020/7/28
12
2、揭示计量资料的分布特征
正偏态分布 右偏态分布
频数分布类型
正态分布
负偏态分布 左偏态分布
2020/7/28
13
25
20
15
频 10 数
5
正态分布
0
2.3 2.6 2.9 3.2 3.5 3.8 4.1 4.4 4.7 5.0 5.3 5.6 5.9
血清总 胆固醇
原始数据
4.76 5.26 5.61 5.00 4.73 4.47 5.24 4.97 4.71 ....... ....... 4.81 4.54 3.82 ....... .......
5.95 4.46 4.57 . 5.34 4.70 4.81 . 4.44 4.94 5.05 . ........ ........ 4.01 4.89 4.62. ........ ........
101名正常成年女性血清总胆固醇频数分布
2020/7/28
14
25 人 数 20
15
10 5 0
14 17 20 23 26 29 32 35 38 41 44 47
血清转氨酶(mmol/L)
115名正常成年女子血清转氨酶的频数分布
2020/7/28
15
25 20 15 10
5 0
0 5 10 15 20 25 30 35 40 45 50 血清肌红蛋白(μg / m L)
红细胞数(×1012 /L) 划记
3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~ 5.60~ 5.80~6.00 合计
组中值 频数
3.90
2
4.10
6
4.30
11
4.50
25
4.70
32
4.90
27
5.10
17
5.30
13
5.50
4
5.70
i R k
最小组段包括最小值,最大组段包括最大值; 每个组段包含下限,不包含上限
• 列表划记
2020/7/28
7
例1.1 某地140名正常成年男子红细胞数P8
原始数据
4.76 5.26 5.61 5.95 4.46 4.57 . 5.00 4.73 4.47 5.34 4.70 4.81 . 5.24 4.97 4.71 4.44 4.94 5.05 . ............... ............... 4.81 4.54 3.82 4.01 4.89 4.62. .............. . ...............
2
5.90
1
140
频率(%)
1.4 4.3 7.9 17.9 22.9 29.3 12.1 9.3 2.9 1.4 0.7 100.00
2020/7/28
10
图2-1 140名正常男子红细胞计数的直方图
2020/7/28
11
Hale Waihona Puke (三)频数表与频数分布图的用途
1、 作为陈述资料的形式: 简单明了或直观形象,便于进
频数分布表
组段
3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~ 5.60~ 5.80~6.00 合计
频数 频率
2020/7/28
6
(二)频数表的制作方法
• 计算极差(R)
R X max X min
• 决定组数(k)、组段和组距(i)
k 8 ~ 13根据样本含量而定
101名正常人血清肌红蛋白的频数分布
2020/7/28
16
3、描述资料的集中趋势与离散趋势
频数分布特征
集中趋势
指频数分布集中分布于 某些组段趋势
离散趋势
指频数分布从集中位置 逐渐向两侧递减的趋势
2020/7/28
17
4. 便于发现一些特大或特小的可疑值
组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
Xmin 3.82, Xmax 5.95
2020/7/28
8
解题步骤:
极差: 组数: 组距: 组段:
R 5.95 3.82 2.13 k 10 i 2.13 /10 0.21 3.80 ~;4.00 ~;4.20 ~;...5.80 ~ 6.00
2020/7/28
9
某地 140 名正常成人男子红细胞数(×1012 /L)
指标描述
集中趋势 离散趋势
统计分析
统计描述
图表描述
用少量几个统计指标刻画出原始数 据的特征称为统计描述。
统计推断
参数估计
用样本信息推论总体特征的 过程称为统计推断 。
假设检验
2020/7/28
1
描述资料的集中趋势与离散趋势
集中趋势:观察值的平均水平或集 中位置,用平均数反映
离散趋势:观察值的变异程度或离 散程度,用变异指标反映
频数 f
(2)
1
可疑值
0
0
0
17
20
17
12
9
0
0
8
可疑值
84
2020/7/28
18
二、集中趋势指标 statistics of location
算术平均数 Arithmetic mean
平均数 average
几何平均数 geometric mean
中位数 median
• 平均数(average) 是一类用描述数值变量资料集中趋 势(即平均水平)的指标.
2020/7/28
19
平均数的表示符号
1) 算术平均数
总体算术平均数(数学期望)表示符
X 样本算术平均数表示符 2) 几何平均数 G 几何平均数表示符 3) 中位数 M 中位数表示符
2020/7/28
20
1. 算术平均数
意义:一组性质相同的观察值在数量上的平均水平。
• 样本算术平均数的计算公式:
2020/7/28
4
(一)频数分布表 frequency distribution table
• 对观察到的计量资料,按变量的取值范围进行 分段,统计变量值出现在每一个段中的次数 (即频数,frequency),以表格的形式列出各个 段及其对应的频数.此类表格称为频数分布表.
2020/7/28
5
频数分布表
2020/7/28
2
第二章 计量资料的集中趋势
一、计量资料的频数分布
二、集中趋势指标*
1. 了解统计描述的基本概念,频数分布表的编制、 类型及用途,连续型变量的频数分布图。
2. 掌握算术平均数、几何平均数、中位数的计算及适 用范围。
2020/7/28
3
一、计量资料的频数分布
• 频数分布表的概念 • 频数分布表的制作 • 频数分布表在统计分析中的作用