第二讲 统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

13
频数分布的两个特征: 集中趋势与离散趋势 频数分布的类型:
对称分布与偏态分布(集中位置偏向小的一 侧叫正偏态,反之叫负偏态) 频数表的主要用途:
1. 揭示分布类型 2. 发现特大值和特小值(远离群体的离群值) 3. 描述集中趋势指标与离散趋势指标
14
频数分布图
• 频数分布图是直观地显示数据分布形状的方法。 数据的分布形状有对称分布和偏态分布两种。例 如,图3-1基本呈对称分布。偏态分布包含右偏态 和左偏态两种。右偏态分布,也称为正偏态分布, 即频数分布向右拖尾。左偏态分布,也称为负偏 态分布,即频数分布向左拖尾。例如,图3-4a和 图3-4b显示的是两种偏态分布。
频数表的编制
1.求全距(Range R) : R = 最大值 – 最小值 = 6.34– 2.72=3.62 (mg/dl)
2.确定组数:通常8~15组 计算组距(i) i=R/组数 i=3.62 / 10 = 0.362, 取整数 0.35 所以,i=0.35
3.确定组段:第一组段包括最小值,如本例为2.72 最后组段包括最大值, 如本例6.34
X
举• 如例上:例:
G 5 2 481632 8
G
lg1
lg
2
lg
4
lg
8 5
lg16
lg
32
lg1
lg
2
2
lg
2
3
lg 2 5
4
lg
2
5
lg
2
lg1
15
lg 5
2
lg1
lg
8
8
29
举例3例-5 :某医院测得10个某种传染病人的白细胞计
数(×1000),测量值为:11,9,35,5,9, 8,3,10,12,8。计算这10个观察值的几何均 数。
TG
二、集中趋势的描述
集中趋势(central tendency)指的是一个计量资料 的大多数观察值所在的中心位置。常用平均值来 描述。由于这样典型的值趋向于落在根据数据大 小排列的数据的中心,因此可以用于度量集中位 置(位置指标)
常用几种平均值 1.算术均数 (arithmetic mean) 2.几何均数 (geometric mean) 3.中位数 (median)
4.62 6.01 5.77
一、 频 数 表 frequency table
频数:当汇总大量的原始数据时,把数据 按类型分组,其中每个组的数据个数,称 为该组的频数。
频数表(频数分布):表示各组及它们对 应的组频数的表格称为频数表或频数分布。
162例成年男子血清中的总胆固醇值(mmol/L)的频数分布
37
三、离散程度的描述
• 60 70 80 90 100 • 10 75 80 85 150
38
三、离散程度的描述
离散(dispersion)性指的是数值型数据的所有观 察值与中心位置的发散程度。描述离散性的主 要统计指标有: •全距(range) •四分位数间距(quartile range) •方差(variance) •标准差(standard deviation) •变异系数 (coefficient of variation)
• 表示:M 、PX • 计算:直接法、频数表法 • 应用:偏态资料,开口资料
计算公式
• n为奇数时, M X (n1) / 2
• n为偶数时,
M
1 2 (Xn/2
X n / 21 )
32
1.直接法:
• n 为奇数时, • 举例:2,4,5,6,7的中位数为5 • n 为偶数时, • 举例:2,4,5,6,7,8的中位数为5.5
100.00
累计频数 累计频率(%)
2
1.23
5
3.09
13
8.02
29
17.90
56
34.57
101
62.35
130
80.25
148
91.36
157
96.91
161
99.38
162
100.00
7
计数与等级资料的频数分布表
• 对于计数资料,编制频数分布表的方法是直接计 算出每一个观察值的频数和频率
51.075
5.85 ~
4
6.025
24.100
6.20~6.55
1
6.375
6.375
合计
81
752.050
X 2.875 2 3.2253 L 6.025 4 6.3751 162
752.050 4.64(mmol / L) 162
24
举例:
• 测得5个人的血清滴度的倒数分别为2,4, 8,16,32,求平均滴度
心理抑郁 状况分组
正常组(0或1) 临界组(2或3) 抑郁组(4或5)
合计
频数
12 15 8 35
频率(%) 累计频数 累计频率(%)
34.28
12
42.86
27
22.86
35
100.00

34.28 77.14 100.00

12
频数
16 14 12 10
8 6 4 2 0
正常组
临界组
抑郁组
图3-3 35名大学生心理抑郁状况的频数分布图
G = lg -1 [(lg11+lg35+lg5+2×lg9 +2×lg8+lg3+lg10+lg12)/10]
= lg -1 [0.955554] = 9.027
30
3.中位数
• 意义:将一组观察值从小到大排序后,居于中间位置 的那个值或两个中间值的平均值。记为M。
• 将N个观察值从小到大依次排列,再分成100等份,对 应于X%位的数值即为第X百分位数。中位数是百分 位的特殊形式。同样的例子还有四分位数、十分位数 等。
33
频数表法计算
n / 2
M LM
fM
fL
iM
LM:M所在组段的下限 iM:M所在组段的组距 fM:M所在组段的频数 ∑fL:M所在组段之前各组段的累积频数
34
例3-9 下表列出的是101名正常人的血清肌红蛋白 含量(μg/ml)的观察值的频数分布表。
肌红蛋白含量(μg/ml)
组中值
k
fi Xi
X
i 1 k
fi
i 1
举例:
• 计算5个同学的平均成绩,93,92,95, 94,91
X 92 93 95 94 91 93 5
22
162例健康男子血清总胆固醇值均数的计算(加权法)
组段 (mmol/L)
(1)
频数( f ) (2)
组中值(X0) (3)
f X0 (4)=(2)(3)
19
1.算术均数(简称均数)
• 意义:一组性质相同的观察值在数量上的平均水 平。
• 表示 (总体) X(样本)
• 计算:直接法、间接法、计算机
• 特征: ∑(X- X)=0 估计误差之和为0。
• 应用:正态分布或近似正态分布。 • 注意:合理分组,才能求均数,否则没有意义。
算术均数的计算 n Xi X i1 n
总胆固醇组段 (1) 2.70~ 3.05~ 3.40~ 3.75~ 4.10~ 4.45~ 4.80~ 5.15~ 5.50~ 5.85 ~
6.20~6.55 合计
划记
11 111 11111,111 11111,11111,11111,1 11111,11111,11111,11111, 11111,11
• ① 中位数对极端值不敏感,所以,当数据中有极 端值,即数据呈偏态分布(包括左偏和右偏), 或数据的下限或上限不明确时,均宜采用中位数 来描述数据的集中趋势;
• ② 当数据呈对称分布时,均数和中位数接近。当 数据呈右偏分布时,均数大于中位数,当数据呈 左偏分布时,均数小于中位数。所以,可以根据 中位数和均数的大小,来判断数据的分布对称性。
• 例3-2 对某地35名大学生作了心理抑郁状况检查,其检测评分结果分 别为:5,5,5,5,4,4,4,4,3,3,3,3,3,2,2,2,2,2, 2,2,2,2,2,1,1,1,1,1,1,1,0,0,0,0,0。试绘制 这35名大学生心理抑郁状况的频数分布表。
11
表3-3 35名心理抑郁状况的频数分布表
80
60
40
20
0
0
10
20
30
40
50
60
x
图3-4b 左偏分布
17
400
300
200
100
Std. Dev = 1.12
Mean = 1.55
0
N = 1049.00 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00
11111,11111,11111 ,11111 , 11111 ,11111 ,11111,11111,11111
11111,11111,11111,11111, 11111,1111
11111,11111,11111,111 11111,1111 1111 1
频数 f (2)
2 3 8 16 27 45 29 18 9 4 1 162
å lg x G = n X1X 2 L X n = 10 n
• 应用:原始数据分布不对称,经对数转换后呈对
称分布的资料。例如抗体滴度、浓度等。
几何均数的计算
G n
X1 X 2 ... X n
log 1( 1 n
n
log( X i
i 1
))
ห้องสมุดไป่ตู้
G
log1
f
log f
X
log1
f
log n
4. 列表划记
6
表 162例成年男子血清总胆固醇值的频数分布表
组段(mg/dL)
频数
2.70~
2
3.05~
3
3.40~
8
3.75~
16
4.10~
27
4.45~
45
4.80~
29
5.15~
18
5.50~
9
5.85 ~
4
6.20~6.55
1
合计
162
频率(%)
1.23 1.85 4.94 9.88 16.67 27.78 17.90 11.11 5.56 2.47 0.62
第三章 统计描述
统计分析分为统计描述与统计推断两部 分,统计描述是统计推断的基础,它作用是 通过绘制统计图表和计算数据分布特征的基 本统计量来了解样本观察值的分布特征,为 进一步的统计推断打下基础。
主要内容
• 频数表 • 集中趋势 • 离散趋势 • 相对数 • 动态数列 • 统计图表
原始资料
例 162例健康男子血清中的总胆固醇值(mmol/L) 测定结果如下:
15
120
100
80
60
40
20
0 2.50
3.00
3.50
4.00
4.50
5.00
5.50
6.00
6.50
7.00
7.50
Std. Dev = .85 Mean = 4.90 N = 816.00
8.00
CHO
频数 频数
100
80
60
40
20
0
0
10
20
30
40
50
60
x
图3-4a 右偏分布
100
5.53 4.34 5.60 3.55 4.13 3.93 4.20 4.35 4.31 4.81 5.80 4.08 4.90 4.92 3.94 6.34 4.89 4.16 3.05 4.50 4.48 3.62 4.52 3.97 4.11 4.37 5.26 4.98 2.72 5.39 3.75 3.70 4.94 3.90 6.10 4.56 4.44 4.53 4.50 3.79 4.28 4.53 4.55 5.20 4.49 5.57 4.21 4.88 4.44 4.96 4.70 4.57 4.45 4.33 4.21 4.56 3.89 4.73 4.86 5.10 4.67 5.40 3.22 ……
表3-2 120名大学生性别的频数分布表
性别 男 女 合计
频数 50 70 120
频率(%) 41.67 58.33 100.00
累计频数 50 120 —
累计频率(%) 41.67 100.00 —
9
频数
80
70
60
50
40 30
20
10
0


性别
图3-2 120名大学生性别的频数分布图
10
• 对于等级资料,如果类别数不多,可以按计数资料频数分 布表的方法编制,即直接计算出每一个观察值的频数、频 率、累计频数和累计频率,然后将它们按照取值的顺序列 在一个表中。如果类别数较多,则可先按照观察值的顺序 合并成较少的组,然后分别计算各组的频数和频率;再按 顺序列在一个表中。
频数
累计频数
0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50
2.5
1
1
7.5
2
3
12.5
4
7
17.5
6
13
22.5
7
20
27.5
9
29
32.5
13
42
37.5
23
65
42.5
34
99
47.5
2
101
35
X 50%
35
5 101 50% 42
23
37.8
36
中位数具有的重要作用
2.70~
2
2.875
5.750
3.05~
3
3.225
9.675
3.40~
8
3.575
28.600
3.75~
16
3.925
62.800
4.10~
27
4.275
115.425
4.45~
45
4.625
208.125
4.80~
29
4.975
144.275
5.15~
18
5.325
95.850
5.50~
9
5.675
• 用算术均数来计算 :
X 2 4 8 16 32 12.4 5
25
例如:
X 10 100 1000 10000 100000 X 22222
lg X 1 2 3
4
5
lg x 3
G 1000
26
2.几何均数
• 意义:N个数值的乘积开N次方即为这N 个数的
几何均数。
• 表示:G
• 计算:
相关文档
最新文档