描述频数分布的类型频数分布有对称分布和偏态分布之分

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(二)频数分布图 数值资料的频数分布图即直方图(histogram)
(三)频数表和频数分布图的用途 1、描述频数分布的类型 频数分布有对称分布和偏态分布之分,偏态分布又分 正偏态分布和负偏态分布。对称分布的资料若是单峰位于 中间,左右两侧逐渐降低,可称为近似正态分布。 2、提供分组资料,便于计算和分析 3、便于发现可疑值 二、集中趋势的描述
n5
X 26 28 30 32 34 150
X 2 26
X s 甲 2
2
28
2
2
30
2
32
2
34
2
2
4540

( X ) n
4540
150 5
n 1
5 1
s 2 . 92
3 . 16
(Kg)
s 4 . 74 (Kg) 乙
例9.5(P159) 某地15人接种某疫苗后抗体滴度见表93,求其平均滴度。
lg G
f lg X f

26 . 74017 15
1 . 7827
G lg 1 (1 . 7827 ) 10 1 . 7827 61
此15人接种某疫苗后抗体平均滴度为1:61。
(三)中位数(median)和百分位数(percentile)
中位数是一组由小到大排列的观察值中位次居中的数值,用M 表示。
适用范围:用于描述偏态分布、两端无确定值或分布不明资料 的中心位置。
n较小时: 先将观察值由小到大按顺序排列,按下式计算: n为奇数时
M X ( n 1 2 )
n为偶数时
M
X
( ) 2 2
n
X (
n 2
1)
例:9人某病潜伏期(天)分别为3,4,4,5,6,7,7,9, 11,求平均数。
Q
x
L
) 24
12 38
(150 75 % 79 ) 34 . 56
Q = QU -
L
= P75 - P25 =19.47(天)
此150名某型食物中毒患者的四分位数间距是19.47天。 (三)方差(variance)和标准差(standard deviation)
2
方差是每一观察值的离均差平方和的平均值 。总体方差用 表示,样本方差用 s 2 表示。
例9.1(P155),某市某年调查的120名8岁男孩身高(cm)资料。
编制频数表: 1、求最大值、最小值、全距(或极差range,常用R表示) R=最大值-最小值=134.5-112.3=22.2(cm) 2、确定组数、组距(class 一般分8~15个组段。 interval常用表示)和组段
每个组段的最小值称下限,最大值称上限。第一组的下限应 小于最小值,最后一组的上限应大于最大值。
此8例某病病人的平均住院天数是10天。
n较大时:
百分位数(percentile)即把观察值从小到大排列,与 第X百分位次对应的观察值。用 P 表示。P M
X
50
常用于描述一组偏态分布资料在某百分位置上的水 平及确定偏态分布资料的医学正常值范围。
P L x f i (n x % f L )

2

(X ) N
2
s2
(X x) n 1
2
标准差即方差的平方根。总体标准差用表示,样本标准 差用s表示。 适用范围:正态分布、对称分布资料的的离散趋势描述。
(X ) N 2

s
(X x) n 1
2
X
2

( X ) n
2
n 1
直接法: 适用范围:小样本资料 以甲组为例
该120名8岁男孩的平均身高为123.18cm。 (二)几何均数(geometric mean)
几何均数即将各观察单位取对数后再求均数,用G表示。 适用范围:适用于观察值之间呈倍数或近似倍数变化 (等比关系)的正偏态分布资料。
G n X X X X 1 2 3 n
lg G ( lg X 1 lg X 2 lg X 3 lg X n)
第二节 数值变量资料的 统计描述
描述方法
直接写出原始数据 用统计指标直接描述 用统计图表描述
描述内容
集中趋势 离散趋势
一、数值变量数据的频数表 频数是指变量值的个数,把变量值及相对应的频数 列成表格即频数表(frequency table),也即具有组 段和各组段频数的表格X X X X 1 2 3 n i x n n
( i =1,2,…,n )
i
X
1
X
, …, X n 和 2
X
表示各观察值
n表示观察值的个数,即样本含量

表示求和
例9.2( P157) 7名正常成年女子血清总胆固醇 (mmol/L) 分别为: 4.21,3.32,5.35,4.17,4.14,3.58,4.34。试计算其均数。
120 1
此120名8岁男孩身高的标准差是4.75cm。
(四)变异系数(coefficient of variation)
变异系数即标准差与均数之比,又称离散系数。用CV表示。
适用范围:比较度量单位不同或均数相差悬殊的两组(或多组) 资料的变异度
CV
s x
100 %
例 9 . 9 ( P162) 观 察 某 地 1 0 0 名 8 岁 男 孩 身 高 x 123 . 04 cm , s 4 . 79 cm ; 体重 x 23 . 46 kg , s 2 . 68 kg ,试比较两组资料的变 异程度。
该5人的平均滴度为1:16。
当观察值较多或频数表资料时,需用以下公式计算。
G lg
1
(
f 1 lg X 1 f 2 lg X
2
f k lg X
k
f1 f 2 f k
f 为各组段的频数 i
f lg X 1 ) lg ( ) f
k 为组段数
X 为各组段的对应值或组中值 i
M X ( 9 1 2 X ) 5 6 (天)
此9人的某病平均潜伏期为6天。 例:某医生调查了 8例某病病人的住院天数为 5,6,8,9, 11,11,13,16天,试求此8例病人的平均住院天数。
X M ( ) 2 2 8 X ( 8 2 1) X X 2
4
(天) 5 9 11 10 2
L
(150 25 % 23 ) 15 . 11(天)
此150名某型食物中毒患者的第25百分位数是15.11天。
P L 95 f i x ( n 95 % f L ) 48 12 10 (150 95 % 137 ) 54 . 6(天)
此150名某型食物中毒患者的第95百分位数是54.6天。
X i
i
=1,2,…,k )
为各组段的组中值
组中值

该组段下限
下组段下限 2
例9.3(P157) 身高。
对表9-2资料求其此120名8岁男孩的平均
“112~”组段的组中值为:
X
x fX f
1


112 114 2
113
123 . 18 ( cm )
( 2 113 ) ( 7 115 ) (1 135 ) 2 7 1
身高 CV
4 . 79
100 % 3 . 89 %
123 . 04 体重 2 . 68 CV 100 % 11 . 42 % 23 . 46
该100名男孩身高的变异系数是3.89%,体重的变异系数是11.42%。
第三节 正态分布及其应用
一、正态分布(normal
distribution)及特点
集中趋势指标用于描述一组数值变量资料的平均水平或中 心位置。
二、集中趋势的指标 集中趋势指标用于描述一组数值变量资料的平均水平或中 心位置。
(一)均数(mean)
均数是算术平均数(arithmetic mean)的简称,即将所 有观察值直接相加再除以观察值的个数称为均数,总体均 数用表示,样本均数用表示。 适用范围:适用范围:对称分布的资料,特别是正态或近 似正态分布的资料。 1、直接法 适用于小样本资料。( n 100 )
R =24-16=8(Kg) 甲
R =26-14=12(Kg) 乙
R 丙
=24-16=8(Kg
(二)四分位数间距(quartile
Q
interval)
P
L
四 分 位 数 间 距 是 上 四 分 位 数 QU ( 即 75) 与 下 四 分 位 数 (即 P25 )之差,其间包括了全部观察值中间的一半,用
相邻两组段的下限之差称组距。
i
全距 10

22 . 2 10
2 . 22 2
3、列表划记,列出频数表
将各组段在表9-1中列出。
第二组频率=
频数 总观察例数
100 %=
7 120
100 %= 5 . 8%
第二组累计频率=
累计频数 总观察例数
100 %=
9 120
100 %= 7 . 5%
Q 表示
适用范围:可用于所有资料的离散趋势描述,但主要用于偏 态分布资料。
例9.6(P160)
Q L P 25 L i f
i
( n 25 % f
( n 75 % f
x
L
) 12
12 56
(150 25 % 23 ) 15 . 11
Q
P L U 75 f

(Kg)
R
R R 乙 丙 甲
s
s s 乙 丙 甲
加权法: 适用范围:大样本资料
fX s 2 ( fX ) f 2
f 1
例9.8 计算例9.1(P156)中120名8岁男孩身高资料的标准差。
1823584 s

14782 120
2 4 . 75
(cm)
三、离散趋势的描述 离散趋势即各观察值之间的参差不齐程度,也称资料的 变异程度。 例:
甲组 乙组 丙组
16 14 16
18 17 19
20 20 20
22 23 21
24 26 24
x 20 kg 甲
x 20 kg 乙
x

20 kg
(一)极差(range) 极差又称全距,即一组观察值中最大值与最小值 之差,用R表示。 适用范围:可用于所有资料的离散趋势描述,但 较粗略。
M P L 50 f
i x
( n 50 % f
L
) 12
12 56
(150 50 % 23 ) 23 . 14
(天)
此150名某型食物中毒患者的平均潜伏期是23.14天。
P L i f x ( n 25 % f ) 12 12 56
25
1.定义:曲线是一条高峰位于中央(均数所在处)、两 侧逐渐降低且左右对称、不与横轴相交的光滑曲线。这类资 料就称为正态分布资料。 2
f (X ) 1 e (X ) 2
2

2
2.正态分布的特点 (1)正态分布曲线(normal distribution curve)是高峰位 于中央、两侧逐渐降低且左右对称、两端不与横轴相交的钟 形曲线; (2)均数对应的位置曲线最高,且以均数为中心左右对称;
L为
P
x
x 所在组段的下限
i
f x
为 P 所在组段的组距 为 P 所在组段的频数
x
x
M L
i f x
(
n 2
f
L
)
L 为中位数(累计频数为50%)所在组段的下限 i 为中位数所在组段的组距
f
f
x
L
为中位数所在组段的频数 为小于L的各组段的累计频数
例 9.6(P160) 研究人员观察 150 例某型食物中毒, 潜伏期(天)资料如表9-4所示,试求中位数及第25、 95百分位数。
x
X n
i

4 . 21 3 . 32 4 . 34 7
4 . 16 ( mmol / L )
此7名正常成年女子血清总胆固醇的平均值为4.16mmol/L。 2、频数表法 适用于大样本资料。 特点是将各组频数乘以相应组的组中值作为各组的合计。
f X f X f X 2 2 k k fi X i ( x 1 1 f f f fi 1 2 k f 为各组段的频数 k 为组段数 i
n lg X lg X lg X lg X 1 1 lg X 1 2 3 n G lg ( ) lg ( ) n n
以上公式适用于观察值个数较少的资料。 例9.4(P158) 5人的血清滴度为1﹕4,1﹕8,1﹕16, 1﹕32,1﹕64,求其平均滴度。
G lg 1 ( lg X n ) lg 1 ( lg 4 lg 8 lg 64 5 ) lg 1 (1 . 2041 ) 16
相关文档
最新文档