第二章 定量数据的统计描述

合集下载

第二章 定量资料的统计描述 1-4节

第二章 定量资料的统计描述  1-4节

fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析

卫生统计学第二章定量资料的统计描述

卫生统计学第二章定量资料的统计描述
E. 总体标准差一定时,增大样本例数会减小标准误
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定

【统计学】04 第二章 定量资料的统计描述

【统计学】04 第二章 定量资料的统计描述

频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X

定量数据的统计描述

定量数据的统计描述

样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。

医学统计学2. 定量数据的统计描述

医学统计学2. 定量数据的统计描述
n 10, X 75 76 72 698, X2 752 762 722 48984
S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8

统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

统计学方积乾 第七版 第二章  定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。

统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。

对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。

应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。

故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。

医学统计学(执医)

医学统计学(执医)

第一章绪论1.双盲指研究者、受试者及所有与试验相关的人员在整个试验过程中都不知道受试者所接受的是何种处理。

第二章定量数据的统计描述1.平均数是描述一组观察值集中趋势或平均水平的统计指标,它常作为一组数据的代表值用于分析和进行组间的比较。

平均数有多种,常用的有算术均数、几何均数和中位数等。

2.算术均数简称为均数,用于说明一组观察值的平均水平或集中趋势,是描述定量数据的一种最常用的方法。

3.医学研究中有一类比较特殊的资料,如抗体滴度、细菌计数、血清凝集效价、某些物质浓度等,其数据特点是观察值间按倍数关系变化,对此可以计算几何均数以描述其平均水平;有些明显呈偏态分布的资料经过对数变换后呈对称分布,也可以采用几何均数描述其平均水平。

4.在频数分布呈明显偏态或频数分布的两端无确定数值时,描述其集中趋势或平均水平是中位数。

5.百分位数可以用来描述资料的观察值序列在某百分位置的水平。

6.衡量变异程度大小的指标有多种,但大体可以分为两类:一类是按间距计算,有极差和四分位数间距;另一类则按平均差距计算,有方差、标准差和变异系数等。

7.极差也称作全距,即观测值中最大值和最小值之差,用符号R表示,是变异指标中最简单的一种。

极差只是简略地说明一组数据的波动范围。

8.四分位数间距的特点是它不像极差容易受到极端值的影响,但仍未用到每一个具体的观测值,其主要用于描述明显偏态分布资料的变异特征,并常常结合统计图应用。

9.方差与正态分布的形状有明确的关系,它与均数结合能够完整地概括一个正态分布。

在实际中,标准差或方差是使用最多的变异指标。

10.在我们需要对均数相差较大或单位不同的几组观察值的变异程度进行比较,这时直接使用标准差就不再适宜。

这种情况下可以使用变异系数。

第三章正态分布与医学参考值范围1.正态分布是单峰分布,以X=μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。

2.正态分布完全由两个参数μ和σ决定,μ是位置参数,描述正态分布的平均水平,决定着正态曲线在X轴上的位置;σ是形状参数,描述正态分布的变异程度,决定着正态曲线的分布形状。

第2章定量资料的统计描述-PPT课件

第2章定量资料的统计描述-PPT课件

175~ 17
200~
9
225~
7
250~
6
275~
5
300~
3
325~350 6
累计频数 ∑f
39 106 170 233 278 308 325 334 341 347 352 355 361
累计频率
10.8 29.4 47.1 64.5 77.0 85.3 90.0 92.5 94.5 96.1 97.5 98.3 100.0
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52

卫生统计学第二章定量资料的统计描述2

卫生统计学第二章定量资料的统计描述2

正态分布曲线,当μ恒定时,σ越大
A. 曲线沿横轴越向左移动
B. 观察值变异程度越小,曲线越陡峭
C. 观察值变异程度越大,曲线越平缓
D. 曲线沿横轴越向右移动
E. 曲线位置和形状不变
正确答案: C
答案解析:正态分布的形态参数σ描述正态分布的离散程度。σ越大,则观察值的变异越大,表现为曲线峰值越矮,两端越上翘,即曲线越平缓。反之,曲线越陡峭。位置参数μ决定曲线对称位置,或峰值的位置,当μ不变时,曲线的对称位置就固定不变。
做答人数:0
做对人数:0
所占比例: 0
题号: 18 本题分数: 2.4
常用的平均数指标不包括
A. 算术平均数
B. 几何均数
C. 均数
D. 极差
E. 中位数
正确答案: D
答案解析:常用的平均数指标有:算术均数、中位数、几何均数,其中算术均数简称均数,极差为离散程度指标。
正确答案: C
答案解析:医学参考值范围是指绝大多数正常人某指标测量值的波动范围,一般取95%和99%的波动范围。
做答人数:0
做对人数:0
所占比例: 0
题号: 14 本题分数: 2.4
频数分布的类型有
A. 对称分布和偏态分布
B. 对称分布和正偏态分布
一、题型:A1
题号: 1 本题分数: 2.4
编制组段数为10的频数表,在确定组距时
A. 常取最大值的1/10取整作为组距
B. 常取最小值的1/10取整作为组距
C. 常取极差的1/10取整作为组距
D. 组距等于极差
E. 常取极差的一半取整作为组距
做答人数:0

《医学统计学》第二章定量数据的统计描述

《医学统计学》第二章定量数据的统计描述
630
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630

累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)

02定量数据的统计描述(医学统计学)

02定量数据的统计描述(医学统计学)
-
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630

统计学简答题

统计学简答题

医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。

但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。

2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。

算术均数:主要适用于对称分布,尤其适合正态分布资料。

几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。

在医院中主要用于抗原(体)滴度资料。

中位数:适合条件:a.极偏态资料。

b.有不确定的数据(有>或<)。

c.有特大值或特小值。

d.分布不明的资料。

(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。

四分位间距:用于描述偏态分布资料。

方差和标准差:用于描述正态分布计量资料的离散程度。

变异系数:a.均数相差较大。

b.单位不同。

3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。

4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。

5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。

(2)用途不同:标准差与均数结合估计参考值范围。

(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。

联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。

6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。

第二章定量资料的统计描述

第二章定量资料的统计描述

1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=

i
Xi n
=

n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -

第二章定量数据的统计描述

第二章定量数据的统计描述

对称分布
正偏态分布
负偏态分布
三、频数表和频数分布图的用途
揭示变量的分布特征和分布类型; 便于进一步计算指标和统计分析处
理; 便于发现某些特大或特小的可疑值

频数分布的两个特征
集中趋势,central tendency
指变量值的中心数值或中心位置所在。
离散趋势,tendency of dispersion
1.是先计算对数的均数,然后求其反对数, 得出几何均数;
2.直接用Report Case Summaries 命令; 3.用Compare Means 命令,但要个增加分组
变量。
第三节 变异程度的统计指标
例 有3组同龄男孩体重(kg)如下,其 体重均数 X 都是30 (kg),试分析 离散程度。
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
百分位数
位置指标;界值; 分布数列的百等份分割值。 有x%的比Px小, 有(100-x)%的比Px大。 中位数是一个特定的百分位数P50。
百分位数的计算
PxLfixnx% fL
➢fX 为PX所在组段的频数, ➢ i 为该组段的组距, ➢ L 为该组段的下限, ➢ fL 为小于L各组段的累计频数。
8.25
3.05
18.30
3.35
26.80
3.65
62.05
3.95
79.00
4.25
72.25
4.55
54.60
4.85
43.65
5.15
25.75
5.45
10.90
5.75
5.75
—— 409.75
f X2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
段必须包括最大值,各组段不能重叠。除最末 一个组段需同时写出上下限外,其余组段只写 出其下限。
4. 归组计数,整理成表
用计算机或手工划记法汇总,得到各组段观察 单位个数,绘制成频数分布表。
表2-1 2006年某市120名10岁男孩身高(cm)的频数表
身高 (1)
频数 (2)
频率(%) (3)
累计频数 累计频率(%)
4
3.3
8
6.7
16
13.3
28
23.3
45
37.5
66
55.0
86
71.7
100
83.3
110
91.7
116
96.7
119
99.2
120
100.0


(二)频数分布表的用途
1. 揭示频数分布特征 2. 揭示频数分布类型 3. 便于发现特大或特小的可疑值 4. 便于进一步计算统计指标和进行统
计分析
【问题2-1】 该资料为何种类型资料? 如何对该资料进行描述?
第一节 频数表和频数图 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布及其应用
频数表和频数图
由于个体变异的存在,医学研究中某指标在各个 体上的观察结果不是恒定不变的,但也不是杂乱 无章的,而是有一定规律的,呈一定的分布 (distribution)。
偏态分布(skewed distribution):集中位 置偏向一侧,两侧频数分布不对称。 正偏态(positive skew) 负偏态(negative skew)
20
对称分布
频 数
10
30
频 数
20
10
0 0.0
0 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75
大家好
第二章 定量数据的统计描述
【例2-1】2006年某市120名10岁男孩的身高(cm)资料如下
135.4 139.8 144.0 147.3 146.3 142.5 138.1 143.6 141.6 152.6 132.1 144.7 143.6 146.8 144.2 141.3 137.5 142.8 140.6 150.4 145.9 140.2 144.5 148.2 146.4 142.4 138.5 148.9 146.2 155.4 134.2 139.2 143.5 141.6 143.5 142.3 148.9 143.6 141.5 151.1 132.5 138.7 149.6 146.9 148.7 141.5 137.8 142.7 144.6 151.8 136.4 140.0 144.3 147.5 145.6 142.5 138.5 143.7 149.5 153.6 130.2 138.9 143.7 146.5 138.8 141.7 136.9 142.0 140.5 150.3 135.7 145.7 144.2 147.8 145.8 142.6 138.6 143.8 141.3 153.9 133.4 139.6 143.7 147.5 144.8 148.0 137.4 142.1 140.8 141.8 134.5 139.4 142.9 147.5 144.7 141.8 136.9 143.5 140.7 151.4 145.6 147.3 143.9 141.9 151.6 145.6 148.9 144.3 139.1 145.8 145.6 145.3 147.6 148.6 145.5 137.3 146.5 140.3 148.4 136.5
将原始数据按照一定的标准划分为若干个组,合 计各组的频数,得到频数分布表;也可再将频数 表绘制成频数分布图。
一、频数分布表
频数(frequency):一组资料中各观察值或不
同组段内观察值出现的频繁程度(次数)。
频数分布表(frequency table):由变量值及
其频数编制而成的表。
(一)频数表的编制
1. 求极差(range): 极差又称全距,是指全部观察值中最 大值与最小值之差,用符号R表示。 R=xmax-xmin
R 1 5 5 .4 1 3 0 .2 2 5 .2 c m
2. 确定组数和组距
(1) 根据样本含量的大小及研究目的确定组数: 一般设8~15个组。 (n<50,5~8;n>50, 9~15)。
(4)
(5)
130~
1
132~
3
134~
4
136~
8
138~
12
140~
17
142~
21
144~
20
146~
14
148~
10
150~
6
152~
3
154~156
1
合计
120
0.8 2.5 3.3 6.7 10.0 14.2 17.5 16.7 11.7 8.3 5.0 2.5 0.8
100.0
1
0.8
血 清 总 胆 固 醇 (mmol/L)
人数
正(右)偏态
12
频 10 负(左)偏态

8
6
4
250.0
500.0
750.0
抗体滴度
1000.0
1250.0
2
Std. Dev = 10.75
Mean = 27.1
0 0.0
5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0
(2)确定组距(class interval):相邻两个组 段下限之差为组距,一般采用等距分组。 i=R/组数,为了方便资料整理汇总,组距 一般取整数。
i 2 5 .21 0 2 .5 2 2 .0 0 c m
3. 确定组段
组段起点称为下限(lower limit) 组段终点称为上限(upper limit) 注意:第一组段必须包含最小值,最后一个组
N = 91.00
2.5 7.5 12.5 17.5 22.5 27.5 32.5 37(μg/ml)
二、频数分布图
频数分布图(graph of frequency)是以变 量值为横坐标、频数(或频率)为纵坐标 (不等距分组时以频率/组距=频率密度为 纵坐标),以每个等宽的距形面积表示每 组的频数(或频率)。
频数分布的两个特征 集中趋势(central tendency):指一组数 据向某个位置聚集或集中的倾向。 离散趋势(dispersion tendency):指一组 数据的分散性或变异度。
频数分布的类型 对称分布(symmetric distribution) :集中 位置在中间,左右两侧频数基本对称。
相关文档
最新文档