第二章定量数据的统计描述.
第二章--定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
第二章 定量资料的统计描述
第二章定量资料的统计描述一、选择题1.资料的统计分析包括统计描述和统计推断两部分内容,而统计描述是指A.由样本统计量推断总体参数B.对总体参数进行估计C.用统计指标、统计图表描述资料的特征D.对搜集到的资料进行整理E.比较指标间的差异有无统计学意义2.定量资料频数分布的两个重要特征是A.样本与总体B.统计量与参数C.样本均数与总体均数D.集中趋势与离散程度E.标准差与标准误3.常用的平均数指标是A.样本均数、总体均数、中位数B.均数、几何均数、中位数C.均数、几何均数、标准差D.均数、几何均数、变异系数E.均数、中位数、方差4.描述一组正态分布或近似正态分布资料的平均水平宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数5.反映一组血清抗体滴度资料的平均水平,常选用的指标是A.平均数B.几何均数C.中位数D.变异系数E.均数6.描述传染病的平均潜伏期宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数7.某病患者8人的潜伏期(天)如下:2、3、3、3、4、5、6、30+,则平均潜伏期为A.7天B.3天C.4天D.3.5天E.大于7天8.一组数据中各观察值均加(或减)某一个不等于0的常数后A.均数不变,标准差改变B.均数改变,标准差不变C.二者均改变D.二者均不改变E.变异系数不变9.以下资料类型中,适宜用均数与标准差进行统计描述的是A.任意分布B.正偏态分布C.负偏态分布D.正态分布E.对称分布10.某研究者测量了某地237人晨尿中的氟含量(/mg L),结果如下尿氟0.2~0.6~ 1.0~ 1.4~ 1.8~ 2.2~ 2.6~ 3.0~ 3.4~ 3.8~人数75 67 30 20 16 19 6 2 1 1对该资料的集中趋势和离散趋势进行描述宜采用A.均数与标准差B.中位数与四分位数间距C.众数与标准差D.均数与变异系数E.中位数与变异系数11.比较身高和体重两组数据的变异度大小宜采用A.标准差B.全距C.方差D.变异系数E.四分位数间距12.比较某地1~2岁与5~5.5岁儿童身高的变异度大小宜采用A.全距B.四分位数间距C.标准差D.方差E.变异系数二、计算分析题1.为了解某地区健康成年女性的血清总蛋白含量水平,某研究者于2013年在该地区随机抽取了110名健康成年女子,测得其血清总蛋白含量(/g L),结果见表2-1。
第二章定量资料的统计描述PPT精品文档68页
按照“下限≤X<上限”的原则划记归组,清点频数、 计算频率、累计频数、累计频率等。本例见下表
15.05.2020
徐州医学院卫生事业管理教研室
5
表2-2 某地120名18~35岁健康成年男性居民血清铁含量(μmol/L)
组段 (1)
X
n
n
n
2、加权法(基于频数表)
15.05.2020
徐州医学院卫生事业管理教研室
11
15.05.2020
x0=(组段上限+组段下限)/2
在表2-2的基础上,可以绘制直方图如下:
30 25 20 15 10
5 0
6.0 10.0 14.0 18.0 22.0 26.0 血清铁含量(μmol/L)
图 2-2 某地120名18-35岁健康成年男 性居民血清铁含量(μmol/L)
图形中间的直条高,两边对称(或基本对称)地逐渐减少,为 正态分布或近似正态分布,若集中位置偏向左侧为正偏态分布 (skewed positively distribution)若集中位置偏向右侧为负 偏态分布(skewed negatively distribution)。
15.05.2020
徐州医学院卫生事业管理教研室
1
第二章 定量资料的统计描述
第一节 频数分布 第二节 定量资料的特征数
第三节 常用统计图表
15.05.2020
徐州医学院卫生事业管理教研室
2
第一节 频数分布
对样本量较大的资料进行统计描述常用方 法是频数分布表(frequency distribution table) 法,频数表可以显示数据分布的范围与形态。使 用统计软件(如SPSS、SAS、PEMS等)可以 方便地由原始数据编制出频数分布表。
第二章 定量资料的统计描述 1-4节
fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析
卫生统计学第二章定量资料的统计描述
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定
【统计学】04 第二章 定量资料的统计描述
频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
最新统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案资料
第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x x L x iP L n x f f P u P u P u =+?==+?==+?==+?S离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布Group Frequency Percent Cumulative Percent49.0- 1 .8 .850.0- 4 3.3 4.251.0- 8 6.7 10.852.0- 6 5.0 15.853.0- 19 15.8 31.754.0- 18 15.0 46.755.0- 14 11.7 58.356.0- 26 21.7 80.057.0- 10 8.3 88.358.0- 9 7.5 95.859.0- 4 3.3 99.261.0-62.0 1 .8 100.0Total 120 100.0(2)(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L x i P L n f f P x P P ==+?==+?==+?=+?S2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
定量数据的统计描述
样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。
统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案
第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
02-医学统计学定量数据的统计描述
X为组段的组中值。 X=(组段上限+组段下限)/2
【例】120名健康男性居民血清铁含量的频数分布表,试求 其算术均数。
组段 频数 组中值 6~ 1 7 8~ 3 9 10~ 6 11 12~ 8 13 14~ 12 15 16~ 20 17 fX 7 27 66 104 180 340 组段 频数 组中值 18~ 27 19 20~ 18 21 22~ 12 23 24~ 8 25 26~ 4 27 28~30 1 29 fX 513 378 276 200 108 29
概 述 平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数 算术均数(arithmetic mean),等于一个变量所有观 察值的和除以观察值个数。 总体均数用希腊字母μ表示,样本均数用符号 X 表示。 算术均数适用于对称分布的资料,如分布均匀的小 样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响 大于受极小值的影响。
n为总频数。
【例】52例慢性肝炎患者的HBsAg滴度数据表,试求其 几何均数。
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计 频数 2 7 11 13 12 7 52 滴度倒数 16 32 64 128 256 512 lgX 1.20412 1.50515 1.80618 2.10721 2.40824 2.70927 f (lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
中位数 中位数(median,M),是在按大小顺序排列的变 量的所有观察值中,位于正中间的一个或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值, 均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此 对极端值不敏感。
医学统计学(执医)
第一章绪论1.双盲指研究者、受试者及所有与试验相关的人员在整个试验过程中都不知道受试者所接受的是何种处理。
第二章定量数据的统计描述1.平均数是描述一组观察值集中趋势或平均水平的统计指标,它常作为一组数据的代表值用于分析和进行组间的比较。
平均数有多种,常用的有算术均数、几何均数和中位数等。
2.算术均数简称为均数,用于说明一组观察值的平均水平或集中趋势,是描述定量数据的一种最常用的方法。
3.医学研究中有一类比较特殊的资料,如抗体滴度、细菌计数、血清凝集效价、某些物质浓度等,其数据特点是观察值间按倍数关系变化,对此可以计算几何均数以描述其平均水平;有些明显呈偏态分布的资料经过对数变换后呈对称分布,也可以采用几何均数描述其平均水平。
4.在频数分布呈明显偏态或频数分布的两端无确定数值时,描述其集中趋势或平均水平是中位数。
5.百分位数可以用来描述资料的观察值序列在某百分位置的水平。
6.衡量变异程度大小的指标有多种,但大体可以分为两类:一类是按间距计算,有极差和四分位数间距;另一类则按平均差距计算,有方差、标准差和变异系数等。
7.极差也称作全距,即观测值中最大值和最小值之差,用符号R表示,是变异指标中最简单的一种。
极差只是简略地说明一组数据的波动范围。
8.四分位数间距的特点是它不像极差容易受到极端值的影响,但仍未用到每一个具体的观测值,其主要用于描述明显偏态分布资料的变异特征,并常常结合统计图应用。
9.方差与正态分布的形状有明确的关系,它与均数结合能够完整地概括一个正态分布。
在实际中,标准差或方差是使用最多的变异指标。
10.在我们需要对均数相差较大或单位不同的几组观察值的变异程度进行比较,这时直接使用标准差就不再适宜。
这种情况下可以使用变异系数。
第三章正态分布与医学参考值范围1.正态分布是单峰分布,以X=μ为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。
2.正态分布完全由两个参数μ和σ决定,μ是位置参数,描述正态分布的平均水平,决定着正态曲线在X轴上的位置;σ是形状参数,描述正态分布的变异程度,决定着正态曲线的分布形状。
《医学统计学》第二章定量数据的统计描述
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
02定量数据的统计描述(医学统计学)
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
统计学简答题
医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、算术均数,简称均数
(arithmetic mean/mean)
均数是算术均数的简称。
总体均数用希腊字母μ(缪,mu)表示 样本均数 X (X bar)表示。
均数反映一组观察值在数量上的平 均水平。
均数的应用 主要用于对称性或近似对称性分 布的资料; 尤其是在正态分布或近似正态分 布上的应用。
指变量值围绕中心数值或中心位置的分 布情况。
第二节 集中趋势的描述
平均数(average):用于观察一组同质变 量值的平均水平/集中位置。亦称中心位置 指标。它不但给人一个简明概括的印象, 而且便于事物间的分析比较。 常用的平均数
算术均数 (arithmetic mean/mean) 几何均数 (geometric mean) 中位数 (median)
负偏态分布
三、频数表和频数分布图的用途 揭示变量的分布特征和分布类型; 便于进一步计算指标和统计分析处 理; 便于发现某些特大或特小的可疑值 。
频数分布的两个特征 集中趋势,central tendency
指变量值的中心数值或中心位置所在。
离散趋势,tendency of dispersion
M X n1
2
X 5 6( day)
M X n X n 2 1 2 2 (X3 X4 ) / 2 (53.0 55.0) / 2 54(cm)
中位数的应用
中位数可用于任何分布的定量资料; 资料的分布呈明显偏态,特别是负偏态; 分布的一端或两端无确定的数值;
f lgX 1.8062 7.2246 7.5255 18.0620 8.4288 4.8164 2.7093
∑flgX=50.58
G lg
1
f lgX f
f lgX 1 50.58 G lg lg 48.5 f 30
1
lgX lg n
1
用直接法计算G
例:有8份血清的抗体效价为为1:5,1:10, 1:20,1:40,1:80, 1:160 ,1:320,1:640 。求平均效价。
lg5 lg10 lg 20 lg40 lg80 lg160 320 640 lgG 8 1.7526 G lg1 1.7526 56.57
2
n为偶数时
M X n X n 2 1 2 2
M计算方法
例: 9人某病潜伏期( 天)分别为3,4,4,5 ,6,7,7,19,19, 求中位数。 例: 6名新生儿身长 (cm)分别为50.1,52.0 ,53.0,55.0,55.0, 56.0,求中位数。
某传染性疾病的潜伏期(天)如下表,求其 中位数和百分位数P95
潜伏期 人数 累计频数 累计频率
(天 )
4~ 8~
f
26 48
∑f
26 74
%
24.04 68.52
12~ 16 ~ 20 ~
25 6 3
99 105 108
91.67 97.22 100.00
i 4 M L n x% f L 8 108 0.5 26 10.3(天) f 48 i 4 P95 L n x% f L 16 108 0.95 99 18.4(天) f 6
2
X a , a X
2
2 2 2 X a X X X X
证 : 设 a X Δ
X X 2X X 2
2 2 2
X X 2 X X 2 X X 2 X X
1
30名麻疹易感儿童接种麻疹疫苗一个 月后血凝抑制抗体滴度为1:48.5
同一组资料求得的几何均数小于均数。
(三)中位数 Median, M
将一组观察值从小到大按顺序排列, 位次居中的观察值,即为中位数。
一半的值比M小,一半的值比M大。
例:1,3,5,7,18 (奇数) 1,3,5,7,18,20 ( 偶数) 计算 M X n 1 n为奇数时
5.75 409.75
59.41
33.06 1705.09
频数表计算均数:
f1 x1 f 2 x2 ... f k xk fx X n n
Xj 为各组的组中值。
组中值等于该组的上限加下限之和除以2。
fj 为各组的频数。
101名正常成年女子的血清总胆固醇均值为:
X
= 409.75/101 =4.06( mmol/L )
胆固醇组段 2.30~ 2.60~ 2.90~ 3.20~ 3.50 ~ 3.80 ~ 频数 1 3 6 8 17 20
2.组数:10 组距 3.36/10=0.336 取0.3 3.分组段: 最小组段2.3~ 最大组段5.6~5.9
4.列表划记:
4.10 ~
4.40 ~ 4.70 ~ 5.00 ~ 5.30~ 5.60 ~5.90
2
(二)几何均数
Geometric mean,G
反映一组呈倍数关系的观察值的平 均水平 适用:数据呈正偏态分布,经对数 转换后呈正态分布。多用于观察值 之间呈倍数关系,如抗体滴度 计算方法
直接法 加权法
1.直接法
G n X1X 2 ...Xn lgX1 lgX1 ... lgXn lg n
(如:>50, 或 <10)
资料的分布不清。 注意:在完全对称的单峰曲线分布中,同 一组资料的均数与中位数相同, Mean = Median
中位数的优缺点 优点:
不受个别特大或特小的观察值影响; 其它平均数不宜使用时,中位数就显示 出它的优越性。
缺点:
掉失了大量信息,其敏感性不够。
17
12 9 5 2 1
二、频数分布图(graph of frequency distribution)
以各组段总胆固醇含量为横轴,频数为纵轴。
Histogram
30
25
20
15
10
Frequency
5 0 2.45 3.05 3.65 4.25 4.85 5.45 6.05
Std. Dev = .66 Mean = 4.03 N = 101.00
试编制频数分布表。
2.35 4.78 3.91 4.15 3.60 4.50 3.30 4.06 4.15 4.21 3.95 4.59 4.55 3.51 3.27 4.73 5.26 4.36 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.95 3.00 3.26
第二章
定量资料的统计描述
2018/10/14
医学统计学---(马斌荣主编)供本科生用
第一节 频数分布
一、频数分布表
简称频数表(frequency table)
例2-1 从某单位1999年的职工体检资料中 获得 101 名正常成年女子的血清总胆固醇( mmol/L )的测量结果如下,试编制频数分布 表。
30名麻疹易感儿童血凝抑制抗体滴度
抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计 人数f 2 6 5 10 4 2 1 30
滴度倒数X
8 16 32 64 128 256 512
lgX 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093
1、频数表的编制
找全距(range) 定组距(class interval): 一般分为10~15组,如组距约为全距/10 写组段:
每个组段的起点称为下限,lower limit; 每个组段的终点称为上限,upper limit; 下限≤X<上限
频数表的编制--续
1.计算极差 : 极大值-极小值 5.71-2.35=3.36 101名正常成年女子的血清 总胆固醇频数分布
血清总胆固醇(mmol /L)
SPSS中的操作:
1.建立数据库 2.使用Frequencies 命令 3.先使用Recode 命令, 再用Frequencies命令
频数分布的类型
对称分布:集中位置居中,左右两边对称 偏态分布:正偏态分布(右偏态)峰左尾右 负偏态分布(左偏态)
对称分布
正偏态分布
计算方法
X
1.直接法
X 1 X 2 ... X n
n
X n
Σ:希腊字母(西格马,sigma),求和符号 例9.2 有8名正常人的空腹血糖值(mmol/L): 6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9
6.2 5.4 5.7 5.3 6.1 6.0 5.8 5.9 X 5.8 8