第2章定量资料的统计描述
第二章--定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
第二章 定量资料的统计描述
第二章定量资料的统计描述一、选择题1.资料的统计分析包括统计描述和统计推断两部分内容,而统计描述是指A.由样本统计量推断总体参数B.对总体参数进行估计C.用统计指标、统计图表描述资料的特征D.对搜集到的资料进行整理E.比较指标间的差异有无统计学意义2.定量资料频数分布的两个重要特征是A.样本与总体B.统计量与参数C.样本均数与总体均数D.集中趋势与离散程度E.标准差与标准误3.常用的平均数指标是A.样本均数、总体均数、中位数B.均数、几何均数、中位数C.均数、几何均数、标准差D.均数、几何均数、变异系数E.均数、中位数、方差4.描述一组正态分布或近似正态分布资料的平均水平宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数5.反映一组血清抗体滴度资料的平均水平,常选用的指标是A.平均数B.几何均数C.中位数D.变异系数E.均数6.描述传染病的平均潜伏期宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数7.某病患者8人的潜伏期(天)如下:2、3、3、3、4、5、6、30+,则平均潜伏期为A.7天B.3天C.4天D.3.5天E.大于7天8.一组数据中各观察值均加(或减)某一个不等于0的常数后A.均数不变,标准差改变B.均数改变,标准差不变C.二者均改变D.二者均不改变E.变异系数不变9.以下资料类型中,适宜用均数与标准差进行统计描述的是A.任意分布B.正偏态分布C.负偏态分布D.正态分布E.对称分布10.某研究者测量了某地237人晨尿中的氟含量(/mg L),结果如下尿氟0.2~0.6~ 1.0~ 1.4~ 1.8~ 2.2~ 2.6~ 3.0~ 3.4~ 3.8~人数75 67 30 20 16 19 6 2 1 1对该资料的集中趋势和离散趋势进行描述宜采用A.均数与标准差B.中位数与四分位数间距C.众数与标准差D.均数与变异系数E.中位数与变异系数11.比较身高和体重两组数据的变异度大小宜采用A.标准差B.全距C.方差D.变异系数E.四分位数间距12.比较某地1~2岁与5~5.5岁儿童身高的变异度大小宜采用A.全距B.四分位数间距C.标准差D.方差E.变异系数二、计算分析题1.为了解某地区健康成年女性的血清总蛋白含量水平,某研究者于2013年在该地区随机抽取了110名健康成年女子,测得其血清总蛋白含量(/g L),结果见表2-1。
第二章 定量资料的统计描述 1-4节
fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析
医学统计学-第二章 统计描述
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
卫生统计学第二章定量资料的统计描述
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定
【统计学】04 第二章 定量资料的统计描述
频率(%)
30
25
直条图
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
8
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
首先,分析资料类型? 定量数据---连续型
表211998年某地96名孕妇产前检查次数频率分布检查次数检查次数11频数频数22频率频率33累计频数累计频数44累计频率累计频率11132623124273115135271240125112235618496421152293656358751000合计961000图211998年某地96名孕妇产前检查次数频率分布1015202530离散型定量变量的频率分布图可用直条图表达以等宽直条的高度表示各组频率的多少直条图二连续型定量变量的频率分布例22抽样调查某地120名1835岁健康男性居民血清铁含量mmol数据如下
频数
25 20 15 10
5 0
0
20
40
60
80
100
120
140
滴度倒数
25
20
15
f 10
5
0
0
0.5
1
1.5
2
2.5
lgX
23
3、计算公式:直接法和频数表法。
(1)直接法 公式:
G n X1 X2 X3 Xn
对数的形式为
G lg 1 lg X1 lg X 2 lg X n lg 1 lg X
统计习题——精选推荐
卫生统计学习题第二章定量资料的统计描述1. 1985年某省农村30例6-7岁正常男童胸围(cm)测量结果如下:51.6 54.1 54.0 56.9 57.7 55.558.3 55.4 53.8 57.7 51.3 53.8 57.3 54.8 52.1 55.3 54.8 54.7 53.4 57.1 53.1 55.9 51.4 54.6 56.1 61.859.3 56.8 59.8 53.9(1)试编制以上数据的频数表,绘制直方图,概括其分布特征。
(2)用合适的统计量描述其集中趋势和离散趋势。
(3)对样本进行正态性检验第三章定性资料的统计描述1.某地通过卫生服务的基线调查得到如下资料,试作如下分析:(1)计算全人口的性别比;(2)计算育龄妇女(15~49岁)占总人口的百分比;(3)计算总负担系数;(4)计算老年人口系数某地人口构成情况年龄组(岁)男(%)女(%)年龄组(岁)男(%)女(%)0~ 4.2 4.0 45~ 2.4 2.75~ 3.2 3.1 50~ 2.1 2.410~ 4.4 4.2 55~ 1.2 2.215~ 5.5 5.3 60~ 1.3 2.420~ 5.1 5.2 65~ 1.1 1.425~ 6.0 6.1 70~ 0.8 1.230~ 4.3 4.5 75~ 0.5 0.935~ 3.2 3.3 80~ 0.2 0.540~ 2.3 2.5 85~ 0.1 0.2第四章常用概率分布1.假定虚症患者中,气虚型占30%。
现随机抽查30名虚症患者,求其中没有1名气虚型的概率、有4名气虚型的概率。
2.某溶液平均1毫升中含有大肠杆菌3个。
摇均后,随机抽取1毫升该溶液,内含大肠杆菌2个和低于2个的概率各是多少?3.某人群中12岁男童身高的分布近似正态分布,均数为144.00cm,标准差为5.77cm,试估计(1)该人群中12岁男童身高集中在哪个范围?(2)求人群中12岁男童身高的95%和99%参考值范围;(3)求人群中12岁男童身高低于140cm的概率;(4)求人群中12岁男童身高超过160cm的概率;第五章参数估计基础1.某研究表明新研制的一种安眠药比旧安眠药增加睡眠时间。
统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案
第2章 定量资料的统计描述案例2-1(P27)答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。
统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。
对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。
应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下:25507523.5(23825%20) 4.7(mol/kg)6625.5(23850%86) 6.6(mol/kg)6027.5(23875%146)8.9(mol/kg)48(%)x xL xiP L n x f f P u P u P u离散程度指标:四分位间距=P75-P25=8.9-4.7=4.2umol/kg。
故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,思考与练习(P31)1.答:(1)某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布(2)Descriptive StatisticsN Range Min Max Mean Std. Deviation 胸围120 12.7 49.1 61.8 55.120 2.3188(3) 利用频数分布表数据计算均数和标准差0149.5161.56623.01112055.19(cm)fX X f∑=∑⋯⨯++⨯==⋯++=(4)………..S 2.33(cm)=255075153.0(12025%19)53.58(cm)19155.0(12050%56)55.29(cm)14156.0(12075%70)56.77((cm)26%)x x L xiP L n f f P x P P2.答:该资料最大值为一不确定值,根据此特点,宜用中位数和四分位间距进行统计描述.M=16.5(天) P25=15(天) P75=20(天) Q=20-15=5(天)3.答:根据资料中血凝抑制抗体滴度指标呈等比数列变化的特点,计算其平均滴度应选用几何均数,由于是频数表资料,故用加权法计算几何均数。
《医学统计学》第二章定量数据的统计描述
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
第2章 定量资料的统计描述
20~
18 15.00
95
79.17
22~
12 10.00 107
89.17
24~
8 6.67 115
95.83
26~
4 3.33 119
99.17
28~30 1 0.83
120
100.00
合计 120 100
P25
14
2 12
25 120 100
15
16(,ol
/
L)
P75
20
2 12
75 120 100
f
77 50
百分位数(percentileP)X
20
总体中, 数值小于它的个体恰有X %,大于它的个 体恰有1-X %
样本估计:按照升序排列的数列里, 其左侧(即 小于它)的个体数在整个样本中所占百分比为 X%。
21
频率 f L
n X %
fL f
区间 L ? PX L ? L i
? in X% fL f
组段 频数 频率 累计频数 累计频率
26
(1)
(2) (3)
(4)
(5)
6~
1 0.83
1
0.83
8~
3 2.50
4
3.33
10~
6 5.00
10
8.33
12~
8 6.67
18
15.00
14~
12 10.00
30
25.00
16~18 20 16.67
50
41.67
18~20 27 22.50
77
64.17
R = 最大值-最小值 = 29.64-7.42 = 22.22 (3)确定组段数与组距
统计学简答题
医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述
公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述[单选题]1.一组观察值如果每个值都同时增加或减少一个不为0的常数,则A.均数改变,几何均数不变B.均数改变,中位(江南博哥)数不变C.均数,几何均数和中位数都改变D.均数不变,几何均数和中位数改变E.均数,几何均数和中位数都不变正确答案:C参考解析:一组观察值如果每个值都同时增加或减少一个不为0的常数,则均数、几何均数、中位数都改变。
本题选C。
掌握“集中趋势指标★”知识点。
[单选题]3.表示儿童体重资料的平均水平最常用的指标是A.算术平均数B.中位数C.几何均数D.变异系数E.百分位数正确答案:A参考解析:算术平均数简称均数,均数适用于描述单峰对称分布资料,特别是正态分布或近似正态分布资料的集中位置。
掌握“集中趋势指标★”知识点。
[单选题]4.变异系数越大,说明A.标准差越大B.平均数越小C.平均数越大D.标准差和均数都大E.单位均数的变异越大正确答案:E参考解析:变异系数大,说明单位均数的变异越大。
变异系数的定义是标准差与算术均数之比,描述了数值的相对离散程度,本题正确答案为E。
掌握“离散趋势指标★”知识点。
[单选题]5.某人算得某资料的标准差为-3.4,可认为A.变量值都是负数B.变量值负的比正的多C.计算有错D.变量值多数为0E.变量值一个比一个小正确答案:C参考解析:标准差一定大于或等于0,不可能为负数,故答案为C。
掌握“离散趋势指标★”知识点。
[单选题]6.下列关于方差和标准差的叙述,不正确的是A.方差的单位与标准差的单位相同B.方差的单位是标准差单位的平方C.都用于描述定量资料频数分布的变异程度D.二者值越大,说明资料的变异程度越大E.均适用于对称分布,特别是正态分布或近似正态分布资料正确答案:A参考解析:方差的单位是观察值单位的平方,在实际工作中使用不便,因此将方差开算术平方根得到标准差,故选项A不正确,选项B正确;方差和标准差均是描述对称分布,特别是正态分布或近似正态分布资料变异程度的常用指标,值越大,说明资料的变异程度越大,选项C、D、E正确,故本题应选A。
定量资料的统计描述
表2.2 120名正常成年男子血清铁含量(umol/L)频数分布表
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 27 18 12 8 4 1 120
频率 (%)
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83 100.00 .
.
(一)编制频数表 1.编制频数表的步骤
(1)求极差R R=Xmax - Xmin
(2)划分组段
➢两端组段分别包含 最大值或最小值;
➢尽量取较整齐的数 值作为组段的端点;
➢组距以相等为宜。
确定组数:一般分10~15组;
确定组距i :可相等,可不等 ;
确定各组段的上、下限。
.
(3) 划计归组:按照x大于或等于下限小于上 限的原则确定每一例数据应归属的组段,依 次清点频数、计算频率、累计频数、累计频 率。
.
2.频数分布表的用途 (1)揭示资料的分布类型; (2)可看出频数分布的两个特征:集中趋势、离 散趋势; (3)便于发现特大或特小的可疑值; (4)便于进一步作统计处理。
.
(二)绘制直方图 直方图也称频率直方图。 横轴为所研究的变量(即组段的上下限),纵轴 为频率密度。 频率密度=频率/组距,直条面积等于相应组段的 频率。
.
(2)加权法:当相同观察值较多时,用加权法。 适用于频数表资料。公式:
XfX0 fX0 f n
X0为各组的组中值,f为各组的频数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
.
频数
医学统计学- 统计 02 定量资料的统计描述
5.12 5.13 4.58 … … … … … 4.24 5.45 4.32
4.84 4.91 5.14 … … … … … 4.04 5.14 5.46
┊
┊
┊
5.39 5.27 6.18 … … … … … 4.43 4.02 5.86
5.12 5.36 3.86 … … … … … 4.11 3.29 4.18
75.00
100~
39
270
87.66
125~
21
291
94.48
150~
12
303
98.38
175~
5
合计
308
308
100.00
—
—
M
P50
L
i fx
(n x%
f
L
)
50
25 95
(308
50%
81)
69.21(mmol
/
L)
P75
L
i fx
(n x%
fL
)
75
25 55
(308
于描述抗体的平均滴度等。
2. 计算方法: (1) 直接法—观察单位较少
G n x1x2...xn
lg G lg(x1x2...xn ) lg x1 lg x2 ... lg xn lg xi
公式:
n
n
n
G lg1(
lg
xi
)
lg 10 n
xi
n
例题 某地 5 例微丝蚴血症患者治疗 7 年后用间接荧光抗 体试验测得其抗体滴度分别为 1:10,1:20,1:40,1:40, 1:160,求抗体的平均滴度。 解:平均指标选用几何均数(观察值呈倍数关系) 首先取观察值的倒数
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、计算方法 (1)直接法:当样本含量较小时,用直接法。公 式:
X
X
n
例2.3 测得8只正常大鼠血清磷 酸酶含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42, 3.38。试求其算术均数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
频数
5
>5
>5
二、连续型定量变量的频数分布
例2.2 某地120名18~35岁健康男性居民血清铁含量 (umol/L),编制频数表。
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
表2.2 120名正常成年男子血清铁含量(umol/L)频数分布表
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
频数
1 3 6 8 12 20 27 18 12 8 4 1 120
频率 (%)
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83
(一)编制频数表 1.编制频数表的步骤
(1)求极差R
R=Xmax - Xmin (2)划分组段
➢两端组段分别包含 最大值或最小值;
➢尽量取较整齐的数 值作为组段的端点;
➢组距以相等为宜。
确定组数:一般分10~15组;
确定组距i :可相等,可不等 ;
确定各组段的上、下限。
(3) 划计归组:按照x大于或等于下限小于上 限的原则确定每一例数据应归属的组段,依 次清点频数、计算频率、累计频数、累计频 率。
(2)加权法:当相同观察值较多时,用加权法。 适用于频数表资料。公式:
X fX0 fX0
f
n
X0为各组的组中值,f为各组的频数。
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
频率密度
120例健康成年男子血清铁含量分布图
12 108 6 4 源自 06 7 91011 113415 117819 212223 252627 2930 血清铁(umol/L)
频率密度
120例健康成年男子血清铁含量分布图
(三)连续型变量频数分布的类型
正态分布:集中位置居中
频数分布
频数多的组段 集中在左侧
检查次数 频数 频率(%) 累计人数 累计频率(%)
0
4
4.2
1
7
7.3
2
11
11.5
3
13
13.5
4
26
27.1
5
23
24.0
>5
12
12.5
4
4.2
11
11.5
22
22.9
35
36.5
61
63.5
84
87.5
96
100.0
合计
96 100
频率(%)
某地96名妇女产前检查次率分布
30
25
20
15
2.频数分布表的用途 (1)揭示资料的分布类型; (2)可看出频数分布的两个特征:集中趋势、离 散趋势; (3)便于发现特大或特小的可疑值; (4)便于进一步作统计处理。
(二)绘制直方图 直方图也称频率直方图。
横轴为所研究的变量(即组段的上下限),纵轴 为频率密度。
频率密度=频率/组距,直条面积等于相应组段的 频率。
100.00
累计频数
1 4 10 18 30 50 77 95 107 115 119 120
累计频率 (%)
0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17 100.00
例2.2资料频数表的编制步骤 1. 求极差R=29.64- 7.42=22.22(cm) 2. 划分组段 若组数为12;组距i=22.22/12≈1.85,取i=2; 确定第一组段的下限:Xmin=7.42,故第一组段的下 限取值为6,上限值为8。 3.统计各组段内数据的频数、频率等,即得频数表。
正偏态(左偏态)
偏态分布
负偏态(右偏态)
频数多的组段集 中在右侧
第二节 定量变量的特征数
描述集中趋势的统计指标
算术均数(mean) 几何均数(geometric mean) 中位数(median) 众数(mode) 调和均数(harmonic mean,H)
描述离散趋势的特征数
(一)算术均数(arithmetic mean)
第二章 定量资料的统计描述
频数与频数分布 定量变量的特征数 常用统计图表
第一节 频数与频数分布
离散型定量变量的频数分布 连续型定量变量的频数分布
一、离散型定量变量的频数分布
例2.1 0,1,5,6,3,2,4,1,0,6,5,1,3, 3,…,4,7 请描述其频数的分布状况。
表2.1 1998年某地96名妇女产前检查次数分布表