第二章--定量资料的统计描述
第二章 定量资料的统计描述
第二章定量资料的统计描述一、选择题1.资料的统计分析包括统计描述和统计推断两部分内容,而统计描述是指A.由样本统计量推断总体参数B.对总体参数进行估计C.用统计指标、统计图表描述资料的特征D.对搜集到的资料进行整理E.比较指标间的差异有无统计学意义2.定量资料频数分布的两个重要特征是A.样本与总体B.统计量与参数C.样本均数与总体均数D.集中趋势与离散程度E.标准差与标准误3.常用的平均数指标是A.样本均数、总体均数、中位数B.均数、几何均数、中位数C.均数、几何均数、标准差D.均数、几何均数、变异系数E.均数、中位数、方差4.描述一组正态分布或近似正态分布资料的平均水平宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数5.反映一组血清抗体滴度资料的平均水平,常选用的指标是A.平均数B.几何均数C.中位数D.变异系数E.均数6.描述传染病的平均潜伏期宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数7.某病患者8人的潜伏期(天)如下:2、3、3、3、4、5、6、30+,则平均潜伏期为A.7天B.3天C.4天D.3.5天E.大于7天8.一组数据中各观察值均加(或减)某一个不等于0的常数后A.均数不变,标准差改变B.均数改变,标准差不变C.二者均改变D.二者均不改变E.变异系数不变9.以下资料类型中,适宜用均数与标准差进行统计描述的是A.任意分布B.正偏态分布C.负偏态分布D.正态分布E.对称分布10.某研究者测量了某地237人晨尿中的氟含量(/mg L),结果如下尿氟0.2~0.6~ 1.0~ 1.4~ 1.8~ 2.2~ 2.6~ 3.0~ 3.4~ 3.8~人数75 67 30 20 16 19 6 2 1 1对该资料的集中趋势和离散趋势进行描述宜采用A.均数与标准差B.中位数与四分位数间距C.众数与标准差D.均数与变异系数E.中位数与变异系数11.比较身高和体重两组数据的变异度大小宜采用A.标准差B.全距C.方差D.变异系数E.四分位数间距12.比较某地1~2岁与5~5.5岁儿童身高的变异度大小宜采用A.全距B.四分位数间距C.标准差D.方差E.变异系数二、计算分析题1.为了解某地区健康成年女性的血清总蛋白含量水平,某研究者于2013年在该地区随机抽取了110名健康成年女子,测得其血清总蛋白含量(/g L),结果见表2-1。
第二章 定量资料的统计描述 1-4节
fx x f
0
1 7 3 9 .... 1 29 2228 18.57( μ m ol/ L) 1 3 .... 1 120
2、几何均数(geometric mean,G)
有研究者测定8人血清的抗体效价分别为 1:200,1:25,1:400,1:800,1:50,1:100, 1:50,1:25,求平均抗体滴度。该研究者用倒 数求均数,得平均抗体低度为1:206.25。 1)资料的类型? 2)该研究者对资料的描述是否正确? 3)如何描述该资料的集中趋势?
第二章
定量资料的统计描述
第一节 频率分布表与频率分布图
频率分布表(frequency distribution table):
整理原始数据的一种工具,用来表示数据 各观察值在不同取值区间出现的频数分布情 况。 频数分布表: 显示数据分布的范围、分布最集中的区间 和分布形态。
一、离散型定量变量的频率分布 例2-1 某年某山区96名孕产妇产前检查次 数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5….4,7 试编制产前 检查次数的频率分布表
(1)直接法:直接将所有原始观察值相加, 再除以总例数。
x1 x2 ..... xn x n
x
i 1
i
n
(2 1)
例2-3 某年某医院女性晚期肺癌患者红 细胞计数(1012/L)为4.20,6.43,2.08, 3.45, 2.26,4.04,5.42,3.38。试求其算术均 数。
1.描述变量的分布类型 1)对称分布 2)偏态分布 (1)正偏态分布:峰向左侧偏移 (2)负偏态分布:峰向右侧偏移 2.揭示变量的分布特征 集中趋势:频数向中间组段集中, 离散趋势:由中间组段向两侧,频数逐渐 减少 3.便于发现某些离群值或极端值 4.便于进一步计算统计指标和统计分析
卫生统计学第二章定量资料的统计描述
正确答案: E
答案解析:标准差反映观察值的变异程度,标准误反映抽样误差的大小,根据其计算公式可知总体标准差一定时,增大样本例数会减小标准误。在应用中,标准差用于参考值范围的估计,而标准误用于可信区间的估计。
做答人数:1
做对人数:0
题号: 12 本题分数: 2
下列说法正确的是
A. 计量资料都服从或近似服从正态分布
B. 正态分布曲线下,横轴上,从均数μ到μ+1.96倍标准差的面积为97.5%
C. 对数正态分布是原资料的对数值服从正态分布
D. 医学参考值范围一定要定为95%或99%
E. 标准正态分布曲线下中间90%的面积所对应的横轴尺度μ的范围是-∞到+1.645
求正常人某个指标的参考值范围,在理论上要求
A. 正态分布不能用均数标准差法
B. 正态分布不能用百分位数法
C. 偏态分布不能用均数标准差法
D. 偏态分布不能用百分位数法
E. 对称分布不能用百分位数法
正确答案: C
答案解析:制定医学参考值范围一般有两种方法:正态分布法(均数标准差法)和百分位数法。正态分布法适用于正态分布或近似正态分布资料;百分位数法适用于任何类型的资料,但满足正态分布的资料多采用正态分布法。
答案解析:任意正态分布经过标准化变换:u=(x-μ)/σ,可转换为μ=0,σ=1的标准正态分布。由于其位置参数和形态参数均为常数,因此它的曲线是唯一的。
做答人数:1
做对人数:1
所占比例: 100%
题号: 11 本题分数: 2
对于偏峰分布资料且测量值过高才有临床意义,95%单侧正常值范围可定
第2章定量资料的统计描述
1、计算方法 (1)直接法:当样本含量较小时,用直接法。公 式:
X
X
n
例2.3 测得8只正常大鼠血清磷 酸酶含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42, 3.38。试求其算术均数。
10
5
0
0
1
2
3
4
检查次数
某地96名产妇产前检查次率分布
频数
5
>5
>5
二、连续型定量变量的频数分布
例2.2 某地120名18~35岁健康男性居民血清铁含量 (umol/L),编制频数表。
7.42 8.65 23.02 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 20.38 8.04 17.32 29.64 19.69 23.90 17.45 19.08 20.52 24.14 23.77 18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
chapter2定量资料的统计描述
频数表的划记步骤: 1、找出最大值和最小值, 2、求全距,又称极差R(Range) R=最大值-最小值 R=29.64-7.42=22.22 3、定组段数与组距: (1)确定组数K:根据样本例数 n大小而定,一 般分10-15组之间,如样本较小,可少于10组; 如样本较大时,可大于10组,以能反映出分布规 律为原则。
频数分布表和频数分布图
原因:由于个体变异的存在,医学研究中某指 标在各个体上的观察结果不是恒定不变的,但 也不是杂乱无章的,而是有一定规律的,呈一 定的分布(distribution)。
解决:频数分布表的基本思想:将原始数据按 照一定的标准划分为若干各组,合计各组的频 数,得到频数分布表;再将频数表绘制成频数 分布图。
26
3、便于发现特大或特小的可疑值。以确定取舍。 4、便于进一步选择方法计算统计指标。
27
第二节 描述集中位置的指标
平均数(Average)
算术均数(Mean) 几何均数(Geometric Mean) 中位数(Median) 百分位数(Percentile)
4
回顾
定量资料? 统计分析包括哪两个内容?
➢ 统计描述 ➢ 统计推断
5
第一节 频数分布表及其用途
定量资料进行描述时,如果样本量 较大,需要对原始资料进行整理, 列出频数分布表,通过频数表以显 示资料的分布类型。
6
频数(frequency) 在一批样本中,相同情形出现的次数称
该情形的频数。 频数表(frequency table)
18.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 14.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 14.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 24.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 17.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 14.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 21.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述
公卫助理医师-综合笔试-卫生统计学-第二单元定量资料的统计描述[单选题]1.一组观察值如果每个值都同时增加或减少一个不为0的常数,则A.均数改变,几何均数不变B.均数改变,中位(江南博哥)数不变C.均数,几何均数和中位数都改变D.均数不变,几何均数和中位数改变E.均数,几何均数和中位数都不变正确答案:C参考解析:一组观察值如果每个值都同时增加或减少一个不为0的常数,则均数、几何均数、中位数都改变。
本题选C。
掌握“集中趋势指标★”知识点。
[单选题]3.表示儿童体重资料的平均水平最常用的指标是A.算术平均数B.中位数C.几何均数D.变异系数E.百分位数正确答案:A参考解析:算术平均数简称均数,均数适用于描述单峰对称分布资料,特别是正态分布或近似正态分布资料的集中位置。
掌握“集中趋势指标★”知识点。
[单选题]4.变异系数越大,说明A.标准差越大B.平均数越小C.平均数越大D.标准差和均数都大E.单位均数的变异越大正确答案:E参考解析:变异系数大,说明单位均数的变异越大。
变异系数的定义是标准差与算术均数之比,描述了数值的相对离散程度,本题正确答案为E。
掌握“离散趋势指标★”知识点。
[单选题]5.某人算得某资料的标准差为-3.4,可认为A.变量值都是负数B.变量值负的比正的多C.计算有错D.变量值多数为0E.变量值一个比一个小正确答案:C参考解析:标准差一定大于或等于0,不可能为负数,故答案为C。
掌握“离散趋势指标★”知识点。
[单选题]6.下列关于方差和标准差的叙述,不正确的是A.方差的单位与标准差的单位相同B.方差的单位是标准差单位的平方C.都用于描述定量资料频数分布的变异程度D.二者值越大,说明资料的变异程度越大E.均适用于对称分布,特别是正态分布或近似正态分布资料正确答案:A参考解析:方差的单位是观察值单位的平方,在实际工作中使用不便,因此将方差开算术平方根得到标准差,故选项A不正确,选项B正确;方差和标准差均是描述对称分布,特别是正态分布或近似正态分布资料变异程度的常用指标,值越大,说明资料的变异程度越大,选项C、D、E正确,故本题应选A。
医学统计学02 定量资料的统计描述
120名8岁男孩身高频数表 组段 112~
频数 f 25
频数 2
114~
21
18
7
9 14
116~
15 10 5 3
20
15 10 5 0 7
14 15 9
118~
120~
122~
1
15
21 18 15 10 5 3 1
10
2 1 身高( cm )
124~ 126~ 128~ 130~ 132~ 134~136
• 加权法
G log
1
f log X f log X ( ) log ( ) n f
1
31
注意事项
几何均数常用于等比级资料或对数正态分布资料。 观察值中若有0或负值,则不宜直接使用几何均 数。 观察值一般同时不能有正值和负值。若全是负值, 计算时可先将负号去掉,得出结果后再加上负号。
7
9 14 15 21 18 15 10
130~
132~ 134~136
5
3 1
5
• 频数(frequency)
– 观察数据的个数
• 频数分布(frequency distribution)
– 观察数据在其取值范围内的分布情况
• 定量资料的频数分布情况可以用频数表 (frequency distribution table)或直方图表 示。
9
14 15 21 18 15
7.5
11.7 12.5 17.5 15.0 12.5
18
32 47 68 86 101
15.0
26.7 39.2 56.7 71.7 84.2
– 组段的起点叫“下限”,终点叫“上
【精品】定量资料的统计描述
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述学习资料
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 1998年某地96名孕妇产前检查次数频率分布
2020/4/12
5
二、连续型定量变量的频率分布
例2-2 抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数 据如下。试编制血清铁含量的频率分布表。
2020/4/12
6
频率表的编制步骤如下:
2020/4/12
18
2.频率表法:当资料中相同变量值的个数f(即频数) 较多时,可通过频率表法计算几何均数,公式为
Glg1flfgX
表2-4 52例慢性肝炎患者的 HBsAg滴度资料
2020/4/12
19
本例Σf lgX= 108.06977 , Σf=52,代入公式得 Glg 1 10 .086 97 lg 1 7 2.078 13 1 .794705 52
本例
XX31.263.9075(U/L) n8
2020/4/12
பைடு நூலகம்14
2.频率表法 当变量值的个数较多时,在编制频率表 的基础上,应用加权法计算均数的近似值。
XfX0 fX0 f n
公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。
例2-4 XfX0 222818.57(μmmo/L) f 120
累计频率找出M所在的组段,然后按下式计算。
in ML fm(2fL)
式中L为中位数所在组段的下限,i为该组段的组距,fm为 该组段的频数,ΣfL为小于L的各组段累计频数。
例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5, 试计算潜伏期的中位数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
第二节
描述集中趋势的统计指标
平均数常用来描述一组同质观察值的集中趋势, 平均数常用来描述一组同质观察值的集中趋势,反映一组 观察值的平均水平。常用的平均数有三种:算术均数、 观察值的平均水平。常用的平均数有三种:算术均数、几 何均数和中位数。 何均数和中位数。 1、算术均数(总体均数 ,样本均数 x ) 、算术均数(总体均数µ, 适用于对称分布资料,这时均数位于分布的中心, 适用于对称分布资料,这时均数位于分布的中心,能反映 全部观察值的平均水平。 全部观察值的平均水平。 计算方法如下: 计算方法如下: (1)直接法 直接法 直接将所有原始观察值相加,再除以总例数。 直接将所有原始观察值相加,再除以总例数。
数据分布以组 段“18 ~” 为中心, 为中心,基本 对称
2、偏峰分布 、 集中位置偏向一侧,左右两侧频数分布不对称。 集中位置偏向一侧,左右两侧频数分布不对称。 常将频率分布中某一组段频率较大, 常将频率分布中某一组段频率较大,两侧相邻组段的频率逐 渐变小的现象称为“ 峰向左侧偏移的分布称为正偏峰分 渐变小的现象称为“峰”。峰向左侧偏移的分布称为正偏峰分 峰向右侧偏移的分布称为负偏峰分布 负偏峰分布。 布,峰向右侧偏移的分布称为负偏峰分布。
直接清点各变量值及相同变量值出现的频数列于表2-1的 直接清点各变量值及相同变量值出现的频数列于表 的 )、(2) 检查次数和频数。各组的频率 频率表示各 (1)、( )列,即检查次数和频数。各组的频率表示各 )、( 组频数在总例数中所占的比重,各组的频率之和为100%。 组频数在总例数中所占的比重,各组的频率之和为 。 各组的累计频数为该组及前面各组的频数之和; 累计频数为该组及前面各组的频数之和 各组的累计频数为该组及前面各组的频数之和;累计频率 表示各组累计频数在总例数中所占的比重。 表示各组累计频数在总例数中所占的比重。
合计
120名健康成年男子血清铁含量 名健康成年男子血清铁含量( mol/L) 图2-2 120名健康成年男子血清铁含量(μmol/L)分布
12 10 频 率 密 度 ( %) 8 6 4 2 0 7 9 11 13 15 17 19 21 23 25 血清铁 27 29
横轴为血清铁含量, 横轴为血清铁含量, 频率密度, 纵轴为频率密度 纵轴为频率密度,即 频率/组距 组距( 频率 组距(直条面积 等于相应组段的频率) 等于相应组段的频率) 在组距相同时,直 在组距相同时, 方图中矩形直条的高 度与相应组段的频率 成正比。 成正比。 直方图的面积之和 等于1。 等于 。
=
∑ fx ∑ f
0
=
∑
fx 0 n
f:各组段的频数 各组段的频数 各组段的组中值, 各组段的组中值 x0 :各组段的组中值, x0 = (组段上限 + 组段下限)/ 2
各组段的频数在这里起了“权数”的作用, 各组段的频数在这里起了“权数”的作用,即权衡了各组中 值对均数的贡献大小,各组段的频率( )称为权重系数。 值对均数的贡献大小,各组段的频率(f/n)称为权重系数。 按此公式计算的均数实际是各组段组中值的加权平均数, 按此公式计算的均数实际是各组段组中值的加权平均数,权 重系数为各组段频率,故频率表法也称加权法。 重系数为各组段频率,故频率表法也称加权法。 试运用频率表法近似地计算例2-2资料的算术均数 资料的算术均数。 例2-4 试运用频率表法近似地计算例 资料的算术均数。 见表2-3的第 然后计算(2), 首先确定各组段的组中值 x 0 ,见表 的第 列,然后计算 , 见表 的第(2)列 然后计算 (3)两列的乘积 其结果列在第 列。按此公式,算数均数为: 两列的乘积,其结果列在第 两列的乘积 其结果列在第(4)列 按此公式,算数均数为:
二、连续性定量变量的频率分布
抽样检查某地120名某地18~25 120名某地18~25岁健康男性居民血清铁 例2-2 抽样检查某地120名某地18~25岁健康男性居民血清铁 含量( mol/L),数据如下( )。试编制血清铁含量的频 ),数据如下 含量(μmol/L),数据如下(略)。试编制血清铁含量的频 率分布表。 率分布表。 编制频率分布表的步骤如下: 编制频率分布表的步骤如下: 计算极差R 全距) 1、计算极差R(全距) 极差即数据的最大值和最小值之差。 极差即数据的最大值和最小值之差。 本例中R=最大值-最小值=29.64 R=最大值 =29.64mol/L) 本例中R=最大值-最小值=29.64-7.42=22.22 (μmol/L) 2、确定组段数与组距 变量值个数较多时,组段数一般取10左右。 10左右 变量值个数较多时,组段数一般取10左右。 每个组段的起点称为组段的下限,终点称为组段的上限, 每个组段的起点称为组段的下限,终点称为组段的上限,组 距为上下限之差。 距为上下限之差。 实际工作中常采用等距分组,组距≈R/预计的组段数 预计的组段数。 实际工作中常采用等距分组,组距≈R/预计的组段数。 本例中组距 22.22/10=2.22 ≈2
16 14
频率最大 的组段不 居中
频率密度 ( % ) 频率密度(
12 10 8 6 4 2 0 2.5 4.5 6.5 8.5 10.5
绝大多数变量 值集中在左侧 四个组段, 四个组段,越 往右, 往右,频率越 小 峰向左侧 偏移, 偏移,为 正偏峰分 布
12.5 14.5 16.5 18.5 20.5
x = x
1
+
x
2
+ .... n
+
x
n
=
∑
n
x n
i = 1
i
n为样本含量,1 , x2 ,...xn 为观察值。 为数学中的求和公 为样本含量, 为观察值。 为样本含量 x ∑ 式, ∑ X i 可简写为
i =1 n
∑X
i
i
或
∑X。
测得8只正常大鼠血清总酸性磷酸酶 只正常大鼠血清总酸性磷酸酶( 例2-3 测得 只正常大鼠血清总酸性磷酸酶(TACP)含量 ) (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其 ) 。 算术均数。 算术均数。 算数均数为: 算数均数为:
年某地96名妇女产前检查次数频率分布 表2-1 1998年某地 名妇女产前检查次数频率分布 年某地
检查次数 (1) 0 1 2 3 4 5 >5 合计 频数 (2) 4 7 11 13 26 23 12 96 频率( 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计频数 (4 ) 4 11 22 35 61 84 96 累计频率( 累计频率(%) (5 ) 4.2 11.5 22.9 36.5 63.5 87.5 100.0
4 . 20 + 6 . 43 + 2 . 08 + 3 . 45 + 2 . 26 + 4 . 04 + 5 . 42 + 3 . 38 n 8 = 3 . 9075 (U / L ) x=
∑x=
(2)频率表法 频率表法 对于样本含量较大的数据集, 对于样本含量较大的数据集,可以在编排频率表的基础上计算 均数的近似值的基础上计算均数的近似值。其计算公式为: 均数的近似值的基础上计算均数的近似值。其计算公式为:
第一节
频率分布表与频率分布图
当变量值个数较多时,对各变量值出现的频率列表即为频 当变量值个数较多时,对各变量值出现的频率列表即为频 率分布表,简称频率表。 率分布表,简称频率表。 频率分布表的图形表示即为频率分布图 频率分布图。 频率分布表的图形表示即为频率分布图。 频率分布表和频率分布图可用于揭示资料的分布类型及分 布特征。 布特征。
3、确定各组段的上下限 分组时,第一组段应包含最小值, 分组时,第一组段应包含最小值,最后一个组段应包含最 大值。 大值。 为计算方便,组段下限一般取较整齐的数值。 为计算方便,组段下限一般取较整齐的数值。 在确定各组段的上下限时,注意各组段要连续但不能重复, 在确定各组段的上下限时,注意各组段要连续但不能重复, 故除最后一个组段外,其余组段应包含其下限值, 故除最后一个组段外,其余组段应包含其下限值,不包含 其上限值。 其上限值。 本例最小值为7.42,最大值为 本例最小值为 ,最大值为29.64,组距为 ,各组段下 ,组距为2, 限可取6、 、 限可取 、8、10……,最后一个组段为 ~30。 ,最后一个组段为28~ 。 4、列表 、 划分组段后,清点各组段中的数据例数(频数), ),并计算 划分组段后,清点各组段中的数据例数(频数),并计算 各组段的频率( )、累计频数和累计频率( )。 )、累计频数和累计频率 各组段的频率(%)、累计频数和累计频率(%)。