定量数据的统计描述
定量资料数据的统计描述
![定量资料数据的统计描述](https://img.taocdn.com/s3/m/32dc395abe1e650e52ea99fd.png)
f lg X lg f
1
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
2 1.20412 7 1.50515 ... 7 2.7027 G lg 1 52 lg 1 108.06977/ 52 lg 2.7017 119.74705
①两端的组段应分别包含最小值或 步骤: 最大值; (1) 求全距:(极差) R=29.64-7.42=22.22 ②尽量取较整齐的数值作为组段的 端点,便于对数据进行表述; (2) 定组段数与组距 : 8~15个组段,组距i=全距/组段数 ③组距以相等为宜。 (3) 划组段:以一个稍小于或等于最小值的整数作为第一个
理的各种因素在个体之间都不会完全相同,即个体间存在差
异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ 表
四、频数分布的类型
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。 正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
频数分布
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/60a3f997c67da26925c52cc58bd63186bceb92dc.png)
例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
《定量资料数据的统计描述》教案
![《定量资料数据的统计描述》教案](https://img.taocdn.com/s3/m/b41ee26cb5daa58da0116c175f0e7cd1842518d1.png)
《定量资料数据的统计描述》教案标题:定量资料数据的统计描述教案一、教学目标1.理解什么是定量资料数据的统计描述。
2.掌握常见的统计描述方法:集中趋势与离散程度。
3.能够应用统计描述方法对实际问题进行分析和讨论。
二、教学内容1.定量资料数据的统计描述的定义和意义。
2.集中趋势的统计描述方法:平均数、中位数、众数。
3.离散程度的统计描述方法:极差、四分位数、方差、标准差。
4.实例分析和练习。
三、教学步骤步骤一:导入(10分钟)1.向学生介绍定量资料数据的统计描述的概念和意义。
2.引导学生思考:为什么我们需要对数据进行统计描述?步骤二:集中趋势的统计描述(20分钟)1.介绍平均数的概念和计算方法。
2.分享实际应用平均数的例子,并提示其局限性。
3.介绍中位数的概念和计算方法。
4.引导学生分析什么情况下使用中位数比平均数更合适。
5.介绍众数的概念和计算方法,并解释其应用场景。
步骤三:离散程度的统计描述(25分钟)1.介绍极差的概念和计算方法。
2.引导学生思考四分位数的意义和计算方法,并分享实际应用的例子。
3.介绍方差的概念和计算方法。
4.介绍标准差的概念和计算方法,并解释其在数据分析中的重要性。
5.引导学生讨论方差和标准差的应用场景。
步骤四:综合分析和应用(25分钟)1.提供实际问题或案例,并引导学生运用所学内容进行分析和讨论。
2.给予学生时间思考和解答问题。
3.分享学生的分析和答案,并引导学生进行互动讨论。
步骤五:总结和拓展(10分钟)1.回顾本节课学习的内容和重点,确保学生对定量资料数据的统计描述有所掌握。
2.提示学生可以进一步了解其他统计描述方法,如箱线图等。
3.激发学生对数据分析和统计描述的兴趣,引导学生向实际问题应用所学方法。
四、教学评估1.教师针对学生的学习情况进行同步评估,包括学生积极参与讨论、能够正确运用统计描述方法等。
2.可以布置课后作业,要求学生分析和描述给定的数据集。
五、教学资源1.PPT或黑板/白板2.实际数据案例3.学生练习题和课后作业六、教学延伸1.引导学生自行寻找相关的应用案例进行研究和分析。
医学统计学2. 定量数据的统计描述
![医学统计学2. 定量数据的统计描述](https://img.taocdn.com/s3/m/8802913565ce0508763213f8.png)
S 48984 6982 /10 5.41 10 1
5. 变异系数(CV)
变异系数,标准差和均数比值,多用于观察 指标单位不同
如身高与体重的变异程度的比较;或均数 相差较大时,
如儿童身高与成人身高变异程度的比较。
如何有效地组织、整理和表达数据的信息?
浙江中医药大学考试成绩登记表
1. 频数表
频数表:同时列出观察指标的可能取值区间及 其在各区间内出现的频数。
2.频数图
直观、形象地表示频数分布的形态和特征。
频数表制作过程
1.确定组数k:通常选择在8~15之间 2.确定组距: 参考组距为R/k , R为全距 3.确定组限 : 应符合专业习惯 4.确定频数:划记或由软件完成
一端或两端存在着无确切数值的资料。
举例
如由例2.4 算出,50岁~60岁正常女性血清甘油
三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则 :
Q 135.7 63.2 72.5(mg/dl)
3. 方差 (Variance)
为了利用每个观察值的信息,可计算平均偏差
常值 可用各组段的频率作为概率的估计值
用途:考察分布的类型
对称分布 :
若各组段的频数以频 数最多组段为中心左右两 侧大体对称,就认为该资 料是对称分布
如:人体一些生化指标 (血清总胆固醇)、身 高、体重等的分布
偏态分布 :
1)正偏态分布: 高峰左偏,频数向右侧
拖尾
如:人体中一些重金属 (发汞、尿铅)的分布, 血清转氨酶等。
S CV 100%
X
例2-8
02-医学统计学定量数据的统计描述
![02-医学统计学定量数据的统计描述](https://img.taocdn.com/s3/m/f49439d208a1284ac850435c.png)
X为组段的组中值。 X=(组段上限+组段下限)/2
【例】120名健康男性居民血清铁含量的频数分布表,试求 其算术均数。
组段 频数 组中值 6~ 1 7 8~ 3 9 10~ 6 11 12~ 8 13 14~ 12 15 16~ 20 17 fX 7 27 66 104 180 340 组段 频数 组中值 18~ 27 19 20~ 18 21 22~ 12 23 24~ 8 25 26~ 4 27 28~30 1 29 fX 513 378 276 200 108 29
概 述 平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。 常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数 算术均数(arithmetic mean),等于一个变量所有观 察值的和除以观察值个数。 总体均数用希腊字母μ表示,样本均数用符号 X 表示。 算术均数适用于对称分布的资料,如分布均匀的小 样本数据或近似正态分布的大样本数据。 算术均数易受极端值的影响,并且受极大值的影响 大于受极小值的影响。
n为总频数。
【例】52例慢性肝炎患者的HBsAg滴度数据表,试求其 几何均数。
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计 频数 2 7 11 13 12 7 52 滴度倒数 16 32 64 128 256 512 lgX 1.20412 1.50515 1.80618 2.10721 2.40824 2.70927 f (lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
中位数 中位数(median,M),是在按大小顺序排列的变 量的所有观察值中,位于正中间的一个或两个数值。 当数据呈偏态分布、或频数分布两端无确定数值, 均宜采用中位数描述集中趋势。 中位数的确定取决于它在数据序列中的位置,因此 对极端值不敏感。
医学统计学定量数据的统计描述.pptx
![医学统计学定量数据的统计描述.pptx](https://img.taocdn.com/s3/m/e8f333aec281e53a5902ff53.png)
频率 0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83 100.00
累计频数 累计频率
1
0.83
4
3.33
10
8.33
18
15.00
30
25.00
50
41.67
77
64.17
95
79.17
107
89.17
115
95.83
23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
表 120名健康男性居民血清铁含量频数分布表
组段 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
频数 1 3 6 8 12 20 27 18 12 8 4 1
卫生部“十二五”规划教材
医学统计学
定量数据的统计描述
频数分布
频数分布的目的和用途
目的:了解数据的分布范围、集中位置以及分布形态等 特征,以便根据资料分布情况选择合适的统计方法。
用途: ①作为陈述资料的形式; ②便于观察数据的分布类型; ③便于发现数据中特大或特小的可疑值; ④当样本量大时,可用各组段的频率作为概率的估计 值。
血 清 铁 ( μ m ol / L )
图 120名健康男性居民血清铁含量频数分布图
集中趋势的统计指标
概述
平均数(average),是描述一组观察值集中位置或 平均水平的统计指标,常作为一组数据的代表值用于 分析和进行组间的比较。
常用的有算术均数、几何均数、中位数、百分位 数等。
算术均数
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/c6d64a69168884868762d6e5.png)
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/065c3191b9d528ea81c77928.png)
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
《医学统计学》第二章定量数据的统计描述
![《医学统计学》第二章定量数据的统计描述](https://img.taocdn.com/s3/m/537820082e60ddccda38376baf1ffc4ffe47e204.png)
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学定量数据的统计描述
![医学统计学定量数据的统计描述](https://img.taocdn.com/s3/m/debf80e30129bd64783e0912a216147917117efe.png)
方差和标准差
方差
一组数据与其平均值偏差的平方和的平均数。
标准差
一组数据各数值与其平均值的差的平方和的平均数 的平方根。
正态分布和偏态分布
1 正态分布
一组数据的分布符合正态曲线,均值、中位数和众数都在同一位置。
2 偏态分布
一组数据的分布不符合正态曲线,左右两侧的数据出现“偏斜”。
频率分布表和直方图
医学统计学定量数据的统 计描述
这个演示文稿将介绍医学统计学中定量数据的基本统计指标和统计描述方法, 为您提供更深入的理解。
医学统计学的介绍
1 定义
医学统计学是一门研究医 学数据的统计量和结果的 学科。
2 目的
通过数据分析,帮助医学 研究者更好地了解疾病的 特点和分布规律,指导医 学决策和治疗方案。
假设检验和t检验
1 假设检验的基本原理
通过样本数据推断总体参数是否符合某个假 设条件。
2 单样本t检验
一种假设检验方法,用于检验某个样本的均 值是否符合总体的规律。
3 多样本t检验
用于比较两组及以上样本的均值是否存在显 著差异。
4 配对t检验
用于比较同一组样本在两个不同时间或条件 下的差异。
方差分析和回归分析
3 应用
医学统计学应用广泛,包 括临床试验、流行病学调 查、疫情监测和医疗卫生 管理等领域。
基本统计指标
均值
一组数据的平均值,即所有数 值相加后再除以数据的个数。
中位数
一组数据中,位于中间位置的 数值。当数据个数为偶数时, 中位数为中间两个数的平均值。
众数
一组数据中出现次数最多的数 值。可能有多个众数。
频率分布表
一种展示数据分布的表格,包括数值范围、频 数、频率和累计频率等。
02定量数据的统计描述(医学统计学)
![02定量数据的统计描述(医学统计学)](https://img.taocdn.com/s3/m/b37f70ba77232f60dccca107.png)
累积频率(%)
4.3
31.1
57.6
M
72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
思考
三组白鼠体重情况 甲组:26 28 30 32 34 乙组:24 27 30 33 36 丙组:27 28 28 32 35
X甲 X乙 X丙
三组体重的离散程度?
方差( variance )是将离均差平方和再取平均, 即
平均数(average):描述一组变量值的集中位置或 平均水平的指标。
常用的平均数有(算术平)均数、几何(平)均数、中 位数。
不同的分布使用不同的平均数。
一、算术均数
应用:主要适用于单峰对称分布或偏斜度不 大的资料,尤其适合正态分布资料。
例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L) 为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。
变异系数(coefficient of variation):用于对均数相
差较大或单位不同的几组观察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差 10.7mmHg;收缩压均数为122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
例: 某地120名7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重均数为 22.29kg,标准差为2.26kg,比较其变异度。
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
统计学简答题
![统计学简答题](https://img.taocdn.com/s3/m/27f230425fbfc77da269b1a7.png)
医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。
但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。
2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。
算术均数:主要适用于对称分布,尤其适合正态分布资料。
几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。
在医院中主要用于抗原(体)滴度资料。
中位数:适合条件:a.极偏态资料。
b.有不确定的数据(有>或<)。
c.有特大值或特小值。
d.分布不明的资料。
(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。
四分位间距:用于描述偏态分布资料。
方差和标准差:用于描述正态分布计量资料的离散程度。
变异系数:a.均数相差较大。
b.单位不同。
3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。
(2)用途不同:标准差与均数结合估计参考值范围。
(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。
联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。
6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。
定量资料统计描述
![定量资料统计描述](https://img.taocdn.com/s3/m/79276061a4e9856a561252d380eb6294dd88220f.png)
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
定量资料统计描述(1)
![定量资料统计描述(1)](https://img.taocdn.com/s3/m/ca09ffd402020740bf1e9b04.png)
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统计 指标有两类:
一类是描述数据分布集中趋势的指标,即 平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据在
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
【精品】定量资料的统计描述
![【精品】定量资料的统计描述](https://img.taocdn.com/s3/m/c4bbe071326c1eb91a37f111f18583d049640faa.png)
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
定量数据的统计描述
![定量数据的统计描述](https://img.taocdn.com/s3/m/707c4bc0dd36a32d727581a0.png)
n
n
其中X1,X2…Xn为各变量值,n为样本例数。
2) 加权法:适用于变量值较多的资料。
X fx 0 fx 0 f n
f1,f2…fn分别为各组段的频数,X1,X2…X0 为各组段 的组中值, 组中值=(本组段下限+下组段下限)/2。
即频数多,权数大,作用也大,频数小,权数小,作 用也小。
等距分组 以横轴表示被观察变量,纵轴表示频率密度,以
各矩形(宽度为组距)的面积代表各组段的频率。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。
由于同质性,所有实测值趋向 三、 频数分布同的一两数个值特的征趋势称为集中趋势。
集中趋势:血清铁含量向中央部分集中, 即中等含量者居多,集中在18 mo/lL 这个组段,这种现象为集中趋势。
正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
2. 便于进一步计算统计指标和进行统计分析处理。 3. 便于发现某些特大或特小的可疑值。
110名7岁男童身高(cm)的频数分布
14~
12
15
180
2700
16~
20
17
340
5780
18~
27
19
513
9747
20~
12
21
378
7938
22~
10
23
276
6348
24~
26X ~
f84 0 x22 2257 21.8 5 87 21m 0008 /oLl
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。
1. 计算方法 1) 直接法:适用于样本例数n较少的资料。
X X1 X2 ... Xn X
2)百分位数可用于确定医学参考值范围(详后)。
3)分布在中部的百分位数相当稳定,具有较好的代表性, 但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。
90 ~
1
92 ~
0
94 ~
0
96 ~
0
98 ~
0
100 ~
0
110 ~
1
112 ~
3
114 ~
9
116 ~
9
118 ~
15
120 ~
18
122 ~
21
124 ~
14
126 ~
10
128 ~
4
130 ~
3
132 ~
2
134 ~ 136
1
第二节 定量变量的特征数
总体中的某些个体总是具有某些同质性,同一地区、同 一年度、同一民族、同一年龄段、相同的性别与类似的健康 状况,这些共同点使得该人群的血清铁含量应趋向同一数值, 即集中趋势。不同总体间比较的方式之一就是对他们的集中 趋势进行比较。另一方面,同一总体中的个体之间又普遍存 在着各种差别,也就是说由于遗传、营养、行为、发育、心 理的各种因素在个体之间都不会完全相同,即个体间存在差 异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
P 7 5 L f i x n . x % f L 1 4 2 2 3 5 5 5 7 6 % 2 5 1 1 3g / 4 3 m 3
2. 中位数和百分位数的应用
1)中位数常用于描述偏态分布资料的集中趋势,反映位 次居中的观察值的平均水平。在对称分布的资料中,中位数和 均数在理论上是相同的。
卫生统计学
第二章 定量资料的统计描述
定量资料的 统计描述
统计图表:频数分布表(图)
集中趋势指标 统计指标:
离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态 及分布间的关系做直观的表达,用于描述定量资料的统 计指标的意义与计算。
第一节 频数与频数分布
一、连续型定量变量的频数分布
频数表的编制: 频数(frequency):对一个随机变量做重复观察, 其中某变量值出现的次数。 频数分布表(frequency distribution table):将各变 量值及其相应的频数列成表格的形式。 例2-2 抽样调查某地120名18岁~35岁健康男性居 民血清铁含量(μmol/L)见P12,试编制频数分布表。
的平均数就是中位数。 2
例2-7 某药厂观察9只小M 鼠口服Xn2高山Xn2红1景/天2 醇
提物(RSAE)后在乏氧条件下的生存时间(分钟)
如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,
68.6,69.0
n为奇数,M=63.6 (cm)
2)频数表法计算中位数和百分位数:适用于
12
15
180
2700
16~
20
17
340
5780
18~
27
19
513
9747
20~
12
21
378
7938
22~
10
23
276
6348
24~
26X ~
f84 0 x2222 57 1 2.5 8 821m 7 0008 /L ol52090106
28~30
1f 12920 29
841
合计
120(∑f)
一个百分位数Px将总体或样本的全部观察值分为两部分,理 论上,在不包括Px的全部数据中有X%的观察值比它小,有 (100-X)%的观察值比它大。
1. 中位数和百分位数的计算
1) 直接法:适用于样本例数n较少的资料。
将观察值按大小顺序排列,当n为奇数时,中
间那个数就是中位M 数。当Xnn为1偶数时,中间两个数
形长条的高度与相应检查次数的频率呈正比。
频率:各组的频数除以总例数 n 所得的比值。 频率描述了各组频数在全体中所占的比重,各组 频率之和等于100%。
累计频数:本组段的频数与以前各组段的频数 相加;
累计频率:每组段的累计频数除以总例数。
连续变量的频数分布图
直方图
连续型变量的频数分布图,以直方的面积大小表 示频率的多少。
二)几何均数应用的注意事项: 1)几何均数常用于等比级数资料或对数 正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。
(三)中位数和百分位数
中位数(median,M):将一组变量值从小到大按顺序排列, 位次居中的那个变量值就是中位数。
百分位数(percentile, Px):指把数据从小到大排列后位于 第X%位置的数值。有n个观察值X1,X2…Xn,把他们由小到大按 顺序排列成X1≤X2≤X3…≤Xn,将这n个观察值平均的分为100等份, 对应于每一等份的数值就是一个百分位数,对应于前面X%个位 置的数值称为第X百分位数,用Px表示。
n
n
其中X1,X2…Xn为各变量值,n为样本例数。
2) 加权法:适用于变量值较多的资料。
X fx 0 fx 0 f n
f1,f2…fn分别为各组段的频数,X1,X2…X0 为各组段 的组中值, 组中值=(本组段下限+下组段下限)/2。
即频数多,权数大,作用也大,频数小,权数小,作 用也小。
划记
一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
二、离散型定量变量的频数分布
离散型变量的频数分布图
直条图
横坐标为产前检查次数;纵坐标为 频率,即产前检
查K次的妇女在被统计妇女中所占的比例%。图中等宽矩
合计
120
M P 5 0 L f i x n . x % f L 1 2 2 8 1 7 5 2 % 5 0 0 1 0 . 7 8 m 4 / L
例 某市大气中SO2的日平均浓度见表2.5,求P25,P50,P75。
例 某市大气中SO2的日平均浓度见表2.5,求中位数,P25,P50,P75。
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30
频数
1 3 6 8 12 20 27 18 12 8 4 1
累计频数
1 4 10 18 30 50 77 95 107 115 119 120
累计频率
0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17 100.00
7份HBsAg的平均滴度为1:64
2) 加权法:适用于样本例数n较多的资料。
G l g 1 f1lg X 1 f 1 f2 fl2 g X .2 . .f .n f.n l.g X n
lg
1
f lg f
X
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
2228(∑fX0) 43640( fX02)
2. 均数的两个重要特性
1). 各离均差的总和等于0。(总体中各变量值X与均 数之差称为离均差)
X0
2). 离均差的平方和小于各观察值X与任何数a之差的
平方和。( a X ) 即 XX2< Xa2
设:a≠ X,则a= X±d,d>0
Xa2 XXd2 XXd2
组段的起点数据。
下限:每个组段的起点(最小值) 。
上限:每个组段的终点(近似最大值)。
注:最后一个组段应同时写出上限和下限来。
(4) 绘制整理表 “下限≤x<上限”
注:各组段的频数之和应等于总的观察例数。
表2 120名正常成年男子血清铁含量的频数分布表