《医学统计学》统计描述 (1)
医学统计学描述
分位数X*是介于x1(最小值)与xn(最大值)之间的 一个数值,它使得n个数据中的一部分观察值小于 或等于它,另一部分观察值大于或等于它。
x1
X*
xn
精选课件
13
如果将顺序排列的一组数据分为q个相等频数 的区间(即每个区间中有相同的数据个数),这 时共有q-1个分位点,则称这些分位点为q分位数。
精选课件
3
步骤:
求全距 R=max-min= 278.8-97.5=181.3
定组数 K 通常取8~15组为宜。本例取K=10.
求组距 I=R/K (注意取整)。 本例I=181.3/10=18.13≈20
制表
确定各组段的下限、统计各组段内的频 数、算出各组段的频率、累计频数、累计 频率,将所得数据填入表中。
1)全距: R=MAX-MIN 2)四分位数间距 :上下四分位数之差
Q=Q3-Q1
称为四分位数间距。
精选课件
22
3).方差
n 2
S2
1 n n1i1
(xi
X)2
n11in1
xi2
xi i1
n
4).标准差
S
1n n1i1 (xi
X)2
1
n
n1i1
xi2
n
xi
i1
n
2
5).变异系数
n
定义式: Gn xi i1
对 数 式 : Glg11ni n1lgxi
加 权 对 数 式 : Glg11 n flgx
精选课件
10
例2 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16, 1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几 何均数。
医学统计学计数资料的统计描述(一)
医学统计学计数资料的统计描述(一)医学统计学计数资料的统计描述计数资料是医学研究中常见的数据类型,例如统计某种疾病的患病人数、治愈人数等。
如何对这些数据进行科学统计描述,成为了医学研究不可避免的问题。
一、计数资料的基本概念计数资料是指由离散数据组成的一种数据类型,这些数据仅取有限个数值,如某类疾病的患病人数(自然数)或治愈人数(非负整数)。
计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述极为重要。
二、计数资料的统计描述1. 频数频数是指计数资料中各取值出现的次数,常以小写字母n表示。
例如患病人数为0的样本数为n0,患病人数为1的样本数为n1,以此类推。
2. 频率频率是指频数与总样本数的比值,常以小写字母f表示。
例如患病人数为0的频率为f0=n0/n,患病人数为1的频率为f1=n1/n,以此类推。
频率可以体现每个取值在样本中的分布情况,是比较常用的统计指标,其和为1。
3. 百分比百分比是指频数与总样本数的比值乘以100,常以百分号表示。
例如患病人数为0的百分比为f0×100%,患病人数为1的百分比为f1×100%,以此类推。
4. 累计频率累计频率是指某一取值及其以下所有取值的频率之和,常以小写字母F 表示。
例如患病人数小于等于3的累计频率为F3=f0+f1+f2+f3。
累计频率可以体现小于等于某个取值的样本在总样本中所占比例。
三、总结计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述有益于研究者更加深入地了解样本的分布情况,进而提出相应的研究假设。
频数、频率、百分比和累计频率是计数资料的常用统计指标,可分析每个取值在样本中的分布情况和各个取值间的差异。
在实际研究中,研究者应根据实际情况选择合适的统计方法进行分析,以期得到更为科学的结论。
医学统计学课后习题答案解析
医学统计学第一章 绪论答案名词解释:(1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基础上各观察单位(或个体)之间的差异。
(2) 总体和样本:总体是根据研究目的确定的同质观察单位的全体。
样本是从总体中随机抽取的部分观察单位。
(3) 参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为样本统计量。
(4) 抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误差。
(5) 概率:是描述随机事件发生的可能性大小的数值,用p 表示(6) 计量资料:由一群个体的变量值构成的资料称为计量资料。
(7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称为计数资料。
(8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为等级资料。
是非题:1. ×2. ×3. ×4. ×5. √6. √7. ×单选题:1. C2. E3. D4. C5. D6. B第二章 计量资料统计描述及正态分布答案名词解释:1. 平均数 是描述数据分布集中趋势(中心位置)和平均水平的指标2. 标准差 是描述数据分布离散程度(或变量变化的变异程度)的指标3. 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布称为标准状态分布。
4. 参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指标范围称为指标的正常值范围。
填空题:1. 计量,计数,等级2. 设计,收集资料,分析资料,整理资料。
3. σμχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± 68.27% 95% 99%5. 47.5%6.均数、标准差7. 全距、方差、标准差、变异系数8. σμ96.1± σμ58.2±9. 全距 R10. 检验水准、显著性水准、0.05、 0.01 (0.1)11. 80% 90% 95% 99% 95%12. 95% 99%13. 集中趋势、离散趋势14. 中位数15. 同质基础,合理分组16. 均数,均数,μ,σ,规律性17. 标准差18. 单位不同,均数相差较大是非题:1. ×2. √3. ×4. ×5. ×6. √7. √8. √9. √ 10. √11. √ 12. √ 13. × 14. √ 15. √ 16. × 17. × 18. × 19. √ 20. √21. √单选题:1. B2. D3. C4. A5. C6. D7. E8. A9. C 10. D11. B 12. C 13. C 14. C 15. A 16. C 17. E 18. C 19. D 20. C21. B 22. B 23. E 24. C 25. A 26. C 27. B 28. D 29. D 30. D31. A 32. E 33. D 34. A 35. D 36. D 37. C 38. E 39. D 40. B41. C 42. B 43. D 44. C 45. B问答题:1.均数﹑几何均数和中位数的适用范围有何异同?答:相同点,均表示计量资料集中趋势的指标。
医学统计学:定量资料的统计描述
统计学家在实际应用时发现,按 x x 2 式求出的值总是比实际偏小,于是再
n
做一些校正,得到 x x 2 。
n 1
这就是离散趋势的衡量指标——标准差,其表达式是 S= x x 2 ,计算式是
n 1
第 3 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
x2 x2
S
n。
n 1
依此,例 1 的四组数据可得到标准差为:1.5811,7.9057,15.8113,9.5131。
《医学统计学》定量资料的统计描述讲稿
定量资料的统计描述
课时:3 学时
教学目的与要求: 正确理解平均水平和离散趋势的概念 学会均数、标准差、变异系数的计算 理解频数分布表的含义 理解正态分布的特征,学会医学参考值范围的估算
本课重点与难点: 1、求均数和标准差是定量资料统计描述的基本功。关键还要记
第 2 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
三组数据更加松散,第四组数据有紧有松,可是均数是一模一样,怎么谈得上是“特 征”呢?
这提示我们,对于一组数据,光靠一个指标来描述“特征”是不够的,就像要记 住一个人的特征,不能只看眼睛,要眼睛加上嘴巴,或鼻子加上身材,等等。看来我 们要再寻找一个描述数据内在松紧形式的指标。
X2 =170.0cm,S2 =7.1cm,如何评价? 从总体上说,两个学校三年级男生的身高是一样的(因为身高的平均水平一样),
但从个体上看,甲校男生的身高十分一致(因为身高的标准差很小),形象地说,是 标准的“仪仗队”,而乙校男生的高度就显得参差不齐(因为身高的标准差很大)。
也可以用变异系数(CV)来考量。 CV= S 100%
离均差平方和—— x x2 ,它克服了离均差之和恒等于零的缺点,在统计学中
医学统计学重点
医学统计学重点第一章绪论1.根本概念:总体:根据研究目确实定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取局部个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:假设事件A在n次独立重复试验中发生了m次,那么称m为频数。
称m/n为事件A在n 次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用适宜统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差异或样本与总体差异推断总体之间是否可能存在差异,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:〔1〕定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位。
〔2〕分类资料:包括无序分类资料〔计数资料〕和有序分类资料〔等级资料〕①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作根本步骤:统计设计、资料收集、资料整理、统计分析。
第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差〔抽样误差、随机测量误差〕、系统误差、过失误差。
3.实验设计的三个根本原那么:对照原那么、随机化分组原那么、重复原那么。
《医学统计学》复习资料
统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。
统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。
变异是同质基础上的观察单位(亦称为个体)之间的差异。
(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。
样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。
(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。
变量值:变量的测得值。
如身高150cm,体重50Kg等。
(四)参数与统计量参数是指总体特征的统计指标。
如某地健康成年男性的平均血红蛋白值。
统计量是指样本特征的统计指标。
如从某地健康成年男性中抽取一部分人的平均血红蛋白值。
(五)误差误差泛指测量值与真实值之差。
根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。
1.系统误差:测量结果有倾向性。
查明原因,可以避免。
特点:①测量结果有倾向性。
如仪器、试剂、判定标准等。
②查明原因,可以避免。
2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。
特点:①随机误差没有大小和方向。
②不可避免。
3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
特点:变异是绝对的,抽样误差不可避免。
原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。
(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。
随机事件的概率在0~1之间,即0≤P≤1。
小概率事件:P≤0.05或P≤0.01的事件。
《医学统计学》第1-2章
常用平均数的意义及其应用场合
平均数
意义
应用场合
均数 平均数量水平
几何均数 平均增减倍数
中位数 位次居中的观 察值水平
应用甚广,最适用于对称分布, 特别是正态分布
①等比资料;②对数正态分布 资料
①偏态资料;②分布不明资料; ③分布一端或两端出现不确定 值
22
1. 均数 (mean):
, X
应用:正态分布或近似正态分布的定量资料。
女 B 14.67 37.8
疗效
显效 有效 有效 无效
男B
16.80
37.6 无效
标识变量
用于数据管理
分析变量-表示试验效应或观察结果大小的
分组变量
变量或指标
反应变量
5
处理 复方哌唑嗪 复方降压片 安慰剂
合计
表 3.8 三种药物治疗高血压的疗效
有效
无效
合计
有效率(%)
35
5
40
87.50
20
10
30
15
定量资料的频数表和频数图(直方图)
表2.2 某市120名5岁女孩 身高频数表
组段(cm)
频数(f)
95-
1
98-
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
图2.1 某市城区120名5岁女孩身高频数分布
16
1、 频数分布的特征
如何选用正确的统计指标描述一个定量 资料?
14
第一节 频数分布
《医学统计学》第二章定量数据的统计描述
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630
-
累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)
医学统计学定量数据的统计描述
方差和标准差
方差
一组数据与其平均值偏差的平方和的平均数。
标准差
一组数据各数值与其平均值的差的平方和的平均数 的平方根。
正态分布和偏态分布
1 正态分布
一组数据的分布符合正态曲线,均值、中位数和众数都在同一位置。
2 偏态分布
一组数据的分布不符合正态曲线,左右两侧的数据出现“偏斜”。
频率分布表和直方图
医学统计学定量数据的统 计描述
这个演示文稿将介绍医学统计学中定量数据的基本统计指标和统计描述方法, 为您提供更深入的理解。
医学统计学的介绍
1 定义
医学统计学是一门研究医 学数据的统计量和结果的 学科。
2 目的
通过数据分析,帮助医学 研究者更好地了解疾病的 特点和分布规律,指导医 学决策和治疗方案。
假设检验和t检验
1 假设检验的基本原理
通过样本数据推断总体参数是否符合某个假 设条件。
2 单样本t检验
一种假设检验方法,用于检验某个样本的均 值是否符合总体的规律。
3 多样本t检验
用于比较两组及以上样本的均值是否存在显 著差异。
4 配对t检验
用于比较同一组样本在两个不同时间或条件 下的差异。
方差分析和回归分析
3 应用
医学统计学应用广泛,包 括临床试验、流行病学调 查、疫情监测和医疗卫生 管理等领域。
基本统计指标
均值
一组数据的平均值,即所有数 值相加后再除以数据的个数。
中位数
一组数据中,位于中间位置的 数值。当数据个数为偶数时, 中位数为中间两个数的平均值。
众数
一组数据中出现次数最多的数 值。可能有多个众数。
频率分布表
一种展示数据分布的表格,包括数值范围、频 数、频率和累计频率等。
医学统计学定性资料的统计描述
卡方检验在医学领域应用
疾病与基因型关联分析
01
通过比较不同基因型在疾病组和对照组中的分布差异,判断基
因型与疾病是否有关联。
临床试验效果评价
02
比较不同治疗方法在患者中的疗效差异,如药物疗效、手术效
果等。
医学影像学诊断准确性评估
03
通过比较影像学诊断结果与金标准诊断结果的一致性,评估影
像学诊断方法的准确性。
非数值性
定性资料不以数值形式表示,而是用 文字、符号等描述。
类别性
定性资料通常按照不同的类别或属性 进行分类。
主观性
定性资料的收集和分析往往涉及主观 判断和解释。
常见定性资料类型
分类资料
按照某种特征或属性将数据分成不同的组别,如性别、 血型等。
顺序资料
除了分类外,还具有一定程度的顺序或等级关系,如 病情严重程度、治疗效果评价等。
数分布表。
图表展示技巧与规范
选择合适的图表类型
根据数据的性质和特点,选择合适的图表类 型,如直方图、条形图等。
数据点标识
在图表中标识出重要的数据点,如最大值、 最小值、平均值等。
图表标题和坐标轴标签
为图表添加标题和坐标轴标签,以便读者理 解图表内容。
图例和颜色使用
使用图例说明不同数据系列的含义,并合理 运用颜色以增强图表的可读性。
整性。
02
Fisher确切概率法计算
根据研究目的和假设,选择合适的统计软件或编程语言实现Fisher确切
概率法的计算过程。
03
结果解读与报告
对计算结果进行解读和分析,将结果以图表或文字形式呈现,并结合专
业知识对结果进行解释和讨论。同时,需要注意结果的可靠性和可重复
医学统计学:数值变量统计描述
table)
频数表的编制:
• (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频数表的编制:
数值变量资料的统计描述( Descriptive Statistics)
8
…
0.64
…
159
160
1.71
1.77
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频数表的编制: (1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=1.77-0.51=1.26(mmol/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组 距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分 之一, 再略加调整。 本例i= R /10=1.26/10=0.126≈0.1。 (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限 必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的 频数。
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频 数 (2) 4 7 11 13 26 23 12 96
离散型资料(discrete data)
表2-1 1998年某地96名孕妇产前检查次数分布
检查次数 (1) 0 1 2 3 4 5 >5 合计 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100.0
医学统计学:计量资料的统计描述
方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反
医学统计学统计描述
缺点:仅考虑两端数据的差异,未考虑其它数据的变异情 况,不能全面反映一组资料的离散程度,受样本含量n的 影响较大,且不稳定,易受极端值的影响。
四分位数间距(inter-quartile range)
▪ 定义:把全部变量值值分为四等分的分位数,其
分位数。它是一个位置指标。 Px ▪ 中位数是第50百分位数,用P50表示。 ▪ 第25,第75,第95百分位数记为P25, P75, P95
是统计学上常用的指标。
百分位数(percentile)
▪ 百分位数(percentile)
X%
PX
(100-X)%
▪ 50%分位数就是中位数 ▪ 25%,75%分位数称四分位数(quartile)
方差(variance)
▪ 定义:离均差平方和的均数 ▪ 表示法:总体方差用2表示;样本方差用
S2表示
▪ 计算公式:
▪ 意义: 方差值越大,说明变异程度越大。
▪ 特点:包括了每个变量值与均值的差异,
但该指标的单位为平方。
标准差(standard deviation, sd) :
▪ 定义:方差开平方,取平方根的正值,每
▪ 例 对于某项风险较高的新手术术后的生存 时间进行跟踪,共调查了7人, 6人死亡之 前分别生存了5天、6天、10天、16天、25 天、29天,还有一人术后30天随访时仍存 活。
▪ 本资料属于“开口”资料。
▪ 本例数据已经按从小到大的升序排列,n=7, 为奇数,其中位数为16天。
2. 频数表法(n较大,已编成频数表)
62.05
1 3 1
79.00 72.25
409.75 4.06(mmol / L) 101
医学统计学-分类变量的统计描述
高血压 172665
40
23.2
冠心病 172665
11
6.4
脑卒中 172665
253
146.5
风心病 172665
38
22.0
例:某医院部分科室院内感染情况
科室
调查 感染 感染 感染人数 病人数 人数 率% 构成比
呼吸内科 100 10
心血管内科 100 8
泌尿外科 40 6
胸外科
42 2
普外科
定基比发展速度: 环比发展速度 定基比增长速度 环比增长速度
相对比的应用:某事物不同时间的动态分析
表5-9 某医院1991-1993年门诊量动态分析
门诊 发展速度% 增长速度%
年份 人数 定基比 环比 定基比 环比
1991 1200
100
100
—
—
1992 1500
125
125
25
ቤተ መጻሕፍቲ ባይዱ25
1993 1600
无变化
样本率或构成比的比较应进行假设检验
第二节 标准化法
什么是标准化? 为什么要进行标(准)化?
内部结构不同的两组对象进行比较:例如A组病情严 重者多,B组病情较轻的多,但要比较两种不同方法的治 疗效果,结果会怎样?
表1 两种疗法疗效比较
旧疗法
治疗
分组
治疗 人数
痊愈 人数
治愈 率%
成人组 100
绝对数:即各分类事物的合计数,绝对数反映某事物 实际发生的规模大小。
相对数:是两个有联系的(数值)指标之比。
相对数的意义: 1.消除基数影响,便于事物间的比较。 2.给出事物发生频率(强度)的估计。 3.相对数是工作决策的依据。
医学统计学——统计描述
布为最常见的一种。
偏态分布:正偏态分布—儿童疾病年龄分布;负偏态分布— 老年疾病年龄分布。
对称分布
频数分布高峰位于 中部,左右两恻的 频数大体对称。
正偏
偏态分布
负偏
生物医学研究的统计方法 第2章
高峰偏于左侧, 长尾向右侧延伸, 则为正偏态
高峰偏于右侧,长 尾向左侧延伸,则 为负偏态。
G lg 1(lg X1 lg X 2 ... lg X n ) lg 1(
lg X )
n
n
例3.2 设有5份血清样品,滴度分别 为:1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。
G= 5 110100100010000 100
或G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5) =lg-1((0+1+2+3+4)/5) =lg-12 =100
中位数、算术均数和众数的关系
正偏态分布
对称分布
众数 中位数 算术均数
众数 中位数 算术均数
负偏态分布
算术均数 中位数 众数
三、离散趋势指标
极差(Range, R) 四分位数间距(Quartile,Q) 方差(Variance) 标准差(Standard deviation)
(一)、极差(Range, R)
潜伏期(小时) 频数 f 累计频数 累计频率(%)
①
②
③
④
0—
21
21
15.24
12—
58
79
48.17
24—
医学统计学 描述性统计
位置上的观测值。
12 3 4 5 6 7 1 2 3 4 5 6----median=3.5
百分位数(percentile,Px)
位置指标 一组资料从小到大排序后,x%的观测值比
Px小,(100-x)%的观测值比Px大,则这 个位置点的数值,即为第x百分位数Px。 第5百分位数P5:有5%的观测值比P5小,有 95%的观测值比P5大。 中位数即第50百分位数。 用于偏态分布的资料。
位数间距。 如:年龄中位数为33.5岁,最小年龄3岁,最大 年龄55岁。
医学统计学
描述性统计 (一)
统计处理
统计描述: 描述样本特征:列表、图示、数字
统计推断:由样本信息来推断总体信息
计量资料分布特征和描述指标
集中趋势:平均水平 算术均数、几何均数、中位数
离散趋势:变异性 极差、四分位数间距、方差、标准差、变异 系数
频数表和直方图
集中趋势指标-均数mean
算术均数:简称均数,用以描述一组服从正 态分布或近似正态分布资料的平均水平。
总体均数 ,样本均数 x
离均差总和 离均差平方和
几何均数G(geometric mean)
用于对数正态分布的资料。即原变量值分布 不对称,但经对数转换后,近似或服从正态 分布的资料。
血清学平均抗体效价
中位数M(median)
变异系数CV
用于比较不同量纲上述指标都是用于计量资料的统计描述 除变异系数外,均有量纲 变异性指标中,指标值越大,说明数据变异越大 分布类型不同,适用的描述指标不同。 正态分布常用 x s 偏态分布常用中位数M和最小值、最大值或四分
离散趋势的指标-极差R
极差或全距range:最大值与最小值之差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。
——平均水平指标
②离散趋势(tendency of dispersion):变量 值围绕集中位置的分布情况。本例;离“中 心”位置越远,频数越小;且围绕“中心” 左右对称。
四分位数: (定义:P53) QL, Md, QU
四分位数间距(QR) :
QR=P75- P25
四分位半间距:
QD=QR/2 意义:
100% 80% 60% 40% 20% 0% 0
P100(max) P75
P50(中位数) P25
P0(min)
Px
频数表资料的百分位数
Px 所在组段下限值 组距 (n x% 至该下限值的累计频数)
➢左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖 尾。
表2-3 101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
二、描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度( Dispersion )。即 个体观察值的变异程度。常用的指标有:
1. 极差(Range) (全距) 2. 百分位数与四分位数间距
Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
例4-2 “权数” 例4-
2. 几何均数(geometric mean)
意义:用于描述对数正态分布、或数据呈倍数变化
资料的平均水平。 符号:XG XG n X1X2 Xn
计算:
(4-3)
lg
XG
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
X G lg 1
lg X n
几何均数:变量对数值 的算术均数的反对数。
资料类型 计数和等级 计量
组段
频数
观察结果的所有 分类
根据观察结果重 新划分
相同类别出现的 次数
分组统计
P44 表4-1,4-2,4-3
1. 频数表的编制步骤
(1)求极差(range):即最大值与最小值之差 ,又称为全距。
本例极差: R=5.88-3.79=2.09(1012/L)
(2) 决定组数、组段和组距:根据研究目的和 样本含量n确定。组距=极差/组数,通常分8-15 个组,为方便计,组距参考极差的十分之一, 再 略加调整。
P46 表4-4
三、频数分布图 P47
二、计量资料频数表和频数分 布图用途
1.描述频数分布的类型* (1)对称分布 :若各组段频数的分布以频
数最多的组段为中心左右两侧大体对称 (总体则完全对称),就认为该资料是 对称分布 (2)偏态分布 :
➢ 右偏态分布(正偏态分布):频数最多组段右侧的组段数 多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
3. 中位数(median)
意义:将一批数据从小至大排列后位次居 中的数据值,反映一批观察值在位次上的平 均水平。
符号:Md
适用条件:适合各种类型的资料。尤其适 合于①大样本偏态分布的资料; ②资料有不 确定数值;③资料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:
所在组段下限值至上限值间的频数
Px
Lx i
(n
x% fL ) fm
PX L
i; fm
(n
下限值L
x%
fL )
百分位数Px
上限值U
例4-10
百分位数的应用
➢确定医学参考值范围 (reference range): (偏态分布资料) 如95%参考值范围=P97.5-P2.5(双侧) P5 或P95 (单侧) ;
分母为n-1,称为自由度(能自由取值的变量的个 数)。
4.标准差
标准差 (standard deviation)即方差的正平 方根;其单位与原变量X的单位相同。(p54)
总体标准差 (X X )2 N
样本标准差S (X X )2= X 2 X 2 n
n 1
n 1
频数表样本标准差S fX 2 fX 2 f
lg101
lg102
lg103 5
lg104
lg105
1000
此例的算术均数为22222,显然不能代表滴度的 平均水平。同一资料,几何均数<均数
P50 例4-4
频数表资料的几何均数
G
lg
1
fi
lg X i fi
lg
1
f1 lg
X1
f2
lg
X2 fi
fn
lg
Xn
(4-5)
例4-5
本例i= R /10=2.09/10=0.209≈0.2 (1012/L)
(3) 确定组段的上、下限,列出组 段:第一组段的下限略小于最小值, 最后一个组段上限必须包含最大值, 其它组段上限值忽略。
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
L X U
(4) 划记计数:用划记法将所有数 据归纳到各组段,得到各组段的频数 。
均数、中位数的关系
正态分布时: 均数=中位数 正偏态分布时:均数>中位数 负偏态分布时:均数<中位数
小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或 平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大 的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期)
fm
Md L
i; fm
(n
下限值L
50%
fL )
中位数Md
上限值U
位次之比等于数值之比
P51 例4-8
百分位数(percentile)
符号:Px
定义 : 位置指标,数据从小到大 排列;将其
位次转换为百分位,对应于x%位次的数值即为 第x百分位数。 符号:Px。
5. 众数(mode)
出现次数(或频数)最多的观察值; 在频数分布图中对应于高峰所在位置的 观察值。适用于大样本;较粗糙。
——变异水平指标
3.便于发现一些特大或特小的可疑值*
组段 (1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
频数 f (2) 1 0 0 0 17 20 17 12 9 0 0 8 101
4 540 510 505 291600 260100 255025
5 560 520 510 313600 270400 260100
合计 2500 2500 2500 1260400 1251000 1250250
标准差 50.99 15.81 7.91
甲的标准差S
X2
X2 n
1260400 25002 / 5=50.99
位置,反映一组同质资料的集中趋势( central
tendency )。
P48
常用的有:
1. 算术均数(arithmetic mean),简称均数 (mean)
2. 几何均数(geometric mean)
3. 中位数 (median)
4. 众数(mode)
作用: 1.代表性
选用:根据分布