医学研究中常用的数据统计方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. 众数(mode) 适合于粗略地表达呈单峰分布资料的平均水平或中
心位置。一般用表示。在医学上常用来估计传染病的平均潜伏期。 当数据个数较少时,众数就是出现次数最多的那个数据;当数据个 数较多时,编制成频数分布表,众数就是频数最多的那组的组中值。 但是众数随着频数分布表的组段、组距的改变而改变,因此,众数 在大样本资料中使用得较少。
k
∑ fi
∑ H =
i =1
k fi
X i=1 i
(7) (8)
当小样本时,用直接法:
M
=
⎧ ⎪⎪
X
n+1,n为奇数
2
⎨ ⎪ ⎪⎩
X
n 2
+ X n+1 2 2
, n为偶数
(5)
式(5)中的下标表示数据由小到大排列后的位次。
当大样本时,可用下式表示:
M
= Lm
+
i fm
⎜⎛ n − C ⎟⎞ ⎝2 ⎠
4. 标准误(standard error) 也称为标准误差,是统计量的标准差,反 映一组同质的统计量离散程度大小的指标。从理论上来说,只要给 出一个统计量,就有其相应的标准误。用、、和分别表示统计量、p、 r和CV的标准误,其计算公式分别是:
S =S
X
n
p(1− p)
SP =
n
(11) (12)
Sr =
4
¾ 试验结果的统计描述
定性反应资料 绝对数、率、百分比、相对比等 等级反应资料 秩和或Ridit平均计分等 定量反应资料 均数、标准差,参考值范围等 反应时间资料 x年生存率、x年复发率等
1.算术平均数(arithmetic mean) 算术平均数简称为均数,适合于表达
对称分布资料的平均水平或中心位置。样本均数一般用表示,总体均
∑ ⎛ n
⎞
⎜ lg X i ⎟
当小样本时,用直接法:
G = lg −1 ⎜ i=1 ⎜n
⎟ ⎟
⎜⎝
⎟⎠
(3)
当大样本时,用加权法:
∑ ⎜⎛
G
=
lg
−1
⎜ ⎜
k i =1
fi lg X i
k
⎟⎞ ⎟ ⎟
∑ ⎜
⎝
fi
i =1
⎟ ⎠
(4)
5
3. 中位数(median) 适合于表达任何分布类型的定量数据的平均水平 或中心位置。但是下面几种情况必须使用中位数:开口资料(即无 最大值或无最小值的资料),偏态分布,有特异点资料和分布类型 不明确的资料。一般用M表示。中位数是将原始数据由小到大排列 后,位置居中的数即是中位数。对于原始资料和频数分布表资料, 其计算公式分别为(5)和(6)。
数一般用μ表示。其计算公式为:
n
当小样本时,用直接法:
∑ Xi
X = i=1
n
(1)
k
∑ fi Xi
X
=
i =1 k
当大样本时,用加权法:
∑ fi
i =1
(2)
注意:公式(1)和(2)分别适用于原始资料和频数分布表资料。
¾ 统计描述指标
研究资料的类型不同,所选用的描述性指标也是有所不一样的,对于定量 资料,一般分别用平均数(average)来描述其集中趋势,采用变异指标来描 述其离散水平;对于定性资料,通常采用相对数来进行描述。
概述
统计学 Statistics 是关于数据收集、表达和
分析的普遍原理和方法的数学分支
医学统计学 Medical statistics 是运用概率论
与数理统计的原理及方法,结合医学实际,研究数据资 料的收集、整理分析与推断的一门学科
1
¾ 医学统计学的基本内容
统计研究设计 专业设计与统计学设计相结合
2. 标准差(standard deviation) 适合于反映对称分布资料的离散趋势。 样本标准差用S表示,总体标准差用σ 表示。其计算公式分别为:
( ) ∑n X i − X 2
S = i=1 n −1
(9)
σ=
n
∑ (X i − μ )2
i =1
N
(10)
3. 方差(variance) 是标准差的平方,也称均方(mean square, MS)
¾ 数据类型
处理因素 反应变量 预后因素
2
变量分类
用于表示每个观察单位变异性的特征,称为变量(variable), 研究者一般通过测量或观察而得到其变量值 (value of variable),由变量值组成资料(data)。按变量的类 型医学资料一般分为三大类,即数值变量资料 (numerical variable data);分类变量资料 (categorical variable data),根据分类结果之间是否有 序可以进一步分为无序分类变量资料 (unordered categorical variable data) 和有序分类变量资料(ordinal categorical variable data)。
(6)
式(6)中,Lm表示中位数所在组的下限值,i表示中位数所在组的组距,fm
表Leabharlann Baidu中位数所在组的频数,n样本含量,C表示小于Lm的累计频数。
在临床试验研究中,常因病人失访或意外死亡等原因,造成所收集 的资料信息不全,称之为不完全资料或截尾资料就是其特例。在描 述其有关指标的平均水平时就该选择中位数。
9 有序分类变量资料
有序分类变量资料又称为等级资料(ranked ordinal data) 或半定量资料(semi-quantitative data),是将观察单 位按照某种属性的不同程度分为若干等级分组计数汇总 而得的资料,其变量值具有半定量性质,表现为等级大 小或属性程度。它是介于数值变量资料和无序分类变量 资料之间的一种资料类型。如观察某药治疗某病的疗 效,以每名患者为观察单位,结果可分为治愈、显效、 好转、无效和死亡等;观察某人群某血清反应,以人为 观察单位,根据反应强度,结果可以分为-、±、+、++、 +++和++++等。
3
以上三种资料类型在一定条件下可以相互转化,如用血压 计直接测量得到的数值变量资料,单位为;若按其血压是 否正常分,整理得到的资料是无序分类变量资料;若根据 95%临床参考值将测得的血压分为:偏高、正常和偏低, 整理得到的资料就是有序分类变量资料。但是,反过来, 则不可以,例如性别是无序分类变量资料,在处理数据 时,可以赋值为:男=1,女=0,这样主要是为了处理数据 方便或有关的统计软件所要求的形式,其实它就起到符号 的作用,不能在此基础上计算有关的统计量。
1− r2 n−2
( ) SCV =
CV2 1+2CV2 2n
(13) (14)
7
5.分位数间距(centile range) 即同一组资料中的两个分位数之差。具体 地说,有四分位数间距、十分位数间距和百分位数间距等,其中四分 位数间距用得最多。可以反映偏态分布资料的离散水平。
6.变异系数(coefficient of variation) 是不受单位影响的一种变异指 标,通常用CV表示。特别适用于下列两种场合下比较两组或两组以上 定量资料间变异程度的大小。一是单位不同的资料;二是均数相差较 大的资料。其计算公式为: CV = S ×100% (15) X
9 数值变量资料
数值变量资料也称为计量资料(measurement data) 或定量资料(quantitative data),是为测定每个观察 单位某项指标的大小而获得的资料,其变量值是定量 的,表现为数值大小,一般有度量衡单位。如2000年 全国学生体质健康调查中,学生年龄(岁)、身高 (cm)、体重(kg)、体重指数()等指标均属数值变 量资料。
6
变异指标
变异(variation)指标是反映一组同质的定量数据离散(或变异)程 度的指标。常用的有极差、标准差、方差、标准误差、四分位数间 距和变异系数等。 1.极差(range)也称全距 是一组同质定量资料的最大值与最小值 之差。通常用R表示。粗略地描述定量资料的离散趋势,但是他受 极端值的影响很大,稳定性差,故应用得比较少。
医学研究中常用的数据统计方法
浙江大学流行病学教学组 金明娟
概述 研究结果的统计描述方法 统计推断的常用方法 病因的因果联系及其判断 常用的统计软件
主要介绍医学科研中不同性质的实验结果资料(计量、 计数、等级资料)的统计描述方法、常用的统计推断 方法、相关分析方法、常用的多元统计分析方法以及 常用统计软件 重点解决医学科研中最为常用的统计分析方法、技术 和有关软件的实际应用问题
9 无序分类变量资料
无序分类变量资料又称为计数资料(counting data), 是将观察单位按照某种属性或类别进行分组计数汇总 而得的资料,其变量值是定性的,表现为互不相容的 属性或类别。如观察治疗的疗效为有效或无效,病人 的性别(男性或女性),血型(A、B、AB或O),疾 病家族史的有无等等。
通过给出一组资料的若干个分位数,可以初步描述该组资料 分布情况。在实际科研工作中,用P50可以描述偏态分布资料的 集中趋势,用四分位数间距(quartile range), QR = Q3 − Q1 来评 价偏态分布资料的离散趋势。常用百分位数法确定服从偏态分布 资料的医学指标的临床参考值范围。
8
2.百分位数(percentile)的计算 首先将原始数据整理成频数分布 表,接着找出PX所在组。然后按式(16)计算。
一般情况下,能够得到什么类型的资料,就选用相应的 统计分析方法来分析,不要进行资料的降级处理(即数 值变量资料转化为无序分类变量资料,甚至有序分类变 量资料;或无序分类变量资料转化成有序分类变量资 料),否则,可能会由于信息量减小而降低统计效能。
需要特别强调的是,选择什么调查表也是医学科研设计 中必须考虑的问题。为了保证软指标测量结果的可比 性,应选用本专业领域公认的量表,而不要轻易使用没 有信度和效度检验的量表。不管选用什么调查表或是自 己根据课题来设计调查问卷,对其在本研究中使用的信 度和效度都有必要进行检验,有关信度和效度的评价方 法见相关统计参考书。
同理,还有第2、第3四分位数,分别记为Q2和Q3;若小于或 等于此分位数的观测值个数占全部观测值个数的比例为1/10,则称 该分位数为第1十分位数,记D1,同理,还有第2、第3、…、第9 十分位数,分别记为D2、D3、…、D9;若小于或等于此分位数的 观测值个数占全部观测值个数的比例为1/100,则称该分位数为第 1百分位数,记P1,同理,还有第2、第3、…、第99百分位数,分 别记为P2、P3、…、P99。
4. 调和平均数(harmonic mean) 适用于表达多数数据比较接近且
数值比较小,个别数据特别大,呈极严重的正偏态分布资料的平
均水平或中心位置。通常用H表示。对于原始资料和频数分布表
资料,其计算公式分别为(7)和(8)。
∑ 当小样本时,用直接法: H =
n n1
X i=1 i
当大样本时,可用式(8):
总体指标的估计 样本到总体
假设检验
根据样本是否支持所作的假设决定是否接受假设
联系、分析、鉴别与预测等研究
¾ 三方面的应用
以正确的方式收集数据,如实验设计、调查设计等 描述数据的统计特征 即统计学描述 统计分析及得出正确结论 即统计推断
研究结果的统计描述方法
数据类型 试验结果的统计描述 统计描述指标 参数估计 统计表 统计图
集中趋势 ① 算术平均数 ② 几何均数 ③ 中位数与百分位数 ④ 调和平均数 ⑤ 众数
2. 几何平均数(geometric mean) 适合于表达呈对数正态分布(即资
料取对数后服从正态分布)资料的平均水平或中心位置。几何均数
一般用G表示。对于原始资料和频数分布表资料,其计算公式分别
为5-3和5-4。
分位数
分位数是一种位置指标。通过给出一组资料的是描述偏态分布资 料的分布情况和离散趋势的指标。 1.分位数的种类、概念和应用 分位数有四分位数、十分位数和百分 位数三种。一个特定的分位数将任何一个频数分布曲线下的面积(其 数值为1)分为两部分,若小于或等于此分位数的观测值个数占全部 观测值个数的比例为1/4,则称该分位数为第1四分位数,记Q1,
9 软指标的测量
在医学测量指标中,可以精确测量的评价指标,如 身高、体重、收缩压、心率、血糖等,称为硬指 标;有些疗效评价指标不能精确测量的,如患者的 疼痛程度、生活能力改善情况、职工的工作压力大 小和工作超负荷等,称为软指标。硬指标一般由尺、 体重计、血压计等各种医疗检测设备测量而得到; 软指标一般有调查表或调查问卷等形式而获得。广 义的调查问卷包括记录一般调查对象基本情况和各 种测量结果的调查表;狭义的调查问卷指专门用于 测量患者行为能力、情绪、主观感受、生存质量的 测量量表。