医学研究中的数据描述与结果报告
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E E 注: 对于定性指标在数据库中可以有两种记录方式, 既可以用文字记录, 也可以用数字记录, 一般情况下常用各分类的数值代码进行记录。
+, 入组前试验组体重分布; ,, 入组前试验组睾酮水平分布。 图 !" 计量资料的统计描述— — —直方图
+, 两组入组时体重比较; ,, 试验组治疗前后睾酮水平比较。 图 #" 计量资料的统计描述— — —箱须图
标准差, 那么血浆值的 !"# 范围就是 $ "% & !"% ’( ) * [ +"% $ ( ,"% - ,"% ). $ "% ; +"% ( ,"% - ,"% ). !"% ] , 但是血浆值为 负是不符合实际的, 这就说明它不服从正态分布。另外也可 根据中位数和均数的差值粗略地判断资料的偏度: 差值越 大, 说明资料的偏度越大。在正态分布中, 均数和中位数是 近似相等的。当均数大于中位数时, 资料是 “ 右偏态的” ,当 均数小于中位数时, 资料是 “ 左偏态的” 。如果资料是明显的 非正态分布, 则不应当采用均数和标准差对其进行描述, 尽 管那样做在数学方法上来说是可行的, 但是会使得读者对分 布不能正确理解。中位数 ( 第 "% 百分位数) 和四分位数间距 ( 第 ," 百分位数和第 /" 百分位数之间的间距) 由于不受极 端值的影响, 更适合描述非正态分布资料。例如: 入组时试 验组的睾酮水平测定的中位 数 是 0,12 % , 四分位数间距是 3+2 1 & ,4%2 1 , 则可用中位数 ( 四分位数间距) [ 56789: ( !" ) ] 表示其分布特征。 当试验样本量较大时, 计量资料一般近似地服从正态分 布。所以, 研究报告中常用标准差来描述观测数据围绕样本 均数的变异情况。有时, 当标准差较大时, 有些研究者会错 误地把比标准差小的标准误 ( ;<9:79=7 6==>=, #$ ) 当成描述数 $ 据变异的指标, 认为这样可以得到更小的数据变异。例如, 0%% 例男子体重的样本均数是 /, ?(, 标准差是 1 ?(, 假设其 的人体重在 4+ & 服从正态分布, 那么大约三分之二 ( 41# ) 1% ?( 之间。这里使用均数和标准差准确地描述了男子体重 的分布, 体重的样本均数值 /, ?( 也是对样本来自的总体的 当 # . 1 ?(, 男子体重均数的最佳估计。利用公式 # $ %, $. ; ) ! % . 0%% 时, #$ 说 明 如 果 从 同 一 总 体 中 重 复 抽 样 0%% $ . %2 1 , 次, 大约有三分之二 ( 41# ) 的样本均数在 /02 , & /,2 1 ?( 之 间 ( 均数估计值 @ 0 倍标准误的范围) 。对均数估计值及其 精度的描述是样本均数及其 !"# 可信区间 ( 样本均数 @ , 倍 标准误的范围) , 此例表示为 “ 平均体重是 /, ?( ( !"# &’ . /%2 + & /32 4 ?() ” , 即从同一总体中重复抽样 0%% 次, 大约有 !"# 样本均数在 /%2 + & /32 4 ?( 之间。由此可见, 均数 @ 标 准误是对总体均数估计值的精度的测量, 不是计量指标的统 计描述指标。 当被研究的两组观察指标单位不同 ( 如表 0 资料中身高 A’ 与体重 ?( ) 或两均数相差较大 ( 如儿童身高与成人身高) 时, 由于资料的数量级不同, 波动的范围也不同, 因此, 仅仅 通过标准差的大小来比较样本间的变异是欠妥的。此时应 考虑把均数和标准差结合起来, 变异系数 ( A>6BB8A86:< >B C9=89D &() 即是这样的一个指标。变异系数是标准差占均数的 <8>:, 百分比, 因此, 它反应的变异是和均数相关的。例如均数是 0, , 标准差是 3 , 则变异系数为 ,"# 。变异系数越小, 表示该 指标的变异越小, 其测量精度也越高。当比较多个不同单位 的定量指标变异程度时, 最好采用变异系数, 因为它是没有 单位的百分数, 便于相互之间的比较。例如, 某个诊断试验 是测量影像的范围, 以平方毫米 ( ’’, ) 为单位, 另一个试验 是测量放射性追踪, 以毫米 ) 分 ( ’’ ) ’8: ) 为单位。这两种测 量资料之间的变异可以通过变异系数来比较。 !" !# 分类资料的统计描述
北
京
大
学
学
报 (
医
学
版
)
NGO&P*Q GR 87S9PT OP9U7&>9VW ( H7*QVH >X97PX7>) ! U6@Y $’! P6Y "! R3?Y /##,
・ "#(・
・讲座・
医学研究中的数据描述与结果报告
姚! 晨
( 北京大学第一医院医学统计室,北京! "###$% ) [ 关键词] 统计学, 医学; 数据说明, 统计; 数学计算 [ 中图分类号]&"’() "! ! [ 文献标识码]*! ! [ 文章编号]"+,"-"+,. ( /##, ) #"-#"#(-#( 研究者除按照既定的研究设计方案 ! ! 在医学研究过程中, 进行实验观察外, 还要认真记录实验过程中产生的各种实验 的数据, 以便在实验结束时进行统计分析。所记录实验数据 应能充分体现实验研究设计中的三个基本要素, 至少要包含 能反映实验因素水平、 实验单位特征和实验效应等指标的数 据。所谓实验因素水平就包括实验的分组因素, 是研究者根 据试验目的施加的干预 ( 012345312061 ) 状态, 即试验分组。如 果是随机盲法设计, 一般试验分组的记录主要是用随机编 码, 在揭盲后才有具体分组数据。所谓实验单位特征指标既 包括生理特征数据, 如实验动物 ( 人) 的性别、 年龄、 体重等指 标, 又包括与动物模型或患者疾病特征相关的数据, 如体检 观察指标、 实验室检验指标等。而实验效应指标往往是医学 研究重点关注的指标, 是指施加干预后的研究对象的生物反 应, 如是否治愈、 是否死亡、 红细胞计数、 血压值等。 研究者在实验过程中所记录的数据往往是按实验对象 的不同观察指标记录的, 为了便于数据的统计分析, 一般需 将观察到的实验数据建立数据库, 然后借助统计分析软件对 不同类型的数据采用不同的统计描述方法进行必要的整理, 从中找出隐藏在其中的统计规律和统计特征。 !" 研究结果的数据类型 任何实验结果必须转变为数据后才能进行统计分析, 医 学研究中绝大多数研究结果可用一种统一的数据结构表达。 如表 " 是某临床医生在评价某药物治疗男性性腺机能减退 症时采用随机双盲安慰剂平行对照临床试验方案记录的部 分受试者临床资料的数据结构。目前医学研究中常用的数 据库工具软件 ( 789:;2;, *<<3== 等) 和统计分析软件 ( >8>>, >*> 等) 均以这种形式作为数据录入的基本格式。在这种数 据方阵中每一行称为一个记录或一个观察单位; 每一列称为 一个字段或一个变量, 用于表示观察项目或观察指标, 常用 的数据库变量类型有数值型变量、 字符型变量和时间变量 等。 研究者在对每个观察单位的某项特征进行观察或测量 时, 由于这些特征能表现观察单位的变异性, 所以在统计学 中常常将各种观察指标称为变量 ( 5;40;?@3 ) , 对变量的观测 值称为变量值 ( 5;@A3 6B 5;40;?@3 ) 或观察值 ( 6?=3453: 5;@A3 ) , 由变量值构成数据资料 ( :;2; ) 。生物医学研究中的数据常 常是复杂的, 其类型通常划分为计量资料 ( C3;=A43C312 :;2;) 和分类资料 ( <6A12 :;2;) 两大类。所谓计量资料是定量指标 用专用仪器的测量结果, 并有计量单位, 如身高 ( <C ) 、 体重 等。而分类资料则是对定性指标观察的结果, 有二分类 ( DE) 和多分类两种情况。二分类观察结果只有两种相互对立的 属性, 如 “ 阳性” 或 “ 阴性” 、 “ 男性” 或 “ 女性” 、 “ 正常” 或 “异 常” 等。多分类的定性观察结果有两种以上互不包含的属 性, 如受试者的血型有 “ *, F, *F 和 G 型” 四种分类, 其临床 表现出来的全身乏力症状可记录为 “ 无、 有时、 经常和总是” 四种分类, 这两个指标虽均为多分类的定性指标, 但后者有 症状发生程度大小之分, 所以有时也称为等级分类资料。 统计分析方法的选用, 是与数据资料类型密切联系的。 在资料分析中, 根据需要在有关专业理论指导下, 两类资料 间可以互相转化, 以满足不同统计分析方法的要求。例如, 以人为观察单位测量某人舒张压 ( CC HE ) , 属计量资料, 若 根据医学专业理论, 定义舒张压在 +# I ’# CC HE 为正常, J +# CC HE或 K ’# CC HE 为异常, 按 “ 正常” 与 “ 异常” 两种 属性记录则属分类资料。研究者在建立数据库时, 为了数据 录入和分析方便常常也将分类资料用数值表示分类属性, 称 为资料量化, 这时的数据资料看似是计量资料, 但由于无计 量单位, 仍属分类数据, 只是在分类属性满足等级分类时, 可 将此数据作为计量数据进行统计分析。 当我们不能精确地测量一个观测, 而仅知道这个观测是 超过一定的阈值时, 就称这个观测被删失, 其数据被称为删 失或截尾数据。医学研究中最常见的删失数据存在于临床 随访研究中, 即在随访某一事先定义的终点事件 ( 如患者的 死亡) 时, 终点事件发生的时间长度数据经常因为对某些患 者的生存状态失访而无法确切记录, 或因为研究时间有限导 致研究结束时患者的某一终点事件还没有被观察到, 这时的 时间数据常常需用另一个变量加以定义, 即是否属删失或截 尾数据。 #" 研究资料的统计描述 #$ !" 计量资料的统计描述 计量资料所得数据呈连续性分布, 这种数据分布可以通 过集中趋势和离散程度来描述。描述数据集中趋势的统计 指标有均数 ( L3;1) 、 中位数 ( L3:0;1) 和众数 ( L6:3) ; 描述分 布离散程度的统计指标有标准差 ( =2;1:;4: :350;2061, !) 、 极差 ( &;1E3, ") 和四分位数间距 ( MA;420@3 4;1E3, #") 。另外, 也可
倍标准差, 886 的分布范围是均数 F A 倍标准差。当标准差 超过均数的 *C = 倍的时候, 资料一般是非正态的 ( 假设数据 不可能为负值) , 应当采用中位数和四分位数间距来描述数 据特征较为合理。如 “ 血浆值为 ( >=5 F 9=5 ) )& ; < ( 均数 F 标 准差) ” , 根据定义可知, 正态资料的 8=6 范围是均数 F 两倍
步统计描述分析 ( 图 9) 。箱须图中上、 下 9 个小圆代表最 大、 最小值, 上、 下 9 条线为第 88 、 第 * 百分位数的取值, 中间 那个矩形的上、 下底为上、 下四分位数值, 最中间的那根线为 中位数的取值。如果矩形的中线在上下两条线的中间, 表示 资料呈正态分布, 否则是偏态分布。如体重呈近似正态分布 ( 图 9+) , 而睾酮水平呈明显的非正态分布 ( 图 9,) 。
( 岁)( :))( 3&) 55* 试验组 => *?8 @5 559 试验组 55A 安慰剂 55> 安慰剂 55= 安慰剂 55? 试验组 … *>5 安慰剂 *>* 安慰剂 *>9 试验组 *>A 试验组 *>> 试验组 *8 9* ?9 ?? 9? … >? 9A *8 ?9 ?5 *?> *D5 *?= *?= *D? … *?= *@9 *D@ *D5 *?> =5 >9 D5 ?9 D5 … ?5 @5 D@ @8 D5
表 !" 评价某药物治疗男性性腺机能减退症随机双盲安慰剂平行对照临床试验部分资料 随机 编号 试验 分组 人口学特征指标 年龄 身高 体重 疗效指标 治疗前睾酮 治疗后睾酮 浓度 ( !& ; <) 浓度 ( !& ; <) AB >>5 >C 8?5 5C AA8 5C =5> AC 8?A AC =A5 5C A>@ … DC =8? 9C =99 9C A@A AC >5? AB >DA *C >>5 5C >?? AC @@@ >C 999 *C 5?* … DC =DA 9C >8? 9C 899 >C 99@ >B 8?9 治疗前男性激素缺乏量表评分 全身乏力 无 无 有时 有时 有时 有时 … 有时 有时 无 有时 无 失眠 无 无 无 经常 有时 无 … 无 无 无 经常 无 食欲减退… 无… 无… 经常… 无… 无… 无… … 无… 无… 无… 有时… 无… 治疗后男性激素缺乏量表评分 全身乏力 * * * 5 * * … 5 5 5 * 5 失眠 * * 5 5 * 5 … 5 5 5 * 5 食欲减退… 5… 5… 5… 5… *… *… …… 5… 5… 5… 5… 5…
北
京
大
学
学
报 (
医
学
பைடு நூலகம்
版
)
・ *5?・
GHIJK+< HL MNOPKQ IKPRNJSPTU ( VN+<TV SWPNKWNS) E R%XC A8E K%C *E L4-C 955D
用统计图直观地表示资料的分布, 如直方图 ( !"#$%&’() ) , 图 *+ 显示患者体重分布呈现出 “ 钟型” 曲线的分布特征, 属 “近 似正态分布” 。图 *, 显示入组时睾酮水平呈明显的偏态分 布。同样的指标如果用箱须图 ( -%./(01/2!"#34’ ) 描述, 由于 能够显示出均数或中位数、 标准差或四分位数间距、 *56 7 856 的范围、 异常值等, 因此常常被首选用于计量资料的初
E E 对于计量资料的统计描述一般是将资料的集中趋势和 离散程度结合起来表达, 如常用均数 F 标准差或均数 ( 标准 差) 表示, “ F” 符号具有表示数据分布区间范围的含义。一 般情况下, 如果资料是正态分布或 “ 钟型曲线” 分布, 则 ?@6 的分布范围是均数 F * 倍标准差, 8=6 的分布范围是均数 F 9
姚E 晨E 医学研究中的数据描述与结果报告
・ 0%/ ・ 分类资料是对受试者或观察对象的每个类别的计数, 通 常用百分数或其他比值表示。例如某研究者对某地区 +% 岁 以上的 0 +41 例老年人进行了白内障患病情况普查, 结果如 表 ,。
表 !# 老年人白内障的年龄分布及患病率 年龄组 +% & * "% & 4% & /% & +1% 合计 受检 人数 "4% ++0 ,!4 0+! ,, 0+41 白内障 例数 41 0,! 03" !/ 0! ++1 患者年龄 构成比 (# ) 0"2 01 ,12 /! 3%2 03 ,02 4" +2 ,+ 0%%2 %% 患病率 (# ) 0,2 0+ ,!2 ," +"2 40 4"2 0% 142 34 3%2 ",