最新研究生统计学讲义第6讲第7章分类资料统计描述与推断PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究生统计学讲义第6讲第7章 分类资料统计描述与推断
二项分布变量的标准差用相对数(率)表示时,称为
率的标准误,总体率的标准误记为σp,样本率的标准 误记为Sp,计算公式为:
p
(1)
n
Sp p(1p)/n (9.8)
二、 Poisson分布 Poisson分布(Poisson distribution)是一种重要的离散 型分布。适用条件:① 两分类的资料;② 所考察的事 件发生率π(一般用大样本率p来估计π)很小,n很大, nπ(或np)为一不大的常数;③ 事件的发生是独立的, 如各病人的患病与否与他人无关。如人群中,对某种 物质中过敏的人数,遗传缺陷、癌症等非传染性疾病 的发病例数;又如大量产品中不合格品出现的次数; 用显微镜观察片子上每一格子内的细菌数;细胞发生 某种变化或细菌死亡的数目等等,都服从或近似服从 Poisson分布。Poisson分布可视为二项分布的特例。 Poisson分布常用于研究单位容积(或面积、时间)内稀 有事件发生数的规律。
神外
291
53
0.75
23.3
18.21
合计
2126
227
—
100.0
10.7
表 7-1的①~③栏,表9-3第①、②列,都是将分类资料的观察结果,按照 分析的要求,分类汇总统计观察单位数(频数),列出的分类资料频数分布 表。表9-2中第②、③两栏及表9-3第②列的数据都是绝对数。绝对数说明 实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比 较分析研究
(2) 进行率的对比分析时,应注意资料有可比性。除 了被研究的因素之外,其余可能影响指标的重要因素 应控制在“齐同对比”的条件下。若两组分类资料的 诊断标准或疗效判断标准不一致,则组间缺乏可比性 ;若两组资料内部构成(如病人的性别、年龄、病程 及病情等)缺乏齐同性,则两个总率也不能直接进行 比较。如果需要直接比较总率,为了消除某一混杂因 素(如年龄,职业,病性等)对观察结果的影响,可作 率的标准化处理。
5.三种分布的渐近关系 二项分布、Poisson分布和正 态分布,是三种基本的也是最重要的概率分布,它们 之间有着密切的渐近关系,若所考察的事件发生率为p, 试验次数为n,则如图9-3。
(1) 二项分布资料,当0.1< p <0.9 ( p≈0.5更好), n>50时,可用正态分布法近似计算;当p<0.1或p>0.9 ,n>50,均数μ=np<10时,可用Poisson分布法近似计 算;
3) 避免“以比代率”,“比”、“率”误用。例如 临床研究报告中,常用病人的资料来分析疾病与年龄 、性别、职业等因素的关系,所计算的相对数一般都 是构成比,不能作为率来分析。
(4) 样本率(或构成比)的比较,不能仅凭表面数值大小 下结论,应进行假设检验。
2,临床诊断试验评价方法的相对数
一项新的临床诊断试验的评价,应该是将该试 验与一种较为理想的、公认的标准诊断方法进行对 比分析而得出的结论。标准诊断亦称金标准(gold standard)指能较为准确地区分阳性与阴性的诊断方 法。临床上常以活体组织检查、手术、尸体解剖、 长期追踪观察或其他可靠的方法作为标准诊断。新 的诊断方法与金标准对比,一定要有某方面的优点 ,才能进行推广,否则予以摒弃。
(2) Poisson分布资料,当均数μ≥20时,可用正态分 布法近似计算。
第一节 分类资料的统计描述
相对数
分类资料的统计描述除用频数表示外,更多是用 相对数(relative number)。如表7-1的①~③栏,表7-1 第①、②列,都是将分类资料的观察结果,按照分析 的要求,分类汇总统计观察单位数(频数),列出的分类 资料频数分布表。表7-1中第②、③两栏及表7-1第②列 的数据都是绝对数。绝对数说明实际发生的绝对水平 ,是统计分析的基础。但仅使用绝对数,不能进行比 较分析研究,故常计算两个有联系的指标之比,统称 为相对数。常用相对数有比、构成比和率。
真阴性数 (TN=d) b+d=FP+TN
c+d=FN+TN a+b+c+d
⑴ 敏感度(Sesitivity,Se):敏感度即真阳性率(true
positive rate ,TPR),是指实为阳性时该试验诊断为阳
性的比例,表示该试验具有正确地识别阳性的能力。
按照金标准确定阳性的病例数为(a+c),用诊断性试
同,也可以是性质不相同。例如,变异系数CV= (标 准差 / 均数)×100%,就是一个相对比。
习惯上,若甲指标大于乙指标,相对比的结果用 倍数表示;若甲指标小于乙指标,相对比的结果用 百分数表示。如表9-2第④栏中,各病区与普外病区 院内感染发生数之比分别为69/71,34/71,53/71, 即0.97,0.48,0.75。说明各病区院内感染发生数 分别为普外病区的97%,48%,75% 。又如,我国最 早的古典医籍《五十二病方》载药240种,
表7-1 某年某医院外科病区院内感染发生数及其相对数
病区 ①
普外
调查 人数
②
808
院内感染 发生数 ③
71
各病区与普外病区 院内感染发生数之比
④
—
各病区院内感染 发生数构成(%)
⑤
31.3
各病区院内 感染率(%)
⑥
8.79
胸外
528
69
0.97
30.4
13.07
骨外
499
34
0.48
15.0
6.81
敏感度Se和特异度Sp从正面说明诊断实验的效 能,诊断效率DE则综合说明诊断实验的效能。
⑷ 预断值(predictive value):预断值是指试验结果提示 本病存在或不存在的可能性。分为阳性预断值与阴性预 断值。
阳性预断值PPV(%)=[a / (a+b)]×100% (9.9) 阴性预断值NPV(%)= [d / (c+d)]×100% (9.10)
1.定义 若随机变量 X 的概率函数为
P(x)x e (x=0,1,2,…,)
(9.9)
x!
参数λ系Poisson分布的总体均数(即数学期望)μ,μ=λ。
2.Poisson分布的均数、方差 Poisson分布的总体均数μ=λ= nπ,相应的样本均数=
n p , 式中π为稀有事件发生的概率(π很小),π未知时 ,用大样本率 p 来估计π。
1.诊ห้องสมุดไป่ตู้试验评价中四格表资料的相对数 下面用表9-4的模式,作为诊断试验收集整理
出的四格表(four-fold table)资料,介绍诊断试验评 价中四格表资料的相对数及其计算公式。
诊断试 验 阳性
阴性
合计
金标准 阳性
阴性
合计
真阳性数(TP=a)
假阳性数(FP=b) a+b=TP+FP
假阴性数(FN=c) a+c=TP+FN
发展到明代李时珍集古代医药之大成的科学巨著《本 草纲目》,载药已达1892种,相对比1892 / 240=7.88,说明《本草纲目》载药为《五十二病方》 载药的7.88倍 。
2.构成比(constituent ratio) 又称构成指标。说明某 事物内部各组成部分在该事物整体中所占的比重或分 布,如说明药物的成份构成,或疾病的死因构成、年 龄别构成、性别构成、职业构成等,常以百分数表示 ,计算公式为:
验确定的阳性病例数为a,敏感度Se为
Se
(%)=TPR
=
a 10% 0 ac
(9.4)
⑵ 特异度(specificity,Sp):特异度即真阴性率(true
positive rate ,TNR),是指实为阴性时该试验诊断阴性
的比例,表示该试验具有正确地识别阴性的能力。按
照金标准排除的病例数为(b+d),用诊断试验所排除的
式中的100%或1000‰…为比例基数。选择依据: ①习惯,如有效率、感染率、治愈率、病死率习惯 用百分率表示;出生率、死亡率习惯用千分率表示 。②使算得的率至少保留一、二位整数,如恶性肿 瘤的死亡率多采用十万分率表示。
4.率的标准误 类似于均数的抽样误差,在抽样研究 中所获得的样本率与总体率也存着率的抽样误差。表 示率抽样误差大小的统计指标称为率的标准误 (standard of rate)。由于总体率和总体率的标准误一 般未知,常用样本率p来估计总体率π,用样本率的标 准误sp来估计总体率的标准误:
表9-3 75例更年期综合症辨证分型观察
证型
例数
构成比(%)
肝脾血虚、肝郁化热 心虚肝郁、神不守舍 肝肾阴虚、肝阳偏元 脾肾阳虚、水湿不化
合计
20 7 26.67 35 9.33 13 46.67
17.33
75
100.00
1,常用相对数
1.比(ratio) 亦称相对比(relative ratio),是两 个有关指标之比,是说明两对比水平的指标。对比的 数量可以是绝对数、相对数或平均数,可以是性质相
构成比 同某 一一 事组 物成 各部 组 察分 成 位 单的 部 数 位观 分 总 1察 0观 % 数 0单
3.率(rate) 又称频率指标,它指一定条件下某现象 发生的频率或强度。如说明治疗的有效率、疾病的病 死率等。常用符号π表示总体率,而用符号p表示样本 率。率的计算公式为:
率可 某能 现发 象生 实该 际现 发数 象 生 1的 的 0% 0总 例 或 ( 1例 数 000
⑸ 患病率(prevalence):患病率为被检人群中,确诊病
例的比值。
患病率=[(a+c)] / (a+b+c+d)]
(9.11)
⑹诊断指数(diagnostic index,DI):诊断指数是敏感
性与特异性的总和,反应诊断试验的有效程度,故
诊断指数 DI(%) = Se +Sp
(9.12)
诊断指数DI值越大,诊断试验的应用价值也越大,
(1) 计算相对数的分母不宜过小。观察单位数够多时, 计算出的相对数较稳定, 可以正确反映实际情况。但观 察单位过少即分母过小时,计算出来的相对数不稳定, 这时最好直接用绝对数表示 ;必须用相对数时,应同时 列出其可信区间。但动物实验可例外, 因动物实验可以 周密设计 , 精选对象 , 严格控制实验条件 , 例如有的毒 理实验 , 每组用10只小白鼠也可以观察反应率或死亡率。
当DI≤100%,这种试验应淘汰。
⑺ 漏诊率(false negative rate,FNR):漏诊率FNR即 假阴性率β。
漏诊率FNR =[c / (a+c)]×100% =1-Se (9.13)
c / (a+c) +a / (a+c) = (a+c) / (a+c) = 1,可知漏诊率 与敏感度互补。在统计学上,将假阴性的概率以β表 示,1-β=把握度,从诊断性试验来看,可认为
式(9.10)的意思是:稀有事件在n(n很大)次试验中平 均发生nπ次(π未知时,用大样本率 p 来估计π)。
Poisson分布的方差 = 均数 3.Poisson分布的分布函数为
P(Xx) x ke k0 k!
(9.10)
4.Poisson分布具有可加性 如果相互独立的 k 个随机 变量都服从Poisson分布,则它们之和仍服从Poisson 分布,且均数为 k 个随机变量的均数之和。如果以较 小的度量单位观察某一现象的发生数呈Poisson分布时, 把若干个小单位合并为一个大单位后,总计数亦呈
病例数为d,特异度Sp为
Sp (%)=TNR = d 10% 0 (9.6) bd
⑶ 诊断效率(diagnostic efficiency,DE):诊断效率即 该试验诊断的准确率,是指真阳性数、真阴性数占总 例数的比例:
ad 10% 0 abcd
诊断效率DE应大于50%,且波动在50—100%范围 内。DE值愈大,临床应用价值愈好,DE小于等于 50%的试验应予废弃
Poisson分布,其均数等于以较小的度量单位时的均数 之和。例如已知某放射性物质每10分钟放射脉冲数呈 Poisson分布,5次测量的结果分别为35,34,36,38, 34次,那么50分钟的脉冲数Σx = 35 + 34 + 36 + 38 + 34 =177次,亦呈Poisson分布。Poisson分布资料常利 用可加性原理使均数μ=λ≥20,以便用正态近似法处 理。
p(1p)
sp
n
一般说来,用样本率 p 来估计总体率π时,至少 n 应大于30。
率的标准误是衡量样本率稳定性和可靠性的统计指 标,它反应率的抽样误差大小,率的标准误越小,表示 率的抽样误差越小,用以估计总体率的可靠性就越大。 反之,如果率的标准误越大,则由样本率估计总体率的 可靠性越小。
5.应用相对数时应注意的问题
二项分布变量的标准差用相对数(率)表示时,称为
率的标准误,总体率的标准误记为σp,样本率的标准 误记为Sp,计算公式为:
p
(1)
n
Sp p(1p)/n (9.8)
二、 Poisson分布 Poisson分布(Poisson distribution)是一种重要的离散 型分布。适用条件:① 两分类的资料;② 所考察的事 件发生率π(一般用大样本率p来估计π)很小,n很大, nπ(或np)为一不大的常数;③ 事件的发生是独立的, 如各病人的患病与否与他人无关。如人群中,对某种 物质中过敏的人数,遗传缺陷、癌症等非传染性疾病 的发病例数;又如大量产品中不合格品出现的次数; 用显微镜观察片子上每一格子内的细菌数;细胞发生 某种变化或细菌死亡的数目等等,都服从或近似服从 Poisson分布。Poisson分布可视为二项分布的特例。 Poisson分布常用于研究单位容积(或面积、时间)内稀 有事件发生数的规律。
神外
291
53
0.75
23.3
18.21
合计
2126
227
—
100.0
10.7
表 7-1的①~③栏,表9-3第①、②列,都是将分类资料的观察结果,按照 分析的要求,分类汇总统计观察单位数(频数),列出的分类资料频数分布 表。表9-2中第②、③两栏及表9-3第②列的数据都是绝对数。绝对数说明 实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比 较分析研究
(2) 进行率的对比分析时,应注意资料有可比性。除 了被研究的因素之外,其余可能影响指标的重要因素 应控制在“齐同对比”的条件下。若两组分类资料的 诊断标准或疗效判断标准不一致,则组间缺乏可比性 ;若两组资料内部构成(如病人的性别、年龄、病程 及病情等)缺乏齐同性,则两个总率也不能直接进行 比较。如果需要直接比较总率,为了消除某一混杂因 素(如年龄,职业,病性等)对观察结果的影响,可作 率的标准化处理。
5.三种分布的渐近关系 二项分布、Poisson分布和正 态分布,是三种基本的也是最重要的概率分布,它们 之间有着密切的渐近关系,若所考察的事件发生率为p, 试验次数为n,则如图9-3。
(1) 二项分布资料,当0.1< p <0.9 ( p≈0.5更好), n>50时,可用正态分布法近似计算;当p<0.1或p>0.9 ,n>50,均数μ=np<10时,可用Poisson分布法近似计 算;
3) 避免“以比代率”,“比”、“率”误用。例如 临床研究报告中,常用病人的资料来分析疾病与年龄 、性别、职业等因素的关系,所计算的相对数一般都 是构成比,不能作为率来分析。
(4) 样本率(或构成比)的比较,不能仅凭表面数值大小 下结论,应进行假设检验。
2,临床诊断试验评价方法的相对数
一项新的临床诊断试验的评价,应该是将该试 验与一种较为理想的、公认的标准诊断方法进行对 比分析而得出的结论。标准诊断亦称金标准(gold standard)指能较为准确地区分阳性与阴性的诊断方 法。临床上常以活体组织检查、手术、尸体解剖、 长期追踪观察或其他可靠的方法作为标准诊断。新 的诊断方法与金标准对比,一定要有某方面的优点 ,才能进行推广,否则予以摒弃。
(2) Poisson分布资料,当均数μ≥20时,可用正态分 布法近似计算。
第一节 分类资料的统计描述
相对数
分类资料的统计描述除用频数表示外,更多是用 相对数(relative number)。如表7-1的①~③栏,表7-1 第①、②列,都是将分类资料的观察结果,按照分析 的要求,分类汇总统计观察单位数(频数),列出的分类 资料频数分布表。表7-1中第②、③两栏及表7-1第②列 的数据都是绝对数。绝对数说明实际发生的绝对水平 ,是统计分析的基础。但仅使用绝对数,不能进行比 较分析研究,故常计算两个有联系的指标之比,统称 为相对数。常用相对数有比、构成比和率。
真阴性数 (TN=d) b+d=FP+TN
c+d=FN+TN a+b+c+d
⑴ 敏感度(Sesitivity,Se):敏感度即真阳性率(true
positive rate ,TPR),是指实为阳性时该试验诊断为阳
性的比例,表示该试验具有正确地识别阳性的能力。
按照金标准确定阳性的病例数为(a+c),用诊断性试
同,也可以是性质不相同。例如,变异系数CV= (标 准差 / 均数)×100%,就是一个相对比。
习惯上,若甲指标大于乙指标,相对比的结果用 倍数表示;若甲指标小于乙指标,相对比的结果用 百分数表示。如表9-2第④栏中,各病区与普外病区 院内感染发生数之比分别为69/71,34/71,53/71, 即0.97,0.48,0.75。说明各病区院内感染发生数 分别为普外病区的97%,48%,75% 。又如,我国最 早的古典医籍《五十二病方》载药240种,
表7-1 某年某医院外科病区院内感染发生数及其相对数
病区 ①
普外
调查 人数
②
808
院内感染 发生数 ③
71
各病区与普外病区 院内感染发生数之比
④
—
各病区院内感染 发生数构成(%)
⑤
31.3
各病区院内 感染率(%)
⑥
8.79
胸外
528
69
0.97
30.4
13.07
骨外
499
34
0.48
15.0
6.81
敏感度Se和特异度Sp从正面说明诊断实验的效 能,诊断效率DE则综合说明诊断实验的效能。
⑷ 预断值(predictive value):预断值是指试验结果提示 本病存在或不存在的可能性。分为阳性预断值与阴性预 断值。
阳性预断值PPV(%)=[a / (a+b)]×100% (9.9) 阴性预断值NPV(%)= [d / (c+d)]×100% (9.10)
1.定义 若随机变量 X 的概率函数为
P(x)x e (x=0,1,2,…,)
(9.9)
x!
参数λ系Poisson分布的总体均数(即数学期望)μ,μ=λ。
2.Poisson分布的均数、方差 Poisson分布的总体均数μ=λ= nπ,相应的样本均数=
n p , 式中π为稀有事件发生的概率(π很小),π未知时 ,用大样本率 p 来估计π。
1.诊ห้องสมุดไป่ตู้试验评价中四格表资料的相对数 下面用表9-4的模式,作为诊断试验收集整理
出的四格表(four-fold table)资料,介绍诊断试验评 价中四格表资料的相对数及其计算公式。
诊断试 验 阳性
阴性
合计
金标准 阳性
阴性
合计
真阳性数(TP=a)
假阳性数(FP=b) a+b=TP+FP
假阴性数(FN=c) a+c=TP+FN
发展到明代李时珍集古代医药之大成的科学巨著《本 草纲目》,载药已达1892种,相对比1892 / 240=7.88,说明《本草纲目》载药为《五十二病方》 载药的7.88倍 。
2.构成比(constituent ratio) 又称构成指标。说明某 事物内部各组成部分在该事物整体中所占的比重或分 布,如说明药物的成份构成,或疾病的死因构成、年 龄别构成、性别构成、职业构成等,常以百分数表示 ,计算公式为:
验确定的阳性病例数为a,敏感度Se为
Se
(%)=TPR
=
a 10% 0 ac
(9.4)
⑵ 特异度(specificity,Sp):特异度即真阴性率(true
positive rate ,TNR),是指实为阴性时该试验诊断阴性
的比例,表示该试验具有正确地识别阴性的能力。按
照金标准排除的病例数为(b+d),用诊断试验所排除的
式中的100%或1000‰…为比例基数。选择依据: ①习惯,如有效率、感染率、治愈率、病死率习惯 用百分率表示;出生率、死亡率习惯用千分率表示 。②使算得的率至少保留一、二位整数,如恶性肿 瘤的死亡率多采用十万分率表示。
4.率的标准误 类似于均数的抽样误差,在抽样研究 中所获得的样本率与总体率也存着率的抽样误差。表 示率抽样误差大小的统计指标称为率的标准误 (standard of rate)。由于总体率和总体率的标准误一 般未知,常用样本率p来估计总体率π,用样本率的标 准误sp来估计总体率的标准误:
表9-3 75例更年期综合症辨证分型观察
证型
例数
构成比(%)
肝脾血虚、肝郁化热 心虚肝郁、神不守舍 肝肾阴虚、肝阳偏元 脾肾阳虚、水湿不化
合计
20 7 26.67 35 9.33 13 46.67
17.33
75
100.00
1,常用相对数
1.比(ratio) 亦称相对比(relative ratio),是两 个有关指标之比,是说明两对比水平的指标。对比的 数量可以是绝对数、相对数或平均数,可以是性质相
构成比 同某 一一 事组 物成 各部 组 察分 成 位 单的 部 数 位观 分 总 1察 0观 % 数 0单
3.率(rate) 又称频率指标,它指一定条件下某现象 发生的频率或强度。如说明治疗的有效率、疾病的病 死率等。常用符号π表示总体率,而用符号p表示样本 率。率的计算公式为:
率可 某能 现发 象生 实该 际现 发数 象 生 1的 的 0% 0总 例 或 ( 1例 数 000
⑸ 患病率(prevalence):患病率为被检人群中,确诊病
例的比值。
患病率=[(a+c)] / (a+b+c+d)]
(9.11)
⑹诊断指数(diagnostic index,DI):诊断指数是敏感
性与特异性的总和,反应诊断试验的有效程度,故
诊断指数 DI(%) = Se +Sp
(9.12)
诊断指数DI值越大,诊断试验的应用价值也越大,
(1) 计算相对数的分母不宜过小。观察单位数够多时, 计算出的相对数较稳定, 可以正确反映实际情况。但观 察单位过少即分母过小时,计算出来的相对数不稳定, 这时最好直接用绝对数表示 ;必须用相对数时,应同时 列出其可信区间。但动物实验可例外, 因动物实验可以 周密设计 , 精选对象 , 严格控制实验条件 , 例如有的毒 理实验 , 每组用10只小白鼠也可以观察反应率或死亡率。
当DI≤100%,这种试验应淘汰。
⑺ 漏诊率(false negative rate,FNR):漏诊率FNR即 假阴性率β。
漏诊率FNR =[c / (a+c)]×100% =1-Se (9.13)
c / (a+c) +a / (a+c) = (a+c) / (a+c) = 1,可知漏诊率 与敏感度互补。在统计学上,将假阴性的概率以β表 示,1-β=把握度,从诊断性试验来看,可认为
式(9.10)的意思是:稀有事件在n(n很大)次试验中平 均发生nπ次(π未知时,用大样本率 p 来估计π)。
Poisson分布的方差 = 均数 3.Poisson分布的分布函数为
P(Xx) x ke k0 k!
(9.10)
4.Poisson分布具有可加性 如果相互独立的 k 个随机 变量都服从Poisson分布,则它们之和仍服从Poisson 分布,且均数为 k 个随机变量的均数之和。如果以较 小的度量单位观察某一现象的发生数呈Poisson分布时, 把若干个小单位合并为一个大单位后,总计数亦呈
病例数为d,特异度Sp为
Sp (%)=TNR = d 10% 0 (9.6) bd
⑶ 诊断效率(diagnostic efficiency,DE):诊断效率即 该试验诊断的准确率,是指真阳性数、真阴性数占总 例数的比例:
ad 10% 0 abcd
诊断效率DE应大于50%,且波动在50—100%范围 内。DE值愈大,临床应用价值愈好,DE小于等于 50%的试验应予废弃
Poisson分布,其均数等于以较小的度量单位时的均数 之和。例如已知某放射性物质每10分钟放射脉冲数呈 Poisson分布,5次测量的结果分别为35,34,36,38, 34次,那么50分钟的脉冲数Σx = 35 + 34 + 36 + 38 + 34 =177次,亦呈Poisson分布。Poisson分布资料常利 用可加性原理使均数μ=λ≥20,以便用正态近似法处 理。
p(1p)
sp
n
一般说来,用样本率 p 来估计总体率π时,至少 n 应大于30。
率的标准误是衡量样本率稳定性和可靠性的统计指 标,它反应率的抽样误差大小,率的标准误越小,表示 率的抽样误差越小,用以估计总体率的可靠性就越大。 反之,如果率的标准误越大,则由样本率估计总体率的 可靠性越小。
5.应用相对数时应注意的问题