专题2:线性判别分析、诊断的敏感度、特异度及ROC曲线的绘制
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题2:线性判别分析、诊断的敏感度、特异度及ROC曲线的绘制
一、判别分析
判别分析是利用已知类别的样本建立判别模型,对未知类别的样本判别的一种统计方法。进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
判别函数一般形式是:Y = a1X1+a2X2+a3X3...+a n X n
其中: Y 为判别分数(判别值);X1,X2,X3:⋯X n 为反映研究对象特征的变量,a1、a2、
a3⋯a n 为各变量的系数,也称判别系数。SPSS 对于分为m类的研究对象,建立m-1个线性判别函数。对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。或者计算属于各类的概率,从而判断该个体属于哪—类。
例如:脂肪肝与健康人的判别分析
SPSS中的操作:分析——分类——判别,在判别分析对话框中将是否患有脂肪肝选入“分类变量”点击定义范围最小值输入0,最大值输入1。之后将所有质量数变量选入“自变量”,选择“使用步进方法进入”(根据自变量对判别贡献的大小进行逐步选择)点击“分类”按钮,在输出选择“不考虑该个案的分类”进行互交式检验。点击“保存”按钮,选择“判别得分”,方可画出ROC曲线。其他选项默认即可。
输出结果如下:
输入的/删除的变量a,b,c,d
步骤
输入的Wilks 的Lambda
统计量
精确 F
统计量df1 df2 Sig.
1 v55 .935 1 1 896.000 62.707 1 896.000 .000
2 v59 .898 2 1 896.000 51.005 2 895.000 .000
3 v42 .862 3 1 896.000 47.685 3 894.000 .000
4 v33 .844 4 1 896.000 41.144 4 893.000 .000
5 v89 .827 5 1 896.000 37.440 5 892.000 .000
6 v11
7 .819 6 1 896.000 32.81
8 6 891.000 .000
7 v86 .811 7 1 896.000 29.707 7 890.000 .000
8 v112 .806 8 1 896.000 26.819 8 889.000 .000
9 v23 .802 9 1 896.000 24.419 9 888.000 .000 在每个步骤中,输入了最小化整体Wilk 的Lambda 的变量。
a. 步骤的最大数目是200。
b. 要输入的最小偏F 是3.84。
c. 要删除的最大偏F 是2.71。
d. F 级、容差或VIN 不足以进行进一步计算。
标准化的典型判别式函数系数
函数
1
v23 .159
v33 -.359
v42 .439
v55 .601
v59 -.474
v86 .227
v89 .314
v112 -.185
v117 .230
分类结果b,c
是否患有脂肪肝预测组成员
0 1
合计
初始计数0 306 119 425
1 170 303 473
% 0 72.0 28.0 100.0
1 35.9 64.1 100.0 交叉验证a计数0 304 121 425
1 174 299 473
% 0 71.5 28.5 100.0
1 36.8 63.
2 100.0
a. 仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b. 已对初始分组案例中的 67.8% 个进行了正确分类。
c. 已对交叉验证分组案例中的 67.1% 个进行了正确分类。
二、敏感度与特异度
敏感度和特异度是用来说明诊断性试验准确性的两个常用指标。诊断性试验的敏感度越高,漏诊率越低。特异性高的诊断性试验的阳性结果对诊断更有意义。特异度越高,误诊的比例越低。
敏感度(sensitivity)又称真阳性率,即实际有病而按该筛检实验的标准被正确判断为有病的百分比。它反映筛检实验发现病人的能力。
特异度(specificity)又称真阴性率,即实际无病按该诊断标准被正确地判断为无病的百分比。它反映筛检实验确定非病人的能力。
阳性预测值(Positive Predictive Value,PPV)指筛检实验阳性者不患目标疾病的可能性。
阴性预测值(Negative Predictive Value,NPV)指筛检实验阴性者患目标疾病的可能性。
预测
1 0 合计
实际 1 True Positive(TP) False Negative(FN) Actual Positive(TP+FN)
0 Fasle Positive(FP) True Negative(TN) Actual Negative(FP+TN) 合计Predicted Positive(TP+FP) Predicted Negative (FN+TN) TP+FP+FN+TN
呼气测试结果
脂肪肝健康合计
B超结果脂肪肝331 142 473 Sensitivity=TP/(TP+FN)
=70%
健康100 325 425 Specificity=TN/(FP+TN)
=76%
合计431 467 898
PPV=TP/(TP+FP)
=77%
NPV=TN/(FN+TN)
=70%
以上结果来自于线性判别分析
三、ROC曲线
ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。Youden指数则为灵敏度与特异度两者之和减一。AUC(Area under the curv)曲线下方的面积,AUC的值就是处于ROC curve下方的那部分面积的大小。
ROC曲线的做法
SPSS中:分析——ROC曲线图——将判别得分选入检验变量,后将“是否患有脂肪肝”作为状态变量,将状态值选为1.其他默认即可。