化验结果诊断模型参考答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
化验结果诊断模型
问题重述与分析
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。本题给出了人们是否患某种疾病时通常要化验的几种指标以及其检验值。表1是确诊病例的化验结果,其中1-30号病例是已经确诊为患该种疾病的化验结果;31-60号病例是已经确诊为健康人的结果。表2是某些就诊人员的化验结果,但未确诊其是否患有该种疾病。根据已知数据,需要解答如下问题:
1)问题:根据表1中的数据,提出一种简便的判别方法,判别属于患者或健康
人的方法,并检验你提出方法的正确性。
分析:
根据表1当中60个化验结果,将Zn、Cu、Fe、Ca、Mg、K、Na看成是七个指标,则前30个为该疾病患者的指标值,后30个为健康人的指标值,可以将这些数据进行标准化处理,再采用主成分分析方法,将多个指标转化为几个综合指标,当给定一个患者的各指标值时,可以算出各综合指标的得分,当这些得分满足一定条件时,如根据正负值可以判定为健康或疾病。
2)问题:按照(1)提出的方法,对表2中的15名就诊人员的化验结果进行判
别,判定他们是患该种疾病的病人还是健康人。
分析:
由(1)中已有的综合指标,根据给定的15名就诊人员的指标值计算出综合指标的得分,以此判断他们的健康状况。
3)问题:能否根据表1的数据特征,确定哪些指标是影响人们患该疾病的关键
或主要因素,以便减少化验的指标。并根据你给出的结果,重复2的工作。
分析:
为了确定哪些指标是影响该疾病的主要因素,则需要确定出哪些因素在判别中起的权重最大,可以考虑采取回归模型,通过去除一些变量,然后比较各组的显著性与正确率,正确率最高的那组中的变量即为影响该疾病的主要因素。
一、模型假设
1)假设医院化验设备先进,化验过程科学可靠,化验结果真实可信,确诊情况
(有病/健康人)符合实际。
2)在解决本题过程中,所有的化验结果只是针对该类疾病检验,并不考虑其他
疾病的影响。
3)本文所建模型的检验结果只是作为医生为病人诊断的一个参考,医生为问诊
人员作出最终判定还需考虑其他因素,但与本题求解无关。
二、 符号说明
1234567u x Zn x C x Fe x Ca x Mg x K x Na L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L 的含量的含量的含量的含量的含量的含量的含量
三、 模型建立与求解
(一) 问题一的求解:
模型一:
1、数据“标准化”
题目已给出了60为确诊病例的化验结果以及诊断结果,但是60个病例中各元素的含量的呈无规律性。所以我们需要对原始数据进行处理,首先对其进行标准化分析:
用向量X ='7654321),,,,,,(x x x x x x x 表示每个就诊人员的化验结果,则
αX ='7654321),,,,,,(αααααααx x x x x x x 表示第α病人的化验结果。将每个指
标“标准化”,即做如下变换:
7,,1,)
(var )(2
/1*
Λ=-=
j X X E X X j j j j
其中∑==n
j X X E 1
)(αα,2)]([1
1
var j j X E X n X --=
α 标准化的数据见附录一。
2、主成分分析
对标准化的数据运用SPSS 软件进行主成分分析,结果如表1、表2:
由表1可以看出,前两个主成分1y ,2y 的方差和占全部方差的比例为72.894%,我们就选取1y 为第一主成分,2y 为第二主成分,基本上保留了原来7个指标的信息,这样得到了2个新指标。
SPSS 软件得到的这成分系数矩阵如表2: 表2:
由表2得到前2个主成分1y ,2y 的线性组合为:
1y =7654321005.0206.0941.0898.0682.0852.0453.0x x x x x x x --++++ 2y =7654321904.0856.0094.0051.0195.0293.0538.0x x x x x x x ++-++-(4.1)
3、模型验证
将60个就诊人员的化验结果带入(4.1)式得到结果如表3,我们的判别标准为:第一主成分为正值表示健康,为负值表示患病。
表3
由表3可以看出,前30个就诊人员的第一主成分均为负值,判定为患病,后30个就诊人员的第一主成分大致上为正值,判定为健康,正确率为91.6667%。 (二) 问题二的求解 由模型一得到前两个主成分的线性组合为:
1y =7654321005.0206.0941.0898.0682.0852.0453.0x x x x x x x --++++ 2y =7654321904.0856.0094.0051.0195.0293.0538.0x x x x x x x ++-++-
将15名待诊人员的化验结果带入上式得:
15名待诊人员中有8名患有该疾病,7名健康。
(三)模型一的改进:
模型二:Logistic 回归模型
问题一的模型的正确率为91.6667%,因此考虑正确率更高的其他模型,且模型一中忽略了第二主成分的作用,故解释时有较大误差。以Y=0表示健康,Y=1表示不健康,考虑的因变量为一个二元变量,且只取0与1两个值,因变量取1的概率p 为要研究的对象,且771101ln
x b x b b p
p
+++=-Λ是71,,x x Λ的线性函数,故考虑采用Logistic 线性回归模型。
对附录一中的数据运用SPSS 进行Logistic 回归分析得表5:
由表5可以看出71,,x x Λ这7个变量都是显著的,因而最终的回归方程为:
)
015.0234.0021.0088.0479.1347.0489.0470.33ex p(1)015.0234.0021.0088.0479.1347.0489.0470.33ex p(76543217654321x x x x x x x x x x x x x x p +++--++++++--++=
根据以上公式,我们可以将这个模型计算出来的p 应用于实际病例的判别。只要给出某一个受检者的化验结果,就能应用此计算公式算出其患病几率,我们以0.5为参照,当p >0.5时表示该受检者患病, 当p <0.5时表示该受检者健康。具体数据如下: