疾病诊断模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D 中选择一项填写):
我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):广东商学院参赛队员(打印并签名):1. 邓思文
2. 苏境财
3. 吴妙
指导教师或指导教师组负责人(打印并签名):戴宏亮
日期:2012 年8 月18 日赛区评阅编号(由赛区组委会评阅前进行编号)
2010 高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):
全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):
疾病诊断问题
摘要
随着就医压力增加,在降低误诊率的前提下提高诊断效率是非常重要的,本文利用确诊样本数据建立判别模型,并利用模型筛选出主要元素,对就诊人员进行诊断。
针对问题(1),利用确诊数据建立Fisher判别模型、Logistic 回归模型和BP神经网络模型,运用matlab、spss求解,定出判别标准,并进行显著性检验和回代检验,判别模型的准确率。结果显示Fisher 判别模型的准确率为%,Logistic回归模型和BP神经网络模型准确率均为100%,Logistic 回归模型相对简便。
针对问题(2),选择问题一中检验准确率为100%的Logistic 回归模型和BP神经网络模型对40 名就诊人员进行诊断,结果如下表:
针对问题(3),建立Logistic 逐步回归模型对元素进行筛选,利用spss 软件求解,确定Ca和Fe 是影响人们患这种病的主要因素,因此在建立诊断模型时,其他元素不作为参考指标。
针对问题(4),筛选出主要影响因素后,将Ca和Fe作为指标建立Logistic 回归模型和BP 神经网络模型,发现两个模型的诊断结果一致,如下:
针对问题(5),对比问题二和问题四结果,发现无关元素会影响模型进行诊断的准
确率
关键词Fisher 判别模型Logistic回归模型BP神经网络模型逐步回归模型
一、问题重述
人们到医院就诊的时候,通常通过化验一些指标来协助医生诊断。医生根据化验所得的元素含量,利用某种指标,判断病人是否患病。本题给出了附录1(确诊人
数),和
附录2(待诊人数),其中附录一中1至30号是确定患病的病人,而31至60号是没有患病的健康人,要求回答以下问题:
(1)、根据附件1 中的数据,提出一种或多种简便的方法,判断属于患病者或健康人的方法,并检验你提出方法的正确性。
(2)、按照(1)提出的方法,对附件2中的40名就诊人员的化验结果进行判定他(她)是患病者还是健康人。
(3)、能否根据附件1 的数据特征,确定哪些指标是影响人们患这种病的关键或主要因素,一边减少化验的指标。
(4)、根据(3)的结果,对附件2中的40名就诊人员的化验结果进行判别,判定他(她)们是患病者还是健康人。
(5)、对(2)和(4)的结果作进一步分析。
二、问题分析
随着就医压力增大,简便的医学化验标准和方法可以大大提高医生诊断的效率。依据已确诊的病例数据特征,对就诊病例进行分类,协助医生做出准确的医疗
判断。
针对问题(1),要求利用附录1 已确诊的病例数据找出一种或多种简便的方法,判
断就诊人员患病与否。依据附录1 中60 位已确诊病例,可从患病者与健康者体内的7
种元素含量入手,即分析确诊人员的体内元素含量和患病与否的关系。因此,可构造
各种判别分析法,同时对其进行检验,再利用已知数据回代,分别计算不同判别方
法的准确率并进行比较。
针对问题(2),基于问题(1),可选择准确率最高的判定方法对附录2的
就诊人员进行病例判诊,诊断出就诊人员是否健康。
针对问题(3),问题二中两个准确的模型出现不同结果,所以可以确定存在
干扰因素,利用Logistic 逐步回归模型确定主要影响元素,提高诊断的准确率与
速度。
针对问题(4),排除无关元素,利用问题(1)中确定的模型重新建立诊断函数,对40 名就诊人员重新进行诊断。
针对问题(5),通过比较问题(2)和问题(4)元素和结果的改变,分析
影响诊断结果的因素是什么。
三、模型假设
1)假设检测数据准确无误。
2)假设确诊人员中没有误诊的情况出现。
四、符号说明
五、模型的建立与求解
问题一的求解依据检查结果,对就诊人员进行健康与否诊断的方法有多种,根据已知限制条件,本文选择其中三种判别分析模型:Fisher判别模型、二类logistic 回归判别模型以及BP 神经网络模型。同时,为了检验三种判别分析模型的准确率,我们引入一个变量P 为准确率。
1
31
5.1.1 Fisher 判别模型
5.1.1.1 Fisher 判别模型的建立与求解
将患病和健康为两个总G
1、 G
2,并且都以体内检测的 7 个元素作为其集合素。Fisher 判别主要借助方差分析的思想,利用投影,将这两个总体投影到一个方向,
建立线性判别函数,并利用判别规则,通过计算后得出检查结果属于 G
1或 G
2
(1)确定原始数据矩阵
以各元素为列向量,以就诊人员为行向量,构造关于病患和健康者的两个矩阵。
G
1
的数据矩阵为:
166 15.8 . .. 513
W
1
185
15.7 . .. 427
178 28.8 . ..
169
G
2
的数据矩阵为:
213 19.1 (168)
2
170 13.9 . ..
W 2
179 21 (330)
12
2)计算两组各元素数据的平均值。矩阵 W
1,W
2
的列平均数分布为:
X =(,, ,,,)
3)利用微分学的方法,计算系数 c
i
,i
=1,2,3,4,5,6,7
要体现出分组的两个特征:①、组间差距越大越好;②、组内差距越小越好。可得 出以下公式:
30 60 1 1 2 2 2 2 (x 1 - x 1)2 (x 2 - x 2)2
判断准确的人
数
,,,,,,)
12
(x -
x )
L (l 1,l 2,l 3,l 4,l 5,l 6,l 7 ) X