乳腺癌的诊断模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
乳腺癌的诊断模型
摘要
本文解决的是乳腺癌诊断问题,属于模式判别模型。根据已知两总体——乳腺肿瘤良性和恶性的九项指标的数据,来建立乳腺癌诊断的模型,并为20组肿瘤患者进行诊断。我们分别采用了BRF 神经网络和线性概率模型来建立诊断方案,并在线性概率模型上采用F 检验判断主要影响指标,使模型得到优化。
对于问题一,根据题中良恶性肿瘤各项指标数据,我们提出了两种诊断方案。方案1,通过matlab 建立RBF 神经网络仿真模拟。利用题中70组检验结果进行学习创建RBF 网络(见附表),然后将所有数据代入此网络中进行检验,发现所求结果与题中给出结果完全吻合,得到其模拟准确率为100%。方案2,将78组数据结果0-1作为概率处理,建立线性概率模型9
01j j j y x ββε==++∑,并用6SQ 软
件求出回归函数ˆˆi i
y X β=并对其进行相关性检验,再利用ˆ1
()1i y
P i e
-=+最终将其转化为logit 模型求得()P i 。结合确诊结果确定临界值0.6p =(见附表3),即当()P i p >,判断结果为1,恶性;()P i p <时,判断结果为0,良性。在此模型的判断标准下,将78组数据代入检验,发现只有两组数据结果与原结果不同,其判断准确度为97%。
对于问题二,我们分别利用问题一中建立的两种模型,对这20组未知结果的检查数据进行判别。利用模型一判别得出有8组是恶性肿瘤,12组是良性肿瘤;利用模型二判别有9组是恶性,11组良性。具体结果见附录表4。
对于问题三,对问题一所求的回归函数ˆˆy X β=,利用F 检验对其进行逐步回归分析,对各项指标进行逐步剔除,得出乳腺肿瘤肿块的厚度、单层上皮细胞的大小、裸核、正常的核仁是主要的影响指标。并将原78组数据带入最终得到的目标函数1568(0.28150.07070.0430.029160.0448)
1
1x x x x P e -++++=
+检验,其准确度同样为97%。
最后我们在模型补充中针对有缺损的两组数据建立模型三,在除去第六项指标的情况下求得新的线性概率模型,并利用matlab 将题中80组数据带入检验,发现其准确度为96.3%。
关键词 RBF 神经网络 逐步回归分析 logit 模型 F 检验
一、问题重述
1.1 问题背景
全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。
下面是某医院乳腺肿瘤患者的一组数据(附录表1),其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。 1.2 需要解决的问题
1、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还是 “恶性”的方法,并检验你提出的方法的正确性。
2、现有一组乳腺肿瘤患者的九个指标数据如下,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”
3、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。
二、模型假设
2.1 假设题中所给数据都是真实的,并且是相互独立; 2.2 假设题中所给指标数据与其它病例无关;
2.3 假设根据题中九项指标来判别良性或恶性肿瘤的理由是充分的; 2.5 假设不考虑其它疾病对乳腺癌肿瘤的影响; 2.6 假设忽略带有?的两组数据。
三、符号说明
i
第i 组肿瘤指标的数据(1,2,378i = )
j
第j 项指标(1,2,39j = )
j x 第j 项指标的数据(肿块的厚度1x ,大小的均匀性2x ……)
i j x
第i 组数据第j 项指标的数据
四、问题分析
乳腺癌已经成为全球女性发病率最高的恶性肿瘤,及时诊断出肿瘤患者是否为恶性变得至关重要。本题就是要求通过对确诊患者进行数据分析,来建立诊断乳腺癌肿瘤患者数学模型。然后再依据所建立的模型对未知的20组患者进行诊断,并最终筛选出判别良恶性肿瘤的主要指标。
针对问题一,我们提出了两种思路:
1、由题中所给的80组数据来创建一个神经网络,根据此网络来判断肿瘤的良性和恶性。因为给出的确诊数据较少,只有80组,为了提高判别的准确度,所以我们选用径向基函数(RBF )网络。考虑到还需要对所建立的网络进行准确度检验,我们选择了其中的70组数据进行训练模拟网络,然后所有的78组数据对网络进行检验,以确定其准确度。
2、我们对其中的78组数据进行分析。因为每组数据都包括9项指标和一个判断结果,题中0-1只是一个判断结果,属于虚拟应变量,0-代表良性,1-代表恶性,所以我们将0-1作为概率来考虑,建立线性概率模型9
01j j j y x ββε==++∑。
根据题中所给的数据及结果,利用6SQ 分析算出得出ˆβ
,并对所求函数进行相关性检验。但当把原来的78组数据代入函数进行检验时,发现并不是所有i y 都在0-1之间,违反概率的含义(如附录表3),为此我们引入logit 模型,以
ˆ1
()1y
P i e
-=
+作为最终的目标函数。将()P i 所求与题中对应数据的结果0-1进行对比,来确定最能判别良恶性肿瘤的临界值p ,即当()P i p >为1(恶性),当
()P i p <为0(良性),同时求出此情况下的准确度。工作流程图如下:
ε
观测值与模拟值的误差 j β 线性概率模型第j 项指标变量的系数 j α
模型三中第j 项指标变量的系数 ()P i
第i 组数据求出的为恶性肿瘤的概率
p
判别为良形或恶性的临界值