乳腺癌的诊断模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

乳腺癌的诊断模型

摘要

本文解决的是乳腺癌诊断问题,属于模式判别模型。根据已知两总体——乳腺肿瘤良性和恶性的九项指标的数据,来建立乳腺癌诊断的模型,并为20组肿瘤患者进行诊断。我们分别采用了BRF 神经网络和线性概率模型来建立诊断方案,并在线性概率模型上采用F 检验判断主要影响指标,使模型得到优化。

对于问题一,根据题中良恶性肿瘤各项指标数据,我们提出了两种诊断方案。方案1,通过matlab 建立RBF 神经网络仿真模拟。利用题中70组检验结果进行学习创建RBF 网络(见附表),然后将所有数据代入此网络中进行检验,发现所求结果与题中给出结果完全吻合,得到其模拟准确率为100%。方案2,将78组数据结果0-1作为概率处理,建立线性概率模型9

01j j j y x ββε==++∑,并用6SQ 软

件求出回归函数ˆˆi i

y X β=并对其进行相关性检验,再利用ˆ1

()1i y

P i e

-=+最终将其转化为logit 模型求得()P i 。结合确诊结果确定临界值0.6p =(见附表3),即当()P i p >,判断结果为1,恶性;()P i p <时,判断结果为0,良性。在此模型的判断标准下,将78组数据代入检验,发现只有两组数据结果与原结果不同,其判断准确度为97%。

对于问题二,我们分别利用问题一中建立的两种模型,对这20组未知结果的检查数据进行判别。利用模型一判别得出有8组是恶性肿瘤,12组是良性肿瘤;利用模型二判别有9组是恶性,11组良性。具体结果见附录表4。

对于问题三,对问题一所求的回归函数ˆˆy X β=,利用F 检验对其进行逐步回归分析,对各项指标进行逐步剔除,得出乳腺肿瘤肿块的厚度、单层上皮细胞的大小、裸核、正常的核仁是主要的影响指标。并将原78组数据带入最终得到的目标函数1568(0.28150.07070.0430.029160.0448)

1

1x x x x P e -++++=

+检验,其准确度同样为97%。

最后我们在模型补充中针对有缺损的两组数据建立模型三,在除去第六项指标的情况下求得新的线性概率模型,并利用matlab 将题中80组数据带入检验,发现其准确度为96.3%。

关键词 RBF 神经网络 逐步回归分析 logit 模型 F 检验

一、问题重述

1.1 问题背景

全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。

下面是某医院乳腺肿瘤患者的一组数据(附录表1),其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。 1.2 需要解决的问题

1、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还是 “恶性”的方法,并检验你提出的方法的正确性。

2、现有一组乳腺肿瘤患者的九个指标数据如下,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”

3、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。

二、模型假设

2.1 假设题中所给数据都是真实的,并且是相互独立; 2.2 假设题中所给指标数据与其它病例无关;

2.3 假设根据题中九项指标来判别良性或恶性肿瘤的理由是充分的; 2.5 假设不考虑其它疾病对乳腺癌肿瘤的影响; 2.6 假设忽略带有?的两组数据。

三、符号说明

i

第i 组肿瘤指标的数据(1,2,378i = )

j

第j 项指标(1,2,39j = )

j x 第j 项指标的数据(肿块的厚度1x ,大小的均匀性2x ……)

i j x

第i 组数据第j 项指标的数据

四、问题分析

乳腺癌已经成为全球女性发病率最高的恶性肿瘤,及时诊断出肿瘤患者是否为恶性变得至关重要。本题就是要求通过对确诊患者进行数据分析,来建立诊断乳腺癌肿瘤患者数学模型。然后再依据所建立的模型对未知的20组患者进行诊断,并最终筛选出判别良恶性肿瘤的主要指标。

针对问题一,我们提出了两种思路:

1、由题中所给的80组数据来创建一个神经网络,根据此网络来判断肿瘤的良性和恶性。因为给出的确诊数据较少,只有80组,为了提高判别的准确度,所以我们选用径向基函数(RBF )网络。考虑到还需要对所建立的网络进行准确度检验,我们选择了其中的70组数据进行训练模拟网络,然后所有的78组数据对网络进行检验,以确定其准确度。

2、我们对其中的78组数据进行分析。因为每组数据都包括9项指标和一个判断结果,题中0-1只是一个判断结果,属于虚拟应变量,0-代表良性,1-代表恶性,所以我们将0-1作为概率来考虑,建立线性概率模型9

01j j j y x ββε==++∑。

根据题中所给的数据及结果,利用6SQ 分析算出得出ˆβ

,并对所求函数进行相关性检验。但当把原来的78组数据代入函数进行检验时,发现并不是所有i y 都在0-1之间,违反概率的含义(如附录表3),为此我们引入logit 模型,以

ˆ1

()1y

P i e

-=

+作为最终的目标函数。将()P i 所求与题中对应数据的结果0-1进行对比,来确定最能判别良恶性肿瘤的临界值p ,即当()P i p >为1(恶性),当

()P i p <为0(良性),同时求出此情况下的准确度。工作流程图如下:

ε

观测值与模拟值的误差 j β 线性概率模型第j 项指标变量的系数 j α

模型三中第j 项指标变量的系数 ()P i

第i 组数据求出的为恶性肿瘤的概率

p

判别为良形或恶性的临界值

相关文档
最新文档