数学建模 乳腺癌问题模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
乳房癌的诊断模型
马壮于翠影张宏硕
指导教师:王镁
(内蒙古大学,呼和浩特010021)
摘要本文对乳房癌的诊断问题,应用神经网络与模糊数学的理论,给出了几种乳
房癌的量化诊断方案.
首先,建立了LVQ神经网络模型,使用500组数据的前400组作为训练样本,用后100组数据对网络性能进行检测,诊断正确率达98%.
然后对这500个特征向量进行了回归分析,从30个特征中筛选出了6个特征,它们分别是:细胞核直径均值、标准差和最坏值、紧密度的均值、面积的最坏值、周长的均值.并将以上6个特征用于LVQ网络,诊断正确率达95%.
进一步考虑到神经网络与模糊数学各自的特点,将二者有机结合构造了神经模糊系统,并用以上的6个特征对系统进行训练,诊断正确率达96%.
本文构造的模型具有良好的稳定性,对于模式识别问题具有很强的实用价值,最后本文提出了神经网络和模糊数学深层次结合的方向.
一.问题的重述
乳房癌通过穿刺采样进行分析可以确定其为良性或恶性.医学研究发现乳房肿瘤病灶组织的细胞显微图像的10个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度与该肿瘤的性质有密切关系.现有500个已确诊病例,每个病例的一组数据包括采样组织中各细胞核的这十个特征量的平均值,标准差和“最坏值”(各特征的3个最大特征的平均值)共30个数据.根据这500组数据建立诊断模型,并将其用于另外69名已做穿刺采样的患者.为节省费用发展一种只用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性的方法.
二.问题的假设
1.所给的500组病例具有广泛的代表性.
2.500组病例所反映的良性与恶性的概率分布符合病例的自然分布.
三.问题的分析
本问题是一个典型的模式识别问题,要求根据它的特征量来进行分类.
对于模式识别问题,现今有两类解决办法.一类是传统的线性模型.另一类是近年来发展起来的非线性模型.本题是一个典型的非线性问题,用传统的线性模型解决有一定的困难,而且识别率不高.所以非线性模型是解决此类问题的首选.现今常用的非线性模型有神经网络模型和模糊系统模型.
神经网络由许多并行运算的简单单元组成,单个神经元的结构及其简单,但大量神经元相互连接组成人工神经元网络显示出人脑的某些特征:
1)分布存储和容错性;
2)大规模并行处理;
3)自学习、自组织和自适应性;
4) 它并不是各单元行为的简单相加,而表现出一般复杂非线性动态系统的特性.
神经元可以处理一些环境信息十分复杂、知识背景不清楚和推理规则不明确的问题,如乳
房癌诊断问题.
模糊集打破了传统的分明集只有0和1的界限,任意元素可同时部分地属于多个模
糊子集,隶属关系用隶属的程度来表示.这更接近人的表述方式.模糊规则是定义在模糊集上规则,常采用“If-then ”(若…则…)的形式,可用来表示专家的经验、知识等.由一组模糊规则构成的模糊系统可代表一个输入、输出的映射关系.从理论上说,模糊系统可以近似任意的连续函数.模糊系统除了模糊规则外,还包括模糊逻辑推理和去模糊化的部分.由于模糊集能处理非定量的信息,因此在模式识别(尤其是具有模糊特点的识别问题)中模糊系统具有很大的优势,本题肿瘤的良性、恶性正是模糊概念,所以用模糊系统进行模式识别会得到很好的效果.
为了避免量纲的影响,在应用数据之前对数据经行了标准化.标准化方法:用每个数据与整体均值的差除以整体标准差.
四. 模型的建立与求解
(一)神经网络模型
学习向量量化(LVQ)是在监督状态下对竞争层进行训练的一种学习算法.LVQ 网络由一个竞争层和一个线性层组成.竞争层的神经元将输入向量分成组,由现行层组合到期望的类中.在任何给定的时刻,线性层的输出神经元只有一个非零输出1,该神经元就是竞争中得胜者.假定获胜的元为j N ,它之所以获胜的原因是它受到了最大的输入刺激,那么,
j
N
的总加权输入为
i N
i ij
j x S ∑==
1
ω
其中,j S 表示j N 的状态,ij ω表示第j 个元到第i 个元的权值,i x 表示第i 个输入分量.其矩阵形式为
j S j W x
= 若元j N 获胜,就意味着
{
}k
m k j W x W x
}
,,2,1{max ∈=
若连接到每个输出层神经元的权向量 ),,,(21mk k k T k W W W W =都是规范化的,上式等
价于
{
}T k
m k T j W x W x -=
-∈
}
,,2,1{min
网络输入模式为k x
时,具有权向量T j W 与k x
最近的元将获得竞争的胜利.若元j N 竞争获胜,将权值作如下调整
()T j k T j W x W -=∆
η (1)
使获胜者的权向量向输入向量移近一小段距离,这使网络在遇到k x 或与k x
接近的模式时,元j N 可以有更大的获胜可能性.若j N 在竞争中失败,将权值作如下调整 ()T j k T j W x W --=∆
η (2)
使权向离开样品的方向移动,这样就减小了错误分类的机会.在(1)、(2)式中,η表示学习率.
在本模型中取η为0.01,取隐竞争层的神经元数为60,取输出层神经元数为2,并规
定输出(0,1)为良性,输出(1,0)为恶性.用前400组数据作训练样本,经过15000次迭代,两类样本的聚类情况如下图:
用后100组数据对训练进行检测,诊断正确率达98%.对69组待定病例的诊断结
果如下表: