乳腺癌诊断的数学模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SST SSR
R
q
a
b
ya yb
y0
N
S0
S1
4 问题分析
在乳腺癌的诊断中,乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状 的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核 仁、有丝分裂等九项指标作为一般的判断标准,但是在实际检查过程中过多的检 查项目会导致程序比较复杂,并具有较大的盲目性,检验中存在的误差也会导致 病情的诊断失误。 怎样在检查项目较少的情况下准确的判断出中肿瘤的性质是本 问题讨论的关键。 4.1 问题一分析 问题一要求提出一种或多种方法判别乳腺肿瘤属于良性还是恶性, 并检验方 法的正确性。选取前 50 个患者作为样本数据,以各元素的含量 xi (i 1, 2,...,9) 为 自变量, 用是否患有乳腺肿瘤作为因变量去建立多元回归模型 (因变量用 y 表示, 当 y 1时,表示恶性;当 y 0 时,表示良性) 。利用 Matlab 编程求得线性回归 方程, 并将剩下的数据作为检测样本代入模型中进行检验, 得出误判率为 7.14%,
乳腺癌诊断的数学模型
摘要
本文解决的是乳腺癌判别的问题。我们先用 Excel 软件对 80 组数据进行统 计分析,把患者分为良性组和恶性组,以方便后面建立模型。为了解决这三个问 题,我们建立了以下三个模型。 对于问题一,我们建立了多元回归分析模型和 Fisher 模型。首先我们利用 计算机随机排列抽样,选取前 50 个患者作为样本数据,以各元素的含量
则
y 0.3900 0.0661x 0.0484x
1
2
0.0597 x3 0.0250 x4 0.0264x5 0.0271x6 0.0035x7
0.0429 x8 0.0525x9
6.1.3 多元回归模型的检验 对回归方程进行显著检验:
SST ( yi y ) 2
相应的矩阵方程式为:
y x
( X T * X ) * X T *Y
6.1.2 模型的求解 将样本数据代入中,利用 Matlab(源程序见附录三)软件求得各参数的线性 回归系数分别为:
[0.3900, 0.0661, 0.0484, 0.0597, 0.0250, 0.0264, 0.0271, 0.0035, 0.0429, 0.0525]
5.数据处理
5.1 利用 Excel 软件对数据进行处理 本文中需要对该医院乳腺肿瘤患者 80 组数据进行数据处理, 首先由于题目中 有两组数据的一组指标信息残缺,所以不要这两组数据建模。对于剩下 78 组数 据我们利用 Excel 软件把患者分为良性组和恶性组。 (具体数据见附录一) 表一:
病例号 1 2 3 4 5 75 76 77 78 乳腺肿瘤肿 细胞大小的 细胞形状 边缘的 块的厚度 均匀性 的均匀性 粘连 5 5 3 6 4 5 3 2 2 1 4 1 8 1 3 1 1 2 1 4 1 8 1 1 1 1 2 1 5 1 1 · · · · · · 3 2 1 1 1 2 2 2 3 1 1 1 3 1 1 3 2 3 2 7 1 1 1 1 1 1 1 1 1 1
பைடு நூலகம்
2 模型的假设
假设一:题目所给的数据均是合理的、正确的。 假设二:题目中所提供的 100 例诊断结果均符合一般规律。 假设三: 乳腺肿瘤属于良性还是恶性只与题目中所给的 9 个指标相关而与其他因 素无关。 假设四:题目中所给的九项指标对肿瘤性质的影响是相互独立。 假设五:题目中各项指标的测定时带来的误差忽略不计。 假设六:误差项ε 是一个服从正态分布的随机变量,即 ε ~N(0,σ 2),且相互独 立
xi (i 1, 2,...,9) 为自变量,用是否患有乳腺肿瘤作为因变量因变量(用 y 表示,当
y 1时,表示恶性;当 y 0 时,表示良性)去建立多元回归模型。利用 matlab
编程,得到多元回归方程,并将剩下的 28 个患者样本作为检测值代入模型检验, 得出误判率为 7.14%。误判率较高,因而我们引入了 Fisher 模型。通过理论推导 及在 matlab 中编程,得到 Fisher 判别函数为 y c1x1 c2 x2 c p x p ,其中系数 为 0.0291,-0.0218,0.0201,0.0089,0.0106,0.0096,-0.0038,0.0164,0.0189. 仍然将剩下的 28 个患者样本作为检测值代入 Fisher 模型检验,得出误判率为 3.57%<7.14%,可以看出 Fisher 模型能降低误判率,较好地满足要求,因此问题 一我们采用更为准确的 Fisher 模型。 对于问题二,运用模型一中的 Fisher 判别模型对已知病例判断。将待诊断的 20 个患者数据代入 Fisher 模型中,从而可以判断出 20 名患者中有 8 人的肿瘤 为恶性,他们的病例号分别为 1、4、5、7、10、11、15、19,剩余 12 名患者的 肿瘤为良性。 对于问题三,我们通过统计产品与服务解决方案软件(即 Spss 软件) ,利用 主成分分析模型对已知的九个指标进行分析,通过剔除法, 保留对因变量作用显 著的指标,剔除作用不显著的指标。得到乳腺肿瘤肿块的厚度、细胞大小的均匀 性、细胞形状的均匀性、正常的核仁四个主要指标。在四项主要指标的基础上, 建 立 Fisher 模 型 。 在 matlab 中 编 程 , 得 到 Fisher 判 别 函 数 为 :
3 符号说明
符号
xi yi
符号说明 乳腺患者的第 i 个指标(i=1,2„9) y=1,肿瘤为恶性;y=0,肿瘤为良性
i
待估系数 线性回归系数 总离差的平方和 回归平方和 回归系数 随机误差项 误判率 显著性水平系数 肿瘤呈良性的患者的个数 肿瘤呈恶性的患者的个数 良性组的判别值 恶性组的判别值 判别函数的零界值 总体中抽取的一个样本 良性组的离差矩阵 恶性组的离差矩阵
y=0.024 5x 1 0x .2 0 034 x3 0 . 0 0 2 9 x,然后进行模型检验,得到模型的误 0.0124 4
判率为 3.57%,达到了减少化验指标的效果。
关键字:
Fisher
主成分分析法
Spss
多元线性回归
1 问题重述
1.1 问题背景 全世界每年约有 120 万妇女患乳腺癌,50 万人死于乳腺癌,乳腺癌已经成 为全球女性发病率最高的恶性肿瘤。 怎样在乳腺肿瘤的辅助诊断时合理的进行判 断,来达到更好的预防或治疗目的是本问题的关键。 1.2 某医院患者的相关信息 下面是某医院乳腺肿瘤患者的一组数据(数据见附录一) ,其中前面 9 个指 标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状的均匀性、边 缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂, 尾数 0 表示确诊为“良性” ,1 表示确诊为“恶性” ,数据已经归一化为 0 到 10 之间的自然数。 1.3 需要解决的问题 问题一:根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还 是 “恶性”的方法,并检验你提出的方法的正确性。 问题二:现有一组乳腺肿瘤患者的九个指标数据如下,请你按照你在问题一 中提出的方法分别判别属于“良性”还是“恶性” 。具体数据见附录二。 问题三:试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指 标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于 乳腺肿瘤的辅助诊断时可以减少化验的指标。
因而,多元回归分析法的精确度并不高,不能较好地满足题目的要求,因而换用 其他的数学模型 。 乳腺癌的数学诊断同属于判别分析问题,再次建立 Fisher 模型求解。根据 已知的多元回归关系的数据,利用 Matlab 编程找出其判别函数。利用判别函数 的最优性质,就能对乳腺肿瘤是良性还恶性进行判断。同样将检测样本代入判别 函数中分析,得出正确率为 96.43%,因而此种程序能较好的满足题目的要求。 4.2 问题二的分析 问题二要求利用问题一提出的方法, 对附录二中的乳腺肿瘤属于良性还是恶 性进行判断。在 Fisher 模型中即为对于一个新样本,能判定这个样本归属于哪 一类。只需将数据输入,代入判别函数与 0、1 进行比较就可得出肿瘤的是属于 良性还是恶性。 4.3 问题三的分析 问题三要求确定区分乳腺肿瘤是良性还是恶性的主要指标, 以便用于乳腺肿 瘤的辅助诊断时可以减少化验的指标。 即是要求九个变量之间相关关系研究的基 础上,用较少的新变量代替原来较多的变量,并且使这些较少的新变量尽可能多 地保留原来较多的变量所反映的信息。我们将建立利用 Spss 软件的主要成分分 析模型,利用 Matlab 计算得出其相关系数,取出其中相关度较高的四项作为研 究的指标。然后利用 Fisher 模型建模,以达到减少化验指标效果。
y = 0 +1 x1 2 x2 3 x3 4 x4 5 x5 6 x6 7 x7 8 x8 9 x9
其中: y 为因变量 , x1, x2, x3....., x9 为自变量, 0, 1.....9 为待估参数, 为随 机误差项。 对于 n 组实际观察数据( yi , xi1, xi 2...... xi 7 ) , (5 0 i ,. .., 2 ,1 ) ,由上式得:
i 1 50 50
ˆi y )2 SSR ( y
i 1
SSR SST 经过 matlab 编程算得 R= 0.8707。R 接近于 1,则他们相关,即线性回归方 程正确。 R
将检测样本代入回归方程中检验得出: 表 2:多元回归分析模型检验结果表
病例号 结果 病例号 结果 病例号 结果 病例号 结果 3 5 7 8 10 11 12
1 1 1 1 1
裸核 2 7 2 3
单层上皮细 温和的染 良性 (或 有丝分裂 正常的核仁 胞的大小 色质 恶性) 1 10 2 4 3 3 3 3 1 2 1 7 1 1 1 1
0 0 0 0
5.2 利用计算机的随机排列对数据进行处理 在此题中我们把 78 组数据中的 50 组去建模, 而把剩下的 28 组去进行模型 的检验。因此需要我们利用计算机随机排列这 78 组数据,然后选取其中前 50 组数据建模,以增强模型的说服力和随机性。 (计算机排列的源程序见附录三) 6.问题一的解答 针对问题一,我们建立多元回归分析模型和 Fisher 模型。 6.1.1 多元回归模型的建立 考虑一次线性回归模型,从整体中随机(源程序见附录三)的选取 50 组病 例作为研究的样本,以文中所给的各项指标 xi 为自变量,肿瘤的性质为因变量, (因变量用 y 表示,当 y 1时,表示恶性;当 y 0 时,表示良性) 。得出多元线 性回归的一般形式为:
良性
13
良性
15
良性
16
良性
18
良性
20
良性
30
良性
32 恶性 59
良性
33
恶性
38
恶性
40
良性
42
良性
49
良性
58
良性
63
良性
64
良性
65
恶性
66
恶性
68
恶性
71
恶性
78
恶性
良性
良性
良性
恶性
恶性
良性
根据题目的已知信息与检验结果进行比较, 得出 13 组和 38 组检验结果出错, 即运用所求的线性回归方程的检验方法与实际情况存在一定的误差, 也就是说运 用一次线性回归模型检验是存在误差的,其误判率大约为 q 2 / 28 7.14% ,误 判率较高。因而可采用其他方法来进行判断,从而减少误判率。
yi 0 1 x1i 2 x2i 3 x3i 4 x4i 5 x5i 6 x6i 7 x7 i 8 x8i 9 x9i
根据上式多元线性回归模型可表示为:
y1 0 1 x11 + 2 x21 ... 9 x91 y x + x ... x 2 0 1 12 2 22 9 92 ...... yn 0 1 x1n 3 x2 n ... 9 x9 n