乳腺癌数据处理 数学建模
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
乳腺癌数据的处理数学模型
摘要
本文解决的是乳腺癌数据处理问题,现医院诊断肿瘤是“良性”还是“恶性”采用了九项指标,据此,我们确定了两种方法来判别肿瘤的良恶性,并通过主成分分析法进一步确定了主要指标,从而减少辅助诊断的化验指标。
针对问题一:为保证模型稳定性及检验稳定性,我们将良性数据和恶性数据的一部分用来确定判别方法,各留下10组用来检验所确定的判别法。
为提高判断的准确率,我们确定了费希尔(Fisher)判别法和马氏距离判别法两种判别法。
再分别对这两种判别方法进行了回判与检验,费希尔判别法的回判准确率为93.1%,检验准确率为100%,马氏距离判别法的回判准确率为96.6%,检验准确率为100%,故应采用马氏判别法进行判别。
针对问题二:问题二是在问题一的基础上,对问题一中提出的方法的应用,我们分别采用问题一中提出的两种判别法对问题二中的20组待判别数据进行了判别(判别结果详见问题二解答的表一)。
针对问题三:我们对数据进行了标准化处理,以主成分分析法为指导逐步剔除指标,并根据剩余的指标建立了三种多元经验平面回归方程对剔除指标后的回判准确率、检验准确率、F值、相关系数R等进行了检验,最后经过分析,提出了两种方案:①保留乳腺肿块的厚度,边缘的粘连,单层上皮细胞的大小,裸核,正常的核仁,有丝分裂这六项指标,建立线性回归方程可是准确率达到90%;②保留边缘的粘连,单层上皮细胞的大小,裸核,正常的核仁,有丝分裂这五项指标,建立线性回归方程可使准确率达到80%。
关键词:费希尔判别法、马氏距离判别法、主成分分析法、经验平面回归方程
1.问题重述
1.1问题背景
全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。
下面是某医院乳腺肿瘤患者的一组数据,其中前面9个指标分别表示乳腺肿瘤肿块的厚度(1x)、细胞大小的均匀性(2x)、细胞形状的均匀性(3x)、边缘的粘连(4x)、单层上皮细胞的大小(5x)、裸核(6x)、温和的染色质(7x)、正常的核仁8x)、有丝分裂(9x),尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。
1.2需要解决的问题
问题一:根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性”还是“恶性”的方法,并检验你提出的方法的正确性。
问题二:现有一组乳腺肿瘤患者的九个指标数据如下,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”
问题三:试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模
型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。
2.模型的假设
假设一:题目所给数据及判别真实可信。
假设二:不考虑就诊人员的其他疾病因素影响。
3.符号的说明
4.问题分析
本文要研究的是在九项指标乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂的指导下确定判别法来判别乳腺肿瘤属于“良性”还是“恶性”,并且要确定这九项指标中哪些是主要指标,建立以主要指标区分“良性”和“恶性”的模型。
针对问题一:首先,我们对数据进行了处理,舍去两组缺失的数据,然后,因为
题目所给数据有限,为同时保证模型稳定性和检验稳定性,我们用
一部分数据来确定判别法,留下良性数据和恶性数据各10组用于检
验判别法的准确率。
为提高判别的准确率并综合考虑其他各种因
素,我们确定了费希尔(Fisher)判别法、马氏距离判别法这两种方
法来判别肿瘤是“良性”还是“恶性”。
针对问题二:问题二是在问题一的基础上,对问题一中所确定的判别法的应用,题中所给待判别数据是20组,为使判别结果更准确,我们采用了
问题一中所确定的两种判别法对这20组数据进行了判别。
并将两种
方法的判别结果做成了表格(详见问题二解答之表一)以便比较。
针对问题三:题中所给的指标有九项,为了使乳腺癌肿瘤的辅助诊断可以减少化验指标,从而减少化验费用和化验时间及化验困难,我们要确定这
九项指标中的主要指标,通过这些主要指标来判别肿瘤是“良性”
还是“恶性”。
我们考虑到九项指标之间存在一些相关性,决定以主
成分分析法为指导,剔除与其他指标相关性较大的一些指标。
并建
立三种多元线性回归方程对剔除指标后得出的回判准确率、检验准
确率、F值及其对应的概率、相关系数R、残差及其置信区间等进行
了检验。
5.数据分析
5.1对丢失数据的处理
对于题中所给的数据,因仅有两组数的指标有缺失,且经过回归分析可知其中一组数据不合理,故我们舍去了这两组数据。
5.2对良性和恶性各指标数据均值的比较
对丢失数据处理后,我们取31组良性数据27组恶性数据得出了肿瘤“良性”和“恶性”的九种指标的均值,并作出了“肿瘤良性恶性指标均值比较图”(见下图)。
由上图可知,良性总体和恶性总体的均值有显著性差异,即良性总体的各项指标均明显小于恶性总体所对应的指标,因此,可以采用马氏距离判别法对问题进行分析。
5.3问题一中对数据的分配方法
由于问题一中要通过所给数据确定判别法并且要进行判别法的准确性检验,而用于确定判别法和用于检验判别法都是数据量越大越精确,为兼顾模型稳定性和检验稳定性,我们将一部分数据用来确定判别法,另一部分数据留下来对所建立的判别法进行准确性检验。
数据量分配见下图。
图一:数据分配图
80组总数据
42组良性数据38组恶性数据
1组有缺31组
用来
10组
留下
1组
有缺
27组
用来
10组
留下
5.4问题三中对数据的使用方法
问题三中欲剔除一些指标来建立模型进行判别,故同问题一,应该预留良性数据和恶性数据各10组用来检验,以保证剔除一些指标后所建立的模型的准确率。
6.问题一的解答
本问研究的是通过9项指标确定判别乳腺癌肿瘤是“良性”或“恶性”的数学建模问题,对于判别肿瘤“良性”或“恶性”的模型,不能单凭所得到的各项指标主观地进行判别,而要确定合理的判别法进行判别,为此我们建立了两种模型来判别肿瘤是“良性”还是“恶性”。
6.1模型一
我们用费希尔判别法建立了模型一,并分⑴判别函数的导出;⑵判别法的确定;⑶判别准确率的检验这三部分来解答。
6.1.1判别函数的导出
首先,我们对良性总体中的n1个样本和恶性总体中的n2个样本的p个指标进行了平均值计算,得到如下表格。
将题中所给良性和恶性样本值代入判别函数,则得:
()()()()11221()()()()11222 (1,2,,)
(1,2,,)l l l l i i i p ip e e e e i i i p ip y c x c x c x i n y c x c x c x i n =++⋅⋅⋅+=⋅⋅⋅=++⋅⋅⋅+=⋅⋅⋅
本题中n 1为31,n 2为27,p 为9.
对以上两组等式分别左右相加,再除以相应的样本个数,则有:
()()1 p
l l k k k y c x ==∑ 良性样本的“重心”
()()1p
e e k k k y c x ==∑ 恶性样本的“重心” 为了使判别函数能很好地区别来自不同总体的样本,自然希望:
(1)来自不同总体的两个平均值()l y 、()
e y 相差越大越好。
(2)对于来自良性总体的
()1 (1,2,,)l i y i n =⋅⋅⋅,它们的离差平方和
1
()()21
()n l l i i y y =-∑越小越好,同样2
()()2
1
()n e e i
i y y =-∑越小越好。
综合以上两点,就是要求
1
2
()()2
()
()2
()
()2
1
1
()()()
l e n n l l e e i
i
i i y y I y
y y y ==-=
-+-∑∑
越大越好。
利用微积分求极值的必要条件,求可使I 达到最大值的12,,,p c c c ⋅⋅⋅。
结果如下:
1
1112211221222212 s p p p p p p pp s s c d c s s s d c d s s s -⋅⋅⋅⎛⎫
⎛⎫⎛⎫
⎪ ⎪ ⎪⋅⋅⋅ ⎪ ⎪ ⎪ ⎪
⎪ ⎪⋅⋅⋅⋅⋅
⎪= ⎪ ⎪
⋅⋅⋅⋅⋅ ⎪ ⎪ ⎪ ⎪
⎪ ⎪⋅⋅⋅⋅⋅
⎪ ⎪ ⎪ ⎪ ⎪ ⎪⋅⋅⋅⎝⎭⎝⎭
⎝⎭
其中, ()()l e k
k k d x x =-
1
2
()()()()()()()()1
1
()()()()n n l l l l e e e e km ik k im m ik k im m i i s x x x x x x x x ===--+--∑∑
(k,l=1,2,···,p )
有了判别函数之后,再确定判别临界值y 0,取
0y 为()l y 和()e y 的加权平均值
()()
12012
l e n y n y y n n +=
+
如果由原始数据求得()l y 和()e y 满足()l y >()e y ,则()l y >y 0>()e y 。
建立
判别准则:对一个新样品12(,,)T p X x x x =⋅⋅⋅代入判别函数中所得值记为y ,
若y >y 0,
则判定l X G ∈,;若y<y 0,则判定e X G ∈。
如果
()l y <()
e y ,则建立判别准则为:若y >y 0,则判定e X G ∈;若y<y 0,则判定l X G ∈。
6.1.2判别法的确定
通过MATLAB 软件包求1212(,,,)
(,,,)p p Q c c c I F c c c ⋅⋅⋅=
⋅⋅⋅的最大值点,根据极值原
理,可解方程组:
12ln 0ln 0ln 0p
I c I c I c ∂⎧=⎪∂⎪∂⎪=⎪∂⎪⎪⎨
⎪⎪⎪
⎪∂⎪=∂⎪
⎩
可算出c 1,c 2,···,c p ,最后,故可得出判别函数,判别函数如下:
12345
6789
0.01380.01720.01930.00710.01080.00860.00350.01360.0104y x x x x x x x x x =-+-------
再求费希尔判别法的临界值,根据()()
12012
l e n y n y y n n +=
+,利用MATLAB
软件包算得费希尔临界值
0y :-0.2371。
故对本题费希尔判别法如下:
123
456789-0.2371-0.23710.01380.01720.01930.00710.01080.00860.00350.01360.0104 1,2,,9p y y y x x x x x x x x x x p p >⎧⎪
<⎪⎪=-+-⎪⎨
---⎪
⎪---⎪
=⎪⎩当时,肿瘤为良性费当时,肿瘤为恶性希尔判别为第项指标,
法 6.1.3判别准确性的检验
利用费希尔(Fisher)法判别的回判准确率和检验准确率见下表,详细判别结果见附录一。
6.2模型二
我们用马氏距离法建立了模型二,并分⑴判别函数的导出;⑵判别法的确定;⑶判别准确率的检验这三部分来解答。
6.2.1判别函数的导出
判别函数的导出是根据马氏距离导出的,因此先简要阐述马氏距离。
设∑表示指标的协差阵,即 ()ij p p σ⨯∑= 其中,
1
1()() (,1,2,,)1n
ij j i j j x x x x i j p n ααασ==--=⋅⋅⋅-∑ 111, n
n i j i j
x x x x n αααα====∑∑
如果1
-∑存在,则两个样品之间的马氏距离为
2
1()()()T ij i
j i j d M x x x x -=-∑-
这里,i j x x 分别为原始资料矩阵的第,i j 个行向量。
样品X 到总体G 的马氏距离为
2
1(,)()()T d
X G X X μμ-=-∑-
其中,,μ∑分别为总体的均值向量和协方差阵。
马氏距离既排除了各项指标之间相关性的干扰,而且还不受各指标量纲的 影响。
可以证明,将原数据作一线性变换后,马氏距离仍不变。
计算任何两个样品i X 与j X 之间的距离ij d ,其值越小表示两个样品接近 程度越大,其值越大表示两个样品接近程度越小。
将n 个样品中任何两个样品 的距离都计算出来后,可排成矩阵D :
111212122
212
n n n n nn d d d d d d D d d d ⋅⋅⋅⎛⎫ ⎪⋅⋅⋅ ⎪ ⎪⋅⋅⋅= ⎪
⋅⋅⋅ ⎪ ⎪⋅⋅⋅ ⎪ ⎪
⎝⎭
其中,11220,nn d d d D ==⋅⋅⋅==为实对称矩阵。
根据D 可对n 个点
进行分类.
然后,我们对良性总体中的n 1个样本和恶性总体中的n 2个样本的p 个指 标进行了平均值计算,同方法二中的表格。
然后计算实测指标值
12(,,)T p X x x x =⋅⋅⋅到G l 、G e 总体的距离,分别
记为(,)l D X G 、(,)e D X G 则有
(,)(,), (,)(,)
D(,)(,)l l e e l e l e X G D X G D X G X G D X G D X G X G D X G ∈<⎧⎪
∈>⎨⎪=⎩
,
当当待判,当
然后采用马氏距离对上述准则作详细的讨论。
设()
()()(),,,l e l e μ
μ∑∑分别为G l ,G e 的均值向量和协差阵,距离采用
马氏距离: 2
()()1()(,)()()() (,)i T i i i D
X G X X i l e μμ-=-∑-=
这时判别准则可用以下两种情况给出: (1).当()
()l e ∑
=∑=∑时,考察2(,)e D X G 及2(,)l D X G 的差,即
22()1()1(,)(,)2[(+]()2
l e T l e e l
D X G D X G X μμμμ--=-∑-()()
令
()()1()()1(), ()()()2
l e T l e u w X X u μμμμ-=+=-∑- 则判别准则为
2
22222, ()0,)(,), ()0(,)(,) ()0(,)(,)l e l e e
l e l X G w X D X G D X G X G w X D X G D X G w X D X G D X G ⎧∈>>⎪∈<<⎨⎪==⎩
当即(当即待判,当即
当()()l e μμ∑、、为已知时,记
1()()12()(,,,)l e T p a a a a μμ-=∑-⋅⋅⋅
则线性判别函数为:111()()()p p p w X a x u a x u =-+⋅⋅⋅+-
当()
()l e μ
μ∑、、为未知时,
则判别函数为:1
()()()()()T
l e w X X X X X -=-∑-
(2).当()
()l e ∑
≠∑时,按距离最近准则,类似地有
(,)(,), (,)(,) D(,)(,)l l e e l e l e X G D X G D X G X G D X G D X G X G D X G ∈<⎧⎪
∈>⎨⎪=⎩
,当当待判,当
则判别函数为:
22()()1()()()1()()(,)(,)
()()()()()()
e l e T e e l T l l w X D X G D X G X X X X μμμμ--=-=-∑---∑-6.2.2判别法的确定
通过MATLAB 对数据处理,可得到
()()()()
,,,l e l e u u ∑∑,本题中
()()l e ∑≠∑,故马氏判别函数为:
()()1()()()1()()()()()()()()e T e e l T l l w X X X X X μμμμ--=-∑---∑-
故马氏距离判别法为:
()()1()()()1()()
()
,,,129()()()()()()()()()()
(2.84951.85161.92260.74620.99575.22801.05591.18060.5398)(6.00007.54136.54138.3e T e e l T l l T
l T
e T T
x x x w X X X X X X μμμμαααααααααβββββββββαβ--⋅⋅⋅=-∑---∑-=∑=∑===马其中,氏距离判别法())0776.102611.07693.71798.79492.4615)(2.78101.41941.45161.29032.06451.80652.54841.22581.1613)(7.33335.66675.81484.33335.22226.00005.11115.11112.0000)
T l T e T μμ⎧⎪⎪⎪⎪⎪⎪⎨
⎪⎪⎪
⎪=⎪
=⎪⎩( 6.2.3检验判别效果
利用马氏距离判别法判别的回判准确率和检验准确率见下表,详细判别结果见附录一。
可以看出马氏距离判别法准确率比费希尔判别法准确率高,故建议采用马氏距离判别法。
7.问题二的解答
对于问题二中给出的20组待判别数据,我们分别采用问题一中确定的两种方法进行了判别,费希尔(Fisher )判别法判别程序见附录二,马氏距离判别法判别程序见附录三,三种方法的判别结果如下表一所示(其中0代表良性,1代表恶性)。
表一
结果即可判定这20组肿瘤是良性还是恶性。
对于这20组数据,我们通过MATLAB软件包把每组数据的判别值计算出来如下表:
3,4,4,10,5,1,3,3,1 -0.2448 1 -0.4918 1
5,1,1,3,2,1,1,1,1 -0.1501 0 1.6315 0 对于以上数据,我们用MATLAB软件包将用费希尔判别法和马氏距离判别法判别的结果制成如下图表。
在费希尔判别法的图表中,···代表y(l)(分布其周围的点为良性数据的判别值),+ + +代表y0,···代表y(e)(分布其周围的点为恶
性数据的判别值)。
在马氏距离判别法的图表中,各点到中间直线的距离即为马氏距离,也即20组数据的实测值。
由下图可知,费希尔判别法确定的判别值分别集中分布在y(l)和y(e)这两条直线周围,因此可知费希尔判别法具有很高的可靠性和稳定性。
马氏判别法得到的判别值集中分布在直线y=0两侧,故马氏距离判别法也具有高度可靠性和稳定性。
8.问题三的解答
8.1模型三的建立
针对问题三,我们用主成分分析法和经验平面回归方程建立了模型三,分为⑴模型的建立;⑵模型的求解及方案的提出这两部分。
8.1.1模型的建立
肿瘤的属性可由9个指标129,,,x x x ⋅⋅⋅反应出来,一共有M 组数据,假设这些数据可由一个M N ⨯的矩阵X 表示,记该矩阵的每一列的均值为i x ,i =1,2,···,N ,分析步骤如下
①则可由矩阵X 建立起协方差矩阵R ,使得
1
2
2
1
1
()()
()
()
M
ki
i kj j k ij M
M
ki
i kj
j k k x
x x x r x
x x
x ===--=
--∑∑∑
②由R 矩阵可以分别得出特征向量i e 和对应的排序特征值1290λλλ≥≥⋅⋅⋅≥≥,
对特征向量矩阵的每一列进行相应的归一化 ③计算主成分贡献率和累计贡献率
11
1,i
k
i
k i i N
N
k k
k k λλγδλ
λ
====
=
∑∑∑主成分贡献率:累计贡献率:
当累计贡献率90%i
δ>时,则可认为这n
个因素是原问题的主成分,这时,
原来的N 维问题就可以简化为n 维问题了。
④建立新变量指标Z XL =,即
12111121221212221122N N N N N N N NN N
z l x l x l x z l x l x l x z l x l x l x =++⋅⋅⋅+⎧⎪
=++⋅⋅⋅+⎪⎪⎪⋅⎨⋅⎪⎪⋅⎪=++⋅⋅⋅+⎪⎩
其中变换矩阵第i 列的系数ji l
可以如下计算ji ji l =。
通常情况下,如果取
前m 个成分作主成分,则L 矩阵的m 列以后各值应该趋于0,这样,上式中后
N m -个z 变量就可以忽略,由一组m 个状态变换后的新变量 111121211122N N m m m Nm N
z l x l x l x z l x l x l x =++⋅⋅⋅+⎧⎪⋅⎪⎪⋅⎨⎪⋅⎪=++⋅⋅⋅+⎪⎩
即可表示原问题。
换句话说,在适当的线性变换下,原来的N 维问题就可以简
化成m 维问题。
我们利用主成分分析法,从原始样本数据相关阵的非零的最小特征根
(0)k k λλ>所对应的单位特征向量1,2,()T k k k kp αααα=⋅⋅⋅出发,可知第k
个主成分与选择的原始指标
12,,,p X X X ⋅⋅⋅之间有如下关系:
1122k k k kp p Z a X a X a X =++⋅⋅⋅+
但是这个主成分所含信息量()k k D Z λ=很小,而主成分k Z 的系数的绝对之中总有相对很大者存在,比如说mp a 的绝对值相对很大,也就是说,造成k Z 信息量很小的主要原因是p X 。
并且从样本的相关阵可发现,p X 与其他指标的相关度很高,这说明,可以用其他指标的线性组合来代表p X 。
这样可从原指标体系中去掉指标p X 。
根据主成分分析法可依次确定应该剔除的指标,每剔除一项指标后根据剩余的指标建立平面回归方程进行检验。
为提高模型的准确性,我们建立了三种类型的平面经验回归方程:线性(Linear)、纯二次(purequadratic)、纯三次,即
1011220111233
01111
m m m
m m jj j j m m
m m jj j jj j
j j y x x y x x x y x x x x x ββββββββββββ====++⋅⋅⋅+⎧⎪⎪=++⋅⋅⋅++⎪⎪⎨⎪=++⋅⋅⋅+++⎪⎪⎪⎩∑∑∑其中为剩余的指标
根据所得的结果再从三者中挑选。
每剔除一个指标后,根据剩余的指标建立三种不同类型的经验平面回归方程,并求出回判准确率和检验准确率,并检验残差及其置信区间、相关系数R 、F 值及其对应的概率P 。
记准确率为回判准确率和检验准确率中较小者,当准确率大于80%且回归方程的各项参数均满足要求时,则再次运用主成分分析法确定接下来应该剔除的指标,并检验,直至剔除某一项指标后不满足剔除的条件。
8.1.2模型的求解及方案的提出
用Matlab 编程求解,其中主成分分析法见附录四,线性回归方程见附录五,纯二次回归方程见附录六,纯三次回归方程见附录七;根据每个阶段三种方程误判的个数来求准确率的程序见附录八。
剔除指标后各个回归方程所对应的回判准确率及检验准确率如下:
由表格分析可知:⑴在三类方程中,线性平面回归方程的准确率最高;⑵方程的准确率随剔除的指标个数的增多而降低。
现我们提出两种方案以供选择:①剔除细胞大小的均匀性(x 2)、 细胞形状的均匀性(x 3)、温和的染色质(x 7)这三项指标,得到准确率为90%;②剔除细胞大小的均匀性(x 2)、 细胞形状的均匀性(x 3)、温和的染色质(x 7)、乳腺肿瘤肿块的厚度(x 1)这四项指标后,得到准确率为80%,两种方案的回归方程的类型均为线性。
由相关资料可知医院判别良性恶性的正确率达到65%即可,因此以上两种方案都是合理的。
两种方案分别如下分别如下:
11145689
x x x x x x -0.30680.05360.01640.03990.02860.04950.0413%
y x x x x x x x ⎧⎪
⎪
⎪⎪⎪
=++++⎨⎪++⎪
⎪⎪⎪⎩45689主要指标:乳腺肿块的厚度(),边缘的粘连(),
单层上皮细胞的大小()裸核(),方正常的核仁(),有丝分裂()案一为剔除指标后的剩余指标准确率为90
245689x x x x x -0.22550.02090.0590.02630.07740.057480%
y x x x x x x ⎧⎪⎪⎪
=+++++⎨⎪⎪⎪⎩45689主要指标:边缘的粘连(),单层上皮细胞的大小()方裸核(),正常的核仁(),有丝分裂()案二为剔除指标后的剩余指标准确率为
9.模型的模型的评价、改进及推广 9.1模型评价
优点:(1)问题一种采用的费希尔方法对总体的分布并未提什么特定的要 求,因而有适应性广的优点。
(2)问题一中采用的距离判别法中的马氏距离既排除了各项指标之 间相关性的干扰,而且还不受各指标量纲的影响。
可以证明, 将原数据作一线性变换后,马氏距离仍不变。
(3)问题三中我们重复使用主成分分析法逐步剔除指标,保证了回
归方程的稳定性。
缺点:(1)没有轮换检验数据。
9.2模型改进
(1)对预留数据采取动态地选取,找到最优值使模型稳定性与检验稳定性达到最佳效果。
9.3模型推广
我们所建立的模型是知道一定指标,通过这些指标确定方法来判别肿瘤的良性或恶性,并且通过这些方法得到最主要的指标,将这些主要指标运用到实际生活中,使人们在诊断肿瘤时减少化验费用。
我们所建立的模型还可以用于医学上其他疾病的良恶性判别,以及其他各领域需要通过相关指标来确定方法以便判别的情况,例如经济学中根据一些指标来判定一个国家的发展程度所属类型等。
10.参考文献
[1]赵静,但琦,数学建模与数学实验,北京:高等教育出版社,2008.
[2]楼顺天,姚若玉,沈俊霞,MATLAB7.x 程序设计语言,西安:西安电子科技 大学出版社,2008.
[3]戴明强,李卫军,杨鹏飞,数学模型及其应用,北京:科学出版社,2007.
[4]薛定宇,陈阳泉,高等应用数学问题的MATLAB求解,北京:清华大学出版社, 2008.
11.附录
附录一:两种方法判别结果与原判别结果的比较
附录二:问题一中费希尔(Fisher)判别法判别及检验程序、问题二中用费希尔 (Fisher)判别法判别20组待判别数据的程序
%建立费希尔(fisher)判别法,并检验方法的正确性,及根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
format short
%良性(lx)肿瘤数据
lx=[5,1,1,1,2,1,3,1,1
5,4,4,5,7,10,3,2,1
3,1,1,1,2,2,3,1,1
6,8,8,1,3,4,3,7,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,10,3,1,1
2,1,2,1,2,1,3,1,1
2,1,1,1,2,1,1,1,5
4,2,1,1,2,1,2,1,1
1,1,1,1,1,1,3,1,1
2,1,1,1,2,1,2,1,1
1,1,1,1,2,3,3,1,1
4,1,1,1,2,1,2,1,1
4,1,1,1,2,1,3,1,1
6,1,1,1,2,1,3,1,1
3,1,1,1,2,1,2,1,1
1,1,1,1,2,1,3,1,1
3,2,1,1,1,1,2,1,1
5,1,1,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
1,1,3,1,2,1,1,1,1
3,1,1,1,1,1,2,1,1
2,1,1,2,2,1,3,1,1
3,1,2,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
6,2,1,1,1,1,7,1,1
1,1,1,1,2,1,2,1,2
1,1,1,1,2,1,2,1,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,2,2,1,1
1,1,1,1,2,1,2,1,1];
lx_djy=[4,1,1,1,2,1,3,1,1
1,1,1,1,2,1,3,2,1
5,1,3,1,2,1,2,1,1
1,3,3,2,2,1,7,2,1
1,1,2,1,2,2,4,2,1
1,1,4,1,2,1,2,1,1
5,3,1,2,2,1,2,1,1
3,1,1,1,2,3,3,1,1
2,1,1,1,3,1,2,1,1
2,2,2,1,1,1,7,1,1]; %恶性(ex)肿瘤数据
ex=[8,10,10,8,7,10,9,7,1
5,3,3,3,2,3,4,4,1
8,7,5,10,7,9,5,5,4
7,4,6,4,6,1,4,3,1
10,7,7,6,4,10,4,1,2
7,3,2,10,5,10,5,4,4
10,5,5,3,6,7,7,10,1
5,2,3,4,2,7,3,6,1
10,7,7,3,8,5,7,4,3
10,10,10,8,6,1,8,9,1
5,4,4,9,2,10,5,6,1
2,5,3,3,6,7,7,5,1
10,4,3,1,3,3,6,5,2
6,10,10,2,8,10,7,3,3
5,6,5,6,10,1,3,1,1
10,10,10,4,8,1,8,10,1
3,7,7,4,4,9,4,8,1
7,8,7,2,4,8,3,8,2
9,5,8,1,2,3,2,1,5
5,3,3,4,2,4,3,4,1
10,3,6,2,3,5,4,10,2
5,5,5,8,10,8,7,3,7
10,5,5,6,8,8,7,1,1
10,6,6,3,4,5,3,6,1
8,10,10,1,3,6,3,9,1
8,2,4,1,5,1,5,4,4
5,2,3,1,6,10,5,1,1];
ex_djy=[9,5,5,2,2,2,5,1,1
5,3,5,5,3,3,4,10,1
9,10,10,1,10,8,3,3,1 6,3,4,1,5,2,3,9,1
10,4,2,1,3,2,4,3,10
5,3,4,1,8,10,4,9,1
8,3,8,3,4,9,8,9,8
6,10,2,8,10,2,7,8,10
9, 4,5,10,6,10,4,8,1
10,6,4,1,3,4,3,2,3];
%待判别(dpb)肿瘤的数据
dpb=[10,4,7,2,2,8,6,1,1
5,2,2,2,2,1,2,2,1
8,6,7,3,3,10,3,4,2
6,5,5,8,4,10,3,4,1
1,1,1,1,1,1,2,1,1
10,3,3,1,2,10,7,6,1
2,1,1,1,2,1,1,1,1
7,6,4,8,10,10,9,5,3
1,1,1,1,1,1,1,3,1
4,2,3,5,3,8,7,6,1
5,1,1,1,2,1,3,1,2
5,4,6,6,4,10,4,3,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,3,1,1
8,5,5,5,2,10,4,3,1
1,1,1,1,2,1,3,1,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,1,1,1
3,4,4,10,5,1,3,3,1
5,1,1,3,2,1,1,1,1];
n1=size(lx,1);n2=size(ex,1);n3=size(dpb,1);n4=size(lx_djy,1);n5=s ize(ex_djy,1);
lx_Xi_pj=sum(lx)/n1;ex_Xi_pj=sum(ex)/n2;
x=[lx;ex];y=[zeros(n1,1);ones(n2,1)];
d=lx_Xi_pj'-ex_Xi_pj';
s=zeros(9);
for k=1:1:9;
for l=1:1:9;
i=1:1:n1;j=1:1:n2;
s(k,l)=sum((lx(i,k)-lx_Xi_pj(k)).*(lx(i,l)-lx_Xi_pj(l)))+sum((ex( j,k)-ex_Xi_pj(k)).*(ex(j,l)-ex_Xi_pj(l)));
end
end
c=inv(s)*d;
lx_y_pj=sum(lx*c)/n1;ex_y_pj=sum(ex*c)/n2;
y0=(n1*lx_y_pj+n2*ex_y_pj)/(n1+n2);
lx_jyjg_fs=(lx*c<y0)'
%根据良性肿瘤数据回判该方法的正确性
lx_djy_jyjg_fs=(lx_djy*c<y0)' %根据待检验的良性肿瘤数据检验该方法的正确性
ex_jyjg_fs=(ex*c<y0)' %根据恶性肿瘤数据回判该方法的正确性
ex_djy_jyjg_fs=(ex_djy*c<y0)' %根据待检验的良性肿瘤数据检验该方法的正确性
pbjg_fs=(dpb*c<y0)' %根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
附录三:问题一中马氏距离判别法判别及检验程序、问题二中用马氏距离判别法判别20组待判别数据的程序
%建立马氏距离判别法,并检验方法的正确性,及根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
format short
%良性(lx)肿瘤数据
lx=[5,1,1,1,2,1,3,1,1
5,4,4,5,7,10,3,2,1
3,1,1,1,2,2,3,1,1
6,8,8,1,3,4,3,7,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,10,3,1,1
2,1,2,1,2,1,3,1,1
2,1,1,1,2,1,1,1,5
4,2,1,1,2,1,2,1,1
1,1,1,1,1,1,3,1,1
2,1,1,1,2,1,2,1,1
1,1,1,1,2,3,3,1,1
4,1,1,1,2,1,2,1,1
4,1,1,1,2,1,3,1,1
6,1,1,1,2,1,3,1,1
3,1,1,1,2,1,2,1,1
1,1,1,1,2,1,3,1,1
3,2,1,1,1,1,2,1,1
5,1,1,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
1,1,3,1,2,1,1,1,1
3,1,1,1,1,1,2,1,1
2,1,1,2,2,1,3,1,1
3,1,2,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
6,2,1,1,1,1,7,1,1
1,1,1,1,2,1,2,1,2
1,1,1,1,2,1,2,1,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,2,2,1,1
1,1,1,1,2,1,2,1,1];
%良性待检验(djy)肿瘤数据
lx_djy=[4,1,1,1,2,1,3,1,1
1,1,1,1,2,1,3,2,1
5,1,3,1,2,1,2,1,1
1,3,3,2,2,1,7,2,1
1,1,2,1,2,2,4,2,1
1,1,4,1,2,1,2,1,1
5,3,1,2,2,1,2,1,1
3,1,1,1,2,3,3,1,1
2,1,1,1,3,1,2,1,1
2,2,2,1,1,1,7,1,1]; %恶性(ex)肿瘤数据
ex=[8,10,10,8,7,10,9,7,1
5,3,3,3,2,3,4,4,1
8,7,5,10,7,9,5,5,4
7,4,6,4,6,1,4,3,1
10,7,7,6,4,10,4,1,2
7,3,2,10,5,10,5,4,4
10,5,5,3,6,7,7,10,1
5,2,3,4,2,7,3,6,1
10,7,7,3,8,5,7,4,3
10,10,10,8,6,1,8,9,1
5,4,4,9,2,10,5,6,1
2,5,3,3,6,7,7,5,1
10,4,3,1,3,3,6,5,2
6,10,10,2,8,10,7,3,3
5,6,5,6,10,1,3,1,1
10,10,10,4,8,1,8,10,1
3,7,7,4,4,9,4,8,1
7,8,7,2,4,8,3,8,2
9,5,8,1,2,3,2,1,5
5,3,3,4,2,4,3,4,1
10,3,6,2,3,5,4,10,2
5,5,5,8,10,8,7,3,7
10,5,5,6,8,8,7,1,1
10,6,6,3,4,5,3,6,1
8,10,10,1,3,6,3,9,1
8,2,4,1,5,1,5,4,4
5,2,3,1,6,10,5,1,1];
%恶性待检验(djy)肿瘤数据
ex_djy=[9,5,5,2,2,2,5,1,1
5,3,5,5,3,3,4,10,1
9,10,10,1,10,8,3,3,1
6,3,4,1,5,2,3,9,1
10,4,2,1,3,2,4,3,10
5,3,4,1,8,10,4,9,1
8,3,8,3,4,9,8,9,8
6,10,2,8,10,2,7,8,10
9, 4,5,10,6,10,4,8,1
10,6,4,1,3,4,3,2,3];
%待判别(dpb)肿瘤的数据
dpb=[10,4,7,2,2,8,6,1,1
5,2,2,2,2,1,2,2,1
8,6,7,3,3,10,3,4,2
6,5,5,8,4,10,3,4,1
1,1,1,1,1,1,2,1,1
10,3,3,1,2,10,7,6,1
2,1,1,1,2,1,1,1,1
7,6,4,8,10,10,9,5,3
1,1,1,1,1,1,1,3,1
4,2,3,5,3,8,7,6,1
5,1,1,1,2,1,3,1,2
5,4,6,6,4,10,4,3,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,3,1,1
8,5,5,5,2,10,4,3,1
1,1,1,1,2,1,3,1,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,1,1,1
3,4,4,10,5,1,3,3,1
5,1,1,3,2,1,1,1,1];
n1=size(lx,1);n2=size(ex,1);n3=size(dpb,1);n4=size(lx_djy,1);n5=s ize(ex_djy,1);
lx_Xi_pj=sum(lx)/n1;ex_Xi_pj=sum(ex)/n2;
x=[lx;ex];y=[zeros(n1,1);ones(n2,1)];
lx_q=zeros(9);ex_q=zeros(9);
for i=1:1:9;
for j=1:1:9;
a=1:1:n1;b=1:1:n2;
lx_q(i,j)=1/(n1-1)*sum((lx(a,j)-lx_Xi_pj(i)).*(lx(a,j)-lx_Xi_pj(j )));
ex_q(i,j)=1/(n2-1)*sum((ex(b,j)-ex_Xi_pj(i)).*(ex(b,j)-ex_Xi_pj(j )));
end
end
w=zeros(n1+n2+n3+n4+n5,1);
for p=1:1:n1+n2+n3+n4+n5;
ms=[lx;ex;dpb;lx_djy;ex_djy]';
w(p)=(ms(:,p)-(ex_Xi_pj)')'*pinv(ex_q)*(ms(:,p)-(ex_Xi_pj)')-(ms( :,p)-(lx_Xi_pj)')'*pinv(lx_q)*(ms(:,p)-(lx_Xi_pj)');
end
lx_jyjg_ms=(w(1:n1)<0)' %根据良性肿瘤数据回判该方法的正确性
lx_djy_jyjg_ms=(w(n1+n2+n3+1:n1+n2+n3+n4)<0)' %根据待检验的良性肿瘤数据检验该方法的正确性
ex_jyjg_ms=(w(n1+1:n1+n2)<0)' %根据恶性肿瘤数据回判该方法的正确性
ex_djy_jyjg_ms=(w(n1+n2+n3+n4+1:n1+n2+n3+n4+n5)<0)' %根据待检验的良性肿瘤数据检验该方法的正确性
pbjg_ms=(w(n1+n2+1:n1+n2+n3)<0)' %根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
附录四:问题三中用主成分分析法剔除指标的程序
%用主成分分析法动态地分析最应该剔除的指标,次之地,再次的···前提是剔除指标后根据回归方程得到的结果的准确率不小于80%
format short
%良性(lx)肿瘤数据
lx=[5,1,1,1,2,1,3,1,1
5,4,4,5,7,10,3,2,1
3,1,1,1,2,2,3,1,1
6,8,8,1,3,4,3,7,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,10,3,1,1
2,1,2,1,2,1,3,1,1
2,1,1,1,2,1,1,1,5
4,2,1,1,2,1,2,1,1
1,1,1,1,1,1,3,1,1
2,1,1,1,2,1,2,1,1
1,1,1,1,2,3,3,1,1
4,1,1,1,2,1,2,1,1
4,1,1,1,2,1,3,1,1
6,1,1,1,2,1,3,1,1
3,1,1,1,2,1,2,1,1
1,1,1,1,2,1,3,1,1
3,2,1,1,1,1,2,1,1
5,1,1,1,2,1,2,1,1
1,1,3,1,2,1,1,1,1
3,1,1,1,1,1,2,1,1
2,1,1,2,2,1,3,1,1
3,1,2,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
6,2,1,1,1,1,7,1,1
1,1,1,1,2,1,2,1,2
1,1,1,1,2,1,2,1,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,2,2,1,1
1,1,1,1,2,1,2,1,1];
%良性待检验(djy)肿瘤数据
lx_djy=[4,1,1,1,2,1,3,1,1
1,1,1,1,2,1,3,2,1
5,1,3,1,2,1,2,1,1
1,3,3,2,2,1,7,2,1
1,1,2,1,2,2,4,2,1
1,1,4,1,2,1,2,1,1
5,3,1,2,2,1,2,1,1
3,1,1,1,2,3,3,1,1
2,1,1,1,3,1,2,1,1
2,2,2,1,1,1,7,1,1]; %恶性(ex)肿瘤数据
ex=[8,10,10,8,7,10,9,7,1
5,3,3,3,2,3,4,4,1
8,7,5,10,7,9,5,5,4
7,4,6,4,6,1,4,3,1
10,7,7,6,4,10,4,1,2
7,3,2,10,5,10,5,4,4
10,5,5,3,6,7,7,10,1
5,2,3,4,2,7,3,6,1
10,7,7,3,8,5,7,4,3
10,10,10,8,6,1,8,9,1
5,4,4,9,2,10,5,6,1
2,5,3,3,6,7,7,5,1
10,4,3,1,3,3,6,5,2
6,10,10,2,8,10,7,3,3
5,6,5,6,10,1,3,1,1
10,10,10,4,8,1,8,10,1
3,7,7,4,4,9,4,8,1
7,8,7,2,4,8,3,8,2
9,5,8,1,2,3,2,1,5
5,3,3,4,2,4,3,4,1
5,5,5,8,10,8,7,3,7
10,5,5,6,8,8,7,1,1
10,6,6,3,4,5,3,6,1
8,10,10,1,3,6,3,9,1
8,2,4,1,5,1,5,4,4
5,2,3,1,6,10,5,1,1];
%恶性待检验(djy)肿瘤数据
ex_djy=[9,5,5,2,2,2,5,1,1
5,3,5,5,3,3,4,10,1
9,10,10,1,10,8,3,3,1
6,3,4,1,5,2,3,9,1
10,4,2,1,3,2,4,3,10
5,3,4,1,8,10,4,9,1
8,3,8,3,4,9,8,9,8
6,10,2,8,10,2,7,8,10
9, 4,5,10,6,10,4,8,1
10,6,4,1,3,4,3,2,3];
%待判别(dpb)肿瘤的数据
dpb=[10,4,7,2,2,8,6,1,1
5,2,2,2,2,1,2,2,1
8,6,7,3,3,10,3,4,2
6,5,5,8,4,10,3,4,1
1,1,1,1,1,1,2,1,1
10,3,3,1,2,10,7,6,1
2,1,1,1,2,1,1,1,1
7,6,4,8,10,10,9,5,3
1,1,1,1,1,1,1,3,1
4,2,3,5,3,8,7,6,1
5,1,1,1,2,1,3,1,2
5,4,6,6,4,10,4,3,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,3,1,1
8,5,5,5,2,10,4,3,1
1,1,1,1,2,1,3,1,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,1,1,1
3,4,4,10,5,1,3,3,1
5,1,1,3,2,1,1,1,1];
n1=size(lx,1);n2=size(ex,1);n3=size(dpb,1);n4=size(lx_djy,1);n5=s ize(ex_djy,1);
lx_Xi_pj=sum(lx)/n1;ex_Xi_pj=sum(ex)/n2;
x=[lx;ex];y=[zeros(n1,1);ones(n2,1)];
[x0,a,b]=zscore(x(:,[5,6,8,9]))
r=corr(x0);
[n,pk]=size(x0)
[e,f]=eig(r);
f=diag(f);
f=f(end:-1:1)
u=zeros(1,pk)
v=zeros(1,pk)
for t=1:1:pk;
u(t)=f(t)./sum(f)
v(t)=sum(f(1:t))./sum(f)
end
u,v
e=fliplr(e);
D=repmat(f',pk,1);
L=real(sqrt(D)).*e;
Z=x0*L;
Z;L;e,f=f',u,v
附录五:问题三中根据最主成分分析法得到的依次应该剔除的指标,根据剩余的指标建立线性回归方程,并检验其回判准确率,检验准确率的程序
%建立线性(Linear)经验回归平面方程判别法,并检验方法的正确性,及根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
format short
%良性(lx)肿瘤数据
lx=[5,1,1,1,2,1,3,1,1
5,4,4,5,7,10,3,2,1
3,1,1,1,2,2,3,1,1
6,8,8,1,3,4,3,7,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,10,3,1,1
2,1,2,1,2,1,3,1,1
2,1,1,1,2,1,1,1,5
4,2,1,1,2,1,2,1,1
1,1,1,1,1,1,3,1,1
2,1,1,1,2,1,2,1,1
1,1,1,1,2,3,3,1,1
4,1,1,1,2,1,2,1,1
4,1,1,1,2,1,3,1,1
6,1,1,1,2,1,3,1,1
3,1,1,1,2,1,2,1,1
1,1,1,1,2,1,3,1,1
3,2,1,1,1,1,2,1,1
5,1,1,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
3,1,1,1,1,1,2,1,1
2,1,1,2,2,1,3,1,1
3,1,2,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
6,2,1,1,1,1,7,1,1
1,1,1,1,2,1,2,1,2
1,1,1,1,2,1,2,1,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,2,2,1,1
1,1,1,1,2,1,2,1,1];
%良性待检验(djy)肿瘤数据
lx_djy=[4,1,1,1,2,1,3,1,1
1,1,1,1,2,1,3,2,1
5,1,3,1,2,1,2,1,1
1,3,3,2,2,1,7,2,1
1,1,2,1,2,2,4,2,1
1,1,4,1,2,1,2,1,1
5,3,1,2,2,1,2,1,1
3,1,1,1,2,3,3,1,1
2,1,1,1,3,1,2,1,1
2,2,2,1,1,1,7,1,1]; %恶性(ex)肿瘤数据
ex=[8,10,10,8,7,10,9,7,1
5,3,3,3,2,3,4,4,1
8,7,5,10,7,9,5,5,4
7,4,6,4,6,1,4,3,1
10,7,7,6,4,10,4,1,2
7,3,2,10,5,10,5,4,4
10,5,5,3,6,7,7,10,1
5,2,3,4,2,7,3,6,1
10,7,7,3,8,5,7,4,3
10,10,10,8,6,1,8,9,1
5,4,4,9,2,10,5,6,1
2,5,3,3,6,7,7,5,1
10,4,3,1,3,3,6,5,2
6,10,10,2,8,10,7,3,3
5,6,5,6,10,1,3,1,1
10,10,10,4,8,1,8,10,1
3,7,7,4,4,9,4,8,1
7,8,7,2,4,8,3,8,2
9,5,8,1,2,3,2,1,5
5,3,3,4,2,4,3,4,1
10,3,6,2,3,5,4,10,2
10,5,5,6,8,8,7,1,1
10,6,6,3,4,5,3,6,1
8,10,10,1,3,6,3,9,1
8,2,4,1,5,1,5,4,4
5,2,3,1,6,10,5,1,1];
%恶性待检验(djy)肿瘤数据
ex_djy=[9,5,5,2,2,2,5,1,1
5,3,5,5,3,3,4,10,1
9,10,10,1,10,8,3,3,1
6,3,4,1,5,2,3,9,1
10,4,2,1,3,2,4,3,10
5,3,4,1,8,10,4,9,1
8,3,8,3,4,9,8,9,8
6,10,2,8,10,2,7,8,10
9, 4,5,10,6,10,4,8,1
10,6,4,1,3,4,3,2,3];
%待判别(dpb)肿瘤的数据
dpb=[10,4,7,2,2,8,6,1,1
5,2,2,2,2,1,2,2,1
8,6,7,3,3,10,3,4,2
6,5,5,8,4,10,3,4,1
1,1,1,1,1,1,2,1,1
10,3,3,1,2,10,7,6,1
2,1,1,1,2,1,1,1,1
7,6,4,8,10,10,9,5,3
1,1,1,1,1,1,1,3,1
4,2,3,5,3,8,7,6,1
5,1,1,1,2,1,3,1,2
5,4,6,6,4,10,4,3,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,3,1,1
8,5,5,5,2,10,4,3,1
1,1,1,1,2,1,3,1,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,1,1,1
3,4,4,10,5,1,3,3,1
5,1,1,3,2,1,1,1,1];
n1=size(lx,1);n2=size(ex,1);n3=size(dpb,1);n4=size(lx_djy,1);n5=s ize(ex_djy,1);
lx_Xi_pj=sum(lx)/n1;ex_Xi_pj=sum(ex)/n2;
x=[lx;ex];y=[zeros(n1,1);ones(n2,1)];
X1=[ones(n1+n2,1) x(:,[5,6,8,9])];
[b1,bint1,r1,rint1,stats1]=regress(y,X1);
b1,bint1,stats1
rcoplot(r1,rint1);
lx_hpjg_1=([ones(n1,1) lx(:,[5,6,8,9])]*b1)';
lx_hpjg_1_sort=sort(lx_hpjg_1)
LX_hpjg_1=lx_hpjg_1>0.5 %根据良性肿瘤数据回判该方法的正确性
lx_djy_jyjg_1=([ones(n4,1) lx_djy(:,[5,6,8,9])]*b1)';
lx_djy_jyjg_1_sort=sort(lx_djy_jyjg_1)
LX_djy_jyjg_1=lx_djy_jyjg_1>0.5 %根据待检验的良性肿瘤数据检验该方法的正确性
ex_hpjg_1=([ones(n2,1) ex(:,[5,6,8,9])]*b1)';
ex_hpjg_1_sort=sort(ex_hpjg_1)
EX_hpjg_1=ex_hpjg_1>0.5 %根据恶性肿瘤数据回判该方法的正确性
ex_djy_jyjg_1=([ones(n5,1) ex_djy(:,[5,6,8,9])]*b1)';
ex_djy_jyjg_1_sort=sort(ex_djy_jyjg_1)
EX_djy_jyjg_1=ex_djy_jyjg_1>0.5 %根据待检验的恶性肿瘤数据检验该方法的正确性
pbjg_1=([ones(n3,1) dpb(:,[5,6,8,9])]*b1)';
pbjg_1_sort=sort(pbjg_1)
PBJG_1=pbjg_1>0.5
%根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
附录六:问题三中根据最主成分分析法得到的依次应该剔除的指标,根据剩余的指标建立纯二次回归方程,并检验其回判准确率,检验准确率的程序
%建立纯二次(Purequadratic)经验回归平面方程判别法,并检验方法的正确性,及根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
format short
%良性(lx)肿瘤数据
lx=[5,1,1,1,2,1,3,1,1
5,4,4,5,7,10,3,2,1
3,1,1,1,2,2,3,1,1
6,8,8,1,3,4,3,7,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,10,3,1,1
2,1,2,1,2,1,3,1,1
2,1,1,1,2,1,1,1,5
4,2,1,1,2,1,2,1,1
1,1,1,1,1,1,3,1,1
2,1,1,1,2,1,2,1,1
1,1,1,1,2,3,3,1,1
4,1,1,1,2,1,2,1,1
6,1,1,1,2,1,3,1,1
3,1,1,1,2,1,2,1,1
1,1,1,1,2,1,3,1,1
3,2,1,1,1,1,2,1,1
5,1,1,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
1,1,3,1,2,1,1,1,1
3,1,1,1,1,1,2,1,1
2,1,1,2,2,1,3,1,1
3,1,2,1,2,1,2,1,1
2,1,1,1,2,1,2,1,1
6,2,1,1,1,1,7,1,1
1,1,1,1,2,1,2,1,2
1,1,1,1,2,1,2,1,1
4,1,1,3,2,1,3,1,1
1,1,1,1,2,2,2,1,1
1,1,1,1,2,1,2,1,1];
%良性待检验(djy)肿瘤数据
lx_djy=[4,1,1,1,2,1,3,1,1
1,1,1,1,2,1,3,2,1
5,1,3,1,2,1,2,1,1
1,3,3,2,2,1,7,2,1
1,1,2,1,2,2,4,2,1
1,1,4,1,2,1,2,1,1
5,3,1,2,2,1,2,1,1
3,1,1,1,2,3,3,1,1
2,1,1,1,3,1,2,1,1
2,2,2,1,1,1,7,1,1]; %恶性(ex)肿瘤数据
ex=[8,10,10,8,7,10,9,7,1
5,3,3,3,2,3,4,4,1
8,7,5,10,7,9,5,5,4
7,4,6,4,6,1,4,3,1
10,7,7,6,4,10,4,1,2
7,3,2,10,5,10,5,4,4
10,5,5,3,6,7,7,10,1
5,2,3,4,2,7,3,6,1
10,7,7,3,8,5,7,4,3
10,10,10,8,6,1,8,9,1
5,4,4,9,2,10,5,6,1
2,5,3,3,6,7,7,5,1
10,4,3,1,3,3,6,5,2
6,10,10,2,8,10,7,3,3
10,10,10,4,8,1,8,10,1
3,7,7,4,4,9,4,8,1
7,8,7,2,4,8,3,8,2
9,5,8,1,2,3,2,1,5
5,3,3,4,2,4,3,4,1
10,3,6,2,3,5,4,10,2
5,5,5,8,10,8,7,3,7
10,5,5,6,8,8,7,1,1
10,6,6,3,4,5,3,6,1
8,10,10,1,3,6,3,9,1
8,2,4,1,5,1,5,4,4
5,2,3,1,6,10,5,1,1];
%恶性待检验(djy)肿瘤数据
ex_djy=[9,5,5,2,2,2,5,1,1
5,3,5,5,3,3,4,10,1
9,10,10,1,10,8,3,3,1 6,3,4,1,5,2,3,9,1
10,4,2,1,3,2,4,3,10 5,3,4,1,8,10,4,9,1
8,3,8,3,4,9,8,9,8
6,10,2,8,10,2,7,8,10 9, 4,5,10,6,10,4,8,1 10,6,4,1,3,4,3,2,3]; %待判别(dpb)肿瘤的数据
dpb=[10,4,7,2,2,8,6,1,1
5,2,2,2,2,1,2,2,1
8,6,7,3,3,10,3,4,2
6,5,5,8,4,10,3,4,1
1,1,1,1,1,1,2,1,1
10,3,3,1,2,10,7,6,1
2,1,1,1,2,1,1,1,1
7,6,4,8,10,10,9,5,3
1,1,1,1,1,1,1,3,1
4,2,3,5,3,8,7,6,1
5,1,1,1,2,1,3,1,2
5,4,6,6,4,10,4,3,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,3,1,1
8,5,5,5,2,10,4,3,1
1,1,1,1,2,1,3,1,1
1,1,1,1,2,1,1,1,1
1,1,1,1,2,1,1,1,1
3,4,4,10,5,1,3,3,1
n1=size(lx,1);n2=size(ex,1);n3=size(dpb,1);n4=size(lx_djy,1);n5=s ize(ex_djy,1);
lx_Xi_pj=sum(lx)/n1;ex_Xi_pj=sum(ex)/n2;
x=[lx;ex];y=[zeros(n1,1);ones(n2,1)];
X2=[ones(n1+n2,1) x(:,[5,6,8,9]) x(:,[5,6,8,9]).^2];
[b2,bint2,r2,rint2,stats2]=regress(y,X2);
b2,bint2,stats2
rcoplot(r2,rint2);
lx_hpjg_2=([ones(n1,1) lx(:,[5,6,8,9]) lx(:,[5,6,8,9]).^2]*b2)';
lx_hpjg_2_sort=sort(lx_hpjg_2)
LX_hpjg_2=lx_hpjg_2>0.5 %根据良性肿瘤数据回判该方法的正确性
lx_djy_jyjg_2=([ones(n4,1) lx_djy(:,[5,6,8,9]) lx_djy(:,[5,6,8,9]).^2]*b2)';
lx_djy_jyjg_2_sort=sort(lx_djy_jyjg_2)
LX_djy_jyjg_2=lx_djy_jyjg_2>0.5 %根据待检验的良性肿瘤数据检验该方法的正确性
ex_hpjg_2=([ones(n2,1) ex(:,[5,6,8,9]) ex(:,[5,6,8,9]).^2]*b2)' ; ex_hpjg_2_sort=sort(ex_hpjg_2)
EX_hpjg_2=ex_hpjg_2>0.5 %根据恶性肿瘤数据回判该方法的正确性
ex_djy_jyjg_2=([ones(n5,1) ex_djy(:,[5,6,8,9]) ex_djy(:,[5,6,8,9]).^2]*b2)';
ex_djy_jyjg_2_sort=sort(ex_djy_jyjg_2)
EX_djy_jyjg_2=ex_djy_jyjg_2>0.5 %根据待检验的恶性肿瘤数据检验该方法的正确性
pbjg_2=([ones(n3,1) dpb(:,[5,6,8,9]) dpb(:,[5,6,8,9]).^2]*b2)' ; pbjg_2_sort=sort(pbjg_2)
PBJG_2=pbjg_2>0.5
%根据该方法判别待判别的肿瘤属于“良性”
还是“恶性”
附录七:问题三中根据最主成分分析法得到的依次应该剔除的指标,根据剩余的指标建立纯三次回归方程,并检验其回判准确率,检验准确率的程序
%建立纯三次经验回归平面方程判别法,并检验方法的正确性,及根据该方法判别待判别的肿瘤属于“良性”还是“恶性”
format short
%良性(lx)肿瘤数据
lx=[5,1,1,1,2,1,3,1,1
5,4,4,5,7,10,3,2,1
3,1,1,1,2,2,3,1,1
6,8,8,1,3,4,3,7,1。