基于决策树的肝癌手术治疗效果评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
established the decision tree model based on ID3 algorithm as well as the decision tree model based on C4.5 algorithm. Then we applied the both models to the prognosis of patients with liver cancer. Moreover we put forward the prognostic prediction method. Through the 20 pretreated sample datas, we described the steps and methods of modeling and forecasting by using the above-mentioned decision tree models, pointing out the model based on C4.5 algorithm is better than the model based on ID3 algorithm in liver cancer treatment evaluation.
Gain( S , A) 。 Splitlnfo( S , A)
GainRatio( S , A) =
其中 Gain( S , A) 与 ID3 算法中的信息增益相同,而分裂信息 Splitlnfo( S , A) 代表了按照属 性 A 分裂样本集 S 的广度和均匀性。 Splitlnfo( S , A) 的定义式如下:
2.1.2 基于决策树原理的 ID3 算法
ID3 是 Quinlan 提出的一个著名决策树生成方法:决策树中每一个非叶结点对应着 一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径 对应的记录所属的类别属性值。 每一个非叶结点都将与属性中具有最大信息量的非类别 属性相关联。采用信息增益来选择能够最好地将样本分类的属性。其中信息增益的计算 方法如下: 设 S 是 s 个数据样本的集合,定义 m 个不同类 C i (i = 1,2, L , m ) ,设 s i 是 Ci 类中的样 本数。对给定的样本 S 所期望的信息值由下式给出:
Vi = Aic + A(i + 1)c , 它 可以将该节点上的数据集划分为两个子集; 2
第 5 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
从 total − 1 个分 割 点中选择最佳分 割 点。对于每一个分 割 点划分数据集的方 式, C4.5 计算 它 的信息增益 比 ,并 且 从中选择信息增益 比 最大的分 割 点来划 分数据集。 4、C4.5 算法采用了一种后剪枝方法 算法采用了一种后剪枝方法 避免树的高度无节制的增长,避免过度拟合数据,该方法使用训练样本集本身来估 计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下:
第 3 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
1. 挖掘目标 挖掘目标
本次数据挖掘建模是利用某医院10年积累下来的海量肝癌病例的真实数据, 利用数 据挖掘技术,以手术后疾病复发时间和手术后生存时间作为评价标准,建立反映病人肝 癌治疗效果的评价指标体系,从而对手术的治疗效果和方案的优劣进行预测,对病人规 划最佳的手术和治疗方案,提高生存质量具有十分重要的意义。
3、C4.5 算法可以处理连续 算法可以处理连续数值型属性 可以处理连续数值型属性 C4.5 既 可以处理 离散 型 描 述属性, 也 可以处理 连续 性 描 述属性。在选择某节 点上的分枝属性时,对于 离散 型 描 述属性, C4.5 的处理方法与 ID3 相同, 按照 该 属性本 身 的 取 值个数进行计算;对于某个 连续 性 描 述属性 Ac , 假 设在某个结点上 的数据集的样本数量为 total , C4.5 将作以下处理: 将该结点上的所有数据样本 按照连续 型 描 述属性的具体数值,由小到大进行 排序 ,得到属性值的 取 值 序列 { A1c , A2 c ,LL Atotalc } ; 在 取 值 序列 中生成 total − 1 个分 割 点。 第 i ( 0 < i < total ) 个分 割 点的 取 值设 置 为
Key words: Data mining; Decision tree; ID3 algorithm; C4.5 algorithm; Liver cancer
第 2 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
目
1. 2.
录
挖掘目标 ............................................................................................... 4 分析方法与过程.................................................................................... 4
1、ID3 算法存在的缺点 (1)ID3 算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标 准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会 提供太多有价值的信息。 (2)ID3 算法 只 能对 描 述属性为 离散 型属性的数据集构 造 决策树。 2、C4.5 算法用信息增益率来选择属性 算法用信息增益率来选择属性 信息增益率克服了用信息增益来选择属性时偏向选择值多的属性的不足。 信息增益 率定义为:
E(A) = ∑
j =1 v
s1 j + ... + smj s
I ( s1 j ,..., smj ) 。
有 A 进行分枝将获得的信息增益可以由下面的公式得到:
Gain(A) = I(s1 ,s 2 ,...,s m ) − E(A) 。
第 4 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
2.1.3 基于 ID3 算法的改进—— 算法的改进——C4 ——C4. C4.5 算法原理 算法原理
2. 分析方法与过程
2.1. 算法准备 算法准备
2.1.1 决策树原理
决策树是一种类似于流程图的树型结构,在使用决策树分ຫໍສະໝຸດ Baidu时,在每个节点采用信 息增益度量选择测试属性。这种度量称作属性选择度量或分裂优良性度量。选择具有最 高信息增益(或最大熵压缩)的属性作为当前节点的测试属性。 该属性使得对结果划分中 的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性” 。
f −q Pr > z = c , q (1 − q ) N
c
Splitlnfo( S , A) = −∑
i =1
Si S log 2 。 S
Si
其中, S1 到 S c 是 c 个不同值的属性 A 分割 S 而形成的 c 个样本子集。 如按照属性 A 把 S 集(含 30 个用例)分成了 10 个用例和 20 个用例两个集合,则
1 1 2 2 Splitlnfo( S , A) = − log − log 。 3 3 3 3
5.1.预处理后的建模数据 ................................................................................................. 19 5.2.建模数据指标的说明 ................................................................................................. 19 5.3.病人病情的随机模拟 ................................................................................................. 20
I (s1 , s 2 , L , s m ) = −∑ p i log 2 ( p i ) ,
i =1 m
其中 p i 是任意样本属于 C i 的概率:
si 。 s
设属性 A 具有个不同值 {a1 , a 2 , L , a v }, 可以用属性 A 将样本 S 划分为 {S1 , S 2 , L , SV }, 设 sij 是 S j 中 C i 类的样本数,则由 A 划分成子集的熵由下式给出:
2.1. 算法准备 ..................................................................................................................... 4 2.2. 总体流程 ..................................................................................................................... 7 2.3. 具体步骤 ..................................................................................................................... 7 2.4. 结果分析 ................................................................................................................... 15 2.5. 预测控制 ................................................................................................................... 17 2.6. 评价改进 ................................................................................................................... 18
3. 4. 5.
结论 .....................................................................................................18 参考文献 ..............................................................................................18 附录 .....................................................................................................19
关键词: 关键词:数据挖掘;决策树;ID3 算法;C4.5 算法;肝癌
第 1 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
Liver cancer treatment evaluation based on decision tree
Abstract: We introduced the basic principles of decision tree algorithm and
太普华南杯数据挖掘竞赛论文报告
基于决策树的肝癌手术治疗效果评价
摘 要:介绍了数据挖掘决策树算法的基本原理,建立了基于 ID3 算法的决策树模型
和基于 C4.5 算法的决策树模型, 并将这两种决策树模型应用于肝癌病人预后的影响中, 提出了预后影响的预测方法。通过 20 个预处理后的样本数据 ,详细地介绍了上述两种 决策树模型建模与预测的步骤和方法,指出了基于 C4.5 算法的决策树模型在肝癌手术 治疗效果评价中优于基于 ID3 算法的决策树模型。
Gain( S , A) 。 Splitlnfo( S , A)
GainRatio( S , A) =
其中 Gain( S , A) 与 ID3 算法中的信息增益相同,而分裂信息 Splitlnfo( S , A) 代表了按照属 性 A 分裂样本集 S 的广度和均匀性。 Splitlnfo( S , A) 的定义式如下:
2.1.2 基于决策树原理的 ID3 算法
ID3 是 Quinlan 提出的一个著名决策树生成方法:决策树中每一个非叶结点对应着 一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径 对应的记录所属的类别属性值。 每一个非叶结点都将与属性中具有最大信息量的非类别 属性相关联。采用信息增益来选择能够最好地将样本分类的属性。其中信息增益的计算 方法如下: 设 S 是 s 个数据样本的集合,定义 m 个不同类 C i (i = 1,2, L , m ) ,设 s i 是 Ci 类中的样 本数。对给定的样本 S 所期望的信息值由下式给出:
Vi = Aic + A(i + 1)c , 它 可以将该节点上的数据集划分为两个子集; 2
第 5 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
从 total − 1 个分 割 点中选择最佳分 割 点。对于每一个分 割 点划分数据集的方 式, C4.5 计算 它 的信息增益 比 ,并 且 从中选择信息增益 比 最大的分 割 点来划 分数据集。 4、C4.5 算法采用了一种后剪枝方法 算法采用了一种后剪枝方法 避免树的高度无节制的增长,避免过度拟合数据,该方法使用训练样本集本身来估 计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下:
第 3 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
1. 挖掘目标 挖掘目标
本次数据挖掘建模是利用某医院10年积累下来的海量肝癌病例的真实数据, 利用数 据挖掘技术,以手术后疾病复发时间和手术后生存时间作为评价标准,建立反映病人肝 癌治疗效果的评价指标体系,从而对手术的治疗效果和方案的优劣进行预测,对病人规 划最佳的手术和治疗方案,提高生存质量具有十分重要的意义。
3、C4.5 算法可以处理连续 算法可以处理连续数值型属性 可以处理连续数值型属性 C4.5 既 可以处理 离散 型 描 述属性, 也 可以处理 连续 性 描 述属性。在选择某节 点上的分枝属性时,对于 离散 型 描 述属性, C4.5 的处理方法与 ID3 相同, 按照 该 属性本 身 的 取 值个数进行计算;对于某个 连续 性 描 述属性 Ac , 假 设在某个结点上 的数据集的样本数量为 total , C4.5 将作以下处理: 将该结点上的所有数据样本 按照连续 型 描 述属性的具体数值,由小到大进行 排序 ,得到属性值的 取 值 序列 { A1c , A2 c ,LL Atotalc } ; 在 取 值 序列 中生成 total − 1 个分 割 点。 第 i ( 0 < i < total ) 个分 割 点的 取 值设 置 为
Key words: Data mining; Decision tree; ID3 algorithm; C4.5 algorithm; Liver cancer
第 2 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
目
1. 2.
录
挖掘目标 ............................................................................................... 4 分析方法与过程.................................................................................... 4
1、ID3 算法存在的缺点 (1)ID3 算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标 准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会 提供太多有价值的信息。 (2)ID3 算法 只 能对 描 述属性为 离散 型属性的数据集构 造 决策树。 2、C4.5 算法用信息增益率来选择属性 算法用信息增益率来选择属性 信息增益率克服了用信息增益来选择属性时偏向选择值多的属性的不足。 信息增益 率定义为:
E(A) = ∑
j =1 v
s1 j + ... + smj s
I ( s1 j ,..., smj ) 。
有 A 进行分枝将获得的信息增益可以由下面的公式得到:
Gain(A) = I(s1 ,s 2 ,...,s m ) − E(A) 。
第 4 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
2.1.3 基于 ID3 算法的改进—— 算法的改进——C4 ——C4. C4.5 算法原理 算法原理
2. 分析方法与过程
2.1. 算法准备 算法准备
2.1.1 决策树原理
决策树是一种类似于流程图的树型结构,在使用决策树分ຫໍສະໝຸດ Baidu时,在每个节点采用信 息增益度量选择测试属性。这种度量称作属性选择度量或分裂优良性度量。选择具有最 高信息增益(或最大熵压缩)的属性作为当前节点的测试属性。 该属性使得对结果划分中 的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性” 。
f −q Pr > z = c , q (1 − q ) N
c
Splitlnfo( S , A) = −∑
i =1
Si S log 2 。 S
Si
其中, S1 到 S c 是 c 个不同值的属性 A 分割 S 而形成的 c 个样本子集。 如按照属性 A 把 S 集(含 30 个用例)分成了 10 个用例和 20 个用例两个集合,则
1 1 2 2 Splitlnfo( S , A) = − log − log 。 3 3 3 3
5.1.预处理后的建模数据 ................................................................................................. 19 5.2.建模数据指标的说明 ................................................................................................. 19 5.3.病人病情的随机模拟 ................................................................................................. 20
I (s1 , s 2 , L , s m ) = −∑ p i log 2 ( p i ) ,
i =1 m
其中 p i 是任意样本属于 C i 的概率:
si 。 s
设属性 A 具有个不同值 {a1 , a 2 , L , a v }, 可以用属性 A 将样本 S 划分为 {S1 , S 2 , L , SV }, 设 sij 是 S j 中 C i 类的样本数,则由 A 划分成子集的熵由下式给出:
2.1. 算法准备 ..................................................................................................................... 4 2.2. 总体流程 ..................................................................................................................... 7 2.3. 具体步骤 ..................................................................................................................... 7 2.4. 结果分析 ................................................................................................................... 15 2.5. 预测控制 ................................................................................................................... 17 2.6. 评价改进 ................................................................................................................... 18
3. 4. 5.
结论 .....................................................................................................18 参考文献 ..............................................................................................18 附录 .....................................................................................................19
关键词: 关键词:数据挖掘;决策树;ID3 算法;C4.5 算法;肝癌
第 1 页,共 21 页
太普华南杯数据挖掘竞赛论文报告
Liver cancer treatment evaluation based on decision tree
Abstract: We introduced the basic principles of decision tree algorithm and
太普华南杯数据挖掘竞赛论文报告
基于决策树的肝癌手术治疗效果评价
摘 要:介绍了数据挖掘决策树算法的基本原理,建立了基于 ID3 算法的决策树模型
和基于 C4.5 算法的决策树模型, 并将这两种决策树模型应用于肝癌病人预后的影响中, 提出了预后影响的预测方法。通过 20 个预处理后的样本数据 ,详细地介绍了上述两种 决策树模型建模与预测的步骤和方法,指出了基于 C4.5 算法的决策树模型在肝癌手术 治疗效果评价中优于基于 ID3 算法的决策树模型。