肝癌手术治疗效果评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
步骤四:建模&诊断。通过步骤三我们最终得出相关性最好的是 X2,X3, X4,X8,Y。通过图表建立出模型。同时选取样本数据 10 以及相本数据 20 进行观察,10 的 X2, 3, 4, 8 的数据为 0,0,1,1,即无门脉栓癌,Hbsag 为阴性,Anti-HCV 为阳性,肿瘤包膜为子灶突破包膜,根据模型预测为对 预后无影响,与实际结果相符;20 的 X2, 3, 4, 8 的数据为 0,1,1,1, 根据预测为对预后有影响,跟实际结果相符。故模型通过诊断。
Y=N
Y=Y
Observed
Expected
Observed
Expected
Total
2
1.996
0
.004
2
2
1.986
0
.014
2
2
1.798
0
.202
2
1
2.231
2
.769
3
2
1.260
0
.740
2
1
.987
1
1.013
2
1
.502
1
1.498
2
0
.222
2
1.778
2
0
.018
2
1.982
太普华南杯数据挖掘竞赛论文报告
85.0
Variables in the Equation
Step 1a X2
B -2.558
S.E. 1.544
Wald 2.744
df 1
X3
1.866
1.467
1.618
1
X4
-5.561
3.324
2.799
1
X8
4.657
2.645
3.100
1
Constant
.373
Logistic Regression
[DataSet0]
Case Processing Summary
Unweighted Casesa Selected Cases
Included in Analysis
N
Percent
20
100.0
Missing Cases
0
.0
Total
20
100.0
Unselected Cases
1.383
.073
1
a. Variable(s) entered on step 1: X2, X3, X4, X8.
Sig.
Exp(B)
.098
.077
.203
6.465
.094
.004
.078 105.299
.787
1.452
观察最后一张表格的Sig值,虽然相比0.05的标准依然有些偏大,不过 依然在可容许的范围之内,同时相比其他组已是最小。观察分布图,大部 分N位于最左,大部分Y位于最右,基本符合要求。
2
2
1.798
0
.Leabharlann Baidu02
2
1
2.231
2
.769
3
2
1.260
0
.740
2
1
.987
1
1.013
2
1
.502
1
1.498
2
0
.222
2
1.778
2
0
.018
2
1.982
2
第 7 页,共 10 页
Step 1
1
2
3
4
5
6
7
8
9
10
太普华南杯数据挖掘竞赛论文报告
Contingency Table for Hosmer and Lemeshow Test
2
0
.000
1
1.000
1
Observed
Step 1 Y
N
Y
Classification Tablea
Predicted
Y
N
Y
Percentage Correct
10
1
90.9
2
7
77.8
第 8 页,共 10 页
Overall Percentage a. The cut value is .500
Chi-square
df
Sig.
Step 1 Step
13.442
4
.009
Block
13.442
4
.009
Model
13.442
4
.009
第 6 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
Model Summary
Step 1
Cox & Snell R
-2 Log likelihood
Square
2. 分析方法与过程
2.1. 总体流程
步骤一:查找相关资料,确定软件及方法 步骤二:数据抽取 步骤三:数据预处理 步骤四:建模&诊断
2.2. 具体步骤
主要包括如下步骤: 步骤一:查找相关资料。根据所给数据的自变量与因变量的数量、样本的 数量,确定使用 SPSS 软件以及二元的 Logistic 回归分析
太普华南杯数据挖掘竞赛论文报告 论文报告标题
摘 要:肝癌是指发生于肝脏的恶性肿瘤,包括原发性肝癌和转移性 肝癌两种,人们日常说的肝癌指的多是原发性肝癌。原发性肝癌是临床上 最常见的恶性肿瘤之一,根据最新统计,全世界每年新发肝癌患者约六十 万,居恶性肿瘤的第五位。原发性肝癌按细胞分型可分为肝细胞型肝癌、 胆管细胞型肝癌及混合型肝癌。按肿瘤的形态可分为结节型、巨块型和弥 漫型。原发性肝癌在我国属于高发病,一般男性多于女性。中国是乙肝大 国,我国的肝癌多在乙肝肝硬化的基础上发展而来,丙肝病人也在逐渐增 加,乙肝后也会发展为肝癌。目前我国发病人数约占全球的半数以上,占 全球肝癌病人的 55%,已经成为严重威胁我国人民健康和生命的一大杀手, 其危险性不容小视。本论文试图建立数据挖掘模型,建立数据挖掘模型, 对手术的治疗效果和方案的优劣进行预测,为病人规划最佳的手术和治疗 方案,解除病人的痛苦。
3. 结论 ...................................................................... 错误!未定义书签。 4. 参考文献..............................................................................................10
步骤二:数据抽取。对指标进行赋值。
无 (no)0 、 轻 (light)1 、 中 (mid)2 、 重 X1 食道静脉曲张
(serious)3
X2 门脉癌栓
无(no)0、分支(branch)1、主干(trunk)2
X3 HbsAg X4 Anti-HCV X5 肿瘤部位
阴性(negative)0、阳性(positive)1 阴性(negative)0、阳性(positive)1 左肝(leftliver)0、右肝(rightliver) 11、
Predicted
Y N
11
Percentage
Y
Correct
0
100.0
9
0
.0
55.0
Step 0 Constant
Variables in the Equation
B
S.E.
Wald
-.201
.449
.199
df
Sig.
Exp(B)
1
.655
.818
Variables not in the Equation
Chi-square
df
Sig.
4.995
8
.758
Step 1
1
2
3
4
5
6
7
8
9
Contingency Table for Hosmer and Lemeshow Test
Y=N
Y=Y
Observed
Expected
Observed
Expected
Total
2
1.996
0
.004
2
2
1.986
0
.014
第 4 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
2.3. 结果分析
对(X2,X3,X4,X8,Y)进行 SPSS 软件的二元 Logistic 回归分析的结果如下
LOGISTIC REGRESSION VARIABLES Y /METHOD=ENTER X2 X3 X4 X8 /SAVE=LEVER DFBETA ZRESID DEV /CLASSPLOT /PRINT=GOODFIT /CRITERIA=PIN(0.05) POUT(0.10) ITERATE(50) CUT(0.5)
Block 0: Beginning Block
第 5 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
Classification Tablea,b
Step 0
Observed
Y
N
Y
Overall Percentage a. Constant is included in the model. b. The cut value is .500
第 2 页,共 10 页
1. 挖掘目标
太普华南杯数据挖掘竞赛论文报告
本次建模目标是利用样本数据的不同描述方式,积累下来的海量真实数据, 采用数据挖掘技术,分析各类数据直接的相互关系、发现事件之间的内部 关联,构建反映病人发生肝癌细胞病变因素确定的模型,实现对肝癌细胞 以及治理提供科学依据。具体来说,就是利用 10 种指标,20 个样本。在复 杂的指标当中我们建立数据挖掘模型,对手术的治疗效果和方案的优劣进 行预测,为病人规划最佳的手术和治疗方案,解除病人的痛苦。
第 9 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
3.结论 对肝癌的预后影响比较大的为门脉栓癌,Hbsag,Anti-HCV,肿瘤包膜。 医生应重点依据这四个指标,预测患者将来的病情走势以及是否开刀。
0
.0
Total
20
100.0
a. If weight is in effect, see classification table for the total number of cases.
Dependent Variable Encoding
Original Value N
Y
Internal Value 0 1
Score
Step 0 Variables X2
.237
X3
1.650
X4
.737
X8
3.714
Overall Statistics
9.023
df 1 1 1 1 4
Sig. .626 .199 .391 .054 .061
Block 1: Method = Enter
Omnibus Tests of Model Coefficients
2.1. 总体流程 ..................................................................................................................... 3 2.2. 具体步骤 ..................................................................................................................... 3 2.3. 结果分析 ..................................................................................................................... 5
第 3 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
全肝(allliver)2
直 径 <3cm(small)1 、 3~5cm(middle) 1 、
X6 肿瘤大小
5~10cm(big) 2、>10cm(verybig) 3
X7 肿瘤生长方式 膨胀(dilation) 0、浸润(infiltration) 1
关键词:肝癌 疗效 数据挖掘
第 1 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
目录 1. 研究目标............................................................................................... 3 2. 分析方法与过程.................................................................................... 3
Nagelkerke R Square
14.083a
.489
.655
a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001.
Step 1
Hosmer and Lemeshow Test
X8 肿瘤包膜
完整(integrate) 0、子灶突破包膜(part) 1、无(no) 2
肿瘤旁的微小
X9
无(no) 0、有(have) 1
子灶
X10 术后腹水
无(no) 0、少(less) 1、多(much) 2
DECIS 预后影响
ION
有(Y)、无(N)
步骤三:数据预处理。由于指标 X 有 10 个,而样本只有 20 个,样本太少 无法体现出显著性,所以需对指标进行剔除、筛选。根据经验我们将指标 定为 4 个。使用 SPSS 软件的二元 Logistic 回归分析,每 4 个指标进行一次 拟合(如 X1,X2,X3,X4,Y ; X1,X2,X3,X5,Y;依此类推),观察每组结果的 Sig 值,以及分布图中 Y 与 N 的分布状况。Sig 值越小越好;分布图中 Y 越 靠右,N 越靠左,拟合的就越好。
Y=N
Y=Y
Observed
Expected
Observed
Expected
Total
2
1.996
0
.004
2
2
1.986
0
.014
2
2
1.798
0
.202
2
1
2.231
2
.769
3
2
1.260
0
.740
2
1
.987
1
1.013
2
1
.502
1
1.498
2
0
.222
2
1.778
2
0
.018
2
1.982
太普华南杯数据挖掘竞赛论文报告
85.0
Variables in the Equation
Step 1a X2
B -2.558
S.E. 1.544
Wald 2.744
df 1
X3
1.866
1.467
1.618
1
X4
-5.561
3.324
2.799
1
X8
4.657
2.645
3.100
1
Constant
.373
Logistic Regression
[DataSet0]
Case Processing Summary
Unweighted Casesa Selected Cases
Included in Analysis
N
Percent
20
100.0
Missing Cases
0
.0
Total
20
100.0
Unselected Cases
1.383
.073
1
a. Variable(s) entered on step 1: X2, X3, X4, X8.
Sig.
Exp(B)
.098
.077
.203
6.465
.094
.004
.078 105.299
.787
1.452
观察最后一张表格的Sig值,虽然相比0.05的标准依然有些偏大,不过 依然在可容许的范围之内,同时相比其他组已是最小。观察分布图,大部 分N位于最左,大部分Y位于最右,基本符合要求。
2
2
1.798
0
.Leabharlann Baidu02
2
1
2.231
2
.769
3
2
1.260
0
.740
2
1
.987
1
1.013
2
1
.502
1
1.498
2
0
.222
2
1.778
2
0
.018
2
1.982
2
第 7 页,共 10 页
Step 1
1
2
3
4
5
6
7
8
9
10
太普华南杯数据挖掘竞赛论文报告
Contingency Table for Hosmer and Lemeshow Test
2
0
.000
1
1.000
1
Observed
Step 1 Y
N
Y
Classification Tablea
Predicted
Y
N
Y
Percentage Correct
10
1
90.9
2
7
77.8
第 8 页,共 10 页
Overall Percentage a. The cut value is .500
Chi-square
df
Sig.
Step 1 Step
13.442
4
.009
Block
13.442
4
.009
Model
13.442
4
.009
第 6 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
Model Summary
Step 1
Cox & Snell R
-2 Log likelihood
Square
2. 分析方法与过程
2.1. 总体流程
步骤一:查找相关资料,确定软件及方法 步骤二:数据抽取 步骤三:数据预处理 步骤四:建模&诊断
2.2. 具体步骤
主要包括如下步骤: 步骤一:查找相关资料。根据所给数据的自变量与因变量的数量、样本的 数量,确定使用 SPSS 软件以及二元的 Logistic 回归分析
太普华南杯数据挖掘竞赛论文报告 论文报告标题
摘 要:肝癌是指发生于肝脏的恶性肿瘤,包括原发性肝癌和转移性 肝癌两种,人们日常说的肝癌指的多是原发性肝癌。原发性肝癌是临床上 最常见的恶性肿瘤之一,根据最新统计,全世界每年新发肝癌患者约六十 万,居恶性肿瘤的第五位。原发性肝癌按细胞分型可分为肝细胞型肝癌、 胆管细胞型肝癌及混合型肝癌。按肿瘤的形态可分为结节型、巨块型和弥 漫型。原发性肝癌在我国属于高发病,一般男性多于女性。中国是乙肝大 国,我国的肝癌多在乙肝肝硬化的基础上发展而来,丙肝病人也在逐渐增 加,乙肝后也会发展为肝癌。目前我国发病人数约占全球的半数以上,占 全球肝癌病人的 55%,已经成为严重威胁我国人民健康和生命的一大杀手, 其危险性不容小视。本论文试图建立数据挖掘模型,建立数据挖掘模型, 对手术的治疗效果和方案的优劣进行预测,为病人规划最佳的手术和治疗 方案,解除病人的痛苦。
3. 结论 ...................................................................... 错误!未定义书签。 4. 参考文献..............................................................................................10
步骤二:数据抽取。对指标进行赋值。
无 (no)0 、 轻 (light)1 、 中 (mid)2 、 重 X1 食道静脉曲张
(serious)3
X2 门脉癌栓
无(no)0、分支(branch)1、主干(trunk)2
X3 HbsAg X4 Anti-HCV X5 肿瘤部位
阴性(negative)0、阳性(positive)1 阴性(negative)0、阳性(positive)1 左肝(leftliver)0、右肝(rightliver) 11、
Predicted
Y N
11
Percentage
Y
Correct
0
100.0
9
0
.0
55.0
Step 0 Constant
Variables in the Equation
B
S.E.
Wald
-.201
.449
.199
df
Sig.
Exp(B)
1
.655
.818
Variables not in the Equation
Chi-square
df
Sig.
4.995
8
.758
Step 1
1
2
3
4
5
6
7
8
9
Contingency Table for Hosmer and Lemeshow Test
Y=N
Y=Y
Observed
Expected
Observed
Expected
Total
2
1.996
0
.004
2
2
1.986
0
.014
第 4 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
2.3. 结果分析
对(X2,X3,X4,X8,Y)进行 SPSS 软件的二元 Logistic 回归分析的结果如下
LOGISTIC REGRESSION VARIABLES Y /METHOD=ENTER X2 X3 X4 X8 /SAVE=LEVER DFBETA ZRESID DEV /CLASSPLOT /PRINT=GOODFIT /CRITERIA=PIN(0.05) POUT(0.10) ITERATE(50) CUT(0.5)
Block 0: Beginning Block
第 5 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
Classification Tablea,b
Step 0
Observed
Y
N
Y
Overall Percentage a. Constant is included in the model. b. The cut value is .500
第 2 页,共 10 页
1. 挖掘目标
太普华南杯数据挖掘竞赛论文报告
本次建模目标是利用样本数据的不同描述方式,积累下来的海量真实数据, 采用数据挖掘技术,分析各类数据直接的相互关系、发现事件之间的内部 关联,构建反映病人发生肝癌细胞病变因素确定的模型,实现对肝癌细胞 以及治理提供科学依据。具体来说,就是利用 10 种指标,20 个样本。在复 杂的指标当中我们建立数据挖掘模型,对手术的治疗效果和方案的优劣进 行预测,为病人规划最佳的手术和治疗方案,解除病人的痛苦。
第 9 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
3.结论 对肝癌的预后影响比较大的为门脉栓癌,Hbsag,Anti-HCV,肿瘤包膜。 医生应重点依据这四个指标,预测患者将来的病情走势以及是否开刀。
0
.0
Total
20
100.0
a. If weight is in effect, see classification table for the total number of cases.
Dependent Variable Encoding
Original Value N
Y
Internal Value 0 1
Score
Step 0 Variables X2
.237
X3
1.650
X4
.737
X8
3.714
Overall Statistics
9.023
df 1 1 1 1 4
Sig. .626 .199 .391 .054 .061
Block 1: Method = Enter
Omnibus Tests of Model Coefficients
2.1. 总体流程 ..................................................................................................................... 3 2.2. 具体步骤 ..................................................................................................................... 3 2.3. 结果分析 ..................................................................................................................... 5
第 3 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
全肝(allliver)2
直 径 <3cm(small)1 、 3~5cm(middle) 1 、
X6 肿瘤大小
5~10cm(big) 2、>10cm(verybig) 3
X7 肿瘤生长方式 膨胀(dilation) 0、浸润(infiltration) 1
关键词:肝癌 疗效 数据挖掘
第 1 页,共 10 页
太普华南杯数据挖掘竞赛论文报告
目录 1. 研究目标............................................................................................... 3 2. 分析方法与过程.................................................................................... 3
Nagelkerke R Square
14.083a
.489
.655
a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001.
Step 1
Hosmer and Lemeshow Test
X8 肿瘤包膜
完整(integrate) 0、子灶突破包膜(part) 1、无(no) 2
肿瘤旁的微小
X9
无(no) 0、有(have) 1
子灶
X10 术后腹水
无(no) 0、少(less) 1、多(much) 2
DECIS 预后影响
ION
有(Y)、无(N)
步骤三:数据预处理。由于指标 X 有 10 个,而样本只有 20 个,样本太少 无法体现出显著性,所以需对指标进行剔除、筛选。根据经验我们将指标 定为 4 个。使用 SPSS 软件的二元 Logistic 回归分析,每 4 个指标进行一次 拟合(如 X1,X2,X3,X4,Y ; X1,X2,X3,X5,Y;依此类推),观察每组结果的 Sig 值,以及分布图中 Y 与 N 的分布状况。Sig 值越小越好;分布图中 Y 越 靠右,N 越靠左,拟合的就越好。