评估有指导学习模型(心脏病数据集)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

|0.198675 −0.165ห้องสมุดไป่ตู้63 |
0.149017×(
1 1 + ) 151 151
=0.745
设置信区间为 0.05 Z=0.745<1.96 故不存在显著性差异
第四章心得体会
从这次的实验学会了如何使用 Weka 建立数据集的分类模型，以及如何建立混淆矩阵，去评估这些模型。如何用假设检验去评估两种模型之间的分类正确率。通过实验学会了许多分析方法和技巧，我相信不断的训练和学习，我能从中收获很多，这对以后的学习和工作有巨大的帮助！
126 25 0.6675 0.2263 0.3403 45.4768 % 67.6917 % 151
83.4437 % 16.5563 %
第三章实验结果及分析
3.1 结果分析
三种模型的混淆矩阵如下
J48：
算法的混淆矩阵如下
患病患病不患病
Correctly Classified Instances Incorrectly Classified Instances
（2）ZeroR 算法
算法的混淆矩阵如下
患病患病不患病 0 0
不患病 73 78
=== Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 78 73 0 0.4976 0.5027 100 % 100 % 151 51.6556 % 48.3444 %
2.2
实验过程
2.2.1.建模
1.将数据集导入 Weka 中
2.打开 Classfy 选项选择不同的算法在 Test Option 选项中选择 Precentage Split，值为 50%（150 个为训练集剩下的为验证）
（1）J48 算法
算法的混淆矩阵如下
患病患病不患病 56 13
不患病 17 65
1.3 实验工具
实验软件：Weka3.9 数据集来源：配套数据集 cardiologynumerical.csv
第 2 章、实验过程
2.1 数据准备
cardiologynumerical.csv 数据集说明属性名称 Age Sex Chest Pain Type 数值类型 Numeric 1,0 1,2,3,4 说明年龄性别胸痛类型（绞痛，异常绞痛，无绞痛，无症状） Blood Pressure Cholesterol Fasting Blood Suager Resting ECG Numeric Numeric 0,1 0,1,2 静息血压血清胆固醇空腹血糖低于 120？静息心电图（正常，异常，左心室肥大） Maxium Hert Rate Induced Angina？ Old Peak Slope Number Colored Vessels Thal Concept Class Numeric 1,0 Numeric 1,2,3 0,1,2,3,4 3,6,7 Yes，No 最大心率诱发心绞痛？峰值斜度有色导管编号地中海缺血概念类
可以看出正确率才 51.6556 %，仅一半的正确率，非常不尽人意。而这个与 J48
(3)LMT 算法
算法的混淆矩阵如下
患病患病不患病 57 9
不患病 16 69
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 该算法的正确率也到达了 83.4437 %
0 0
LMT 算法
患病患病不患病
Correctly Classified Instances Incorrectly Classified Instances
不患病 16 69
126 25 83.4437 % 16.5563 %
57 9
以上三种模型中 J48 和 LMT 的算法正确率达到了 80%以上，比较可信，
=== Summary === Correctly Classified Instances 121 80.1325 % Incorrectly Classified Instances 30 19.8675 % Kappa statistic 0.6015 Mean absolute error 0.2326 Root mean squared error 0.4367 Relative absolute error 46.746 % Root relative squared error 86.8754 % Total Number of Instances 151 可以看出结果的分类确率到了 80.1325 %，已经还不错了。
不患病 17 65
121 30 80.1325 % 19.8675 %
56 13
ZeroR 算法患病患病不患病
Correctly Classified Instances Incorrectly Classified Instances
不患病 73 78
78 73 51.6556 % 48.3444 %
而 ZeroR 算法只有 50%左右非常不尽人意。利用假设检验检验这三种模型
算法的假设检验 Z= |��1 − ��2 | �� (1 − �� )(1/��1 + 1/��2)
1 按照上述公式计算 J48 与 ZeroR q=(0.198675 + 0.483444)/2=0.3410485 q(1-q)=0.224719 带入公式可得Z =
`
题
目数据挖掘评估技术信息科学与技术学院计算机科学与技术
学院名称专业名称学生姓名何东升学生学号指导教师实习地点实习成绩
201413030119
成都理工大学
二〇一六年 9 月
评估有指导学习模型
第1章、实验目的及内容
1.1 实习目的
模型的评估是对数据挖掘而过程非常重要的步骤，是模型是否能够最终投入实际应用的重要环节。在抽取某些数据实例和属性，选择某种数据挖掘技术，设置某些参
|0.198675 −0.483444 | 0.224719 ×(
1 1 + ) 151 151
=-5.22
设置信区间为 0.05 Z>1.96 故存在显著性差异 2 计算 J48 与 LMT q=(0.198675 + 0. 165563)/2=0.182119 q(1-q)=0.149017 带入公式可得Z =
数进行有指导的学习训练和无指导的聚类分析之后，所建立在性能上差强人意，不能满足解决问题的需求，此时，需要对这个过程所有可能对模型性能产生的因素进行检查和评估，找出可能的问题所在加以调整，重复试验，直到模型性能能达到预期的标准。
1.2 算法的核心思想
使用混淆矩阵和分类正确率以及假设检验比较模型。在机器学习领域，混淆矩阵（confusion matrix），又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习（非监督学习，通常用匹配矩阵：matching matrix）。其每一列代表预测值，每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆（也就是一个 class 被预测成另一个 class）。假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作 H0；选取合适的统计量，这个统计量的选取要使得在假设 H0 成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设 H0 的判断。常用的假设检验方法有 u—检验法、t 检验法、χ 2 检验法(卡方检验)、F—检验法，秩和检验等。