数据挖掘过程说明文档
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生产再生钢的过程如下:组合后的废钢通过炉门送入炉子,电流通过悬浮在炉内的电极输送到熔化的废钢中。提供给这些电极的高电流通过电弧传输到内部的金属废料,对其加热并产生超过3000°C的温度。
通过添加各种活性气体和惰性气体以及固体物质来维持和优化炉内条件。然后,钢水从熔炉中流出,进入移动坩埚,并浇铸到钢坯中。
你将得到一个数据集,代表从各种金属废料lypes生产回收钢坯的过程。Hie数据集包含大
•这是一个基于团队的项目。你需要组成一个小组,由三名(或两名)组员来完成这项练习。•您可以使用Weka或任何其他可用的数据挖掘资源和软件包来帮助您制定问题、计算、评
估等。
•您的团队绩效将完全根据团队的结果和您的报告进行评估。
•作为一个团队,您需要决定给定问题的性质;什么类型的数据挖掘问题公式适合解决此类问题;您的团队可以遵循什么样的基本数据挖掘过程;您的团队希望尝试什么类型的算法;以何种方式,您可以进一步利用或最大化您的性能,等等。
•您的团队应致力于涵盖讲座、教程中包含的领域,考虑预处理、特征选择、各种算法、验证、测试和性能评估方法。
•对于性能基准,建议您使用准确度和/或错误率作为评估指标。
•表现最好的球队将被宣布为本次迷你KDD杯冠军,并将获得10%的加分,最高100%满分。
数据挖掘流程:
一、数据建模
1. 数据获取
2. 数据分析
3. 数据预处理
二、算法建模
1. 模型构建
2. 模型检验
三、评估
一、数据建模
1.数据获取及分析
数据集:EAF_process_dataqqq.csv
根据《assignment 2》中,数据集的说明,可知:
输入数据:9个变量Heat Number
Clean Bales V2
Steel Turnings
Tin Can
Estructural Fragmentized Scrap Merchant 1/2 Recovered Scrap Total Scrap Mix
中间参数:8个Power On Time
Secondary Oxygen
Main Oxygen
Natural Gas
Argon
Carbon Injected
Lime and Dolomite
Dolomite
输出:
Billet Tons
EAF
在EAF_process_data中,列出21个变量。多出'Heat Number',Steel Grade'两个变量。
2. 数据预处理
1)数据规约:
(1)规定输入输出变量【特征选择】
【方案一】输出为单变量Billet Tons
【预测目标变量为数值,因此是监督学习,回归。可以利用回归、神经网络、深度学习等算法】
输入变量为:9个输入变量+8个中间参数
输出变量为:Billet Tons
具体含义:根据各种输入预测钢产量Billet Tons
【方案二】输出为单变量EAF
【预测目标变量为数值,因此是监督学习,回归。可以利用回归、神经网络、深度学习等算法】
输入变量为:9个输入变量+8个中间参数
输出变量为:EAF
具体含义:根据各种输入预测熔化废钢时消耗的数值能量EAF
【方案三】输出为单变量Steel Grade
【预测目标变量为类别,因此是监督学习,分类。可以利用分类、回归、神经网络、深度学习等算法】
输入变量为:9个输入变量+8个中间参数
输出变量为:Steel Grade
具体含义:根据各种输入预测钢类别Steel Grade
【方案四】输出为多变量Billet Tons 和EAF
【预测目标变量为数值,因此是监督学习,回归。可以利用回归、神经网络、深度学习等算法】
输入变量为:9个输入变量+8个中间参数
输出变量为:Billet Tons和EAF
具体含义:根据各种输入预测钢产量Billet Tons和能耗EAF
2)数据清洗:
(1)利用统计学方法观察数据分布:【可利用程序或者软件】
可根据EAF_process_data,依次观察每个变量分布情况,目的是看出是否有存在异常值【一般情况下,每个变量都应有一定的范围;或者说如果该变量为负值,则肯定异常,需删除】
以Estructural为例:
(2)查看数据中是否包含空值和特殊字符
若为空或者NAN,则需要处理。是删除整行数据还是用插值补空,需要根据具体情况再处理。
本数据集中无空值。
本数据集中包含特殊字符“?”,需将含有“?”的整行数据删除。
原数据集大小为:3493*21
经处理后大小为:3460*21
(3)现有数据是否合理
【因不知道每个变量的合理范围,因此此步无法执行】
3)数据降维
因《assignment 2》中已经列出输入、中间、输出变量
可根据相关性分析等数据统计方法,得到输入变量、中间变量和输出变量间的关系强弱。
【但个人认为本数据集中变量比较少,经相关性分析后,可将所有输入变量、中间变量均作为机器学习算法的输入,无需降维。】
二、算法建模
根据2.1.1中列出的方案分别建模。
因【方案一】和【方案二】均预测单个数值型变量,可利用同种建模方法。
现以【方案一】输出为Billet Tons为例。
1. 数据划分
将所有数据随机划分成训练集和测试,其中训练集占80%,测试集占20%。【传统划分数据集中,还应包含验证集,但此处将验证集和测试集合并】。
在运行算法前,将所有数据标准化处理。
2. 算法选择
可利用多种算法同时运行,选择评价指标最好的算法;也可选择神经网络,不断调参,得到最佳结果。
依据上述方案:
将多种算法同时运行,选择最佳算法。
将岭回归、随机梯度下降、SVR、随机森林等同时运行。根据评价指标(查准率、拟合程度R^2,MAE、MSE、RMSE)选择算法。发现各个算法评价指标均不理想。因此选择神经网络调参。
3. 性能评估
评价指标有查准率、拟合程度R^2,MAE、MSE、RMSE
查准率的定义为:预测值和实际值差小于8的个数/测试集数据个数
其中8,取的是Billet Tons'平均值146的5%
预测效果图如下,红色为实际,蓝色为预测。