实验二数据挖掘的实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验二数据挖掘的实现

一、实验目的

了解XLMiner的安装方法;

熟悉掌握在XLMiner中数据可视化操作(盒图、直方图、散点图等)

熟练掌握在XLMiner数据预划分的操作;

熟练掌握XLMiner数据预处理的操作(数据抽样、缺失值处理等);

熟悉各种数据挖掘的方法(关联规则生成);

读懂挖掘报告含义。

二、实验内容及原理

安装XLMiner以及在Excel中的配置。

了解XLMiner概况,熟悉XLMiner主界面,了解各种功能及数据的支持类型和使用范围。

使用图标中的盒图功能分析、展示数据。

使用图标中的直方图功能分析、展示数据。

使用图标中的散点图功能分析、展示数据。

使用数据功能中的数据分段功能(Excel文档)。

使用数据功能中的数据抽样和缺失值处理功能(Excel文档)。

使用数据功能中的分箱处理连续值功能。

使用关联规则工具生成关联规则集,分析关联规则集中规则的含义。

三、使用仪器、器材

微机一台

操作系统:Win XP

编程软件:Microsoft Office Excel 2007及以上版本+XLMiner 3.2.6试用版(15天)

四、实验步骤

实验01

双击XLMiner 3.2.6进行安装。

一路下一步直到安装完成自动打开Excel。

点击文件选项卡,在“帮助”列中打开“选项信任中心加载项”去掉所有勾。

打开“选项加载项”查看“禁用的应用程序加载项”中有没有XLMiner3,如有点击设定为“活动应用程序加载项”直到在该列表中看到XLMiner3,如图所示:

实验02

启动Exc el“加载项”选项卡,如图所示。

查看XLMiner中各种功能。支持的功能如下图表

数据分割Standard partition, Partition with Oversampling

数据工具Sample from worksheet, Sample from database (Except in Education

edition), Missing data handling, Bin continuous data, Transform

categorical data

时间序列Partitioning, ARIMA, ACF(Autocorrelations), PACF (Partial

Autocorrelations), Smoothing

分类Discriminant analysis, logistic regression, classification tree, naïve

Bayes, neural networks (multilayer feedforward) and k-nearest

neighbors

预测Multiple linear regression, regression tree, neural networks

(multilayer feedforward) and k-nearest neighbors

关系Association rules

数据分析及规约Principal component analysis, Hierarchical clustering, and k-means clustering

数据可视

Box plot, Histogram, Matrix plot 查看该软件算法及数据类型支持。

实验03

Figure 1盒图示例

打开“(Boxplot).xls”文件如下图所示。

单击“Charts”选项“Box plot”。设定参数如下图。

点击OK,生成如下盒图。

计算通过公式能计算mean, Q1, Q2 using formulas.

Mean = 23.66

Q1 = 10.49

Q3 = 37.71

Cutoff1 = 10.49 - 1.5 * (37.71 - 10.49)

= - 30.34

请计算Max是多少,列出离群点是那些数据验证是否同盒图绘制的情况一致注:52, 57, 60, 63, 71, 72, 73, 76, 98, 110, 120盒图中各数值计算方式

Median = 721 = 61.5Q3 = 87Mean = 77.45

Interquartile Range = Q3 - Q1

Min = Q1 - 1.5 * (Q3 - Q1)

Max = Q3 + 1.5 * (Q3 - Q1)

设定参数如下图所示:

读取Y2的盒图,计算验证Q1,Q2,Min,Max,Mean值是多少。

实验04

打开“BostonHousing.xls”文件。

选择,设定参数如下图所示:

(8) 单击“OK”输出如下图:

(9) 分析该图所展示的内容:值域是多少,横坐标是什么意思,分为几段?实验05

(1) 打开“BostonHousing.xls”文件。

(2) 选择,设定参数如下图所示:

(3) 单击“OK”,输出如下散点图:

(4) 分析该图第二行第三列,展示了AGE和DIS变量对称关系,该如何阅读此图?说明了数据分布的什么特点?

实验06

在多数数据挖掘建模过程中,面对较大数据量,我们会把数据分为3部分:训练数据集、验证数据集和测试数据集。

训练集:用于训练或建立模型。例如:在线性回归中,训练集用来拟合线性回归模型,计算回归系数;在神经网络模型中,训练集用来获取网络权重。

验证集:在训练集上模型一旦建立,我们需要用不可见的数据检验模型的准确度。为此,必须使用(非训练集)新数据校验。并且使用平均MSE错误百分百度量模型准确度。如果使用训练集去验证模型准确度必然会导致模型过于“精确”,这是由于训练集或模型拟合过程保证了:使用训练集极可能精确,因为模型本身是由训练集构成的。

测试集:验证集用于模型调试,而测试集是用于真实评估模型性能。

标准数据分段,打开“Wine.xls“文件。

在数据Partition对话框中选择使用随机抽样。保证set seed复选框选中,具体参数设置如下图:

相关文档
最新文档