数据挖掘实验(实验三-七)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验三关联规则
1. 实验目标
•使用SSAS进行关联规则挖掘实验
2. 实验要求
（1）按“实验内容”完成操作，并记录实验步骤；
（2）回答“问题讨论”中的思考题，并写出本次实验的心得体会；
（3）完成实验报告。

3. 实验内容
生成市场篮方案。

Adventure Works 的市场部希望改进公司的网站以促进越区销售。

在更新网站之前，需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。

这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。

通过实验，创建关联规则模型，可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。

4. 实验步骤
(1) 创建市场篮挖掘模型结构
1.在Business Intelligence Development Studio 的解决方案资源管理器中，右键单击“挖
掘结构”，再选择“新建挖掘结构”。

此时，系统将打开数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上，单击“下一步”。

3.在“选择定义方法”页上，确保已选中“从现有关系数据库或数据仓库”，再单击“下一步”。

4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下，选中“Microsoft 关联规
则”，再单击“下一步”。

“选择数据源视图”页随即显示。

默认情况下，“可用数据源视图”下的Adventure Works DW 为选中状态。

5.单击“下一步”。

6.在“指定表类型”页上，选中vAssocSeqOrders表旁的“事例”复选框，选中
vAssocSeqLineItems表旁边的“嵌套”复选框，再单击“下一步”（注意先在视图中建立两个表之间的关联）。

如下图所示
视图的内容显示
7.如下图设置输入输出列
或多维如下
8.“指定定型数据”页上，LineNumber旁边的“键”和ordernumber设为键。

9.选中Model列旁边的“输入”和“可预测”复选框。

单击“下一步”。

10.在“指定列的内容和数据类型”页上，单击“下一步”。

11.在“完成向导”页的“挖掘结构名称”中，键入Association。

12.在“挖掘模型名称”中，键入Association，再单击“完成”。

(2) 调整关联模型的参数和处理关联模型
在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前，必须更改以下两个参数的默认值：Support（支持数）和Probability（概率，置信度）。

Support定义规则被视为有效前必须存在的事例百分比。

Probability定义关联被视为有效前必须存在的可能性。

调整关联模型的参数步骤如下：
1.打开数据挖掘设计器的“挖掘模型”选项卡。

2.右键单击设计器网格中的“关联”列，然后选择“设置算法参数”。

系统将打开“算法参数”对话框。

3.在“算法参数”对话框的“值”列中，设置以下参数：
MINIMUM_PROBABILITY =0.1
指定规则为True 的最小概率。

例如，如果将该值设置为0.5，则指定不生成概率低于50% 的规则。

MINIMUM_SUPPORT =100
指定包含该项集的最小事例数，只有达到该数目，才能生成规则。

如果将该值设置为小于 1 的数，则最小事例数将通过其在总事例数中所占的百分比来加以指定。

如果将该值设置为大于 1 的整数，则指定最小事例数为必须包含该项集的事例绝对数。

如果内存有限，算法可能会增大此参数的值。

4.单击“确定”。

处理关联模型步骤如下：
1.在Business Intelligence Development Studio 的“挖掘模型”菜单上，选择“处理挖掘结
构和所有模型”。

系统将打开“处理挖掘结构- 关联”对话框。

2.单击“运行”。

系统将打开“处理进度”对话框，以显示有关模型处理的信息。

模型处理可能需要一些时间，具体时间取决于您的计算机。

3.处理完成之后，在“处理进度”和“处理挖掘结构- 关联”对话框中，单击“关闭”。

(3) 浏览市场篮模型
使用数据挖掘设计器的“挖掘模型查看器”选项卡中的Microsoft 关联查看器浏览该模型。

浏览模型时，可以轻松地查看可能同时出现的产品，并可浏览项之间的关系。

还可以筛选出较弱的关联，并对新浮现的模式有一个总体的概念。

Microsoft 关联查看器包含三个选项卡：“项集”、“规则”和“依赖关系网络”。

“项集”选项卡
“项集”选项卡显示与Microsoft 关联算法发现的项集相关的三种重要信息：支持度（发生项集的事务的数量）、大小（项集中项的数量）以及项集的实际构成。

根据算法参数的设置方式，算法可以生成大量的项集。

使用“项集”选项卡顶部的控件，可以筛选查看器，使其仅显示包含指定的最小支持度和项集大小的项集。

也可以使用“筛选项集”框来筛选查看器中显示的项集。

例如，若要仅查看包含有关Mountain-200 自行车信息的项集，可在“筛选项集”中输入Mountain-200。

您将在查看器中看到，只有包含“Mountain-200”字样的项集被显示。

查看器中返回的每个项集都包含有关销售Mountain-200 自行车事务的信息。

例如，在“支持度”列中包含值710 的项集表示：在所有事务中，710 个购买Mountain-200 自行车的人也购买了Sport-100 自行车。

“规则”选项卡
“规则”选项卡显示与算法发现的规则相关的以下信息。

•概率:规则的“可能性”，定义为在给定左侧项的情况下右侧项的概率。

•重要性：importance(A->B)=probability(A->B)/probability(B)=P(AB)/P(A)P(B) ,类似支持度
•用于度量规则的有用性，值越高则意味着规则越有用。

只看概率可能会产生误解。

例如，如果每个事务都包含一个x项，规则y预测x发生的概率为1，即x一定会发生。

即使规则的准确性很高，但这并未传达很多信息，因为不管y如何，每个事务都会包含x。

应该大于1
•规则规则的定义。

像使用“项集”选项卡一样，可以筛选规则，以便仅显示最关心的规则。

例如，如果只想查看包含Mountain-200 自行车的规则，可在“筛选规则”框中输入Mountain-200。

查看器将仅显示包含“Mountain-200”字样的规则。

每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。

例如，由第一个规则可知：如果一个人购买了Mountain-200 自行车和水壶，则此人还会购买Mountain 水壶套的概率为1。

“相关性网络”选项卡
使用“相关性网络”选项卡，可以研究模型中不同项的交互。

查看器中的每个节点表示一个项；例如，Mountain-200 = Existing 节点表示事务中存在Mountain-200。

通过选择节点，可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。

滑块与规则的概率关联。

上下移动滑块可以筛选出弱关联。

例如，在“显示”框中，选择“仅显示属性名称”，再单击Mountain Bottle Cage节点。

查看器显示，Mountain 水壶套预测了水壶和Mountain-200 自行车，而水壶和Mountain-200 自行车也预测了Mountain 水壶套。

这意味着，这些项有可能同时在事务中出现。

也就是说，如果某个客户购买了自行车，则他也可能会购买水壶套和水壶。

5. 实验结果及问题讨论
（1）根据实验结果给出市场部统一放置在网站的一个位置上的可能被集中购买的项的建议。

（2）写出自己对关联规则的理解。

实验四决策树模型
1. 实验目标
•使用SSAS进行决策树模型挖掘实验。

2. 实验要求
（1）按“实验内容”完成操作，并记录实验步骤；
（2）回答“问题讨论”中的思考题，并写出本次实验的心得体会；
（3）完成实验报告。

3. 实验内容
根据游戏三国志4武将数据，利用决策树分析，找出三国武将特性分布。

其中变量包含名称，统御、武力、智慧、政治、魅力、忠诚、国别，出身及身份。

(ch10-6．xls) 利用adventureworksdw的vtargetmail表中顾客基本情况分析顾客购买自行车的特征分布
4. 实验步骤
见教材及参考视频
5. 实验结果及问题讨论
（1）对实验结果进行分析，并对预测结果的准确性进行评价。

（2）决策树方法的基本思想是什么？
实验五贝叶斯分类
1. 实验目标
•使用SSAS进行贝叶斯分类挖掘实验
2. 实验要求
（1）按“实验内容”完成操作，并记录实验步骤；
（2）回答“问题讨论”中的思考题，并写出本次实验的心得体会；
（3）完成实验报告。

3. 实验内容
生成目标邮件方案，Adventure Works 的市场部希望通过向特定客户发送邮件的方式来提高销售量。

公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。

公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。

公司的数据库Adventure Works DW 包含一个现有客户列表和一个潜在的新客户列表。

创建一个目标邮件方案，包含决策树和贝叶斯分类挖掘模型，这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。

4. 实验步骤
创建用于目标邮件方案的挖掘结构
（1）创建决策树模型
1.在解决方案资源管理器中，右键单击“挖掘结构”并选择“新建挖掘结构”。

系统将打开数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上，单击“下一步”。

在在“模型名称”中，键入
TM_DecisionTree。

3.在“选择定义方法”页上，确认已选中“从现有关系数据库或数据仓库”，再单击“下一步”。

4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术？”下，选择“Microsoft 决策
树”。

5.单击“下一步”。

6.在“选择数据源视图”页上，请注意已默认选中Adventure Works DW。

在数据源视图
中，单击“浏览”查看各表，然后单击“关闭”返回该向导。

7.单击“下一步”。

8.在“指定表类型”页上，选中vTargetMail表旁边“事例”列中的复选框，再单击“下一
步”。

9.在“指定定型数据”页上，确保已选中CustomerKey列旁边Key列中的复选框。

如果数据源视图中的源表表示一个键，则数据挖掘向导将自动选择该列作为模型的键。

10.。

当表示某列可预测时，将启用“建议”按钮。

单击“建议”打开“提供相关列建议”对话框，该对话框列出与可预测列关系最密切的列。

“提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。

值大于
0.05 的列将被自动选中，以包括在模型中。

如果您同意这些建议，请单击“确定”，以
便在向导中将所选列标记为输入列。

请单击“取消”，忽略这些建议。

11.选中以下各列旁边的“输入”复选框：
o Age
o CommuteDistance
o EnglishEducation
o EnglishOccupation
o Gender
o HouseOwnerFlag
o MaritalStatus
o NumberCarsOwned
o NumberChildrenAtHome
o Region
o TotalChildren
o YearlyIncome
使用Shift 键可以同时选中多列。

12.单击“下一步”。

13.在“指定列的内容和数据类型”页上，单击“检测”。

某个算法将运行此示例数字数据，并确定这些数字列是包含连续值还是包含离散值。

例如，某列可包含薪金信息，用以作为连续的实际薪金值，也可包含整数，用以表示离散的编码薪金范围（例如 1 = < $25,000；2 = 从$25,000 到$50,000）。

14.单击“检测”之后，请确保“内容类型”和“数据类型”列中的各项具有下表中列出的设置。

15.继续完成操作步骤。

（2）创建Naive Bayes 模型
1.在数据挖掘设计器的“挖掘模型”选项卡中，右键单击“结构”列，并选择“新建挖掘模型”。

此时，系统将打开“新建挖掘模型”对话框。

2.在“模型名称”中，键入TM_NaiveBayes。

3.在“算法名称”中，选择Microsoft Naive Bayes。

单击“确定”。

将显示一条消息，说明Microsoft Naive Bayes 算法不支持连续列。

若要在Naive Bayes 模型中使用这些列，必须对其进行离散化。

Bike buyer为PREDICT,而且数据类型为Discrete，不能为Discreted
4.单击“是”，以确认此消息并继续下面的操作。

此时在“挖掘模型”选项卡中将显示新模型。

（3）部署项目
（4）决策树模型和贝叶斯模型提升图比较
1.切换到数据挖掘设计器的“挖掘准确性图表”选项卡中，单击“选择事例表”按钮，打开“选
择表”窗口，选择“vTargetMail”数据表，单击“确定”按钮。

此时，挖掘结构中的列会自动映射到选择表中具有相同名称的列。

2.在“选择要在提升图中显示的可预测的挖掘模型列”下，确保已在每个模型的“可预测
的列名”列中选择Bike Buyer，在“预测值”列中为每个模型选择1，切换到“提升图”
选项卡，系统会基于挖掘结构和输入表对服务器和数据库进行预测查询，然后将预测结果与已知的实际值进行比较，并将预测结果绘制在图上。

（5）创建数据挖掘预测查询
1.切换到数据挖掘设计器的“挖掘模型预测”选项卡中，单击“选择模型”按钮，打开“选择
挖掘模型”对话框，分别选择创建的决策树模型名称TM_DecisionTree和贝叶斯模型
名称TM_NaiveBayes。

单击“选择事例表”按钮，打开“选择表”窗口，选择
“ProspectiveBuyer”数据表，单击“确定”按钮。

2.在查询设计视图下部分的“源”列，单击第一个空行中的单元格，在下拉列表中选择
“ProspectiveBuyer”，在该行的“字段”列，选择“ProspectAlternateKey”，并将
列名设置为“客户标识”；在“源”列中，单击下一个空行，然后选择“TM_DecisionTree”，在TM_DecisionTree行的“字段”列中，选择“Bike Buyer”，并将别名设置为“是否
已经购买”；在“源”列中，单击下一个空行，然后选择“预测函数”，在预测函数行
的“字段”列中，选择“PredictProbability”，并将别名设置为“购买几率”，在“条
件/参数”列中，输入“[TM_DecisionTree].[BikeBuyer]”（Bike Buyer既是输入变量，又是预测变量）。

3.查看结果，系统将运行查询并显示预测结果，市场部门便可以根据这些预测结果，给那
些可能购买自行车的客户发送邮件。

5. 实验结果及问题讨论
（1）贝叶斯分类的算法原理是什么？
1. 实验目标
•使用SSAS进行线性回归挖掘实验。

3. 实验内容
某超市对来店顾客是否受到广告促销费用、店面面积以及超市所在位置的影响进行分析（对应sql文件ch15-6.xls）。

4. 实验步骤
1. 实验目标
•使用SSAS进行线性回归挖掘实验。

3. 实验内容
某超市对来店顾客是否受到广告促销费用、店面面积以及超市所在位置的影响进行分析（对应sql文件ch15-6.xls）。

4. 实验步骤
一、将EXCEL文件导入SQL Server
（1）打开SQL Server Management Studio，新建数据库“regression”。

（2）右击“regression”，指向“任务”，然后选择“导入数据”，将ch15-6.xls文件数据导入到“regression”数据库中，导入的表名称为“sheet1”（将多余的空白行删除）。

二、线性回归挖掘分析
（1）打开Business Intelligence Development Studio，创建Analysis Services 项目。

（2）创建数据源：在解决方案资源管理器中，右键单击“数据源”文件夹，然后选择“新建数据源”，系统将打开数据源向导。

在“选择或输入数据库名称”步骤中，选择“regression”，再单击“确定”按钮。

（3）创建数据源视图：在解决方案资源管理器中，右键单击“数据源视图”，选择“新建数据源视图”。

步骤二“数据源视图向导”设置如下图所示：
步骤三“选择表和视图”，将在“regression”数据库中导入数据创建的表加入到“包含的对象中”。

(4)新建挖掘结构
1.在解决方案资源管理器中，右键单击“挖掘结构”，选择“新建挖掘结构”。

2.在“欢迎使用数据挖掘向导”页上，单击“下一步”。

3.在“选择定义方法”页上选中“从现有关系数据库或数据仓库”，单击“下一步”。

4.在“选择数据挖掘技术”页上选择“Microsoft线性回归”，单击“下一步”。

5.打开“选择数据源视图”页，选择“regression”，单击“下一步”。

6.打开“指定表类型”页，单击“下一步”。

如下图所示：
7.打开“指定定型数据”页，将“促销费用（万元）”、“店面面积（百平方米）”，“所
处位置”字段作为输入，“顾客数（千人）”字段作为输出，如下图所示，单击“下一步”。

8.打开“指定列的内容和数据类型”页，保证三个自变量字段和一个因变量字段内容类型为
“Continuous”，单击“下一步”。

9.打开“完成向导”页，如下图所示，单击“完成”。

（5）部署项目。

（6）点击“模型查看器”标签屏幕截图如下：
写出线性回归方程。

（7）点击“挖掘准确性图表”标签，设置列映射如下：
点击“提升图”，挖掘结构数据散点图如下：
（8）点击“挖掘模型预测”标签，设置预测显示内容，如下图所示：
查看预测结果，比较预测值和实际值差别，如下图所示。

5. 实验结果及问题讨论
（1）根据自己的理解，请简述什么是回归分析，其分类以及基本步骤。

（2）什么是线性回归？
（3）回归分析中，回归变量的选择依据是什么？
自由实验：聚类和时间序列。