数据挖掘实验(实验三-七)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三关联规则
1. 实验目标
•使用SSAS进行关联规则挖掘实验
2. 实验要求
(1)按“实验内容”完成操作,并记录实验步骤;
(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;
(3)完成实验报告。
3. 实验内容
生成市场篮方案。Adventure Works 的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。
4. 实验步骤
(1) 创建市场篮挖掘模型结构
1.在Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖
掘结构”,再选择“新建挖掘结构”。
此时,系统将打开数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。
4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规
则”,再单击“下一步”。
“选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的Adventure Works DW 为选中状态。
5.单击“下一步”。
6.在“指定表类型”页上,选中vAssocSeqOrders表旁的“事例”复选框,选中
vAssocSeqLineItems表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。如下图所示
视图的内容显示
7.如下图设置输入输出列
或多维如下
8.“指定定型数据”页上,LineNumber旁边的“键”和ordernumber设为键。
9.选中Model列旁边的“输入”和“可预测”复选框。单击“下一步”。
10.在“指定列的内容和数据类型”页上,单击“下一步”。
11.在“完成向导”页的“挖掘结构名称”中,键入Association。
12.在“挖掘模型名称”中,键入Association,再单击“完成”。
(2) 调整关联模型的参数和处理关联模型
在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support(支持数)和Probability(概率,置信度)。Support定义规则被视为有效前必须存在的事例百分比。Probability定义关联被视为有效前必须存在的可能性。
调整关联模型的参数步骤如下:
1.打开数据挖掘设计器的“挖掘模型”选项卡。
2.右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。
系统将打开“算法参数”对话框。
3.在“算法参数”对话框的“值”列中,设置以下参数:
MINIMUM_PROBABILITY =0.1
指定规则为True 的最小概率。例如,如果将该值设置为0.5,则指定不生成概率低于50% 的规则。
MINIMUM_SUPPORT =100
指定包含该项集的最小事例数,只有达到该数目,才能生成规则。如果将该值设置为小于 1 的数,则最小事例数将通过其在总事例数中所占的百分比来加以指定。如果将该值设置为大于 1 的整数,则指定最小事例数为必须包含该项集的事例绝对数。如果内存有限,算法可能会增大此参数的值。
4.单击“确定”。
处理关联模型步骤如下:
1.在Business Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结
构和所有模型”。
系统将打开“处理挖掘结构- 关联”对话框。
2.单击“运行”。
系统将打开“处理进度”对话框,以显示有关模型处理的信息。模型处理可能需要一些时间,具体时间取决于您的计算机。
3.处理完成之后,在“处理进度”和“处理挖掘结构- 关联”对话框中,单击“关闭”。
(3) 浏览市场篮模型
使用数据挖掘设计器的“挖掘模型查看器”选项卡中的Microsoft 关联查看器浏览该模型。浏览模型时,可以轻松地查看可能同时出现的产品,并可浏览项之间的关系。还可以筛选出较弱的关联,并对新浮现的模式有一个总体的概念。
Microsoft 关联查看器包含三个选项卡:“项集”、“规则”和“依赖关系网络”。
“项集”选项卡
“项集”选项卡显示与Microsoft 关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。根据算法参数的设置方式,算法可以生成大量的项集。使用“项集”选项卡顶部的控件,可以筛选查看器,使其仅显示包含指定的最小支持度和项集大小的项集。
也可以使用“筛选项集”框来筛选查看器中显示的项集。例如,若要仅查看包含有关Mountain-200 自行车信息的项集,可在“筛选项集”中输入Mountain-200。您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。查看器中返回的每个项集都包含有关销售Mountain-200 自行车事务的信息。例如,在“支持度”列中包含值710 的项集表示:在所有事务中,710 个购买Mountain-200 自行车的人也购买了Sport-100 自行车。
“规则”选项卡
“规则”选项卡显示与算法发现的规则相关的以下信息。
•概率:规则的“可能性”,定义为在给定左侧项的情况下右侧项的概率。
•重要性:importance(A->B)=probability(A->B)/probability(B)=P(AB)/P(A)P(B) ,类似支持度
•用于度量规则的有用性,值越高则意味着规则越有用。只看概率可能会产生误解。例如,如果每个事务都包含一个x项,规则y预测x发生的概率为1,即x一定会发生。即使规则的准确性很高,但这并未传达很多信息,因为不管y如何,每个事务都会包含x。应该大于1
•规则规则的定义。
像使用“项集”选项卡一样,可以筛选规则,以便仅显示最关心的规则。例如,如果只想查看包含Mountain-200 自行车的规则,可在“筛选规则”框中输入Mountain-200。查看器将仅显示包含“Mountain-200”字样的规则。每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。例如,由第一个规则可知:如果一个人购买了Mountain-200 自行车和水壶,则此人还会购买Mountain 水壶套的概率为1。
“相关性网络”选项卡
使用“相关性网络”选项卡,可以研究模型中不同项的交互。查看器中的每个节点表示一个项;例如,Mountain-200 = Existing 节点表示事务中存在Mountain-200。通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。