数据挖掘-决策分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告一:决策树方法
实验目的:
使用SQL Server Business Intelligence Development Studio 对上述数据建立数据立方体,并进行数据挖掘分析,挖掘的知识类型不限,将挖掘过程和结果形成实验报告。
实验内容:
(1) 利用给定的数据库,新建一个数据挖掘项目;
(2) 依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构;
(3) 选择不同的算法对挖掘的结果进行分析,预测.
(4) 根据以上分析,提出可以执行的决策
实验步骤:
创建Analysis Services 项目
更改存储数据挖掘对象的实例
创建数据源视图
创建用于目标邮件方案的挖掘结构
创建目标邮件方案的第一步是使用Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。
在本任务中,您将基于Microsoft 决策树算法创建初始挖掘结构。若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列
1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结
构”启动数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓
库”,再单击“下一步”。
4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选
择“Microsoft 决策树”。
5.单击“下一步”。
6.在“选择数据源视图”页上的“可用数据源视图”窗格中,选择
Targeted Mailing。可单击“浏览”查看数据源视图中的各表,然后单击“关闭”返回该向导。
7.单击“下一步”。
8.在“指定表类型”页上,选中vTargetMail 的“事例”列中的复选框
以将其用作事例表,然后单击“下一步”。稍后您将使用
ProspectiveBuyer 表进行测试,不过现在可以忽略它。
9.在“指定定型数据”页上,您将为模型至少标识一个可预测列、一个
键列以及一个输入列。选中BikeBuyer行中的“可预测”列中的复选框。
10.单击“建议”打开“提供相关列建议”对话框。
只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。显著相关的列(置信度高于
95%)将被自动选中以添加到模型中。
查看建议,然后单击“取消”忽略建议。
11.确认在CustomerKey行中已选中“键”列中的复选框。
12.选中以下行中“输入”列中的复选框。可通过下面的方法来同时
选中多个列:突出显示一系列单元格,然后在按住Ctrl 的同时选中一个复选框。
1.Age
muteDistance
3.EnglishEducation
4.EnglishOccupation
5.Gender
6.GeographyKey
7.HouseOwnerFlag
8.MaritalStatus
9.NumberCarsOwned
10.NumberChildrenAtHome
11.Region
12.TotalChildren
13.YearlyIncome
13.在该页的最左侧的列中,选中以下行中的复选框。
1.AddressLine1
2.AddressLine2
3.DateFirstPurchase
4.EmailAddress
5.FirstName
stName
确保这些行仅选择了左侧列中的复选标记。这些列将添加到结构中,但不会包含在模型中。但是,模型生成后,它们将可用于钻取和测试。有关钻取的详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)。
14.单击“下一步”。
检查和修改每列的内容类型和数据类型
15.在“指定列的内容和数据类型”页上,单击“检测”运行用来确定
每列的默认数据类型和内容类型的算法。
16.查看“内容类型”和“数据类型”列中的各项;如有必要,请进行
更改,以确保设置与下表所示一致。
通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey应作为文本处理,因为对此标识符进行数学运算是不对的。
17.单击“下一步”。
指定测试集
1.在“创建测试集”页上,将“测试数据百分比”保留其默认值:30。
2.对于“测试数据集中的最大事例数”,请键入1000。
3.单击“下一步”。
指定钻取
可以针对模型和结构启用钻取。该窗口中的复选框针对命名模型启用钻取,并允许您从用来为模型定型的模型事例检索详细信息。
如果基础挖掘结构也已经配置为允许进行钻取,则可以从模型事例和挖掘结构返回详细信息(其中包括挖掘模型中所不包含的列)。有关详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)
命名模型和结构并指定钻取
1.在“完成向导”页上的“挖掘结构名称”中,键入Targeted
Mailing。
2.在“挖掘模型名称”中,键入TM_Decision_Tree。
3.选中“允许钻取”复选框。
4.查看“预览”窗格。请注意,仅显示出那些选作“键”、“输入”或“可
预测”的列。您选择的其他列(例如,AddressLine1)不能用于生成模型,但是将在基础结构中可用,您可以在处理和部署模型之后查询这些列。
创建聚类分析挖掘模型
1.切换到Business Intelligence Development Studio 中数据
挖掘设计器的“挖掘模型”选项卡。
请注意,设计器显示两列,一列是挖掘结构,另一列是在前一课中创建的TM_Decision_Tree挖掘模型。
2.右键单击“结构”列,选择“新建挖掘模型”。