数据挖掘-决策分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验报告一:决策树方法

实验目的:

使用SQL Server Business Intelligence Development Studio 对上述数据建立数据立方体,并进行数据挖掘分析,挖掘的知识类型不限,将挖掘过程和结果形成实验报告。

实验内容:

(1) 利用给定的数据库,新建一个数据挖掘项目;

(2) 依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构;

(3) 选择不同的算法对挖掘的结果进行分析,预测.

(4) 根据以上分析,提出可以执行的决策

实验步骤:

创建Analysis Services 项目

更改存储数据挖掘对象的实例

创建数据源视图

创建用于目标邮件方案的挖掘结构

创建目标邮件方案的第一步是使用Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。

在本任务中,您将基于Microsoft 决策树算法创建初始挖掘结构。若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列

1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结

构”启动数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。

3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓

库”,再单击“下一步”。

4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选

择“Microsoft 决策树”。

5.单击“下一步”。

6.在“选择数据源视图”页上的“可用数据源视图”窗格中,选择

Targeted Mailing。可单击“浏览”查看数据源视图中的各表,然后单击“关闭”返回该向导。

7.单击“下一步”。

8.在“指定表类型”页上,选中vTargetMail 的“事例”列中的复选框

以将其用作事例表,然后单击“下一步”。稍后您将使用

ProspectiveBuyer 表进行测试,不过现在可以忽略它。

9.在“指定定型数据”页上,您将为模型至少标识一个可预测列、一个

键列以及一个输入列。选中BikeBuyer行中的“可预测”列中的复选框。

10.单击“建议”打开“提供相关列建议”对话框。

只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。显著相关的列(置信度高于

95%)将被自动选中以添加到模型中。

查看建议,然后单击“取消”忽略建议。

11.确认在CustomerKey行中已选中“键”列中的复选框。

12.选中以下行中“输入”列中的复选框。可通过下面的方法来同时

选中多个列:突出显示一系列单元格,然后在按住Ctrl 的同时选中一个复选框。

1.Age

muteDistance

3.EnglishEducation

4.EnglishOccupation

5.Gender

6.GeographyKey

7.HouseOwnerFlag

8.MaritalStatus

9.NumberCarsOwned

10.NumberChildrenAtHome

11.Region

12.TotalChildren

13.YearlyIncome

13.在该页的最左侧的列中,选中以下行中的复选框。

1.AddressLine1

2.AddressLine2

3.DateFirstPurchase

4.EmailAddress

5.FirstName

stName

确保这些行仅选择了左侧列中的复选标记。这些列将添加到结构中,但不会包含在模型中。但是,模型生成后,它们将可用于钻取和测试。有关钻取的详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)。

14.单击“下一步”。

检查和修改每列的内容类型和数据类型

15.在“指定列的内容和数据类型”页上,单击“检测”运行用来确定

每列的默认数据类型和内容类型的算法。

16.查看“内容类型”和“数据类型”列中的各项;如有必要,请进行

更改,以确保设置与下表所示一致。

通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey应作为文本处理,因为对此标识符进行数学运算是不对的。

17.单击“下一步”。

指定测试集

1.在“创建测试集”页上,将“测试数据百分比”保留其默认值:30。

2.对于“测试数据集中的最大事例数”,请键入1000。

3.单击“下一步”。

指定钻取

可以针对模型和结构启用钻取。该窗口中的复选框针对命名模型启用钻取,并允许您从用来为模型定型的模型事例检索详细信息。

如果基础挖掘结构也已经配置为允许进行钻取,则可以从模型事例和挖掘结构返回详细信息(其中包括挖掘模型中所不包含的列)。有关详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)

命名模型和结构并指定钻取

1.在“完成向导”页上的“挖掘结构名称”中,键入Targeted

Mailing。

2.在“挖掘模型名称”中,键入TM_Decision_Tree。

3.选中“允许钻取”复选框。

4.查看“预览”窗格。请注意,仅显示出那些选作“键”、“输入”或“可

预测”的列。您选择的其他列(例如,AddressLine1)不能用于生成模型,但是将在基础结构中可用,您可以在处理和部署模型之后查询这些列。

创建聚类分析挖掘模型

1.切换到Business Intelligence Development Studio 中数据

挖掘设计器的“挖掘模型”选项卡。

请注意,设计器显示两列,一列是挖掘结构,另一列是在前一课中创建的TM_Decision_Tree挖掘模型。

2.右键单击“结构”列,选择“新建挖掘模型”。

相关文档
最新文档