数据挖掘实验三汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三设计并构造AdventureWorks数据仓库实例
【实验要求】
在SQL Server 平台上,利用AdventureWorks数据库作为商业智能解决方案的数据源,设计并构造数据仓库,建立OLAP和数据挖掘模型,并以输出报表的形式满足决策支持的查询需求。
【实验内容】
步骤1:需求分析:以决策者的视角分析和设计数据仓库的需求;
步骤2:根据所设计的需求,确定本数据仓库的主题和主题与边界;
步骤3:设计并构造逻辑模型;
步骤4:进行数据转换和抽取,建立数据仓库:创建数据源,,建立OLAP和挖掘模型,使用多维数据集进行分析,建立数据挖掘结构和数据挖掘模型,创建报表。
【实验平台】
Win7操作系统,SQL Server 2005
【实验过程】
一、创建Analysis Services 项目
1.打开Business Intelligence Development Studio。
2.在“文件”菜单上,指向“新建”,然后选择“项目”。
3.确保已选中“模板”窗格中的“Analysis Services 项目”。
4.在“名称”框中,将新项目命名为AdventureWorks。
5. 单击“确定”。
二、创建数据库和数据源
1.运行AdventureWorks sql server 2005示例数据库.msi,然后用SQL Server Management Studio 附加数据库AdventureWorks_Data.mdf 。
(1)运行AdventureWorks sql server 2005示例数据库.msi
(2)用SQL Server Management Studio附加数据库AdventureWorks_Data.mdf
2.在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。
3.在“欢迎使用数据源向导”页面中,单击“下一步”按钮。
4.在“选择如何定义连接”页上,单击“新建”向Adventure Works 数据库中添加连接。
5.在“连接管理器”的“提供程序”列表中,选择“本机OLE DB\SQL Native Client”。
6.在“服务器名称”列表中,键入或选择承载AdventureWorks 的服务器的名称。
7.在“登录到服务器”组中,选择身份验证方法,并输入凭据。
8.在“选择或输入一个数据库名”列表中,选择AdventureWorks,然后测试连接。
若连接成功,再单击“确定”按钮。
9.单击“下一步”按钮进入向导的下一页。
10.在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。
11.请注意,在“完成向导”页中,数据源名称默认为Adventure Works。
12.单击“完成”。
新的数据源Adventure Works 将显示在解决方案资源管理器的“数据源”文件夹中。
三、创建数据源视图
1.在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。
系统将打开数据源视图向导。
2.在“欢迎使用数据源视图向导”页上,单击“下一步”。
3.在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的Adventure Works DW 数据源。
单击“下一步”。
若要创建新数据源,请单击“新建数据源”,启动数据源向导。
4.在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:
5.单击“下一步”。
6.在“完成向导”页上,默认情况下,系统将数据源视图命名为Adventure Works 。
单击“完成”。
系统将打开数据源视图设计器,显示Adventure Works 数据源视图。
四、定义维度
1.在解决方案资源管理器中,右键单击“维度”,然后单击“新建维度”。
2. 在“欢迎使用维度向导”页上,单击“下一步”。
3. 在“选择生成方法”页上,验证是否选择了“使用数据源生成维度”选项,然后单击“下一步”。
4. 在“选择数据源视图”页上,验证是否选择了Adventure Works 数据源视图。
5.在“选择维度类型”列表中,选择“标准维度”。
6.在“选择主维度表”中,点击“下一步”。
7.在“选择维度属性”中,点击“下一步”。
8.在“指定维度类型”中,点击“下一步”。
9.在“定义父子关系”中,点击“下一步”。
10.“检测层次结构”中,点击“下一步”。
11.点击“下一步”,然后点击“完成”。
五、使用多维数据集进行分析
1.在解决方案资源管理器中,右键单击“多维数据集”并选择“新建多维数据集”启动多维数据集向导。
2.在“欢迎使用多维数据集向导”页上,单击“下一步”。
3.在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项,然后单击“下一步”。
4.在“选择数据源视图”页上,点击“下一步”。
5.在“检测事实数据表和维度表”页上,点击“下一步”。
6.在“时间维度表”页上,如下所示。
7.在“查看共享维度”页上,点击“>”,然后“下一步”。
8.在“选择度量值”页上,选择可用度量值。
9.在“检测层级结构”页上,查看结果,点击“下一步”。
10.在“查看新建维度”中,选择新建维度,然后点击“下一步”。
“度量值组”和“维度”。
12.点击“完成”。
13.在多维数据集设计器的工具栏上,将“缩放”级别更改为50 %,以便更轻松地查看多维数据集内的维度和事实数据表。
注意,事实数据表是黄色的,维度表是蓝色的。
14.在“文件”菜单上,单击“全部保存”。
六、创建用于个人客户方案的挖掘结构
1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一
步”。
策树”。
5.单击“下一步”。
6.在“选择数据源视图”页上,请注意已默认选中Adventure Works 。
在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。
7.单击“下一步”。
8.在“指定表类型”页上,选中vIndividualCustomer 表旁边“事例”列中的复选框,再单击“下一步”。
据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。
10.选中FirstName和LastName 列旁边的“输入”和“可预测”。
11.单击“建议”打开“提供相关列建议”对话框。
只要选中至少一个可预测属性,即可启用“建议”按钮。
“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。
值大于0.05 的列将被自动选中,以包括在模型中。
12.阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。
15.选中以下各列旁边的“输入”复选框:
StateProvinceName
MiddleName
CountryRegionName
16.单击“下一步”。
17.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。
例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如1 = < $25,000;2 = 从$25,000 到$50,000)。
18.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。
通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。
19.单击“下一步”。
20.在“完成向导”页上的“挖掘结构名称”中,键入Individual Customer。
21.在“挖掘模型名称”中,键入TM_Decision_Tree。
22.选中“允许钻取”复选框。
23.单击“完成”。
七、挖掘模型和挖掘结构如下图。
八、创建查询
8.1创建预测查询的第一步是选择挖掘模型和输入表。
1.在数据挖掘设计器“挖掘模型预测”选项卡的“挖掘模型”框中,单击“选择模型”。
系统将打开“选择挖掘模型”对话框。
2.在整个树中导航到“个人客户”结构,展开该结构并选择TM_Decision_Tree,再单击“确定”。
3.在“选择输入表”框中,单击“选择事例表”。
系统将打开“选择表”对话框。
4.在“数据源”中,选择Adventure Works 。
5.在“表/视图名称”中,选择Department(HumanResources)表,再单击“确定”。
选择输入表之后,预测查询生成器便会根据各列的名称在挖掘模型和输入表之间创建默认映射。
8.2生成预测查询
1. 在“挖掘模型预测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然后选择Department。
2. 在Department 行的“字段”列中,选择DepartmentID。
3.在“源”列中,单击下一个空行,然后选择TM_Decision_Tree。
4.在TM_Decision_Tree 行的“字段”列中,选择First Name。
这将会输出Microsoft 决策树模型中作为预测目标的列。
5.在“源”列下,单击下一个空行,然后选择“预测函数”。
6.在“预测函数”行的“字段”列中,选择PredictProbability。
预测函数提供有关模型如何进行预测的信息。
PredictProbability 函数提供有关正确预测的概率信息。
您可以在“条件/参数”列中指定预测函数的参数。
7.在PredictProbability 行的“条件/参数”列中,键入[TM_Decision_Tree].[Bike Buyer]。
这将指定PredictProbability 函数的目标列。
有关函数的详细信息,请参阅数据挖掘扩展插件(DMX) 函数参考。
8.3查看结果
1.通过单击“切换到查询设计视图/切换到查询结果视图”按钮(即工具栏上的第一个按钮)旁边的箭头并选择“查询”,可以运行查询。
2.通过点击“单独查询”,结果如下:
【总结】
通过本次实验,我对SQL Server有了更深的了解。
知道SQL Server不等于SQL Server Management Studio,还有SQL Server Business Intelligence Development Studio和其他一些模块。
在这次实验中,遇到了一些困难:1.SQL Server 2000和SQL Server 2005有一些不同,利用SQL Server 2000中的Analysis service做完实验二后发现实验三不知道怎么做了,左右通过查找一些资料才解决问题;2.在新建数据源时,在“连接管理器”页上,“测试连接”
一直失败,不知道是什么原因,老师给的AdventureWorks sql server 2005示例数据库.msi也一直不知道该怎么用,经过不断尝试才发现原来在运行AdventureWorks sql server 2005示例数据库.msi后会产生一个数据库文件,我们应该利用SQL Server Management Studio把它附加进数据库文件夹下,而且在“连接到服务器”页时,应该注意“服务器类型”、“服务器名称”、“身份验证”等的选择,否则会出错。
虽然本次实验中遇到了一些麻烦,耗费了一些时间,但是通过不断尝试、不断努力将问题解决,也是一种很大的收获。