数据挖掘实验指导书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据仓库与数据挖掘》
实验指导书
主编张磊
审校
2012-1-11
目录
实验报告模板 (1)
实验一、SSIS教程1-3课 (3)
实验二、SSAS教程1-3课 (5)
实验三、数据挖掘教程 (10)
实验报告模板见下页。

青岛大学实验报告
年月日姓名系年级组别同组者
科目题目仪器编号
[注:下面空白处明确实验目的、内容和要求,简要概括实验过程,适量拷屏部分关键界面放到实验报告中,评价最终结果是否正确,记录实验过程遇到的问题及解决结果,简单总结心得体会。

必要时加页,每个实验报告1-3页篇幅为宜。

]
实验一、SSIS教程1-3课
实验目的:
采用SQL Server 2005的Integration Service,熟悉ETL工具的功能和使用方法实验内容:
结合教材的ETL知识,打开SQL Server 2005的SSIS教程,按教程步骤完成1-3课,4学时,其中第1课2学时,第2、3课2学时。

实验要求:
每次实验课结束前5分钟关闭SQL Server Business Intelligence Development Studio和SQL Server Management Studio,将项目文件夹拷贝到U盘或压缩后发到自己邮箱保存起来,以便下次实验课可以继续往下做或最后上交。

每次实验课开始时先使用SQL Server Configuration Manager启动必需的SQL Server 服务。

按时完成实验内容,整理实验报告。

实验说明:
注意SQL Server 2005与SQL Server 2000的差异,如“框架”,访问表时必须使用框架名来限定,如SalesOrders.Employee;
注意因中文教程是由英文教程翻译而来,所以有些地方出现名称翻译不足(即软件界面上是中文而教程中是英文)或过翻译(即软件界面上是英文而教程中是中文),因为大家懂英文所以这点应该不成问题;
注意因为我们安装的SQL Server不是采用默认实例名(而是DWDM),而教程中假设的是采用默认实例名,所以有些地方的配置受到影响,需要进行更改;
注意解决方案、项目和项的区别:解决方案可以包含多个项目;每个项目包含一个或多个项;
按下图打开SSIS教程,
做的过程中,注意以下问题:
(1)创建的项目放到一个方便找到的自定义文件夹中以便每次下课时可以拷贝带走(2)第1课的“添加和配置平面文件连接管理器”步骤中的“重新映射列数据类型”
部分,将【但现在,请不要进行任何更改,单击“取消”返回“平面文件连接管理
器编辑器”对话框的“高级”窗格,查看建议的列数据类型。

】改为【但现在,请不
要进行任何更改,单击“确定”返回“平面文件连接管理器编辑器”对话框的“高级”
窗格,查看建议的列数据类型。

”】
(3)第1课的“添加和配置OLE DB 连接管理器”步骤中,将【在“服务器名称”中,输入localhost。

】改为【在“服务器名称”中,单击下拉框选择或在文本框中输入
localhost\DWDM。

】 此处注意以后教程上遇到localhost时,都是指本机上的SQL
Server 2005实例,要知道应将其转换为localhost\DWDM。

(4)第1课的“添加和配置OLE DB 连接管理器”步骤中,不知道步骤【在“配置OLE DB 连接管理器”对话框的“数据连接”窗格中,确认选择了
localhost.AdventureWorksDW。

】指的是什么,所以忽略该步操作。

(5)第1课的“添加并配置平面文件源”步骤中,将【右键单击此平面文件源,打开“平面文件源编辑器”对话框。

】改为【右键单击此平面文件源,选择“编辑(E)…”
打开“平面文件源编辑器”对话框。


(6)第2课的“修改平面文件连接管理器”步骤中,将【在“连接管理器”窗格中,单击SampleCurrencyData。

】改为【在“连接管理器”窗格中,单击“Sample Flat File
Source Data”。


(7)第3课的“修改目录属性配置值”步骤中,将【更改ConfiguredValue 元素的值,使其与上一个任务中创建的New Sample Data 文件夹匹配。

请不要将路径用引
号括起来。

】改为【更改ConfiguredValue 元素的值,使其与上一个任务中创建
的New Sample Data 文件夹匹配。

请不要将路径用引号括起来。

具体做法是将
New Sample Data 文件夹的路径添加到<ConfiguredValue></ConfiguredValue>这
对标签中间,如<ConfiguredValue> C:\New Sample Data</ConfiguredValue>,然后
保存该文件】
实验二、SSAS教程1-3课
实验目的:
采用SQL Server 2005的Analysis Service,熟悉OLAP工具的功能和使用方法实验内容:
结合教材的OLAP知识,打开SQL Server 2005的SSAS教程,按教程步骤完成1-3课,8学时,其中第1课2学时,第2课2学时,第3课4学时。

实验要求:
每次实验课结束前5分钟关闭SQL Server Business Intelligence Development Studio和SQL Server Management Studio,将项目文件夹拷贝到U盘或压缩后发到自己邮箱保存起来,以便下次实验课可以继续往下做或最后上交。

每次实验课开始时先使用SQL Server Configuration Manager启动必需的SQL Server 服务。

按时完成实验内容,整理实验报告。

实验说明:
按下图打开SSAS教程,
做的过程中,注意以下问题:
(1)创建的项目放到一个方便找到的自定义文件夹中以便每次下课时可以拷贝带走(2)第 1 课“在Analysis Services 项目中定义数据源视图”中“创建Analysis Services 项目”步骤中“创建新的Analysis Services 项目”部分,将【将项目名称更改为
Analysis Services Tutorial,这也将更改解决方案名称,然后单击“确定”。

】改为【将
项目名称更改为Analysis Services Tutorial,这也将更改解决方案名称,给“位置”
指定路径,该路径通常是你自己创建的一个文件夹,要便于查找,然后单击“确
定”。


(3)第 1 课“在Analysis Services 项目中定义数据源视图”中“创建Analysis Services 项目”步骤中,注意解决方案、项目和项的区别:解决方案可以包含多个项目;
每个项目包含一个或多个项。

(4)第 1 课“在Analysis Services 项目中定义数据源视图”中“创建Analysis Services 项目”步骤中的“定义数据源”部分,【在“服务器名称”文本框中,键入localhost。

要连接到本地计算机上的命名实例,请键入localhost\<实例名>。

将项目部署到
Analysis Services 的特殊实例时,Analysis Services 引擎将连接到Microsoft SQL
Server 的默认实例(位于Analysis Services 实例所在的计算机上)的Adventure
Works DW 数据库。

如果在定义数据源时指定特定的计算机名或IP 地址,则项
目或部署的应用程序将与指定计算机而不是本地计算机建立连接。

通过Analysis
Services 部署向导,可以在部署时指定源数据的实际服务器名。

】处,我们此处
在“服务器名称”文本框中,键入localhost\DWDM
(5)第 1 课“在Analysis Services 项目中定义数据源视图”中“创建Analysis Services 项目”步骤中的“定义数据源”部分,【确保已选中“使用Windows 身份验证”。

在“选择或输入数据库名称”列表中,选择AdventureWorksDW。

】处,如果上
一步骤在“服务器名称”文本框中键入的localhost\DWDM没有错,但点开“选择
或输入数据库名称”列表却没有任课可选数据库,很可能是sql server 2005网络
配置中的相关“协议”没有启用,补丁安装完成后,打开“SQL Server Configuration
Manager”,如下图所示,到sql server 2005网络配置中把named pipes和tcp/ip
都启用,注意:SQL Server 2005的配置管理器不能启用VIA协议,启用之后服务
器启动不起来,将除了VIA之外的三个协议启动起来并在计算机的“服务”管理中重启SQL Server 2005相关服务即可解决问题
(6)第 2 课“定义和部署多维数据集”中,注意开始的介绍【在Microsoft SQL Server 2005 Analysis Services (SSAS) 对象中定义了一个数据源视图后,就可以定义一个初始Analysis Services 多维数据集了。

开始时可以先定义与任何多维数据集都无关的维度,然后再定义使用这些维度的一个或多个多维数据集。

也可以使用Business Intelligence Development Studio 中的多维数据集向导,一次性定义一个多维数据集及其维度。

如果创建的是一个简单多维数据集,或者是对定义多维数据集不熟悉,建议您使用多维数据集向导一次性创建多维数据集及其维度。

但是,如果设计的是一个更较复杂的解决方案,该方案由多个共享公共数据库维度的多维数据集组成,则通常从在数据库级别定义维度入手。

这些维度称为“数据库维度”。

然后,可以定义解决方案中的每个多维数据集,指定是否在每个多维数据集中使用各个数据库维度及其使用方式。

这些维度称为“多维数据集维度”。

单个数据库维度可用作多个多维数据集维度的基础。

】说明了多维数据集与维度、数据库维度与多维数据集维度的关系及构建次序和方法。

多维数据集即英文的Data Cube,又称为数据立方体。

(7)第 2 课“定义和部署多维数据集”中“检查多维数据集和维度属性”部分,将【在解决方案资源管理器的工具栏上,单击“查看代码”。

】改为【在解决方案资源管理器的工具栏上,找到Analysis Services Tutorial.cube在上面点右键并选择“查看代码”。


(8)第 2 课“定义和部署多维数据集”中“部署Analysis Services 项目”部分,【在左窗格的“配置属性”节点中,单击“部署”。

查看项目的部署属性。

默认情况下,Analysis Services 项目模板将Analysis Services 项目配置为将所有项目增量部署到本地计算机上的默认Analysis Services 实例,以创建一个与此项目同名的Analysis Services 数据库,并在部署
后使用默认处理选项处理这些对象。

提示:
】此处我们设置为localhost\DWDM,如下图所示配置完后点“确定”按钮关闭。

(9)第 3 课“修改度量值、属性和层次结构”开始注意“属性层次结构”(英文为:Attribute Hierarchy)和维度层次结构(英文为Dimension Hierarchy,在教程中又
称为用户层次结构)的区别,前者有单个属性构成,只有两层,后者由两个或
两个以上的属性构成。

(10)第 3 课“修改度量值、属性和层次结构”中“修改“客户”维度”部分,将【2. 在“特性”窗格中,选择以下特性并将其删除:】改为【2. 在左边的“属性”窗格中,
选择以下特性并将其删除:】,此处的“属性”指英文的attribute,而右边自动隐
藏的“属性”窗口指的是英文的property
(11)第 3 课“修改度量值、属性和层次结构”中“修改“客户”维度”部分,将【在“特性”窗格中,右键单击“英语国家/地区区域名”,并选择“重命名”。

将该特性的名
称更改为“国家/地区-区域”。

】改为【在左边的“属性”窗格中,右键单击“英语国
家/地区区域名”,并选择“重命名”。

将该特性的名称更改为“国家或地区-区域”。

】,名称中不能包含“/”。

注意这些名称实际上都是英文的(这可以从本部分教程
中所附的图看出),英文教程在译为中文时出现了过翻译,导致这些名称都被
翻译成了中文,同学们可以使用中文,也可以使用英文,建议使用中文即可,
但这回与教程所附的图看起来有些名称差异
(12)第 3 课“修改度量值、属性和层次结构”中“修改“客户”维度”部分,将【以相同方法更改以下属性的名称:
“英语教育”属性—更改为“教育”
“英语教育”属性—更改为“教育”】改为【以相同方法更改以下属性的名称:
“英语教育”属性—更改为“教育”
“英语职业”属性—更改为“职业”】
(13)第 3 课“修改度量值、属性和层次结构”中“修改“客户”维度”部分,将【在“客户所在地域”用户层次结构中,将“省/市/自治区名”级别的名称更改为“省/市/自
治区”。

】改为【在“客户所在地域”用户层次结构中,将“省/市/自治区名”级别的
名称更改为“省-市-自治区”。


(14)第 3 课“修改度量值、属性和层次结构”中“修改“客户”维度”部分,在【4. 切换到Analysis Services Tutorial 多维数据集的多维数据集设计器,然后单击“浏览
器”选项卡。

】步骤之后点一下重新连接图标按钮以更新数
据,记住以后使用“浏览器”查看数据时,注意如下图所示界面下面红框处提
示,如出现此提示,说明界面上的数据已经过期,需要重新连接一下Analysis
Service服务器以读取重新部署之后的新数据,
(15)第 3 课“修改度量值、属性和层次结构”中“在多维数据集设计器中查看更改”
部分,【清除“数据”窗格中的任何现有度量值和属性层次结构,然后从“筛选器”
窗格中删除所有维度成员。

】中的清除“数据”窗格中的任何现有度量值和属性
层次结构的方法是单击清除结果按钮清除结果
实验三、数据挖掘教程
实验目的:
采用SQL Server 2005的数据挖掘工具,熟悉数据挖掘的关联、分类等分析方法
实验内容:
结合教材的数据挖掘知识,打开SQL Server 2005的数据挖掘教程,按教程步骤完成全部内容,约6学时,第1课1学时,第2课3学时,第3-5课2学时。

实验要求:
每次实验课结束前5分钟关闭SQL Server Business Intelligence Development Studio和SQL Server Management Studio,将项目文件夹拷贝到U盘或压缩后发到自己邮箱保存起来,以便下次实验课可以继续往下做或最后上交。

每次实验课开始时先使用SQL Server Configuration Manager启动必需的SQL Server 服务。

按时完成实验内容,整理实验报告。

实验说明:
按下图打开数据挖掘教程,
做的过程中,注意以下问题:
(1)创建的项目放到一个方便找到的自定义文件夹中以便每次下课时可以拷贝带走(2)注意本教程开始的介绍【Microsoft 使用SQL Server 2005 Analysis Services (SSAS) 可以很方便地创建复杂的数据挖掘解决方案。

Analysis Services 工具提供了设计、
创建和管理数据挖掘模型的功能,并且使客户端能够访问数据挖掘数据。

】(3)第 1 课“准备Analysis Services 数据库”中“创建数据源(数据挖掘教程)”部分,【在“服务器名称”列表中,选择承载AdventureWorksDW 的服务器。

输入您
的凭据。

例如,如果在本地服务器上承载数据库,则选择localhost。

】此处我们
输入“服务器名称”为localhost\DWDM。

(4)第 2 课“生成目标邮件方案”介绍中注意【若要完成本课程中的任务,您需要使用Microsoft Naive Bayes 算法、Microsoft 决策树算法和Microsoft 聚类分析
算法。


(5)第 2 课“生成目标邮件方案”中“创建目标邮件挖掘模型结构(数据挖掘教程)”
的【在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单
击“下一步”。

】步骤出现如下图所示对话框,注意数据挖掘可以基于关系数据库、
数据仓库和多维数据集(即OLAP多维数据库)
(6)第 2 课“生成目标邮件方案”中“创建目标邮件挖掘模型结构(数据挖掘教程)”
的“部署项目并处理挖掘模型”部分,将【1.按F5。

Analysis Services 数据库将
部署到服务器上,而挖掘模型也将得到处理。

如果数据库已经部署到服务器上,则可使用下列过程,以便只处理挖掘模型。

】改为【在解决方案管理器中的AdventureWorks项目上点右键,选择“属性”,如下图所示,设置“部署”中的“服务器”为localhost\DWDM。

然后按F5。

Analysis Services 数据库将部署到
服务器上,而挖掘模型也将得到处理。

如果数据库已经部署到服务器上,则可
使用下列过程,以便只处理挖掘模型。


(7)第 2 课“生成目标邮件方案”中“创建目标邮件挖掘模型结构(数据挖掘教程)”
的“在项目已部署完成时处理挖掘模型”部分,将【在BI Development Studio 的
“挖掘模型”菜单上,单击“处理挖掘结构和所有模型”。

】改为【在BI Development Studio 的“挖掘模型”菜单上,单击“处理(P)…”。


(8)第 2 课“生成目标邮件方案”中“浏览目标邮件模型(数据挖掘教程)的“Microsoft 决策树模型”部分,先如下图所示选择挖掘模型为
“TM_Decision_Tree”
(9)第 2 课“生成目标邮件方案”中“浏览目标邮件模型(数据挖掘教程)的“Microsoft 聚类分析模型”部分,【例如,将“明暗度变量”设置为Bike Buyer,
将“状态”设置为1。

您会看到,分类 5 中自行车购买者的密度最高,分类4 与
分类7 之间的关系最接近。

】我们的结果与之不同
(10)第 2 课“生成目标邮件方案”中“浏览目标邮件模型(数据挖掘教程)的“Microsoft 聚类分析模型”部分的“分类剖面图”最后一句【连续属性以菱形
图显示,表示每个分类中的平均偏差和标准偏差。

】改为【“连续属性以菱形图
显示,表示每个分类中的最大值、最小值、平均值、平均值加标准差(即平均
值加均方差,以“平均值+StdDev”表示)、平均值减标准差(以“平均值-StdDev”
表示),菱形宽度与方差大小相关”】
(11)第 2 课“生成目标邮件方案”中“浏览目标邮件模型(数据挖掘教程)的“Microsoft 聚类分析模型”部分的“分类辨别”即“分类对比”
(12)第 2 课“生成目标邮件方案”中“创建预测(数据挖掘教程)”的“查看结果”
部分,使用TM_Decision_Tree预测出来的结果都是“0”,而用TM_Clustering和
TM_NaiveBayes预测的结果却是“0”、“1”都有
(13)第 3 课“生成预测方案”中“创建预测挖掘模型结构(数据挖掘教程)”的【选择“数量”列旁边的“输入”和“可预测”复选框。

】中的“数量”如下图所示是指
Quantity,而不是Amount
(14)第 4 课“生成市场篮方案”中“创建市场篮挖掘模型结构(数据挖掘教程)”
部分,将【在“指定定型数据”页上,依次清除CustomerKey 旁边的“键”复选框
和LineNumber 旁边的“键”和“输入”复选框。

默认情况下,CustomerKey、
OrderNumber 以及LineNumber 被列为“键”类型。

但在本教程中,您将只对
Microsoft 顺序分析和聚类分析模型使用LineNumber 作为键;您必须更改关联模型的默认设置。

选中Model 列旁边的“键”和“可预测”复选框。

然后,系统也将自动选中“输入”
复选框。

】改为【在“指定定型数据”页上,依次清除CustomerKey 旁边的“键”复选框和LineNumber 旁边的“键”和“输入”复选框。

选中OrderNumber旁边的“键”
复选框。

默认情况下,CustomerKey、OrderNumber 以及LineNumber 被列为“键”
类型。

但在本教程中,您将只对Microsoft 顺序分析和聚类分析模型使用
LineNumber 作为键;您必须更改关联模型的默认设置。

选中Model 列旁边的“键”和“可预测”复选框。

然后,系统也将自动选中“输入”
复选框。

】结果如下图所示
(15)第 5 课“生成顺序分析和聚类分析方案”中“创建顺序分析和聚类分析挖掘模型结构(数据挖掘教程)”的“若要创建顺序分析和聚类分析挖掘结构,请执行以下操作:”部分,【7.在“指定定型数据”页中,清除CustomerKey 旁的“键”复选框。

默认情况下,OrderNumber 和LineNumber 将作为“键”类型列出;请不要更改
这些设置。

8.选中Model 列旁的“输入”和“可预测”复选框,再单击“下一步”。

】此处我们的
默认情况与教程讲的不同,但结果应设置为与教程一样,即如下图所示,选中
OrderNumber的“键”复选框,选中LineNumber的“键”复选框,其“输入”
复选框会被自动选中,选中Model的“输入”和“可预测”复选框。

相关文档
最新文档