数据仓库与数据挖掘实验报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一【2 】.上机目标及内容
目标:
1.懂得数据发掘的根本概念及其进程;
2.懂得数据发掘与数据仓库.OLAP之间的关系
3.懂得根本的数据发掘技巧与办法的工作道理与进程,控制数据发掘相干对象的运用.
内容:
将创建一个数据发掘模子以练习发卖数据,并运用“Microsoft 决议计划树”算法在客户群中找出购置自行车模式.请将要发掘的维度(事例维度)设置为客户,再将客户的属性设置为数据发掘算法辨认模式时要运用的信息.然后算法将运用决议计划树从中肯定模式.下一步须要练习模子,以便可以或许浏览树视图并从中读取模式.市场部将依据这些模式选择潜在的客户发送自行车促销信息.
请求:
运用试验室和指点教师供给的试验软件,卖力完成划定的试验内容,真实地记载试验中碰到的各类问题息争决的办法与进程,并依据试验案例绘出模子及操作进程.试验完成后,应依据试验情形写出试验报告.
二.试验道理及根本技巧路线图(方框道理图或程序流程图)
联系关系剖析:联系关系剖析是从数据库中发明常识的一类主要办法.
时序模式:经由过程时光序列搜刮出反复产生概率较高的模式.
分类:分类是在聚类的基本上对已肯定的类找出该类别的概念描写,代表了这类数据的整体信息,既该类的内在描写,一般用规矩或决议计划树范式表示.
三.所用仪器.材料(装备名称.型号.规格等或运用软件)
1台PC及Microsoft SQL Server套件
四.试验办法.步骤(或:程序代码或操作进程)及试验进程原始记载( 测试数据.图表.盘算等)
创建 Analysis Services 项目
1.打开 Business Intelligence Development Studio.
2.在“文件”菜单上,指向“新建”,然后选择“项目”.
3.确保已选中“模板”窗格中的“Analysis Services 项目”.
4.在“名称”框中,将新项目定名为 AdventureWorks.
5.单击“肯定”.
更改存储数据发掘对象的实例
1.在 Business Intelligence Development Studio 的“项目”菜单中,选择“属性”.
2.在“属性页”窗格的左侧,单击“部署”.
3.在“目标”选项部分,验证数据库名称是否为 localhost.假如运用的是其他实例,请键入该实例的
名称.单击“肯定”.
创建数据源
1.在解决计划资本治理器中,右键单击“数据源”文件夹,然后选择“新建数据
源”.
体系将打开数据源领导.
2.在“迎接运用数据源领导”页面中,单击“下一步”按
钮.
3.在“选择若何界说衔接”页上,单击“新建”向 Adventure Works 数据库中添加衔接.
体系将打开“衔接治理器”对话
框.
4.在“衔接治理器”的“供给程序”列表中,选择“本机 OLE DB\Microsoft OLE DB Provider for
SQL Server”.
5.在“办事器名称”列表中,键入或选择承载 AdventureWorksDW 的办事器的名称.
6.在“登录到办事器”组中,选择身份验证办法,并输入凭证.
7.在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“肯定”按钮.
8.单击“下一步”按钮进入领导的下一页.
9.在“模仿信息”页中,选择“运用办事帐户”,再单击“下一步”.
10.请留意,在“完成领导”页中,数据源名称默以为 Adventure Works
DW.
11.单击“完成”.
新的数据源 Adventure Works DW 将显示在解决计划资本治理器的“数据源”文件夹中.
创建数据源视图
1.在解决计划资本治理器中,右键单击“数据源视图”,选择“新建数据源视图”.
体系将打开数据源视图领导.
2.在“迎接运用数据源视图领导”页上,单击“下一步”.
3.在“选择数据源”页的“关系数据源”下,体系将默认选中您在上一个义务中创建的 Adventure
Works DW 数据源. 单击“下一步”.
若要创建新数据源,请单击“新建数据源”,启动数据源领导.
4.在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:
•dbo.ProspectiveBuyer
•dbo.vAssocSeqLineItems
•dbo.vAssocSeqOrders
•dbo.vTargetMail
•dbo.vTimeSeries
5.单击“下一
步”.
6.在“完成领导”页上,默认情形下,体系将数据源视图定名为 Adventure Works DW. 单击“完成”.
体系将打开数据源视图设计器,显示 Adventure Works DW 数据源视图.
创建用于目标邮件计划的发掘构造
1.在解决计划资本治理器中,右键单击“发掘构造”并选择“新建发掘构造”启动数据发掘领导.
2.在“迎接运用数据发掘领导”页上,单击“下一步”.
3.在“选择界说办法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”.
4.在“创建数据发掘构造”页的“您要运用何种数据发掘技巧?”下,选择“Microsoft 决议计划
树”.
5.单击“下一步”.
6.在“选择数据源视图”页上,请留意已默认选中 Adventure Works DW.在数据源视图中,单击“浏
览”查看各表,然后单击“封闭”返回该领导.
7.单击“下一步”.
8.在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”.
9.在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框.
假如数据源视图中的源表表示一个键,则数据发掘领导将主动选择该列作为模子的键.
10.选中 BikeBuyer 列旁边的“输入”和“可猜测”.
11.单击“建议”打开“供给相干列建议”对话框.
只要选中至少一个可猜测属性,即可启用“建议”按钮.“供给相干列建议”对话框将列出与可猜测列联系关系最亲密的列,并按照与可猜测属性的互相关系对属性进行排序.值大于 0.05 的列将被主动选中,以包括在模子中.
12.浏览建议,然后单击“撤消”疏忽建议并保留领导设置的原始值.
13.选中以下各列旁边的“输入”复选框:
•Age
•CommuteDistance •EnglishEducation •EnglishOccupation •FirstName
•Gender •GeographyKey •HouseOwnerFlag •LastName •MaritalStatus •NumberCarsOwned •NumberChildrenAtHome •Region
•TotalChildren •YearlyIncome
14.单击“下一步”.
15.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并肯定命值列是否包
含持续或离散值的算法.例如,某列可包含薪金信息,用以作为持续的现实薪金值,也可包含整数,用以表示离散的编码薪金规模(例如 1 = < $25,000;2 = 从 $25,000 到 $50,000).
16.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;若有必要,请进行更改,以确保设置与
下表所示一致.
平日,领导会检测数值,并分派响应的数值数据类型;但有些情形下,您可能想要将数值作为文本处理.
例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的.
YearlyIncome Continuous Double
17.单击“下一步”.
18.在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值 30.
19.对于“测试数据分散的最大事例数”,请键入 1000.单击“下一
步”.
20.在“完成领导”页上的“发掘构造名称”中,键入 Targeted Mailing.
21.在“发掘模子名称”中,键入 TM_Decision_Tree.
22.选中“许可钻取”复选框.
23.单击“完成”.
测试发掘模子的精确性
映射输入列
假如运用外部数据测试发掘模子,则必须确保发掘构造中的列与输入数据中的列匹配.为此,可以运用“指
定列映射”对话框.假如直接映射列名,则数据发掘设计器将主动创建关系.
若要删除两列之间的映射,请选择将“发掘构造”表中的列链接到“选择输入表”表中的列的行,再按
Delete 键.还可以经由过程单击“选择输入表”中的列并将其拖到“发掘构造”中响应的列来手动创建映射.
将输入列映射到发掘构造
1.在数据发掘设计器中的“发掘精确性图表”选项卡的“输入选择”选项卡中,选择选项“指定其他数
据集”.
2.单击“指定其他数据集”选项右侧的(…)按钮.
此时将打开“指定列映射”对话框.假如您要测试的构造未显示在“发掘构造”窗格中,请单击“选择构造”并选择目标邮件.
3.在“选择输入表”框中,单击“选择事例表”.
体系将打开“选择表”对话框.在此对话框中选择包含表或须要运用的表的数据源视图,然后选择该表.
用于肯定模子精确性的数据必须包含可以映射到可猜测列的列.
为了实现本教程的教授教养目标,您须要对用于处理模子的输入列运用雷同的数据并对数据运用筛选器.但是,幻想情形下,您将运用用于处理该模子的数据中保留的测试数据集.在“选择输入选择”选项卡上选择选项“运用发掘构造测试事例”,将选择该数据作为输入.
4.在“数据源”列表中,确保已选中 Adventure Works DW.
5.在“表/视图名称”列表中,选择 vTargetMail,再单击“肯定”.
发掘构造中的列会主动映射到输入表中具有雷同名称的列.
筛选输入行
假如选择“指定其他数据集”选项,则可以经由过程运用显示事例表列和嵌套表列的一组对话框生成筛选前提.可以从运算符.类型值的列表中进行选择,并衔接前提与逻辑运算符,以创建限制测试所用事例的庞杂前提.
对测试数据运用筛选器
1.在数据发掘设计器中的“发掘精确性图表”选项卡的“输入选择”选项卡上,单击“打开筛选器编辑
器”.
2.此时将打开“vTargetMail 数据集筛选器”对话框.在此网格内,输入转换为将运用于源表的
WHERE 子句的前提,以限制用于测试的事例.
3.在“发掘构造列”下,单击网格内顶部的行.选择 vTargetMail.
4.单击“值”单元.
此时将打开“筛选器”对话框,该对话框可关心您对 vTargetMail 表设置前提.
5.在第一行中,单击“发掘构造列”下的网格,然后从列的列表中选择 Age.
6.单击 Age 旁边的“运算符”框,并选择 >(大于)运算符.
7.在统一行单击“值”框,并键入 20.
8.单击“表达式”窗格以刷新该表达式,并验证它是否精确.单击“肯定”.
9.再次单击“肯定”,封闭“筛选数据集”对话框.
“输入选择”选项卡中的“筛选表达式”窗格会显示适才创建的筛选表达式vTargetMail:
([Age] > 20).当制造晋升图时,模子将仅运用其年纪大于 20 的客户进行测试.
显示模子的晋升
1.在“选摘要在晋升图中显示的可猜测的发掘模子列”下,确保已在每个模子的“可猜测的列名”列表
中选中 Bike Buyer.
2.在“猜测值”列中,选择 1.对于具有雷同可猜测列的每个模子,将主动填充雷同的值.
显示模子的精确性
1.在“选摘要在晋升图中显示的可猜测的发掘模子列”下,确保已在每个模子的“可猜测的列名”列表
中选中 Bike Buyer.
2.将“猜测值”列保留为空.
查看晋升图
若要查看晋升图,请切换到“发掘精确性图表”的“晋升图”选项卡.当您单击该选项卡时,便会对办事器和数据库的发掘构造和输入表或测试数据运行猜测查询.猜测成果随后会与已知的现实值进行比较,并将绘制在图上.有关若何运用该图的具体信息,请参阅晋升图(Analysis Services - 数据发掘).
创建查询
创建猜测查询的第一步是选择发掘模子和输入表.
选择模子和输入表
1.在数据发掘设计器“发掘模子猜测”选项卡的“发掘模子”框中,单击“选择模子”.
体系将打开“选择发掘模子”对话框.
2.在全部树中导航到“目标邮件”构造,睁开该构造并选择 TM_Decision_Tree,再单击“肯定”.
3.在“选择输入表”框中,单击“选择事例表”.
体系将打开“选择表”对话框.
4.在“数据源”中,选择 Adventure Works
DW.
5.在“表/视图名称”中,选择 ProspectiveBuyer 表,再单击“肯定”.
选择输入表之后,猜测查询生成器便会依据各列的名称在发掘模子和输入表之间创建默认映射.
生成猜测查询
1.在“发掘模子猜测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然后选择
ProspectiveBuyer.
2.在 ProspectiveBuyer 行的“字段”列中,选择 ProspectAlternateKey.
这会将独一标识符添加到猜测查询中,以便标识谁可能购置自行车,以及谁不可能购置自行车.
3.在“源”列中,单击下一个空行,然后选择 TM_Decision_Tree.
4.在 TM_Decision_Tree 行的“字段”列中,选择 Bike Buyer.
这将会输出 Microsoft 决议计划树范子中作为猜测目标的列.
5.在“源”列下,单击下一个空行,然后选择“猜测函数”.
6.在“猜测函数”行的“字段”列中,选择 PredictProbability.
猜测函数供给有关模子若何进行猜测的信息.PredictProbability 函数供给有关精确猜测的概率信息.您可以在“前提/参数”列中指定猜测函数的参数.
7.在 PredictProbability 行的“前提/参数”列中,键入 [TM_Decision_Tree].[Bike Buyer].
这将指定 PredictProbability 函数的目标列.有关函数的具体信息,请参阅数据发掘扩大插件
(DMX) 函数参
考.
“发掘模子猜测”选项卡的对象栏中的第一个对象是“切换到查询设计视图/切换到查询成果视图”按钮.经由过程单击此按钮上的下箭头,可在所创建的查询的视图之间切换.运用“查询”视图可以查看猜测查询生成器创建的 DMX 代码.运用“成果”视图可以运行查询并查看成果.运用“设计”视图可以向查询中添加新猜测函数.留意:假如在“查询”视图中手动更改查询的文本,则切换回“设计”视图时,不会保留修正后的查询.
查看成果
经由过程单击“切换到查询设计视图/切换到查询成果视图”按钮(即对象栏上的第一个按钮)旁边的箭头并选择“成果”,可以运行查询.
六.试验成果.剖析和结论(误差剖析与数据处理.成果总结等.个中,绘制曲线图时必须用盘算纸或程序运行成果.改良.收成)
运用 Microsoft SQL Server Analysis Services 可以很便利地创建庞杂的数据发掘解决计
划.Analysis Services 对象可关心我们设计.创建和治理来自数据仓库的多维数据集和数据发掘模子,
还可治理对 OLAP 数据和数据发掘数据的客户端拜访.经由过程试验懂得了数据发掘的根本概念及其进程及数据发掘与数据仓库.OLAP之间的关系.对根本的数据发掘技巧与办法的工作道理与进程,控制数据发掘相干对象的运用有了初步的懂得.
注:教师必须按照上述各项内容严厉请求,卖力批改和评定学生成绩.。

相关文档
最新文档