《数据仓库》实验指导书

合集下载

数据库实验指导书

数据库实验指导书（试用版）目录引言 (1)一、课程实验目的和基本要求 (1)二、主要实验环境 (1)三、实验内容 (1)实验1 数据库模式设计和数据库的建立 (2)一、教学目的和要求 (2)二、实验内容 (2)三、实验步骤 (2)四、思考与总结 (3)实验2 数据库的简单查询和连接查询 (3)一、教学目的和要求 (3)二、实验内容 (3)三、实验步骤 (3)四、思考与总结 (4)实验3 数据库的嵌套查询和组合统计查询 (4)一、教学目的和要求 (4)二、实验内容 (4)三、实验步骤 (4)四、思考与总结 (5)实验4 视图与图表的定义及数据完整性和安全性 (5)一、教学目的和要求 (5)二、实验内容 (6)三、实验步骤 (6)四、思考与总结 (6)实验5 简单应用系统的实现 (7)一、教学目的和要求 (7)二、实验内容 (7)三、实验步骤 (7)四、思考与总结 (7)附录1：数据库实验报告格式................................................ 错误！未定义书签。

附录2：SQL Server 2000使用指南. (9)1 SQL Server 2000简介 (9)2 SQL Server 2000的版本 (9)3 SQL Server 2000实用工具 (9)4 创建数据库 (12)5 创建和修改数据表 (14)6 创建索引 (19)7 存储过程 (20)8 触发器 (22)9 备份和恢复 (24)10 用户和安全性管理 (25)引言数据库技术是一个理论和实际紧密相连的技术，上机实验是数据库课程的重要环节，它贯穿于整个“数据库阶段”课程教学过程中。

一、课程实验目的和基本要求上机实验是本课程必不可少的实践环节。

学生应在基本掌握各知识点内容的基础上同步进行相关实验，以加深对知识的理解和掌握，达到理论指导实践，实践加深理论的理解与巩固的效果。

数据库课程上机实验的主要目标是：（1）通过上机操作，加深对数据库系统理论知识的理解。

数据仓库与数据挖掘实验指导

数据仓库与数据挖掘实验指导By TMS目录3第 1 课：创建SQL server2005的DT项目和基本包 ...................................................51.1 创建新的 Integration Services项目 .......................................................61.2 添加和配置平面文件连接管理器 ..............................................................1.3添加和配置 OLE DB 连接管理器 ............................................................881.4在包中添加数据流任务 .......................................................................91.5添加并配置平面文件源 .......................................................................1.6添加并配置查找转换 .........................................................................9101.7添加和配置 OLE DB 目标 ..................................................................111.8测试 Lesson 1 教程包 .....................................................................12第 2 课：添加循环 ................................................................................132．1 创建 Lesson 2 包 ........................................................................132.2添加和配置 Foreach 循环容器 ...............................................................13一、添加 Foreach 循环容器 ................................................................14三、将枚举器映射为用户定义的变量 .........................................................14四、将数据流任务添加到循环中 .............................................................142．3修改平面文件连接管理器 ...................................................................152.4 测试 Lesson 2 教程包 .....................................................................16第 3 课：在 Analysis Services项目中定义数据源视图及多维数据集...................................16项目 ...........................................................一、创建 Analysis Services18二、定义新的数据源 ...........................................................................22三、定义数据源视图 ...........................................................................25四、修改表的默认名称 .........................................................................27五、定义多维数据集 ...........................................................................32五、检查多维数据集和维度属性 .................................................................40项目 ...............................................................六、部署 Analysis Services第 1 课：创建SQL server2005的DT项目和基本包在本课中，您将创建一个简单 ETL 包，该包可以从单个平面文件源提取数据，使用两个查找转换组件转换该数据，然后将该数据写入 AdventureWorksDW 中的 FactCurrencyRate 事实数据表。

数据仓库与数据挖掘课程实验指导书

潘怡编著《数据仓库与数据挖掘》课程实验指导书长沙学院计算机科学与技术系2009年9月前言本书是《数据仓库与数据挖掘》课程及《数据分析与挖掘》的实验指导书。

全书分为三个部分，第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境（硬件环境、软件环境）和实验内容及步骤进行简单介绍，第二部分为实验指导对每个实验的实验方法，实验步骤及补充的实验知识进行详细介绍，第三部分为实验报告。

本实践课程主要介绍数据仓库的工作机理及其构建过程，。

要求学生熟练使用数据库管理系统MS SQL Server，掌握典型的数据仓库系统及其开发工具的使用，理解数据挖掘的工作原理与流程，掌握典型数据挖掘技术及其工具的使用方法，熟悉SQL SERVER BI DE V集成挖掘环境。

要求学生实验前认真准备，实验后提供实验报告，给出详细设计方法以及设计依据。

实验报告的格式应采用统一封面，统一的实验报告纸。

封面应包括：课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。

实验报告内容应包括：实验名称、目的、内容、实验步骤、实验记录、数据处理（或原理论证、或实验现象描述、或结构说明等）。

目录第一部分实验内容实验1：实践SQL Server数据多维分析环境实验2：实践关联规则挖掘方法实验3：实践决策树挖掘方法实验4：实践聚类挖掘方法实验5：实践神经网络挖掘方法第二部分实验指导实验1：实践SQL Server数据多维分析环境实验2：实践关联规则挖掘方法实验3：实践决策树挖掘方法实验4：实践聚类挖掘方法实验5：实践神经网络挖掘方法第三部分实验报告第一部分实验内容实验1：实践SQL Server数据多维分析环境一．实验目的学习和掌握Sql Server 2005 Analysis Services 工具集，包括如何在BI Development Studio 的Analysis Services 项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集，如何查看多维数据集和维度，理解并掌握OLAP分析的基本过程与方法。

简单数据仓库挖掘实训实训指导书

实验一SQL Server常用管理工具的使用实验目的1. 理解服务的概念，掌握SQL Server服务的启动、暂停和停止。

2. 熟悉SQL Server数据库结构，掌握企业管理器的基本操作。

3. 理解查询分析器的作用，掌握查询分析器的常用用法。

4. 掌握联机丛书的用法。

实验内容与步骤一．服务管理器的用法SQL Server 是作为Windows 网络操作系统的一个服务运行的。

通过设置，可以在启动操作系统时自动启动SQL Server，也可以远程启动和停止SQL Server。

可以使用下列工具手工启动、暂停和停止SQL Server服务：●SQL Server企业管理器●SQL Server服务管理器●控制面板中的“服务”●在命令提示符中使用net命令其中，服务管理器是最常用的图形界面工具。

实验要求1：使用SQL Server服务管理器查看SQL Server服务是否正在运行，若正在运行，将其停止。

实验要求2：使用控制面板中的“服务”管理控制台将已停止的SQL Server服务启动。

二．企业管理器的使用企业管理器是SQL Server提供的最主要的数据库管理图形界面工具，它以树形结构来组织数据库服务器、数据库和数据库中的对象，大部分的数据库管理工作都可以使用它来完成。

实验要求3：启动企业管理器，查看SQL Server的注册属性。

提示：启动企业管理器后，在控制台树中，展开“Microsoft SQL Servers”，然后展开“SQL Server组”，右击自己的服务器名，然后单击“编辑SQL Server注册属性”。

实验要求4：在企业管理器中，查看Northwind数据库中用户数据表和系统数据表各有多少个？三．查询分析器的使用查询分析器是图形化的数据库编程接口，用户可以以自由的文本格式编辑、调试和执行SQL脚本。

实验要求5：在查询分析器中，使用SQL语句在master数据库中查询sysobjects表的所有信息。

数据仓库与数据挖掘实验指导书王浩畅资料.doc

数据仓库与数据挖掘实验指导书王浩畅资料.doc数据仓库与数据挖掘实验指导书东北⽯油⼤学计算机与信息技术系王浩畅实验⼀Weka实验环境初探⼀、实验名称:Weka实验环境初探⼆、实验⽬的：通过⼀个已有的数据集，在weka环境下，测试常⽤数据挖掘算法，熟悉Weka 环境。

三、实验要求1.熟悉weka的应⽤环境。

2.了解数据挖掘常⽤算法。

3.在weka环境下，测试常⽤数据挖掘算法。

四、实验平台新西兰怀卡托⼤学研制的Weka系统五、实验数据Weka安装⽬录下data⽂件夹中的数据集weather.nominal.arff，weather.arff六、实验⽅法和步骤1、⾸先，选择数据集weather.nominal.arff，操作步骤为点击Explorer，进⼊主界⾯，点击左上⾓的“Open file...”按钮，选择数据集weather.nominal.arff⽂件，该⽂件中存储着表格中的数据，点击区域2中的“Edit”可以看到相应的数据：选择上端的Associate选项页，即数据挖掘中的关联规则挖掘选项，此处要做的是从上述数据集中寻找关联规则。

点击后进⼊如下界⾯：2、现在打开weather.arff，数据集中的类别换成数字。

选择上端的Associate选项页，但是在Associate选项卡中Start按钮为灰⾊的，也就是说这个时候⽆法使⽤Apriori算法进⾏规则的挖掘，原因在于Apriori算法不能应⽤于连续型的数值类型。

所以现在需要对数值进⾏离散化，就是类似于将20-30℃划分为“热”，0-10℃定义为“冷”，这样经过对数值型属性的离散化，就可以应⽤Apriori算法了。

Weka提供了良好的数据预处理⽅法。

第⼀步：选择要预处理的属性temperrature从中可以看出，对于“温度”这⼀项，⼀共有12条不同的内容，最⼩值为64（单位：华⽒摄⽒度，下同），最⼤值为85，选择过滤器“choose”按钮，或者在同⾏的空⽩处点击⼀下，即可弹出过滤器选择框，逐级找到“Weka.filters.unsupervised.attribute.Discretize”，点击；若⽆法关闭这个树，在树之外的地⽅点击“Explorer”⾯板即可。

数据仓库与数据挖掘实验数据挖掘实验指导书

数据仓库与数据挖掘实验数据挖掘实验指导书《数据挖掘》实验指导书xx年3月1日长沙学院信息与计算科学系前言随着数据库技术的发展，特别是数据仓库以及Web 等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。

针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。

数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的十大新兴技术之一。

因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。

本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。

根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。

在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。

在实验中，学生根据实验指导中的内容进行验证与，然后再去完成实验步骤中安排的任务。

实验完成后，学生按要求完成实验报告。

整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。

实验一 K-Means聚类算法实现一、实验目的通过分析K-Means 聚类算法的聚类原理，利用Vc 编程工具编程实现K-Means 聚类算法，并通过对样本数据的聚类过程，加深对该聚类算法的理解与应用过程。

实验类型：验证计划课间：4学时二、实验内容1、分析K-Means 聚类算法；2、分析距离计算方法；3、分析聚类的评价准则；4、编程完成K-Means 聚类算法，并基于相关实验数据实现聚类过程；三、实验方法1、K-means 聚类算法原理K-means聚类算法以k 为参数，把n 个对象分为k 个簇，以使簇内的具有较高的相似度。

相似度的计算根据一个簇中对象的平均值来进行。

算法描述：输入：簇的数目k 和包含n 个对象的数据库输出：使平方误差准则最小的k 个簇过程：任选k 个对象作为初始的簇中心； Repeatfor j=1 to n DO根据簇中对象的平均值，将每个对象赋给最类似的簇 for i=1 to k DO 更新簇的平均值计算EUnitl E不再发生变化按簇输出相应的对象2、聚类评价准则： E 的计算为：E =∑∑|x -xi =1x ∈C iki|2四、实验步骤 4.1 实验数据P192：154.2初始簇中心的选择选择k 个样本作为簇中心 For (i=0;i For (j=0;jClusterCenter[i][j]=DataBase[i][j]4.3 数据对象的重新分配Sim=某一较大数；ClusterNo=-1;For (i=0;iIf (Distance(DataBase[j],ClusterCenter[i])ClusterNo=i;}ObjectCluster[j]=ClusterNo;4.4 簇的更新For (i=0;i{Temp=0;Num=0; For (j=0;jIf (ObjectCluster[j]==i){Num++; Temp+=DataBase[j];} If (ClusterCenter[i]!=Temp) HasChanged=TRUE;ClusterCenter[i]=Temp; }4.5 结果的输出 For (i=0;iPrintf(“输出第%d个簇的对象:”，i); For (j=0;jIf (ObjectCluster[j]==i) printf(“%d ”,j); Printf(“\n”);Printf(“\t\t\t 簇平均值为(%d,%d)\n”, ClusterCenter[i][0], ClusterCenter[i][1]); }五、注意事项 1、距离函数的选择 2、评价函数的计算实验二 DBSCAN算法实现一、实验目的要求掌握DBSCAN 算法的聚类原理、了解DBSCAN 算法的执行过程。

数据仓库设计作业指导书

数据仓库设计作业指导书一、背景介绍数据仓库是一种面向主题的、集成的、相对稳定的、不可操作的数据集合，用于支持业务分析和决策制定。

在数据仓库设计作业中，我们需要按照一定的步骤和方法，将原始数据进行抽取、转换和加载，构建一个适合分析和查询的数据仓库模型。

本指导书将引导您完成数据仓库设计作业，并提供相应的步骤和要点。

二、数据仓库设计步骤1. 需求分析在设计数据仓库之前，首先需要进行需求分析。

通过与业务用户的交流和调研，明确数据仓库的目标和用途，确定数据仓库要解决的问题，并明确需要提供的报表和查询需求。

2. 数据抽取与清洗在数据仓库设计中，数据抽取和清洗是非常重要的环节。

从各个数据源中抽取所需数据，并进行清洗，包括去重、去除空值、数据格式转换等，以确保数据的质量和准确性。

3. 数据转换与集成在数据仓库设计中，数据转换和集成是将原始数据转化为适合分析的形式，同时将来自不同数据源的数据整合在一起。

这一步骤包括数据规范化、数据合并、数据聚合等操作，以得到一致的数据模型。

4. 维度建模在数据仓库设计中，维度建模是一种常用的设计方法。

通过定义维度和事实表，建立维度模型，以支持灵活的数据分析和查询。

在维度建模过程中，需要定义维度表中的属性和层次，并与事实表进行关联。

5. 数据加载数据加载是将经过转换和整合的数据加载到数据仓库中的过程。

这一步骤包括数据加工和数据加载两个环节。

数据加工是对数据进行清洗和处理，数据加载是将清洗后的数据加载到数据仓库中的操作。

6. 数据访问数据访问是数据仓库设计的最终目标，通过各种工具和技术，实现数据的查询和分析。

数据访问可以通过数据仓库工具、OLAP工具、报表工具等方式进行。

三、数据仓库设计要点1. 主题导向：数据仓库的设计要以业务主题为导向，按照业务需求进行设计和建模，以支持相关业务的决策和分析。

2. 一致性和准确性：设计过程中需要确保数据的一致性和准确性，对于抽取的数据进行清洗和转换，去除重复值和不合法数据。

数据仓库与数据挖掘验指导书

数据仓库与数据挖掘实验指导书实验一数据仓库的建立一、实验目的理解数据库与数据仓库之间的区别与联系；掌握典型数据仓库系统的工作原理以及应用方法；掌握基于Analysis Service建立数据仓库和多维数据集的方法。

二、实验内容以Analysis Service为系统平台创建数据仓库，并创建多维数据集。

三、实验步骤1．启动Analysis Service2．建立系统数据源连接(1) “控制面板”，然后双击“管理工具”，再双击“数据源(ODBC)”。

(2) 在“系统DSN”选项卡上单击“添加”按钮。

(3) 选择“Microsoft Access 驱动程序(*.mdb)”，然后单击“完成”按钮。

(4) 在“数据源名”框中，输入“mySysDsn”，然后在“数据库”下，单击“选择”。

(5) 在“选择数据库”对话框中，浏览到“C:\Program Files\Microsoft Analysis Services\Samples”，然后单击“FoodMart 2000.mdb”。

单击“确定”按钮3．建立数据仓库⑪如何建立数据库结构①在Analysis Manager 树视图中展开“Analysis Servers”。

②单击服务器名称，即可建立与Analysis Servers 的连接。

③右击服务器名称，然后单击“新建数据库”命令。

④在“数据库”对话框中的“数据库名称”框中，输入“myWarehouse”，然后单击“确定”按钮。

⑤在Analysis Manager 树窗格中展开服务器，然后展开刚才创建的“myWarehouse”数据库。

⑫建立数据源在Analysis Manager 树窗格中，右击“myWarehouse”数据库下的“数据源”文件夹，然后单击“新数据源”命令。

在“数据链接属性”对话框中，单击“提供者”选项卡，然后单击“Microsoft OLE DB Provider for ODBC Drivers”。

《数据仓库与数据挖掘》实验指导书

《数据仓库与数据挖掘》实验指导书前言数据仓库与数据挖掘技术课程在计算机数据管理、维护中有着相当重要的作用。

数据仓库系统在企业信息管理系统中应用非常广泛，数据挖掘技术对数据仓库的管理及维护、完善数据仓库、发挥数据仓库的作用有着非常大的作用。

本课程主要内容为：数据仓库的概念与体系结构，数据仓库数据处理过程，数据仓库系统的设计与开发，各种数据挖掘技术（关联规则，数据分类，数据类聚，贝叶斯网络，粗糙集，神经网络，遗传算法，统计分析，文本与Web挖掘）及其应用。

本课程既有理论也有实践，实践环节主要是基于SQL Server2005示例数据仓库环境下进行各种数据挖掘技术的实验。

为使学生能在SQL Server2005示例数据仓库环境下进行各种数据挖掘技术的实验,首先必须创建一个SQL Server2005示例数据仓库环境，但考虑到学院实验室管理要求和培养学生的独立动手能力，因此第一个实验（实验一：SQL Server2005示例数据仓库环境的配置，综合性实验）分两方面进行，一方面由实验室对SQL Server2005示例数据仓库环境的配置完成，提供给学生进行数据挖掘实验，另一方面，学生可利用自己的计算机环境进行课外实验，交实验报告，其他实验可根据课程内容及课时安排在实验指导教师的指导下在实验室完成。

目录1、实验一：SQL Server2005示例数据仓库环境的配置···············································页码2、实验二：使用SQL Server2005建立多维数据模型··················································页码3、实验三：SQL Server2005中的关联规则应用··························································页码4、实验四：SQL Server2005中的决策树应用······························································页码5、实验五：SQL Server2005中的k-means应用···························································页码6、实验六：SQL Server2005中的贝叶斯网络应用·······················································页码7、实验七：SQL Server2005中的神经网络应用···························································页码8、实验八：SQL Server2005中的线性回归应用···························································页码9、实验九：SQL Server2005中的Logistic回归应用·····················································页码10、实验报告基本内容要求··························································································页码实验一：SQL Server2005示例数据仓库环境的配置实验学时：2实验类型：综合实验要求：必修一、实验目的通过本实验的学习，使学生掌握配置SQL Server2005示例数据仓库环境的知识，训练其独立配置数据仓库环境的技能，为今后继续配置数据仓库环境的学习奠定基础。

《数据仓库与数据挖掘》实验指导书

五邑大学实验指导书数据仓库与数据挖掘Ｖ１．０执笔：何国辉开课系部：计算机学院二零一三年十月实验一数据仓库的建立一、实验目的：通过本实验加深在ＳＱＬ　Ｓｅｒｖｅｒ　２００８环境下建立数据仓库，并对数据仓库进行管理的方法。

二、实验内容：使用ＳＱＬ　Ｓｅｒｖｅｒ　２００８中的Analysis Server工具建立数据仓库和数据源，能察看和编辑数据仓库中的基本模型（即事实表与维度表之间的关系）。

　三、实验要求：结合SQL Server 2008提供的示例数据库AdventureWorks建立数据仓库数据源，并能通过相关设置察看和编辑数据仓库中的基本模型，为数据挖掘做好准备。

四、实验学时：４学时　五、实验步骤：1．创建Analysis Service 项目步骤如下：开始－程序－Microsoft SQL Server 2008 R2－SQL Server Business Intelligence Development Studio，如图1所示，进入新建一个Business Intelligence Solution界面，如图2所示，为工程命名并保存。

【说明一】：即使你安装了vs2010 sp1，也不会有现成的Analysis Services项目模板（在线模板也没有）。

因此，还得在vs2008环境下新建BI项目。

图１　进入ＢＩ界面　２、创建数据源在解决方案资源管理器中的“数据源”中，右击“新建数据源”，创建数据源界面如图3所示，进入数据源向导。

图3 数据源向导界面图２　新建工程界面　点击“Next”按钮，在图4界面中设置连接数据库参数，包括对应的服务器名、数据库名、登录帐号和密码。

图4 设置连接数据库参数界面通过点击“Test Connection”可以测试连接情况。

当确认连接无误后点击“OK”按钮，进入图5。

图５　数据源向导界面点击“Next”按钮，进入设置Analysis Server连接数据源方式界面，如图6所示。

1-数据仓库实验指导书

数据仓库实验指导书实验目的：数据仓库构建实验内容：规划需求分析，数据仓库设计；设置数据源，数据清洗转换；建立多维数据库（Cube）；在多维数据集上练习切片、切块、钻取、聚合、旋转等OLAP基本数据操作。

实验分析：下面进行两个关键的实验，数据清洗转换和建立多维数据库（使用Northwind数据库），先用数据清洗转换，将需要的表从源库转换到新数据库，为数据仓库提供需要的数据，要形成的维表有Products,Category,Employees,Dates,Facts(事实表)，在实验二中Products和Category将组成雪花架构的维表。

实验一：数据清洗转换内容：为数据仓库新建一个数据库，将Products，Categories，Employees，Orders，Order Details转换到新数据库，为数据仓库提供需要的数据目的：为数据仓库事实表和各维表建立基本数据实验环境：企业管理器在数据清洗转换之前，请在企业管理器中Northwind数据库下了解下Products，Categories，Employees，Orders，Order Details表的属性内容及表与表之间主键和外键约束关系（如果用雪花模式把上述5个表关系表达出来的话，谁是事实表？维度表是什么？谁是详细类别表？）。

考虑下:如果以时间维、地区维和产品维构建一个数据立方体？步骤：1）新建一个数据库myNorthwind，并准备从Northwind导入数据。

2）建立Products和Categories两个维度表，将维度表需要的列从Northwind数据库复制到myNorthwind。

3）建立Employees维度表，将源表的列内容复制过来，并将源表中first name和lastname合成一个fullname列,在DTS导入/导出向导中使用SQL语句合成新的列fullname。

4）建立Dates维度表，由源表Orders表中OrderDate一列产生出年、月、日、周、季等列，同时保留OrderDate一列。

数据仓库与数据挖掘实验指导书

信息管理与信息系统专业试验指导书系列实验指导书数据仓库与数据挖掘(DataWarehouse & DataMining)计算机科学与技术系编目录实验一WEKA的使用与数据准备 (3)实验二关联算法的实现 (12)实验三分类算法的实现 (15)实验四聚类算法的实现 (19)实验一WEKA的使用与数据准备一、实验目的数据挖掘的常用软件WEKA的安装和环境熟悉。

二、实验环境计算机、软件WEKA、UtraEdit三、准备知识计算机的基本操作能力四、实验内容及要求1. 简介WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过/ml/weka得到。

同时weka 也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法，可以看weka的接口文档。

在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

2005年8月，在第11届ACM SIGKDD国际会议上，怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖，Weka系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一（已有11年的发展历史）。

2. 数据格式跟很多电子表格或数据分析软件一样，WEKA所处理的数据集是图1那样的一个二维的表格。

图1 新窗口打开表格里的一个行称作一个实例(Instance)，相当于统计学中的一个样本，或者数据库中的一条记录。

列称作一个属性（Attrbute），相当于统计学中的一个变量，或数据库中的一个字段。

这样一个表格(数据集)，在WEKA看来，呈现了属性之间的一种关系(Relation)。

数据仓库与数据挖掘实验指导书--王浩畅

数据仓库与数据挖掘实验指导书东北石油大学计算机与信息技术系王浩畅实验一Weka实验环境初探一、实验名称:Weka实验环境初探二、实验目的：通过一个已有的数据集，在weka环境下，测试常用数据挖掘算法，熟悉Weka 环境。

三、实验要求1.熟悉weka的应用环境。

2.了解数据挖掘常用算法。

3.在weka环境下，测试常用数据挖掘算法。

四、实验平台新西兰怀卡托大学研制的Weka系统五、实验数据Weka安装目录下data文件夹中的数据集weather.nominal.arff，weather.arff六、实验方法和步骤1、首先，选择数据集weather.nominal.arff，操作步骤为点击Explorer，进入主界面，点击左上角的“Open file...”按钮，选择数据集weather.nominal.arff文件，该文件中存储着表格中的数据，点击区域2中的“Edit”可以看到相应的数据：选择上端的Associate选项页，即数据挖掘中的关联规则挖掘选项，此处要做的是从上述数据集中寻找关联规则。

点击后进入如下界面：2、现在打开weather.arff，数据集中的类别换成数字。

选择上端的Associate选项页，但是在Associate选项卡中Start按钮为灰色的，也就是说这个时候无法使用Apriori算法进行规则的挖掘，原因在于Apriori算法不能应用于连续型的数值类型。

所以现在需要对数值进行离散化，就是类似于将20-30℃划分为“热”，0-10℃定义为“冷”，这样经过对数值型属性的离散化，就可以应用Apriori算法了。

Weka提供了良好的数据预处理方法。

第一步：选择要预处理的属性temperrature从中可以看出，对于“温度”这一项，一共有12条不同的内容，最小值为64（单位：华氏摄氏度，下同），最大值为85，选择过滤器“choose”按钮，或者在同行的空白处点击一下，即可弹出过滤器选择框，逐级找到“Weka.filters.unsupervised.attribute.Discretize”，点击；若无法关闭这个树，在树之外的地方点击“Explorer”面板即可。

山东大学数据仓库与数据挖掘_实验指导书(2014.10.28_16学时)

实验类型：综合性实验学时：4 实验目的：了解 Oracle 10g 和 Cognos 8 示例数据仓库环境的配置，熟悉 Cognos 软件的界面、操作和使用。实验内容：练习 1-1：了解 Oracle 10g 和 Cognos 8 示例数据仓库环境的配置。练习 1-2：了解 Cognos Configuration 中数据库设定。练习 1-3：了解 Cognos 数据连接设定和添加 Cognos 业务库。练习 1-4：了解 Cognos 8。实验步骤： O接r设ac定l任e 、1务0报g1和.表1包.C了o还g解n原oO、s r8报ac示l表e例1测0数试g据和。仓C库og环no境s 8的示配例置数包据含仓以库下环几境个的部配分置：。数据库建立、实例数据表还原、数据连在任安务装1.完1.成1.O在racOlreacDlaet建ab立as一e 个10编g后码，为就U要TF建8 的立数数据据库库。建立数据库的方法有两种，第一种是在命令行下直接运行：dbca;第二种是点击开始菜单：开始=>程序=>Oracle=>oraDb10g_home1=>Configuration and M数管ig据理ra库模ti配板on置。T助在oo手安l=(装>DDaOatrtaaabcbalaseseedCaoCtnoafnbifagisugeruar1ta0itgoi的non时AsA候ssis如sits果atna没tn)t有用。建于立创数建据数库据（库一、般配创置建数时据就库把选项cm、数删据除库数建据立库好和，数若据还库需。要为 Cognos 建立其他数据库，可以参考），在安装完成之后就可以使用数据库配置助手(DBCA)建立（（注择12意U））T：若若F新8，oo建rraa如ccoll下eera9c图版ile以：本的及为数9据9ii以库以上时下版：版本本，，数则据数库据字库符字编符码编必码须和选国择家U字n符ico编de码（都AL要32选UTUF8T）F，8，而国家字符编码则选

数据仓库与数据实验指导书

实验一、DTS的使用一、实验目的：1、了解MSSQL Server 2000的安装，熟悉MSSQL Server 2000数据库的使用环境2、理解数据库和数据仓库的关系，为数据仓库建立数据库3、熟练使用MSSQL Server 2000的DTS，能够将各种数据源的数据按照数据仓库设计的要求导入到数据仓库二、实验内容：1、熟悉MSSQL Server 2000数据库和表的基本操作。

2、为数据仓库建立新的数据库Mynorthwind。

3、使用DTS导入TXT文本文件到Mynorthwind。

4、使用DTS导入Access数据库到Mynorthwind。

5、使用DTS导入Excel文件到Mynorthwind。

6、使用DTS从Northwind导出Products和Categories两个表到Mynorthwind。

7、使用DTS查询导入，从Northwind导出Employees表到Mynorthwind，并将源表中first name和lastname列合成一个列fullname。

8、使用DTS的查询导入，从Northwind导出Orders表到Mynorthwind为Dates表，并将源表Orders表中OrderDate一列分成年、月、日、周、季五列，同时保留OrderDate一列。

9、使用DTS的查询导入，从Northwind导出Order Details表到Mynorthwind 为Facts表。

首先用Select语句将产品类别编号和员工编号等从各自表中取出，其次计算合计列值，计算方法为单价*(1-折扣)*数量，然后将Order Details表的内容复制到Facts表各列。

三、实验步骤：1、启动Microsoft SQL Server2000“服务管理器”，打开“企业管理器”，在出现的“SQL Server Enterprise Manager”窗口中，单击加号找到数据库，右键选择“新建数据库…”，打开对话框如图1.1所示，输入数据库名：Mynorthwind，点击确定完成创建。

数据仓库与数据挖掘SPSS实验指导书

《数据仓库与数据挖掘》实验指导书（适用于信息系统与信息管理专业）目录前言 (1)实验一、SPSS Clementine 软件功能演练 (6)实验二、SPSS Clementine 数据可视化 (10)实验三、决策树C5.0 建模 (18)实验四、关联规则挖掘 (31)实验五、欺诈屏蔽/异常检测/神经网络 (39)实验六、分类和回归树节点(C&RT) (52)实验七、多项Logistic 回归 (62)实验八、综合实验：电力负荷预测 (68)前言一、课程简介数据挖掘(Data Mining)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

数据挖掘的广义观点：数据挖掘就是从存放在数据库，数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。

数据挖掘，又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，因此，数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。

另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。

数据挖掘有机结合了来自多学科技术，其中包括：数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等，这里我们强调数据挖掘所处理的是大规模数据，且其挖掘算法应是高效的和可扩展的。

通过数据挖掘，可从数据库中挖掘出有意义的知识、规律，或更高层次的信息，并可以从多个角度对其进行浏览察看。

所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处理等等。

因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一，也是信息工业中最富有前景的数据库应用领域之一。

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据仓库》实验指导书信息科学与技术学院目录实验一数据仓库的创建 (3)实验二数据仓库的应用 (14)实验一数据仓库的创建一实验目的及要求：1. 熟悉并掌握SQL Server 2000 Analysis Services中的系统数据源的连接，建立相应的数据库和数据源并对其中的数据进行相应操作。

2. 利用SQL Server 2000创建超市销售管理系统数据仓库。

二实验内容：1. 建立系统数据源连接Microsoft® Windows NT® 4.0 用户：单击“开始”按钮，指向“设置”，单击“控制面板”，然后双击“数据源 (ODBC)”。

W indows® 2000 用户：单击“开始”按钮，指向“设置”，单击“控制面板”，然后双击“管理工具”，再双击“数据源 (ODBC)”。

在“系统 DSN”选项卡上单击“添加”按钮。

选择“Microsoft Access 驱动程序 (*.mdb)”，然后单击“完成”按钮。

在“数据源名”框中，输入“教程”，然后在“数据库”下，单击“选择”。

在“选择数据库”对话框中，浏览到“C:\Program Files\Microsoft Analysis Services\Samples”，然后单击“FoodMart 2000.mdb”。

单击“确定”按钮。

在“ODBC Microsoft Access 安装”对话框中单击“确定”按钮。

在“ODBC 数据源管理器”对话框中单击“确定”按钮。

2. 启动Analysis Manager单击“开始”按钮，依次指向“程序”、“Microsoft SQL Server”和“Analysis Services”，然后单击“Analysis Manager”。

3. 建立数据库和数据源在 Analysis Manager 树视图中展开“Analysis Servers”。

单击服务器名称，即可建立与 Analysis Servers 的连接。

右击服务器名称，然后单击“新建数据库”命令。

在“数据库”对话框中的“数据库名称”框中，输入“教程”，然后单击“确定”按钮。

在 Analysis Manager 树窗格中展开服务器，然后展开刚才创建的“教程”数据库。

新的“教程”数据库包含下列项目：数据源多维数据集共享维度挖掘模型数据库角色然后，建立到“教程”数据源中的示例数据的连接。

教程中的全部练习都将使用这个示例。

在 Analysis Manager 中建立一个数据源，将数据库连接到在 ODBC 数据源管理器中建立的系统数据源名称(DSN) 上。

在建立多维数据集的过程中，所有的数据都将来自这个源。

如何建立数据源:在 Analysis Manager 树窗格中，右击“教程”数据库下的“数据源”文件夹，然后单击“新数据源”命令。

在“数据链接属性”对话框中，单击“提供者”选项卡，然后单击“Microsoft OLE DB Provider for ODBC Drivers”。

单击“连接”选项卡，然后从“使用数据源名称”列表中单击“教程”。

单击“测试连接”以确保一切工作正常。

在“Microsoft 数据链接”对话框中应出现一条消息，说明连接成功。

在消息框中单击“确定”按钮。

单击“确定”按钮关闭“数据链接属性”对话框。

4. 建立多维数据集如何打开多维数据集向导:在 Analysis Manager 树窗格中，“教程”数据库下，右击“多维数据集”文件夹，单击“新建多维数据集”菜单，然后单击“向导”命令。

如何向多维数据集添加度量值:度量值是要进行分析的数据库中的量化值。

常用的度量值为销售、成本和预算数据。

度量值根据多维数据集不同的维度类别进行分析。

在多维数据集向导的“欢迎”步骤，单击“下一步”按钮。

在“从数据源中选择事实数据表”步骤，展开“教程”数据源，然后单击“sales_fact_1998”。

单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。

数据浏览完毕后，关闭“浏览数据”窗口，然后单击“下一步”按钮。

若要定义多维数据集的度量值，在“事实数据表数据列”下，双击“store_sales”。

对“store_cost”和“unit_sales”列重复此步骤，然后单击“下一步”按钮。

如何建立时间维度:在向导的“选择多维数据集的维度”步骤，单击“新建维度”命令。

此操作将调用维度向导。

在“欢迎”步骤，单击“下一步”按钮。

在“选择维度的创建方式”步骤，选择“星型架构：单个维度表”选项，然后单击“下一步”按钮。

在“选择维度表”步骤，单击“time_by_day”。

单击“浏览数据”按钮可以查看包含在“time_by_day”表中的数据。

查看完“time_by_day”表后，单击“下一步”按钮。

在“选择维度类型”步骤，选择“时间维度”选项，然后单击“下一步”按钮。

接下来，将定义维度的级别。

在“创建时间维度级别”步骤，单击“选择时间级别”，单击“年、季度、月”，然后单击“下一步”按钮。

在“选择高级选项”步骤，单击“下一步”按钮。

在向导的最后一步，输入“Time”作为新维度的名称。

注意：使用“与其它多维数据集共享此维度”复选框，可以指定此维度是共享的，还是专用的。

该复选框位于屏幕的左下角。

保持该复选框的选中状态。

如何建立产品维度:再次单击“新建维度”命令。

在“欢迎进入维度向导”步骤，单击“下一步”按钮。

在“选择创建维度的方式”步骤，选择“雪花架构：多个相关维度表”选项，然后单击“下一步”按钮。

在“选择维度表”步骤，双击“Product”和“product_class”将它们添加到“选定的表”。

单击“下一步”按钮。

在维度向导的“创建和编辑联接”步骤，显示在上一步选定的两个表以及它们之间的联接。

单击“下一步”按钮。

若要定义维度的级别，在“可用的列”下，按顺序双击“product_category”、“product_subcategory”和“brand_name”。

双击每列后，其名称显示在“维度级别”下。

在选择了所有三列后，单击“下一步”按钮。

在“指定成员键列”步骤，单击“下一步”按钮。

在“选择高级选项”步骤，单击“下一步”按钮。

在向导的最后一步，在“维度名称”框中，输入“Product”，并保持“与其它多维数据集共享此维度”复选框为选中状态。

单击“完成”按钮。

现在应能在“多维数据集维度”列表中看到“Product”维度。

如何建立客户维度:单击“新建维度”命令。

在“欢迎”步骤，单击“下一步”按钮。

在“选择创建维度的方式”步骤，选择“星型架构：单个维度表”选项，然后单击“下一步”按钮。

在“选择维度表”步骤，单击“Customer”，然后单击“下一步”按钮。

在“选择维度类型”步骤，单击“下一步”按钮。

若要定义维度的级别，在“可用列”下，按顺序双击“Country”、“State_Province”、“City”和“lname”列。

双击每一列后，其名称将显示在“维度级别”下方。

选择完所有四个列之后，单击“下一步”按钮。

在“指定成员键列”步骤，单击“下一步”按钮。

在“选择高级选项”步骤，单击“下一步”按钮。

在向导的最后一步，在“维度名称”框中，输入“Customer”。

保持“与其它多维数据集共享此维度”复选框的选中状态。

单击“完成”按钮。

在多维数据集向导中，现在应能在“多维数据集维度”列表中看到“Customer”维度。

如何生成商店维度单击“新建维度”命令。

在“欢迎”步骤，单击“下一步”按钮。

在“选择创建维度的方式”步骤，选择“星型架构：单个维度表”选项，然后单击“下一步”按钮。

在“选择维度表”步骤，单击“Store”，然后单击“下一步”按钮。

若要定义维度的级别，在“可用列”下，按顺序双击“store_country”、“store_state”、“store_city”和“store_name”列。

双击每一列之后，其名称将显示在“维度级别”框下。

选择了所有四个列之后，单击“下一步”按钮。

在“指定成员键列”步骤，单击“下一步”按钮。

在“选择高级选项”步骤，单击“下一步”按钮。

在向导的最后一步，在“维度名称”框中，输入“Store”，并保持“与其它多维数据集共享此维度”复选框的选中状态。

单击“完成”按钮。

在多维数据集向导中，现在应能在“多维数据集维度”列表中看到“Store”维度。

如何完成多维数据集的生成:在多维数据集向导中，单击“下一步”按钮。

在“事实数据表行数”消息给出提示时，单击“是”按钮。

在多维数据集向导的最后一步，将多维数据集命名为“Sales”，然后单击“完成”按钮。

向导将关闭并随之启动多维数据集编辑器，其中包含刚刚创建的多维数据集。

单击蓝色或黄色的标题栏，对表进行排列，使其符合下图所示的样子。

实验二数据仓库的应用一实验目的及要求1.利用Analysis Manger services 对已建立的维进行操作，并对多维数据集完成最终的设计存储和处理，并浏览数据集中的数据。

2.利用SQL Server 2000中的Analysis Manger进行数据分析与挖掘。

二实验内容1. 编辑多维数据集:如何在多维数据集编辑器内编辑多维数据集:可以使用以下两种方法启用多维数据集编辑器：在 Analysis Manager 树窗格中右击一个现有的多维数据集，然后单击“编辑”命令。

使用多维数据集编辑器直接创建新的多维数据集。

除非您是高级用户，否则不建议使用本方法。

如果您是从上一节的操作接着下来的，则应该已经在多维数据集编辑器中。

在多维数据集编辑器的“架构”窗格中，可以看到事实数据表（黄色标题栏）及联接的维度表（蓝色标题栏）。

在多维数据集编辑器树窗格中，可以在层次树中预览多维数据集的结构。

通过单击左窗格中底部的“属性”按钮，可以编辑多维数据集的属性。

如何向现有多维数据集添加维度:此时，您可能需要一个新维度以提供有关产品促销的数据。

在多维数据集编辑器内可以方便地生成该维度。

注意：默认情况下，在多维数据集编辑器中生成的维度为专用维度，即只能用于当前所处理的多维数据集，而不能与其它多维数据集共享。

它们不显示在 Analysis Manager 树视图中的“共享维度”文件夹中。

当通过维度向导创建此类维度时，可以使其在多维数据集之间共享。

在多维数据集编辑器中，在“插入”菜单上单击“表”命令。

在“选择表”对话框中，单击“promotion”表，单击“添加”按钮，然后单击“关闭”按钮。

若要定义新的维度，请双击“promotion”表中的“promotion_name”列。

在“映射列”对话框中选择“维度”选项，然后单击“确定”按钮。

在树视图中选择“Promotion Name”维度。