数据仓库与数据挖掘实验指导书

合集下载

数据挖掘实验指导书

《数据仓库与数据挖掘》实验指导书主编张磊审校2012-1-11目录实验报告模板 (1)实验一、SSIS教程1-3课 (3)实验二、SSAS教程1-3课 (5)实验三、数据挖掘教程 (10)实验报告模板见下页。

青岛大学实验报告年月日姓名系年级组别同组者科目题目仪器编号[注：下面空白处明确实验目的、内容和要求，简要概括实验过程，适量拷屏部分关键界面放到实验报告中，评价最终结果是否正确，记录实验过程遇到的问题及解决结果，简单总结心得体会。

必要时加页，每个实验报告1-3页篇幅为宜。

]实验一、SSIS教程1-3课实验目的：采用SQL Server 2005的Integration Service，熟悉ETL工具的功能和使用方法实验内容：结合教材的ETL知识，打开SQL Server 2005的SSIS教程，按教程步骤完成1-3课，4学时，其中第1课2学时，第2、3课2学时。

实验要求：每次实验课结束前5分钟关闭SQL Server Business Intelligence Development Studio和SQL Server Management Studio，将项目文件夹拷贝到U盘或压缩后发到自己邮箱保存起来，以便下次实验课可以继续往下做或最后上交。

每次实验课开始时先使用SQL Server Configuration Manager启动必需的SQL Server 服务。

按时完成实验内容，整理实验报告。

实验说明：注意SQL Server 2005与SQL Server 2000的差异，如“框架”，访问表时必须使用框架名来限定，如SalesOrders.Employee；注意因中文教程是由英文教程翻译而来，所以有些地方出现名称翻译不足（即软件界面上是中文而教程中是英文）或过翻译（即软件界面上是英文而教程中是中文），因为大家懂英文所以这点应该不成问题；注意因为我们安装的SQL Server不是采用默认实例名（而是DWDM），而教程中假设的是采用默认实例名，所以有些地方的配置受到影响，需要进行更改；注意解决方案、项目和项的区别：解决方案可以包含多个项目；每个项目包含一个或多个项；按下图打开SSIS教程，做的过程中，注意以下问题：（1）创建的项目放到一个方便找到的自定义文件夹中以便每次下课时可以拷贝带走（2）第1课的“添加和配置平面文件连接管理器”步骤中的“重新映射列数据类型”部分，将【但现在，请不要进行任何更改，单击“取消”返回“平面文件连接管理器编辑器”对话框的“高级”窗格，查看建议的列数据类型。

数据仓库与数据挖掘实验指导

数据仓库与数据挖掘实验指导By TMS目录3第 1 课：创建SQL server2005的DT项目和基本包 ...................................................51.1 创建新的 Integration Services项目 .......................................................61.2 添加和配置平面文件连接管理器 ..............................................................1.3添加和配置 OLE DB 连接管理器 ............................................................881.4在包中添加数据流任务 .......................................................................91.5添加并配置平面文件源 .......................................................................1.6添加并配置查找转换 .........................................................................9101.7添加和配置 OLE DB 目标 ..................................................................111.8测试 Lesson 1 教程包 .....................................................................12第 2 课：添加循环 ................................................................................132．1 创建 Lesson 2 包 ........................................................................132.2添加和配置 Foreach 循环容器 ...............................................................13一、添加 Foreach 循环容器 ................................................................14三、将枚举器映射为用户定义的变量 .........................................................14四、将数据流任务添加到循环中 .............................................................142．3修改平面文件连接管理器 ...................................................................152.4 测试 Lesson 2 教程包 .....................................................................16第 3 课：在 Analysis Services项目中定义数据源视图及多维数据集...................................16项目 ...........................................................一、创建 Analysis Services18二、定义新的数据源 ...........................................................................22三、定义数据源视图 ...........................................................................25四、修改表的默认名称 .........................................................................27五、定义多维数据集 ...........................................................................32五、检查多维数据集和维度属性 .................................................................40项目 ...............................................................六、部署 Analysis Services第 1 课：创建SQL server2005的DT项目和基本包在本课中，您将创建一个简单 ETL 包，该包可以从单个平面文件源提取数据，使用两个查找转换组件转换该数据，然后将该数据写入 AdventureWorksDW 中的 FactCurrencyRate 事实数据表。

数据仓库与数据挖掘实验数据挖掘实验指导书

数据仓库与数据挖掘实验数据挖掘实验指导书《数据挖掘》实验指导书xx年3月1日长沙学院信息与计算科学系前言随着数据库技术的发展，特别是数据仓库以及Web 等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。

针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。

数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的十大新兴技术之一。

因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。

本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。

根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。

在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。

在实验中，学生根据实验指导中的内容进行验证与，然后再去完成实验步骤中安排的任务。

实验完成后，学生按要求完成实验报告。

整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。

实验一 K-Means聚类算法实现一、实验目的通过分析K-Means 聚类算法的聚类原理，利用Vc 编程工具编程实现K-Means 聚类算法，并通过对样本数据的聚类过程，加深对该聚类算法的理解与应用过程。

实验类型：验证计划课间：4学时二、实验内容1、分析K-Means 聚类算法；2、分析距离计算方法；3、分析聚类的评价准则；4、编程完成K-Means 聚类算法，并基于相关实验数据实现聚类过程；三、实验方法1、K-means 聚类算法原理K-means聚类算法以k 为参数，把n 个对象分为k 个簇，以使簇内的具有较高的相似度。

相似度的计算根据一个簇中对象的平均值来进行。

算法描述：输入：簇的数目k 和包含n 个对象的数据库输出：使平方误差准则最小的k 个簇过程：任选k 个对象作为初始的簇中心； Repeatfor j=1 to n DO根据簇中对象的平均值，将每个对象赋给最类似的簇 for i=1 to k DO 更新簇的平均值计算EUnitl E不再发生变化按簇输出相应的对象2、聚类评价准则： E 的计算为：E =∑∑|x -xi =1x ∈C iki|2四、实验步骤 4.1 实验数据P192：154.2初始簇中心的选择选择k 个样本作为簇中心 For (i=0;i For (j=0;jClusterCenter[i][j]=DataBase[i][j]4.3 数据对象的重新分配Sim=某一较大数；ClusterNo=-1;For (i=0;iIf (Distance(DataBase[j],ClusterCenter[i])ClusterNo=i;}ObjectCluster[j]=ClusterNo;4.4 簇的更新For (i=0;i{Temp=0;Num=0; For (j=0;jIf (ObjectCluster[j]==i){Num++; Temp+=DataBase[j];} If (ClusterCenter[i]!=Temp) HasChanged=TRUE;ClusterCenter[i]=Temp; }4.5 结果的输出 For (i=0;iPrintf(“输出第%d个簇的对象:”，i); For (j=0;jIf (ObjectCluster[j]==i) printf(“%d ”,j); Printf(“\n”);Printf(“\t\t\t 簇平均值为(%d,%d)\n”, ClusterCenter[i][0], ClusterCenter[i][1]); }五、注意事项 1、距离函数的选择 2、评价函数的计算实验二 DBSCAN算法实现一、实验目的要求掌握DBSCAN 算法的聚类原理、了解DBSCAN 算法的执行过程。

《数据仓库与数据挖掘》实验大纲

《数据仓库与数据挖掘》实验大纲引言概述：数据仓库与数据挖掘是当今信息技术领域中备受关注的重要概念。

数据仓库是一个集成的、面向主题的、时间变化的、非易失的数据集合，用于支持管理决策。

而数据挖掘则是从大量数据中发现隐藏的模式、关系和规律的过程。

本实验旨在帮助学生深入了解数据仓库与数据挖掘的基本概念及应用。

一、数据仓库的基本概念和特点：1.1 数据仓库的定义：数据仓库是一个用于集成、变换和展示数据的信息系统，用于支持管理决策。

1.2 数据仓库的特点：数据仓库具有面向主题、集成性、时间变化性和非易失性等特点。

1.3 数据仓库的应用：数据仓库广泛应用于企业的决策支持、市场分析、客户关系管理等领域。

二、数据仓库的架构和设计：2.1 数据仓库的架构：数据仓库通常包括数据源、数据清洗、数据集成、数据存储、元数据管理和数据展示等组成部分。

2.2 数据仓库的设计：数据仓库的设计需要考虑数据模型、ETL过程、数据存储结构、查询性能等方面。

2.3 数据仓库的实现：数据仓库可以通过关系数据库、OLAP工具、数据挖掘工具等技术实现。

三、数据挖掘的基本概念和技术：3.1 数据挖掘的定义：数据挖掘是从大量数据中发现隐藏的模式、关系和规律的过程。

3.2 数据挖掘的技术：数据挖掘技术包括分类、聚类、关联规则挖掘、异常检测等方法。

3.3 数据挖掘的应用：数据挖掘广泛应用于市场营销、金融风险管理、医疗诊断等领域。

四、数据仓库与数据挖掘的关系：4.1 数据仓库与数据挖掘的联系：数据仓库提供了数据挖掘所需的数据基础，数据挖掘则可以帮助发现数据仓库中隐藏的知识。

4.2 数据仓库与数据挖掘的协同作用：数据仓库和数据挖掘相互促进，共同为企业决策提供支持。

4.3 数据仓库与数据挖掘的发展趋势：数据仓库与数据挖掘技术不断发展，越来越多地应用于各个行业领域。

五、数据仓库与数据挖掘的实验内容：5.1 实验目的：通过实验，学生将深入了解数据仓库与数据挖掘的基本概念和应用。

数据仓库与数据挖掘实验指导书--王浩畅资料

数据仓库与数据挖掘
实验指导书
东北石油大学计算机与信息技术系王浩畅
1
实验一 Weka 实验环境初探
一、实验名称 : Weka 实验环境初探
二、实验目的：通过一个已有的数据集，在 weka 环境下，测试常用数据挖掘算法，熟悉 Weka
环境。三、实验要求
1. 熟悉 weka 的应用环境。 2. 了解数据挖掘常用算法。 3. 在 weka 环境下，测试常用数据挖掘算法。四、实验平台新西兰怀卡托大学研制的 Weka系统五、实验数据 Weka 安装目录下 data文件夹中的数据集 weather.nominal.arff，weather.arff 六、实验方法和步骤 1、首先，选择数据集 weather.nominal.arff，操作步骤为点击 Explorer，进入主界面，点击左上角的“ Open file... ”按钮，选择数据集 weather.nominal.arff 文件，该文件中存储着表格中的数据，点击区域 2 中的“ Edit”可以看到相应的数据：
可以看到 temperature属性信息如下显示：
5
Humidity 属性变成如下样式：
3、在 Classify ， Cluster， Associate 选项中分别尝试不同算法。
七、通过实验 , 掌握 Weka的使用
6
实验二基于关联规则的信息获取
一、实验名称：
基于关联规则的信息获取
二、实验目的：
现在“ Choose ”旁边的文本框应该显示“ Discretize -B 10 -M -0.1 -R first-last ”。点击这个文本框会弹出新窗口以修改离散化的参数。
因为这里不打算对所有的属性离散化，只是针对对第 2 个和第 3 个属性，故把 attributeIndices 右边改成 “2,3 ”。计划把这两个属性都分成 3 段，于是把“ bins ” 改成“ 3 ”。其它文本框里的值不用更改，关于这些参数的意义可以点击“ More ” 查看。点“ OK ”回到 “Explorer ”，可以看到“ temperature ”和“ humidity ” 已经被离散化成为分类型的属性。若想放弃离散化可以点“ Undo ”。

数据仓库与数据挖掘实验指导书

数据仓库与数据挖掘实验指导书一、实验平台SQL Sever2000 Analysis Services数据仓库是信息业界的明日之星，数据库与联机事务处理（OLTP）是过去十几年来最热门的信息领域，它们的目标是以计算机来取代许多当前的作业，使得工商企业自动化。

在现今竞争激烈的信息领域之中，人们已经开始把注意力由传统的数据库与OLTP加以转移，转而将注意力集中在积极层面的应用领域之上，工商企业也开始注意到他们所拥有的大量计算机数据，这些数据是公司极为重要的资产。

传统的数据库与OLTP平台并不是为了分析数据而设计的，为了要充分满足数据分析的请求，近几年来兴起了一种新的信息技术——数据仓库，工业分析师们预测在未来的20年之内，数据仓库将在信息业界占有可观的一席之地。

微软公司在SQL Server 2000上提供了Analysis Services，它是数据仓库的解决方案，也是微软决策支持服务的主要组件。

我们在数据仓库中常会看到一个名词OLAP，OLAP是Online Analytical Processing的缩写，即联机分析处理，它目前是决策支持的解决方案。

SQL Server 2000的Northwind数据库为模板，循序渐进的引导读者从无到有添加一个数据仓库所使用的数据库，以作为Analysis Services的目标数据库。

作者使用DTS设计器来介绍如何由Northwind数据库将数据转移至目标数据库。

多维数据集是分析数据的基础，使用向导与编辑器来设计维度与多维数据集，并说明使用向导与编辑器的优劣点。

除了分析管理器所提供的工具之外，Excel也是一个用来分析多维数据集的前端工具，它是通过数据透视表来存取多维数据集的数据。

使用Excel 2000的数据透视表功能来分析数据仓库的数据外，多重维度表达式，它使得数据的分析多元化。

微软将数据仓库与Web整合在一起，用户可以使用IE 5．x通过互联网来分析数据。

叶志伟数据挖掘实验指导书

叶志伟数据挖掘实验指导书(算法编程部分)(总40页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--《数据挖掘与数据仓库》实验指导书2013年计算机学院计算应用实验1 Apriori算法实现一、实验目的1、掌握Apriori算法对于关联规则挖掘中频繁集的产生以及关联规则集合的产生过程；2、根据算法描述编程实现算法，调试运行。

并结合相关实验数据进行应用，得到分析结果。

数据和删除数据的操作。

实验类型：综合计划课间：2学时二、实验内容1、频繁项集的生成与Apriori算法实现；2、关联规则的生成过程与Rule-generate算法实现；3、结合样例对算法进行分析；三、实验步骤编写程序完成下列算法：1、Apriori算法输入：数据集D；最小支持数minsup_count；输出：频繁项目集LL1={large 1-itemsets}For (k=2; Lk-1≠Φ; k++)Ck=apriori-gen (Lk-1); 参考实验数据三、实验方法1、实现贝叶斯算法2、利用实验数据对贝叶斯算法进行检测3、求解精确度计算4、调试程序5、完成整个分类与评估的过程四、实验步骤算法过程描述：1）输入训练数据，将数据保存在DataBase二维数组中(数组的最后一个属性对应类别标号)2）设定训练数据集与测试数据集大小(指定从数组下标0开始到TrainSetSize-1所对应的数据为训练数据，其余为测试数据)；3）计算训练数据集数据中各属性在各类中的概率分布情况；4）利用测试数据计算贝叶斯算法的分类精度；5）输出分类结果；数据处理A、实验数据计算训练数据集数据中各属性在各类中的概率分布情况如图3-1所示利用测试数据计算贝叶斯算法的分类精度如图3-2所示图3-1 训练数据集各属性的概率分布计算图3-2 贝叶斯算法的分类精度计算输出分类结果For (i=0;i<ClassSize;i++){printf(“\n”);For (j=0;j<ClassSize;j++) printf(“\t%d”, Precise[i][j]); TotalCorrect+=Precise[i][i];}printf(“\n\nTotal Correct is%d”,Tot alCorrect);五、注意事项注意单个样例数据的概率计算与各字段的概率计算的关系参考代码 (对参考数据的代码)#include<string>#include<vector>#include<set>#include<ctime>#include<algorithm>#include<cmath>#include<map>using namespace std;1 == 1){count1 ++;}if(trainData[i].A1 == 2){count2 ++;}if(trainData[i].A1 == 3){count3 ++;}1 == 1) 2+j);pipei = C1_map[j].find(temp);if(pipei == C1_map[j].end()){C1_map[j].insert(map<double, double>::value_type(temp,1));}else{double j = pipei->second;pipei->second = j + 1;}}}if(trainData[i].A1 == 2) 2+j);pipei = C2_map[j].find(temp);if(pipei == C2_map[j].end()){C2_map[j].insert(map<double, double>::value_type(temp,1));}else{double j = pipei->second;pipei->second = j + 1;}}}if(trainData[i].A1 == 3) 2+j);pipei = C3_map[j].find(temp);if(pipei == C3_map[j].end()){C3_map[j].insert(map<double, double>::value_type(temp,1));}else{double j = pipei->second;pipei->second = j + 1;}}}}egin(); pipei!=C1_map[i].end(); ++pipei){double num = pipei->second;pipei->second = (double)num/(double)count1;}for(pipei=C2_map[i].begin(); pipei!=C2_map[i].end(); ++pipei){double num = pipei->second;pipei->second = (double)num/(double)count2;}for(pipei=C3_map[i].begin(); pipei!=C3_map[i].end(); ++pipei){double num = pipei->second;pipei->second = (double)num/(double)count3;}}}void houyan()ind(*(&testData[i].A2+k));if(pipei != C1_map[k].end()){pXC[0] =pXC[0] + pipei->second;}}p[0] = A[0] * pXC[0];ind(*(&testData[i].A2+k));if(pipei != C2_map[k].end()){pXC[1] =pXC[1] + pipei->second;}}p[1] = A[1]*pXC[1];ind(*(&testData[i].A2+k));if(pipei != C3_map[k].end()){pXC[2] =pXC[2] + pipei->second;}}p[2] = A[2]*pXC[2];}1==1)m++;}else{if(p[1] > p[2]){cout<<p[1]<<" "<<2<<endl;if(testData[i].A1==2)m++;}else{cout<<p[2]<<" "<<3<<endl;if(testData[i].A1==3)m++;}}}}void main(){double tp,fp;cout<<"概率最大值 "<<"所属类别"<<endl;DataRead(trainData,"");bayes();DataRead(testData,"");houyan();tp=(double)m/51;fp=1-tp;cout<<"正确率为："<<tp*100<<"%"<<endl;cout<<"错误率为："<<fp*100<<"%"<<endl;}实验3-1 C-Means聚类算法实现一、实验目的通过分析C-Means聚类算法的聚类原理，利用Vc编程工具(或者其他编程工具)实现C-Means和FCM聚类算法，并通过对样本数据的聚类过程，加深对该聚类算法的理解与应用过程。

数据仓库与数据挖掘实验

数据仓库与数据挖掘实验《数据挖掘》实验指导书全文结束》》年3月1日长沙学院信息与计算科学系前言随着数据库技术的发展，特别是数据仓库以及Web 等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。

针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。

数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的大新兴技术之一。

因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。

本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。

根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。

在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。

在实验中，学生根据实验指导中的内容进行验证与总结，然后再去完成实验步骤中安排的任务。

实验完成后，学生按要求完成实验报告。

整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。

相似度的计算根据一个簇中对象的平均值来进行。

算法描述：输入：簇的数目k 和包含n 个对象的数据库输出：使平方误差准则最小的k 个簇过程：任选k 个对象作为初始的簇中心； Repeatfor j=1 to n DO根据簇中对象的平均值，将每个对象赋给最类似的簇 fori=1 to k DO 更新簇的平均值计算EUnitl E不再发生变化按簇输出相应的对象2、聚类评价准则：E 的计算为：E =∑∑|x邻域：给定对象在半径ε内的区域；● 核心对象：若一个对象ε-邻域至少包含最小数目MinPts 个对象，则称该对象为核心对象；● 直接密度可达：给定一个对象集合D ，若p 是在q 的ε-邻域内，而q 是一个核心对象，则称对象p 从对象q 出发是直接密度可达的；● 密度可达：若存在一个对象链p1,p2, …,pn,p1=q,pn=p,对pi ∈D,pi+1是从pi关于ε和MinPts 直接密度可达的，则称对象p 是从对象q 关于ε和MinPts 是密度可达的；● 密度相连：若对象集合D 中存在一个对象o ，使得对象p 和q 是从o 关于ε和MinPts 是密度可达的，则对象p 和q 是关于ε和MinPts 密度相连的；● 噪声：一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合，不包含在任何簇中的对象被认为是噪声、实现的基本思想通过检查数据集中每个对象的ε-邻域来寻找聚类。

《数据仓库与数据挖掘》实验指导书

五邑大学实验指导书数据仓库与数据挖掘Ｖ１．０执笔：何国辉开课系部：计算机学院二零一三年十月实验一数据仓库的建立一、实验目的：通过本实验加深在ＳＱＬ　Ｓｅｒｖｅｒ　２００８环境下建立数据仓库，并对数据仓库进行管理的方法。

二、实验内容：使用ＳＱＬ　Ｓｅｒｖｅｒ　２００８中的Analysis Server工具建立数据仓库和数据源，能察看和编辑数据仓库中的基本模型（即事实表与维度表之间的关系）。

　三、实验要求：结合SQL Server 2008提供的示例数据库AdventureWorks建立数据仓库数据源，并能通过相关设置察看和编辑数据仓库中的基本模型，为数据挖掘做好准备。

四、实验学时：４学时　五、实验步骤：1．创建Analysis Service 项目步骤如下：开始－程序－Microsoft SQL Server 2008 R2－SQL Server Business Intelligence Development Studio，如图1所示，进入新建一个Business Intelligence Solution界面，如图2所示，为工程命名并保存。

【说明一】：即使你安装了vs2010 sp1，也不会有现成的Analysis Services项目模板（在线模板也没有）。

因此，还得在vs2008环境下新建BI项目。

图１　进入ＢＩ界面　２、创建数据源在解决方案资源管理器中的“数据源”中，右击“新建数据源”，创建数据源界面如图3所示，进入数据源向导。

图3 数据源向导界面图２　新建工程界面　点击“Next”按钮，在图4界面中设置连接数据库参数，包括对应的服务器名、数据库名、登录帐号和密码。

图4 设置连接数据库参数界面通过点击“Test Connection”可以测试连接情况。

当确认连接无误后点击“OK”按钮，进入图5。

图５　数据源向导界面点击“Next”按钮，进入设置Analysis Server连接数据源方式界面，如图6所示。

数据仓库与数据挖掘实验指导.

数据仓库与数据挖掘课程实验本实验是《数据仓库与数据挖掘》课程的验证性实验环节。

课程共计8学时。

·实验目标:1、掌握建立和配置数据仓库的基本操作技能。

主要包括数据仓库系统的安装。

2、掌握数据仓库中数据的处理技术。

主要包括数据仓库的建模、事务数据的转换、备份数据的恢复。

3、掌握基于数据仓库的自动数据分析技术的基本操作技能。

包括多维数据分析和数据挖掘。

4、掌握一种专用数据挖掘软件,用以分析处理文本或电子表格的数据。

实验环境:l Microsoft SQLServer2000l Microsoft SQLServer2000 Analysis Servcel DBMiner2.0l Microsoft SQLServer2000 PACK4l JAVA运行时环境:JRE5.0l WEKA3.55实验项目:l实验1:安装数据仓库系统平台 1.5学时l实验2:构建数据仓库数据环境 1.5学时l实验3:多维数据分析 1.5学时l实验4:基于数据仓库的数据挖掘实验 2.0学时l实验5:数据挖掘平台应用实验 1.5学时实验1:安装数据仓库系统平台l实验任务:1.掌握Microsoft Server2000 数据仓库系统的安装与配置2.安装实验分析环境:1安装Microsoft Server2000 analysis Service2安装DBMiner2.03 安装Java运行时环境JRE5.04安装WEKAl实验准备:请从黑板或网上获取安装文件所在的网络地址。

并记在下面:网络资料的地址是:_____________________________________________ 本实验不得超过1.5学时。

l实验指导:Lab1.1检查并安装Microsoft Server2000单元目标:确保完整正确的数据仓库实验环境工作步骤:1.检查你所使用的电脑上是否有Microsoft Server2000。

如果有,启动并检查Microsoft Server2000 是否安装了Server Pack3以上的补丁文件。

《数据仓库与数据挖掘》实验大纲

《数据仓库与数据挖掘》实验大纲引言概述：数据仓库与数据挖掘是现代信息技术领域中非常重要的研究方向，它们对于数据管理和分析具有重要的意义。

本文将介绍《数据仓库与数据挖掘》实验的大纲，包括实验目的、实验内容、实验要求、实验步骤和实验评估等方面的内容。

一、实验目的：1.1 掌握数据仓库与数据挖掘的基本概念和原理。

1.2 熟悉数据仓库与数据挖掘的常用工具和技术。

1.3 培养数据分析和决策支持的能力。

二、实验内容：2.1 数据仓库的设计与构建2.1.1 数据仓库的概念和特点2.1.2 数据仓库的架构和模型2.1.3 数据仓库的设计方法和步骤2.2 数据挖掘的基本任务和方法2.2.1 数据挖掘的概念和应用领域2.2.2 数据挖掘的任务和分类2.2.3 数据挖掘的方法和算法2.3 数据仓库与数据挖掘工具的使用2.3.1 常用的数据仓库工具介绍2.3.2 常用的数据挖掘工具介绍2.3.3 数据仓库与数据挖掘工具的比较与选择三、实验要求：3.1 熟悉数据仓库与数据挖掘的基本概念和原理。

3.2 掌握数据仓库的设计与构建方法。

3.3 熟练使用数据仓库与数据挖掘工具进行数据分析和挖掘。

四、实验步骤：4.1 学习相关理论知识，包括数据仓库和数据挖掘的基本概念、原理和方法。

4.2 进行数据仓库的设计与构建实验，包括确定需求、设计架构、建立模型等步骤。

4.3 进行数据挖掘的实验，包括数据预处理、选择算法、模型训练和评估等步骤。

五、实验评估：5.1 根据实验报告和实验结果评估学生的实验成果。

5.2 评估学生对数据仓库与数据挖掘的理解和应用能力。

5.3 综合考虑实验报告、实验结果和实验操作等因素进行评估。

总结：通过《数据仓库与数据挖掘》实验的学习和实践，学生将能够掌握数据仓库与数据挖掘的基本概念和原理，熟悉常用工具和技术，培养数据分析和决策支持的能力。

实验大纲的设计旨在匡助学生全面了解和掌握相关知识和技能，提高数据管理和分析的能力。

数据仓库与数据挖掘实验指导书

信息管理与信息系统专业试验指导书系列实验指导书数据仓库与数据挖掘(DataWarehouse & DataMining)计算机科学与技术系编目录实验一WEKA的使用与数据准备 (3)实验二关联算法的实现 (12)实验三分类算法的实现 (15)实验四聚类算法的实现 (19)实验一WEKA的使用与数据准备一、实验目的数据挖掘的常用软件WEKA的安装和环境熟悉。

二、实验环境计算机、软件WEKA、UtraEdit三、准备知识计算机的基本操作能力四、实验内容及要求1. 简介WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过/ml/weka得到。

同时weka 也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法，可以看weka的接口文档。

在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

2005年8月，在第11届ACM SIGKDD国际会议上，怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖，Weka系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一（已有11年的发展历史）。

2. 数据格式跟很多电子表格或数据分析软件一样，WEKA所处理的数据集是图1那样的一个二维的表格。

图1 新窗口打开表格里的一个行称作一个实例(Instance)，相当于统计学中的一个样本，或者数据库中的一条记录。

列称作一个属性（Attrbute），相当于统计学中的一个变量，或数据库中的一个字段。

这样一个表格(数据集)，在WEKA看来，呈现了属性之间的一种关系(Relation)。

数据仓库与数据挖掘实验指导书--王浩畅

数据仓库与数据挖掘实验指导书东北石油大学计算机与信息技术系王浩畅实验一Weka实验环境初探一、实验名称:Weka实验环境初探二、实验目的：通过一个已有的数据集，在weka环境下，测试常用数据挖掘算法，熟悉Weka 环境。

三、实验要求1.熟悉weka的应用环境。

2.了解数据挖掘常用算法。

3.在weka环境下，测试常用数据挖掘算法。

四、实验平台新西兰怀卡托大学研制的Weka系统五、实验数据Weka安装目录下data文件夹中的数据集weather.nominal.arff，weather.arff六、实验方法和步骤1、首先，选择数据集weather.nominal.arff，操作步骤为点击Explorer，进入主界面，点击左上角的“Open file...”按钮，选择数据集weather.nominal.arff文件，该文件中存储着表格中的数据，点击区域2中的“Edit”可以看到相应的数据：选择上端的Associate选项页，即数据挖掘中的关联规则挖掘选项，此处要做的是从上述数据集中寻找关联规则。

点击后进入如下界面：2、现在打开weather.arff，数据集中的类别换成数字。

选择上端的Associate选项页，但是在Associate选项卡中Start按钮为灰色的，也就是说这个时候无法使用Apriori算法进行规则的挖掘，原因在于Apriori算法不能应用于连续型的数值类型。

所以现在需要对数值进行离散化，就是类似于将20-30℃划分为“热”，0-10℃定义为“冷”，这样经过对数值型属性的离散化，就可以应用Apriori算法了。

Weka提供了良好的数据预处理方法。

第一步：选择要预处理的属性temperrature从中可以看出，对于“温度”这一项，一共有12条不同的内容，最小值为64（单位：华氏摄氏度，下同），最大值为85，选择过滤器“choose”按钮，或者在同行的空白处点击一下，即可弹出过滤器选择框，逐级找到“Weka.filters.unsupervised.attribute.Discretize”，点击；若无法关闭这个树，在树之外的地方点击“Explorer”面板即可。

数据仓库与数据挖掘SPSS实验指导书

《数据仓库与数据挖掘》实验指导书（适用于信息系统与信息管理专业）目录前言 (1)实验一、SPSS Clementine 软件功能演练 (6)实验二、SPSS Clementine 数据可视化 (10)实验三、决策树C5.0 建模 (18)实验四、关联规则挖掘 (31)实验五、欺诈屏蔽/异常检测/神经网络 (39)实验六、分类和回归树节点(C&RT) (52)实验七、多项Logistic 回归 (62)实验八、综合实验：电力负荷预测 (68)前言一、课程简介数据挖掘(Data Mining)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

数据挖掘的广义观点：数据挖掘就是从存放在数据库，数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。

数据挖掘，又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，因此，数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。

另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。

数据挖掘有机结合了来自多学科技术，其中包括：数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等，这里我们强调数据挖掘所处理的是大规模数据，且其挖掘算法应是高效的和可扩展的。

通过数据挖掘，可从数据库中挖掘出有意义的知识、规律，或更高层次的信息，并可以从多个角度对其进行浏览察看。

所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处理等等。

因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一，也是信息工业中最富有前景的数据库应用领域之一。

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。

数据仓库与数据挖掘实验指导新版资料

数据仓库与数据挖掘实验指导书一、课程简介及基本要求《数据仓库与数据挖掘》是专业教学计划中一门专业选修课，是综合性和实践性都很强的课程，它是研究数据仓库技术与数据挖掘技术的一门重要课程。

它着重介绍数据仓库原理、联机分析处理、数据仓库设计与开发、数据仓库的决策支持应用、数据挖掘原理等基本知识。

通过学习本课程使学生初步掌握数据仓库技术与数据挖掘技术的基础理论与专业技术，具备从数据资源提取信息与知识并进行辅助决策的基本能力。

课程主要内容有：数据仓库原理、联机分析处理、数据仓库设计与开发、数据仓库的决策支持应用、数据挖掘原理、信息论的决策树方法、集合论的粗糙集方法、关联规则、公式发现、神经网络、遗传算法、文本挖掘与Web挖掘，以及数据仓库与数据挖掘的发展。

学生学习本课程之后，应达到下列要求：1．了解数据管理技术从数据库到数据仓库的发展过程。

2．掌握数据仓库的定义、特点和研究数据仓库的必要性。

3．掌握数据仓库的体系结构和联机分析处理的概念4．掌握数据仓库的数据组织、数据预处理与规划管理5．掌握数据仓库规划、设计、管理的基本方法6．掌握数据挖掘的基本概念及与数据仓库的关系7．熟悉聚类分析、分类发现和关联规则等数据挖掘算法的使用环境、算法特点，并能进行算法复杂性的分析。

8．认识数据挖掘的发展趋势和应用前景9．能够在实践中应用数据仓库技术和应用数据挖掘的方法。

二、课程实验目的要求《数据仓库与数据挖掘》课程上机练习，是理论教学之后的深化和补充，具有较强的实践性，是本课程的重要环节。

通过实验教学环节，对学生进行实践技能和科学研究方法的训练，巩固其在课堂上所学书本知识，加深对商务智能的基本概念，基本原理和分析方法的理解，掌握商务智能的核心基础技术与工具，并能运用典型的商务智能工具处理，解决一些实际问题。

同时，通过实践教学活动，拓宽学生的知识领域，锻炼学生的实践技能，培养科学严谨、求真务实的工作作风。

通过实验教学应达到以下基本要求：1．理解数据仓库的工作机理及其构建过程。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据仓库与数据挖掘》实验指导书前言数据仓库与数据挖掘技术课程在计算机数据管理、维护中有着相当重要的作用。

数据仓库系统在企业信息管理系统中应用非常广泛，数据挖掘技术对数据仓库的管理及维护、完善数据仓库、发挥数据仓库的作用有着非常大的作用。

本课程主要内容为：数据仓库的概念与体系结构，数据仓库数据处理过程，数据仓库系统的设计与开发，各种数据挖掘技术（关联规则，数据分类，数据类聚，贝叶斯网络，粗糙集，神经网络，遗传算法，统计分析，文本与Web挖掘）及其应用。

本课程既有理论也有实践，实践环节主要是基于SQL Server 2005示例数据仓库环境下进行各种数据挖掘技术的实验。

为使学生能在SQL Server 2005示例数据仓库环境下进行各种数据挖掘技术的实验,首先必须创建一个SQL Server 2005示例数据仓库环境，但考虑到学院实验室管理要求和培养学生的独立动手能力，因此第一个实验（实验一：SQL Server 2005示例数据仓库环境的配置，综合性实验）分两方面进行，一方面由实验室对SQL Server 2005示例数据仓库环境的配置完成，提供给学生进行数据挖掘实验，另一方面，学生可利用自己的计算机环境进行课外实验，交实验报告，其他实验可根据课程内容及课时安排在实验指导教师的指导下在实验室完成。

目录1、实验一：SQL Server 2005示例数据仓库环境的配置···············································页码2、实验二：使用SQL Server 2005建立多维数据模型··················································页码3、实验三：SQL Server 2005中的关联规则应用··························································页码4、实验四：SQL Server 2005中的决策树应用······························································页码5、实验五：SQL Server 2005中的k-means应用···························································页码6、实验六：SQL Server 2005中的贝叶斯网络应用·······················································页码7、实验七：SQL Server 2005中的神经网络应用···························································页码8、实验八：SQL Server 2005中的线性回归应用···························································页码9、实验九：SQL Server 2005中的Logistic回归应用·····················································页码10、实验报告基本内容要求··························································································页码实验一：SQL Server 2005示例数据仓库环境的配置实验学时：2实验类型：综合实验要求：必修一、实验目的通过本实验的学习，使学生掌握配置SQL Server 2005示例数据仓库环境的知识，训练其独立配置数据仓库环境的技能，为今后继续配置数据仓库环境的学习奠定基础。

二、实验内容安装SQL Server 2005，并在安装过程中进行示例数据库安装配置，由于本实验为综合性实验，实验中涉及到计算机系统（硬件、软件）环境要求，涉及软件系统安装知识，涉及到软件系统安装配置正确与否进行检验的知识。

三、实验原理、方法和手段通用微型计算机环境及Windows操作系统环境下系统软件的安装与配置。

四、实验组织运行要求根据本实验的特点、要求和具体条件，采用“以学生自主训练为主的开放模式组织教学”。

五、实验条件见Microft SQL Server 2005简体中文企业版系统光盘提供的“SQL Server 2005安装要求”。

六、实验步骤参照Microft SQL Server 2005简体中文企业版系统光盘提供的“SQL Server 2005安装说明”及教材《数据仓库与数据挖掘》P72-P74的内容。

七、思考题1、为什么要配置示例数据库？2、如何验证配置示例数据库的正确性？八、实验报告1．实验要求：仔细阅读Microft SQL Server 2005简体中文企业版系统光盘提供的“SQL Server 2005安装说明”、“SQL Server 2005安装要求”及教材P72-P74的内容2、实验目的、实验内容、实验原理按本实验指导的内容填写3、实验仪器：按实验计算机的硬件配置参数填写4、实验步骤：按教材P72-P74中（1）、（2）、（3）填写5、实验数据：无6、实验总结：回答思考题以及本次实验的心得九、其它说明实验二：使用SQL Server 2005建立多维数据模型实验学时：2实验类型：验证实验要求：必修一、实验目的通过本实验的学习，使学生掌握在SQL Server 2005示例数据仓库环境下建立多维数据模型过程的知识，训练其把教材上的内容应用到实际中的技能，为今后继续数据挖掘技术的学习奠定基础。

二、实验内容在SQL Server 2005示例数据仓库环境下建立多维数据模型。

三、实验原理、方法和手段数据仓库环境下多维数据模型建立的方法。

四、实验组织运行要求根据本实验的特点、要求和具体条件，采用“集中授课形式”。

五、实验条件SQL Server 2005示例数据仓库环境。

六、实验步骤参照教材《数据仓库与数据挖掘》P75-P87的内容。

七、思考题1、度量值的不同对多维数据集的结构有何影响？2、维度的层次结构和有关属性对提高多维数据集的可用性和易用性有何意义？八、实验报告1．实验要求：预习教材P75-P87的内容2、实验目的、实验内容、实验原理按本实验指导的内容填写3、实验仪器：按实验计算机的硬件配置参数填写4、实验步骤：按教材P75-P87的1-7填写5、实验数据：各实验步骤中的维度、层次等具体数据6、实验总结：回答思考题以及本次实验的心得九、其它说明实验三：SQL Server 2005中关联规则的应用实验学时：2实验类型：验证实验要求：必修一、实验目的通过本实验的学习，使学生掌握在SQL Server 2005示例数据仓库环境下关联规则的应用的知识，训练其把教材上的内容应用到实际中的技能，为今后继续关联规则知识的学习奠定基础。

二、实验内容在SQL Server 2005示例数据仓库环境下关联规则的应用。

三、实验原理、方法和手段关联规则，项目与项集，关联规则的支持度与最小支持度，关联规则的可信度与最小可信度。

四、实验组织运行要求根据本实验的特点、要求和具体条件，采用“集中授课形式”。

五、实验条件SQL Server 2005示例数据仓库环境。

六、实验步骤参照教材《数据仓库与数据挖掘》P99-P105的内容。

七、思考题1、MINIMUM_SUPPORT的取值不同对关联规则的挖掘结果有何影响？2、MINIMUM_PROBABILITY的取值不同对关联规则的挖掘结果有何影响？八、实验报告1．实验要求：预习教材P99-P105的内容2、实验目的、实验内容、实验原理按本实验指导的内容填写3、实验仪器：按实验计算机的硬件配置参数填写4、实验步骤：按教材P99-P105的1-7填写5、实验数据：实验步骤5中的具体数据，至少2组6、实验总结：回答思考题以及本次实验的心得九、其它说明实验四：SQL Server 2005中决策树的应用实验学时：2实验类型：验证实验要求：必修一、实验目的通过本实验的学习，使学生掌握在SQL Server 2005示例数据仓库环境下决策树的应用的知识，训练其把教材上的内容应用到实际中的技能，为今后继续决策树挖掘技术知识的学习奠定基础。

二、实验内容在SQL Server 2005示例数据仓库环境下决策树的应用。

三、实验原理、方法和手段精确度，查全率和查准率，信息增益，信息增益比。

四、实验组织运行要求根据本实验的特点、要求和具体条件，采用“集中授课形式”。

五、实验条件SQL Server 2005示例数据仓库环境。

六、实验步骤参照教材《数据仓库与数据挖掘》P118-P123的内容。

七、思考题1、MINIMUM_SUPPORT的取值不同对决策树的挖掘结果有何影响？2、SCORE_METHOD的取值不同对决策树的挖掘结果有何影响？八、实验报告1．实验要求：预习教材P118-P123的内容2、实验目的、实验内容、实验原理按本实验指导的内容填写3、实验仪器：按实验计算机的硬件配置参数填写4、实验步骤：按教材P118-P123的（1）-（7）填写5、实验数据：实验步骤5中的具体数据，根据思考题的取值要求选取数据，至少2组6、实验总结：回答思考题以及本次实验的心得九、其它说明实验五：SQL Server 2005中的k-means应用实验学时：2实验类型：验证实验要求：必修一、实验目的通过本实验的学习，使学生掌握在SQL Server 2005示例数据仓库环境下k-means的应用的知识，训练其把教材上的内容应用到实际中的技能，为今后继续聚类知识的学习奠定基础。

二、实验内容在SQL Server 2005示例数据仓库环境下k-means的应用。

三、实验原理、方法和手段相似度计算方法、k-means思想。

四、实验组织运行要求根据本实验的特点、要求和具体条件，采用“集中授课形式”。

五、实验条件SQL Server 2005示例数据仓库环境。

六、实验步骤参照教材《数据仓库与数据挖掘》P139-P143的内容。

七、思考题1、CLUSTER_COUNT的取值不同对决策树的挖掘结果有何影响？八、实验报告1．实验要求：预习教材P139-P143的内容2、实验目的、实验内容、实验原理按本实验指导的内容填写3、实验仪器：按实验计算机的硬件配置参数填写4、实验步骤：按教材P139-P143的（1）-（7）填写5、实验数据：实验步骤5中的具体数据，根据思考题的取值要求选取数据，至少1组6、实验总结：回答思考题以及本次实验的心得九、其它说明实验六：SQL Server 2005中的贝叶斯网络应用实验学时：2实验类型：验证实验要求：必修一、实验目的通过本实验的学习，使学生掌握在SQL Server 2005示例数据仓库环境下贝叶斯网络的应用知识，训练其把教材上的内容应用到实际中的技能，为今后继续贝叶斯网络知识的学习奠定基础。