-数据挖掘实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
一、相关名词解释 (3)
1.1数据仓库 (3)
1.2数据挖掘 (3)
1.3决策树 (3)
1.4时序 (3)
1.5关联规则 (4)
二、实验环境 (4)
三、实验准备 (5)
四、实验内容 (5)
五、实验步骤 (5)
5.1对数据挖掘相关名词进行理解和运用 (5)
5.2对本次实验的数据库环境进行熟悉环境 (5)
5.3准备工作 (5)
5.3.1 创建一个Analysis Services 项目 (5)
5.3.2创建一个数据源 (6)
5.3.3创建数据源视图 (8)
5.4挖掘步骤 (10)
5.4.1 Microsoft决策树挖掘技术—创建用于目标邮件方案的挖掘结构 (10)
5.4.2 Microsoft时序挖掘技术—各个型号自行车的销售量做出预测 (14)
5.4.3 Microsoft关联规则挖掘技术—创建市场篮方案 (15)
5.4.4 Microsoft时序分析与聚类分析挖掘技术—查看客户浏览Adventure Works
网站的方式 (17)
5.5数据挖掘结果分析 (19)
5.5.1 Microsoft决策树挖掘技术—目标邮件方案的挖掘结果分析 (19)
5.5.2 Microsoft时序挖掘技术—各个型号自行车的销售量预测结果分析 (20)
5.5.3 Microsoft关联规则挖掘技术—创建市场篮方案结果分析 (21)
5.5.4 Microsoft时序分析与聚类分析挖掘技术—查看客户浏览Adventure Works
网站的方式结果分析 (22)
一、相关名词解释
1.1数据仓库
a) 英文名称为Data Warehouse,可简写为DW。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
b) 数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
c) 从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
1.2数据挖掘
a) 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。
1.3决策树
a) 决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。
b) 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,决策树的基本组成部分:决策节点、分支和叶子。
c) 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来做预测(就像上面的银行官员用他来预测贷款风险)。常用的算法有CHAID、CART、Quest 和C5.0。
1.4时序
a) Microsoft 时序算法是Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的回归算法,用于创建数据挖掘模型以预测连续列,如预测方案中的产品销售额。其他Microsoft 算法创建依靠给定输入列来预测可预测列的模型(如决策树模型),而时序模型的预测则仅根据算法在创建模型时从原始数据集派生的趋势。以下关系图(图1.1)显示了一个典型模型,用于预测各个时间的销售额。
图1.1关系图
关系图中显示的该模型由两部分组成:历史信息以红色显示,预测信息以蓝色显示。红色数据代表算法用于创建模型的信息,而蓝色数据则代表模型做出的预测。由红色数据和蓝色数据联合形成的线称为“序列”。每个预测模型必须包含一个事例序列,即区分序列列中不同点的列。例如,因为关系图中的数据显示了几个月中的历史和预测销售额序列,因此数据列为事例序列。
b) Microsoft 时序算法的一个重要功能就是可以执行交叉预测。也就是说,如果使用两个单独但相关的序列为该算法定型,就可以使用得到的模型根据其他序列的行为预测一个序列的结果。例如,一个产品的实际销售额可能会影响另一个产品的预测销售额。
1.5关联规则
a) 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
b) 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
1. Apriori算法:使用候选项集找频繁项集
2. 基于划分的算法
3. FP-树频集算法
1.6时序分析与聚类分析
a) Microsoft 顺序分析和聚类分析算法是由Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的一种顺序分析算法。该算法通过将相同的顺序分到一组或一类中来查找最常见的顺序。这些顺序可以采取多种格式,包括:
1. 用来说明用户浏览网站时的点击路径的数据。
2. 用来说明客户将商品添加到在线零售商的购物车中的顺序的数据。
二、实验环境