基于SQLSERVER2005的数据挖掘系统设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第22卷第3期湖 北 工 业 大 学 学 报2007年06月

V ol.22N o.3 Journal of H ubei U niversity of T echnology Jun.2007

[收稿日期]2007-03-20[作者简介]张 波(1981-),男,湖北当阳人,武汉理工大学硕士研究生,研究方向:物流系统的自动化与智能化.

[文章编号]1003-4684(2007)0320029203

基于SQL SERV ER 2005的数据挖掘系统设计

张 波,陈定方,祖巧红

(武汉理工大学智能制造与控制研究所,湖北武汉430081)

[摘 要]介绍了数据挖掘软件的发展,并针对第3代数据挖掘软件的系统设计,提出了一种基于SQL SERV ER 2005的纵向数据挖掘系统的设计框架.

[关键词]数据挖掘;SQL SERV ER 2005;数据仓库;OL A P ;商业智能[中图分类号]TP311.131

[文献标识码]A

数据仓库(Data Warehouse )是伴随着决策支持

系统的发展而产生的,是人们对信息需求从简单到复杂,从基本的事务处理和业务管理到信息分析和战略决策的体现.而数据挖掘(Data Mining )就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,是统计学、数据库技术和人工智能技术的综合.

但一方面,随着数据挖掘工具的使用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用.如果对算法不了解,难以得出好的模型.所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件.

另一方面,国内对数据挖掘方面的算法和理论研究较多,而对数据挖掘软件和工具的设计与实现

方面的研究相对较少.因此,本文结合数据挖掘软件的发展,针对第3代数据挖掘系统的设计,提出一种基于SQL Server 2005的纵向数据挖掘解决方案的设计框架.

1 数据挖掘软件的发展

1.1 数据挖掘软件经历的4个时代

在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点.对于数据挖掘软件的发展,Robert Grossman 认为,数据挖掘软件经历了或即将经历的时代有4个[1],如表1所示.

表1 数据挖掘软件经历的4个时代

特征

数据挖掘算法集成

分布计算模型数据模型1作为一个独立的应用支持一个或多个算法独立的系统单个机器向量数据

2

和数据库以及数据仓

库集成

多个算法,能挖掘一次不能进入内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集

有些系统支持对象,文本和连续的媒体数据

3和语言模型系统集成多个算法数据管理系统Intranet/extranet 网络计算

支持半结构化和Web 数据

4

和移动数据以及各种计算设备的数据联合

多个算法

数据管理系统

移动和各种计算设备

普遍存在的计算模型

1.2 数据挖掘工具经历的3个阶段

目前在整个数据挖掘技术的发展过程中,数据挖掘工具一共经历了3个阶段,分别是:

1)独立的数据挖掘软件.该阶段对应第一代数据挖掘系统,出现在数据挖掘技术发展早期,研究人

员开发出一种新型的数据挖掘算法,就形成一个软件.这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作.

2)横向的数据挖掘工具集.此类工具集的特点是提供多种数据挖掘算法,包括数据的转换和可视

化.由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具.

3)纵向的数据挖掘解决方案.此类工具的特点是,针对特定的应用提供完整的数据挖掘方案,所以称之为纵向的数据挖掘解决方案.

2 SQ L Server2005简介

2.1 数据挖掘的范围及其在SQ L Server2005中的功能实现

SQL Server2005不仅是一个成熟的数据库管理系统(DBMS),而且更是一个高度集成的功能强大的商业智能平台.下面结合商务智能的范围来介绍SQL Server2005所提供的相关组件.

图1 数据挖掘在SQL Server2005中的功能实现

图1所示的就是数据挖掘的三个重要的方面,即数据报表、数据分析和数据挖掘.其中,数据报表模块为企业解决了“它现在是什么样”的问题,数据分析,也就是人们经常说的OL A P模块为企业解释了“它为什么是这样”的原因,而数据挖掘模块则为企业提供“它以后会是什么样”的预测.而SQL Server2005作为商业智能解决方案,则分别提供了相应的功能模块和组件,即数据挖掘、分析服务和报表服务.

其中,数据挖掘功能的组件主要包括集成服务( SQL Server Integration Services,SSIS)和分析服务(Analysis Services,AS).集成服务可用于数据预处理阶段,完成数据的转换、清洗和加载(ETL)过程;而分析服务用于完成模式发现功能.两者具体功能介绍如下.

2.2 SSIS功能介绍

SQL Server2005中的集成服务提供的数据抽取、转换、下载等功能,大大简化数据预处理阶段的工作.SSIS基于工作流环境,提供了控制流(Con2 t rol Flow)和数据流(Data Flow)两种工作流.一个SSIS项目中最基本的部署和执行单位被称为“包”,“包”就是装载SSIS工作流的容器[2].

2.3 分析服务功能介绍

分析服务是SQL Server2005的另一个重要组件,采用开放的体系结构,无缝集成了多种符合OL E DB for DM的数据挖掘算法,提供了数据挖掘解决方法.

1)OL E DB for DM介绍 OL E DB for DM是微软于2000年提出的一种数据挖掘规范,基于OL E DB的实现原理,旨在为数据挖掘界提供一种类似SQL语言的行业标准语言,它定义了强大的可用于模型建设、模型训练以及预测的数据挖掘语言,同时定义了一套模式的行集合用于存储挖掘模型和挖掘算法的元数据,允许应用程序自动发现挖掘模式和挖掘服务[3].

2)数据挖掘模型介绍 在SQL Server2005的数据挖掘平台中,数据挖掘模型类似于一个关系型的表,其中包括关键字、输入、预测3个属性.每个模型跟一个数据挖掘算法相关联.模型构建可以基于DMX,也可以直接在SQL Server2005中操作实现.模型的构建包括模型建立、模型训练、模型预测3个步骤

3)数据挖掘算法介绍 SQL Server2005的分析服务给用户提供了9种常用的数据挖掘算法,分别是:决策树算法、聚类算法、贝叶斯算法、时间序列算法、关联算法、序列聚类算法、神经网络算法、线性回归算法、逻辑回归算法、除了这9种算法以外,用户还可以根据自己的需要嵌入其他的算法.当然,各种算法应该结合数据挖掘系统的要求来选择合适的挖掘模型.

3 基于SQ L Server2005的数据挖掘解决方案设计

借助SQL Server2005在数据挖掘平台上的优势,分析了客户关系管理中的客户分类系统与客户流失、科技计划项目管理系统中科技计划项目的分析与处理等相关数据挖掘系统研究,本文提出一个纵向数据挖掘系统的原型方案,其框架图如图

2所示.

图2 基于SQL Server2005的数据挖掘解决方案

本文提出的基于SQL Server2005的数据挖掘解决方案主要包括以下几个部分,各部分简要介绍如下:

03湖 北 工 业 大 学 学 报2007年第3期 

相关文档
最新文档