数据挖掘技术翻译

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术简介

摘要:微软® SQL Server™的2005提供用于创建和使用数据挖掘模型的集成环境的工作。本教程使用的四种情况,有针对性的邮件,预测,市场篮子,顺序分析和聚类,来演示如何使用挖掘模型算法,挖掘模型查看器,和数据挖掘工具,在此SQL Server版本中。

介绍

数据挖掘教程旨在通过创建走在Microsoft SQL Server 2005的数据挖掘模型的过程。数据挖掘算法,并在SQL Server 2005工具可以很容易地建立一个项目,包括市场购物篮分析各种全面的解决方案,预测分析,有针对性的邮件分析。这些解决方案的情景更详细的解释在后面的教程。

SQL Server 2005最明显的部分是用来创建和处理数据挖掘模型的工作室。在线分析处理( OLAP )和数据挖掘工具被统一为两个工作环境:商业智能开发工作室和SQL Server 管理工作室。通过商业智能开发工作室,您可以在与服务器断开连接的情况下建立一个服务项目分析。当项目已经准备就绪,您可以发布到服务器上。您也可以直接面向服务器工作。SQL Server 管理工作室的主要职能是管理服务器。之后将有针对每一个环境的详细说明。欲了解更多关于从两个环境中选择的信息,请参看SQL Server联机丛书中的“在SQL Server 工作室和商业智能开发工作室中选择”。

数据挖掘工具都存在于数据挖掘的编辑。使用编辑器,您可以管理挖掘模型,创造新模式,查看模型,比较模型,并建立在现有模型的预测。

当你创建一个挖掘模型,你会想要去探索它,寻找有趣的模式和规则。在编辑器中的每个挖掘模型查看器是自定义进行探讨,以特定的算法建立的模型。如需观众的信息,请参看SQL Server联机丛书中的“查看数据挖掘模型”。

您的项目往往会包含多个挖掘模型,所以才能使用的模式创建的预测,你要能够确定哪些模式是最准确的。出于这个原因,编辑包含一个模型比较工具挖掘精度的图表标签。使用此工具,您可以比较准确的预测模型和您确定最佳模式。

为了建立数据预期,你将使用一种 DME语言,DMX扩展了传统的SQL语法,包含了一些创建修改和建立数据预期的命令,关于DMX的详细信息,请参考SQL BOL中的“Data Mining Extensions (DMX) Reference”章节。因为建立一个数据预期可能比较复杂,所以数据挖掘编辑器包含了一个工具叫做“Prediction Query Builder”,该工具可以让你在一个图形化的界面下编辑DMX查询语句,你也可以在该工具中可以查看自动生成的DMX语句。

了解了前面介绍的实现数据挖掘的工具之外,同等重要的是了解数据挖掘模型的结构本身,建立一个数据模型的关键是数据挖掘算法,该算法在你操作的数据中寻找我们需要的部分,并且转换这些数据成为一个可操作的数据模型。

一些很重要的建立数据挖掘解决方案的步骤是用来整理准备那些用于建立数据模型的数据,SQL2005包含一个DTS的工作环境以及一些DTS的工具用于清理验证准备数据,关于DTS的更多信息请查看SQL BOL中的"DTS Data Mining Tasks and Transformations" 章节。

Adventure 数据库

AdventureWorksDW数据库是基于一个虚构的自行车制造公司而建立,公司的名称叫做“Adventure Works Cycles”(简称AW公司)。AW公司生产并向北美,欧洲和亚洲的商业市场销售金属和复合材料的自行车,主要的工作都在华盛顿Bothell完成,那里拥有 500 员工,以及一些地区销售部门遍及各地。

AW公司通过INTERNET批发和零售他们的产品,本教程中的数据模型实例需要你使用这些网络销售数据作为数据模型。

关于AW公司数据库的更多信息请参考 SQL Server联机丛书中的如下章节:"Sample Databases and Business Scenarios"。

数据库详细信息

网络销售数据构架包含9242个客户的信息,这些客户分布在6个国家,并被合并为3个区域:

南美 (83%)

欧洲 (12%)

澳大利亚 (7%)

该数据库包含三个财政年度的数据: 2002年, 2003年和2004年。

数据库中的产品根据子类别,型号和产品来分类。

商业智能开发工作室

商业智能开发工作室是一套用于创建商务智能项目的工具。由于商业智能开发工作室是创建于IDE环境中的,在该环境中,你可以在脱机状态下创建一个完整地解决方案。你可以想改多少数据挖掘对象就改多少,但是在你发布该项目前,这些改变将不会反映在服务器上。

一个SSAS数据库用于集成多种技术,这个数据库作为数据挖掘模型以及OLAP等技术的基础。你可以使用商业智能建立和修改一个SSAS项目并部署这个项目到一个或多个SSAS服务如果你在开发一个SSAS项目你也可以使用商业智能开发工作室直接连接数据库,这样你所作的改动可以立刻影响到数据库中。

SQL Server 管理工作室

SQL Server管理工作室是一个行政和脚本工具与Microsoft SQL Server组件工作的集合。此工作区的不同之处,你是在互联环境中工作的行动是在传播到服务器只要您保存您的工作从商务智能开发工作室中。

在数据被清理并为数据挖掘准备好后,大多数和创建苏局挖掘解决方案相关联的工作都在商业智能开发工作室中工作。通过使用商业智能开发工作室,你可以利用迭代过程确定的给定情况下的最佳模式来发布和测试数据挖掘解决方案。一旦开发商对解决方案满意,就可以将其发布到分析服务服务器。

从这点来看,重点从SQL Server管理工作室的开发转移到了维护和应用。在SQL Server管理工作室中,您可以管理您的数据库和执行一些在商业智能开发工作室中的相同的职能,比如在挖掘模式中查看、创建预测。

数据转换服务

在SQL Server 2005中数据转换服务( DTS )包括抽取,转换和加载(简称ETL )工具。这些工具可用于执行一些数据挖掘中最重要的任务,为数据模型的建立清理和准备数据。在数据挖掘,您通常可以执行重复数据转换清理数据,

相关文档
最新文档