7(2)-数据挖掘与决策支持

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

OLAP的定义和特点
OLAP与OLTP的区别
(1)OLTP主要面向公司职员;OLAP则主要面向公司 领导者。
(2)OLTP应用主要是用来完成客户的事务处理, 其数据基础是操作型数据库,如民航订票系统、 银行储蓄系统等等,通常需要进行大量的更新操 作,同时对响应时间要求较高;而OLAP是以数据仓 库或数据多维视图为基础的数据分析处理,是针 对特定问题的联机数据访问和分析,它一般不对 仓库数据作修改处理,而只是查询,其应用主要 是对客户当前及历史数据进行分析,辅助领导决 策,其典型的应用有对银行信用卡风险的分析与 预测、公司市场营销策略的制定等,主要是进行 大量的查询操作,对时间的要求不太严格。
1993年,E.F.Codd提出了OLAP概念,认为OLTP已不 能满足终端客户对数据库查询分析的需要,SQL对大 型数据库的简单查询也不能满足终端客户分析的要 求。客户的决策分析需要对关系数据库进行大量计 算才能获得结果,而查询的结果并不能满足决策者 提出的需求。因此,E.F.Codd提出了多维数据库和 多维分析的概念,即OLAP。
的数据格式) (3)备份与备存数据 (4)管理所有查询(即将查询导向适当的数据 源)
数据仓库的组成
数据
信息
经营数据 外部数据
加载 管理 器
详细信息
集合信息
查询 管理 器
元数据
仓库管理器
决策
数据查询 CLAP工具 CLAP工具
OLAP的定义、特点
60年代,关系数据库之父E.F.Codd提出了关系模型 ,促进了联机事务处理 (OLTP)的发展(数据以表格 的形式而非文件方式存储)。
数据挖掘与智能决策技术简介
背景
二十世纪末以来,全球信息量以惊人的速 度急剧增长—据估计,每二十个月将增加一倍 。许多组织机构的IT系统中都收集了大量的数 据(信息)。目前的数据库系统虽然可以高效 地实现数据的录入、查询、统计等功能,但无 法发现数据中存在的关系和规则,无法根据现 有的数据预测未来的发展趋势。为了充分利用 现有信息资源,从海量数据中找出隐藏的知识 ,数据挖掘技术应运而生并显示出强大的生命 力。
此定义由最为权威的、被称为“数据仓库 之父”的William H. Inmon 先生给出。
决策支持:从数据库到数据仓库到数据集市到……
数据内容
数据库名(数据 库内容描述) 注意: • 信息的完整性; • 相关业务人员达 成共识。
业务人员Biblioteka Baidu定
主题 数据库
计算机内 数据标准化
数据结构
……...
I T人员确定
背景
数据挖掘是八十年代投资AI研究项目失败后 ,AI转入实际应用时提出的。它是一个新兴的,
面向商业应用的AI研究。(AI(Artificial Intelligence,人工智能) )
1989年8月,在美国底特律召开的第11届国际 人工智能联合会议的专题讨论会上首次出现数据 库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。
Office Day
Month
Product
立方体实例
TV 1Qtr PC VCR sum
Date
2Qtr 3Qtr
Total annual sales 4Qtr sum of TV in U.S.A.
U.S.A
Canada
Country
多维数据
• Sales volume as a function of product, month, and region
Dimensions: Product, Location, Time Hierarchical summarization paths
Industry Region Year Category Country Quarter Product City Month Week
数据仓库的定义
数据仓库是决策支持系统( Decision Support System, DSS, DSS)的基础。
在数据仓库中只有单一集成的数 据源,并且数据是可访问的。所以与 传统数据库相比,在数据仓库环境中 DSS分析员的工作将较为容易。
数据仓库的组成
一个数据仓库的大小一般都是在100GB以上 通常,数据仓库系统应该包含下列程序: (1)抽取数据与加载数据 (2)整理并转换数据(采用一种数据仓库适用
OLAP的定义、特点
OLAP(On-Line Analysis Processing)定义
是数据仓库上的分析展示工具,它建立在数据 多维视图的基础上。
OLAP的主要特点
一是在线性(On Line),体现为对用户请求的快 速响应和交互式操作;
二是多维分析(Multi_Analysis),这是OLAP技 术的核心所在。
简言之,数据挖掘其实是一类深层次的数据 分析方法。因此,数据挖掘可以描述为:按企业既 定业务目标,对大量的企业数据进行探索和分析 ,揭示隐藏的、未知的或验证己知的规律性,并 进一步将其模型化的有效方法。
数据仓库的定义
数据仓库是在企业管理和决策中面向主题 的、集成的、与时间相关的、不可修改的数据 集合。
这一定义包括好几层含义:数据源必须是真实 的、海量的、含噪声的;发现的是用户感兴趣的知 识;发现的知识要可接受、可理解、可运用;并不 要求发现放之四海皆准的知识,仅支持特定的发 现问题。
数据挖掘定义
商业角度的定义
数据挖掘是一种新的商业信息处理技术,其 主要特点是对商业数据库中的大量业务数据进行 抽取、转换、分析和其他模型化处理,从中提取 辅助商业决策的关键性信息。
随后,在1991年、1993年和1994年都举行KDD 专题讨论会,汇集来自各个领域的研究人员和应 用开发者,集中讨论数据统计、海量数据分析算 法、知识表示、知识运用等问题。最初,数据挖 掘是作为KDD中利用算法处理数据的一个步骤,其 后逐渐演变成KDD的同义词。
数据挖掘定义
技术角度的定义
数据挖掘(Data Mining)是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中的、人们事先不知道的、但 又是潜在有用的信息和知识的过程。与数据挖掘 相近的同义词包括:数据融合、数据分析和决策 支持等。
相关文档
最新文档