第1章数据仓库的概念和体系结构汇总
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.数据仓库的提出
数据库用于事务处理
•数据库作为数据资源用于管理业务中的事务处理。 •数据库中存放的数据基本上是保存当前数据,随着 业务的变化随时在更新数据库中的数据。 •不同的管理业务需要建立不同的数据库。例如,银 行中储蓄业务、信用卡业务分别要建立储蓄数据库 和信用卡数据库。
1.数据仓库的提出
2:数据仓库的应用情况及前景
气象:2008年,国家气象中心的预报系统开放实 验室研究气象数据仓库的建设,目前已经4年多,系 统运行并不断推广。
3:数据挖掘兴起的背景及定义
背景
数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起 来的,称为数据库中的知识发现(KDD,Knowledge Discovery in Database)。
2:数据仓库的应用情况及前景
银行:
2002年,招行选择了业界著名厂商Sybase的数据仓库系统。 数据仓库和数据挖掘技术在国际上早已成为商业银行业快速发展 、科学管理的平台。根据美国META集团的调查,数据仓库技术 在美国金融业、制造业、商贸业以及社会服务业等方面都得到广 泛的应用,已经采用数据仓库的企业的投资回报率均在40%以上 ,部分企业高达每年600%。 目前,华尔街62%的银行、保险、证券等机构采用数据仓库技术 进行风险管理,其中包括著名的摩根· 斯坦利、花旗银行、加拿大 蒙特利尔银行、加皇银行等。数据仓库服务器SybaseIQ、复制服 务器ReplicationServer,以及其他相关软件,帮助金融机构进行 风险的评估、预测以及防范等工作,从而使风险控制到最小。
2:数据仓库的应用情况及前景
淘宝:淘宝自己的数据仓库实施团队
淘宝于2004开始基于Oracle产品构建企业级数据仓库 (EDW),并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g对数据仓库系统进行了升级 和扩充
实现了数据处理和分析时效性的不断提升,过去需要数天 才能完成的计算现在当天就能完成,部分以前属于小时级 别的计算更是提高到了分钟级别。 目前,淘宝数据仓库能够每天处理几亿次的用户行为,日 处理的数据量接近30TB,堪称目前国内每天数据处理量 最大、最忙的数据仓库。
1.数据仓库的提出
(1)“数据太多,信息不足”的现状 每一届学生的相关数据汇总起来规模巨大, 但很难提供我们想要的信息 (2)异构环境的数据的转换和共享 许多应用需要不同数据源(库)中的信息, 而不同数据源中信息的表示又有很大的差别。 一般情况下, 来自不同数据源(库)中的数据可能不匹配, 也可能有部分数据是冗余的,或者格式不同。 (3)利用数据进行数据处理转换为利用数据支 持决策
数据仓库用于决策分析
•数据仓库用于决策分析
•数据库保持事务处理的当前状态,数据仓库既保 存过去的数据又保存当前的数据 •数据仓库的数据是大量数据库的集成 •对数据库的操作比较明确,操作数据量少。对数 据仓库操作不明确,操作数据量大
1.数据仓库的提出
数据库与数据仓库对比
数据库 数据仓库
细节的 代表当前的数据 可更新的 一次操作数据量小 面向应用 支持管理
前言:关于数据仓库和数据挖掘
数据仓库:Data Warehouse (DW) 数据挖掘: Data Mining (DM)
1:数据仓库的提出:从数据库到数据 仓库 2:数据仓库的应用情况及前景 3:数据挖掘背景及定义 4:数据仓库与数据挖掘的结合
1.数据仓库的提出
例:河南理工大学 横向(每届):学生信息管理系统 对应数据 库 图书管理系统 对应后台数据库 成绩管理系统 对应后台数据库 课堂签到系统 对应后台数据库 网络管理系统 对应后台数据库 毕业设计系统 对应后台数据库 …
综合或提炼的 代表过去的数据 不更新 一次操作数据量大 面向分析 支持决策
2:数据仓库的应用情况及前景
20世纪90年代兴起
2000年以来,在中国发展迅速,各大 wenku.baidu.com域分别启动数据仓库项目
中国移动、淘宝、银行、保险、旅游、气 象。。。
2:数据仓库的应用情况及前景
中国移动: 2003年,经过激烈竞争,中国移动选中Teradata数据 仓库解决方案以开发其业务分析支持系统(BASS)项 目,用以分析来自31个省级分支机构和总公司的业务 数据,从而获得纵览企业全局的单一视图,以提高决策 质量,提高竞争优势。 用数据仓库来寻找潜在用户 中国移动建立BASS系统 比利时国家电信经纪人使用数据仓库建立的顾客信息系 统,其中数据仓库拥有超过1万亿字节的数据,包括四 个多月的电话通信记录。通过欺骗检测功能,能够很快 发现反常电话以及欺骗性的打电话方式,并能在造成重 大经济损失之前终止这种欺骗行为。
1.数据仓库的提出
例:河南理工大学 纵向(每届):1909年 1910年 … 2015年 … 特点:上述数据库只是处理在校学生的相应数 据(事务),大量的历史数据一直在沉睡。 问题: 分析学生的上网时间分布、图书借阅情况、 上课签到情况与学生成绩之间的联系,从而为 学校相关政策的制定提供必要的支持。
知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。
如在人类数据库中挖掘知识为: (头发=黑色)∨(眼睛=黑色)→亚洲人
该知识覆盖了所有亚州人的记录。
3:数据挖掘背景及定义
定义
目前还没有一个完整的定义,人们提出了多种数据挖掘的定义: SAS研究所(1997):“在大量相关数据基础之上进行数据探索 和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在 大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意 义、有价值信息的过程”。 根据以上定义,我们可以把数据挖掘理解为:数据挖掘就是从海 量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事 先不为人知的、潜在的、有用信息和知识的技术。这些信息是可 能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决 策,可以为企业带来利益,或者为科学研究寻找突破口。