数据仓库体系培训(内部)
数据质量管理_数据仓库 ppt课件
处理/生成
检查通过?
本地网
生成数据 检查通过?
数据质量管理_数据仓库
过程-稽核方法1
在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校
1
验环节之间的数据平衡关系
总量稽核
• 对两个相邻环节中,对数据的总量进行验证,总量 指标包括:总记录数,所有度量指标的总值等。
• 总量正确说明数据没有被丢弃,没有不符合装载逻 辑规则的脏数据存在。
数据质量管理_数据仓库
系统推广
咨询/服务
启动会议
培需
训求
集成测试
相分 关析
DISBP实施方法
人整
员理
终端用户培训
产品配置
模型设计/
需求评审
ETL策略/ 客户化应用/元数据
管理
终验
初验
模型开发
需求确认
★
★
★ 系统建设 ★
★
★
试点局上线
集成测试
过程-校验点
对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面 对于数据质量保证更为重要,也更为复杂
数据质量管理_数据仓库
上传的内容 优惠用户清单 新业务资料 新业务资料的月基量 长途清单 零次户清单 本地智能网卡清单汇总 小灵通预付费清单汇总 省智能网清单
上传的时间计划 每月28日20点 每天22点 每月28日20点 每天22点 每月28日20点 每月28日20点 每月28日20点 每月28日20点
有效的组织机构 是管理机制的有
力支持
数据质量保障流程
按照制定的规范获 取相应的项目资源 、支撑工具以及制
定工作计划
启动
定义详细的过程、 数据、组织的划分 以及质量元素、标
数据仓库体系结构
数据仓库体系结构数据仓库是一个用于集成、管理和分析大量数据的系统。
在数据仓库中,数据从不同的源系统中提取、转换和加载,然后存储在一个统一的、可供分析的数据存储中。
为了实现这一目标,数据仓库需要一个合理的体系结构来支持数据的整合、存储和查询等功能。
数据仓库体系结构由以下几个主要组成部分组成:1. 数据源:数据源是数据仓库的基础,它可以是内部系统的数据库、外部数据提供商的数据文件、Web上的数据源等。
数据源可以包括结构化数据(如关系型数据库中的表)和非结构化数据(如文本文件、图像文件等)。
2. 数据提取:数据提取是将数据从源系统中抽取出来并转换为数据仓库可以使用的格式的过程。
数据提取可以通过批处理、定时任务或实时流式传输等方式进行。
3. 数据转换:数据转换是将提取的数据进行清洗、集成和转换的过程。
在这个阶段,数据被清理、去重、标准化和转换为统一的格式和结构,以便在数据仓库中进行分析。
4. 数据加载:数据加载是将转换后的数据加载到数据仓库中的过程。
数据加载可以分为全量加载和增量加载两种方式,全量加载是将所有数据加载到数据仓库中,而增量加载是只加载发生变化的数据。
5. 数据存储:数据存储是数据仓库中数据的物理存储方式。
常用的数据存储方式包括关系型数据库、多维数据库和列式数据库等。
数据存储的选择应根据数据的特点、查询需求和性能要求等因素进行。
6. 元数据管理:元数据是描述数据仓库中数据的数据,它包括数据的结构、定义、来源、质量等信息。
元数据管理是对元数据进行收集、存储、管理和查询的过程,它是数据仓库管理的重要组成部分。
7. 数据访问:数据访问是用户通过查询、报表和分析等方式对数据仓库中的数据进行访问和分析的过程。
数据仓库可以提供多种数据访问方式,包括在线分析处理(OLAP)、数据挖掘和数据可视化等。
8. 安全性和权限管理:安全性和权限管理是保护数据仓库中数据安全和控制用户访问权限的过程。
数据仓库应具备完善的安全措施,包括身份认证、权限控制、数据加密和审计等功能。
数据仓库四层结构体系
所谓的数据仓库架构,我也是第一次听说,改改一些概念,干脆一起来分享一下吧,没准还能成为行业标准,呵呵!该架构主要分为四层结构体系:> ODS层主要负责采集业务系统并保存一定期限内的相关业务数据。
当然也可以满足用户对明细数据的查询要求,姑且也可以算作明细数据仓库。
> 数据仓库层将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。
实际上与ODS层差别不大,都是建立以ER为中心的数据关系,方便以后的数据的聚合。
> 明细数据集市层即前面所说的事实层按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。
这是OLAP 的数据基础。
> 聚合数据集市层即OLAP在明细数据集市层的基础上,提供基于联机分析处理(OLAP)引擎的多维分析能力,解决联机分析功能和决策支持要求。
> 数据展现层按照用户报表要求,提供用户报表界面及预警分发机制。
其中前3层都是属于ETL层的,问题是层次出来了我的疑问也出来了,都是属于那种别人不操心我瞎操心的事。
毕竟算是搞数据库出身的(搞过一些索引和简单的SQL调优),最关心的还是性能问题。
数据仓库是企业级的数据中心,每天上G的数据的企业不在少数,那么多的层次,使用工具能抽的完数据吗?说实话我实在不信任ETL工具,总感觉他没我写的SQL语句效率高;即使抽的完数据,那么多的层次转换能处理的完吗;即使处理完,如果万一一个环节出现问题,能回退或重新处理吗;处理完后那OLAP该怎么调度啊;数据质量(清洗转换)到底在哪个环节处理;数据质量到底包括哪些东西(除了主外键缺失和NULL值),兄弟比较愚笨,一直想不明白;不合质量要求的数据如何处理;入库的数据在业务库发生更改怎么办;业务数据没有时间戳怎么办;数据核对和校验工作如何进行;不管工具也好代码也好,到底有没有通用的处理流程(比如维度数据处理,原始业务数据抽取,事实表日结处理);还有就是到现在也没搞到合适的需求设计文档的模板(如果哪位兄弟有可以帮忙提供一下)。
数据仓库的概念和体系结构概述
数据仓库的概念和体系结构概述数据仓库是指将企业各个部门和业务系统产生的大量数据进行整合、清洗、集成和存储,以满足企业决策分析和业务需求的信息系统。
数据仓库的设计和建设需要考虑到数据的整合、一致性、稳定性、易用性和安全性等方面的需求。
它是一个面向主题的、集成的、相对稳定的、可供企业管理者和决策者使用的数据集合。
1.数据源层:数据仓库的数据源可以来自企业内部的各个部门和业务系统,也可以来自外部的合作伙伴和第三方数据提供商。
数据源的选择和集成是数据仓库建设的关键环节,需要确定数据的提取方式、频率、粒度和格式等。
2.数据提取层:数据提取层负责从各个数据源中提取数据,并进行初步的清洗和转换。
数据提取可以通过批量处理、定时任务或实时流数据处理等方式进行。
在数据提取过程中,需要解决数据一致性、完整性和准确性等问题。
3. 数据集成层:数据集成层是将从各个数据源提取的数据进行整合和合并的地方。
这里的数据整合包括数据清洗、数据转换和数据聚合等操作。
数据集成层可以使用ETL(Extract、Transform、Load)工具进行数据的清洗和转换。
在数据集成层,还需要对数据进行一致性校验和冲突解决。
4.数据存储层:数据存储层是数据仓库最核心的组成部分,它负责存储整合后的数据。
数据存储层可以采用关系数据库、数据仓库等不同的技术来进行存储。
在设计数据存储层时,需要考虑到数据的存储结构、索引方式、数据分区和冗余备份等问题。
6. 数据访问层:数据访问层是用户直接访问数据仓库的接口,它提供了用户对数据仓库的查询、分析和报表生成等功能。
数据访问层可以使用OLAP(Online Analytical Processing)工具、报表工具、数据挖掘工具和BI(Business Intelligence)平台等进行实现。
7.数据安全层:数据安全是数据仓库设计和建设过程中必须要考虑的问题之一、数据安全层负责保护数据仓库中的数据不受未经授权的访问、修改和破坏。
第六章 数据库与数据仓库--PZZ
二级映射
为了能够在内部实现这三个抽象层次的联系和转换,数据库管理系统 在这三级模式之间提供了两层映射:外模式—模式映射,模式—内模式映 射。 ①外模式—模式映射 外模式—模式映射定义了该外模式与模式之间的对应关系。这些映射 定义通常包含在各自外模式的描述中。当模式改变时(例如增加新的属性、 改变属性的数据类型时),只要改变其映射,就可以使外模式保持不变,对 应的应用程序也可保持不变(因为应用程序是依据外模式编写的),从而保 证了数据与应用程序的逻辑独立性。 ②模式—内模式映射
彭志忠
一、数据管理技术及其发展
(三)数据库系统阶段
20世纪60年代以来,出现了统一管理数据的专门软件系统—数据库管理 系统(DBMS,DataBase Management System)。 数据库阶段的数据管理特点是: 1、数据结构化。数据结构化是数据库与文件系统的根本区别。
2、较高的数据独立性。用户能以简单的逻辑结构操作数据而无需考虑 数据的物理结构。
3、数据具有一定的独立 性。
《管理信息系统》
山东大学管理学院信息管理系
彭志忠
传统文件处理系统
用户 用户 用户 应用程序1 应用程序2 应用程序3 数据文件1 数据文件2 数据文件3
存在问题:
1、数据冗余与数据不一致性
2、数据联系弱 3、缺少数据字典,缺乏灵活性
《管理信息系统》
山东大学管理学院信息管理系
3、多媒体数据库
多媒体数据具有数据量大 、结构复杂 、数据传输的连续性 等特点。因 而,多媒体数据库需要有特殊的数据结构、存储技术、查询和处理方式。
4、数据仓库
数据仓库,就是一种长期数据存储,这些数据来自于多个异种数据源。 通过数据仓库提供的联机分析处理(OLAP)工具,实现各种粒度的多维数据 分析,以便向管理决策提供支持。
数据仓库 Chapter 8 数据仓库的基础构造
硬件
操作系统
数据库管理系统
网络软件
计算机平台
Chapter 8 数据仓库的基础构造
Contents
支持体系结构的基础构造 硬件与操作系统 数据库软件 工具收集
硬件与操作系统
硬件系统和软件系统构成了数据仓库的计算环境。 硬件选择方针
可扩展性 支持性 对厂商的鉴定 厂商的稳定性 可扩展性 安全性 可靠性 有效性:非正常结束后能继续工作 优先多任务处理 多线程:多处理器中分配线程
操作系统选用原则(NT 或者 Unix)
硬件与操作系统
平台的选择
一个计算平台就是硬件部分和软件部分 如何选用平台以支持数据仓库的体系结构
数据获取:数据抽取、数据转换、数据清洗、数据整合、数据准 备 数据存储:数据装载、存档、数据管理 信息传递:报表生成、查询处理、复杂分析
硬件与操作系统
方案1:共享磁盘 计算 平台 计算 平台
方案2:大规模数据传递
源平台
方案3:实时连接
目标平台
方案4:手动
(1)共享磁盘:回到了大型机的时代,数据的安全性受到挑战 (2)大规模数据传递:需要硬件、软件、网络(足够的带宽)的支持 (3)可行,但耗时 (4)简约
硬件与操作系统
平台的选择策略
桌面客户机 应用服务器
桌面客户机 应用服务器 应用服务器
应用服务器 数据准备 开发 数据仓库 数据集市 数据准备 数据集市 数据仓库 数据集市 开发
数据仓库 数据准备
数据集市
阶段1:最初
阶段2:成长
阶段3:成熟
硬件与操作系统
数据仓库概述PPT(共 57张)
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
银行数据仓库体系实践(9)--主题模型
银⾏数据仓库体系实践(9)--主题模型在银⾏主题模型中,每个数据仓库的实施公司会有⾦融⾏业或银⾏业的主题模型,这个模型会根据新的业务不断进⾏完善,是各实施公司的业务经验积累。
⼀个良好的模型对数据仓库的实施起到了事半功倍的效果,虽然不同的公司会有不同的主题模型产品,但每个公司的产品基本上分为以下⼏个主题:1、当事⼈(PARTY)是指银⾏所服务的任意对象和感兴趣进⾏分析的各种对象。
如:个⼈或公司客户、潜在客户、代理机构、雇员、合作伙伴等。
⼀个当事⼈可以同时是这当中的许多⾓⾊。
借助当事⼈主题的建⽴可以实现基于客户基本信息的分析,是实现以客户为中⼼的各种分析应⽤的重要基础。
PARTY主题⼀般包括:*外部机构、政府部门、⾏业监管机构等;*在银⾏登记注册开⽴账户的单位、个⼈普通客户;*和银⾏有业务往来的其他⾦融机构(如国内同业、海外代理⾏等);*银⾏机构的雇员(含柜员、客户经理等);*客户的⼲系⼈(如个⼈客户的配偶、⼦⼥,公司的法⼈等);*潜在客户(如交易对⼿,⽆账号交易客户等);那在实施过程中,除了对客户进⾏分类外,重点需要关注:(1)客户ID:为每位客户确定⼀个唯⼀的ID,由于不同的系统都会有客户ID,如何分析是否是同⼀个客户?许多银⾏都会有ECIF系统来唯⼀确定客户,如果已经有全⾏的唯⼀客户ID,那将减少许多整合⼯作,只需按⼀定规则将其他潜在客户、⼲系⼈分配唯⼀ID即可。
如果没有ECIF系统可以在主题模型进⾏整合,如按证件类型、证件号码、姓名、性别来识别唯⼀客户,将各源系统中的客户识别成唯⼀客户后,再将各源系统的客户信息进⾏整合。
(2)客户之间关系设计:由于⼀个客户可能有多个⾓⾊,⼀般可以通过客户关系表来确定。
⽐如既是员⼯也是客户可在关系表中存放客户ID和员⼯ID的关系类型是同⼀个⼈,既是个⼈客户⼜是企业法⼈,可在关系表中存放客户ID和企业ID的关系类型为企业法⼈关系。
(3)客户主题是整个模型的中⼼,其它的所有主题都会和客户主题进⾏关联,因此如何与其他主题进⾏关联也需要重点考虑。
数据仓库试卷整理
考试时间5月24日,上午9:00-11:00地点:SY207题目来自于收集的照的照片,可能不太准确,还有一些看不清,大家看着复习。
能整理出答案最好了^_^~一、概念题(40分)请将如下概念串起来,描述概念之间的关系,每个概念不必单独解释。
企业信息系统架构、基础业务系统、数据仓库、数据挖掘、机器学习、RDBMS、HADOOP、Oracle、大数据、DB2、关系型数据库、多维分析引擎、数据集成、数据模型、元数据、决策支持系统二、简答题(共5道题,共计60分)1.如下两个图标分别是操纵系统环境与数据仓库环境在一天内的硬件资源典型使用率模式,横坐标是时间,纵坐标是使用率(0-100%)1)请说明为什么这两种环境的硬件资源使用率会有如此不同?(5分)2)请说明这种现象对企业信息系统架构设计的影响?(5分)2.在数据仓库环境的数据体系建设过程中,进行粒度设计时要考虑的因素有哪儿些?粒度分析为什么要与技术环境评估同时进行。
(12分)3.对于企业中常见的孤岛式信息系统架构和蜘蛛网信息系统利用架构,请完成如下要求:1)分别值出这两种架构产生的主要原因;2)指出这两种架构中存在的主要问题;3)给出解决这些问题的常见方案。
(15分)4.设有如下数据仓库的数据模型设计**,请(6)建立企业全局数据视图;(7)确定每个主题包含的实体集以及每个实体集的属性集;(8)确定粒度层次;(9)确定索引结构;(10)确定存储分配;(11)分析确定数据来源。
(11分)5.假设有3年的销售数据,有如下两种存储方案:方案1:在数据库系统中用户看的表只有一个,但是有6个分区,每半年一个物理分区。
方案2:在数据库系统中有6个独立的表,分别存储近三年的数据。
1)这两种方案哪个是数据库系统层分区,哪种是应用层分区?各有什么优缺点。
(8)2)数据分区对数据归档、数据清除有什么影响?(4)。
BW基础知识(介绍)专题培训课件
主数据管理(MDM) 跨系统的主数据同步
SAP 集成平台(XI) 与其它 SAP系统紧密集成 信息映射 多种接口实现方式
SAP Web Application Server 稳定的系统运行平台
ETL工具
BW是SAP系统整体报表工具一部分
结论性分析
BW
BW
LIS – FIS - HIS
标准报表 Report Writer Report Painter
R/3 ABAP Query
ABAP SAP R/3 数据字典 & 表格
交易性分析
BW将提供更深层次的分析报表,但是不会取代所有 通过R3产生的报表。
数据仓库系统实施背景
背景介绍
ERP系统上线后,随着日常业务的开展,将产生大量的业务 交易数据,如何充分利用这些数据,为各层经营管理人员提供有效 的帮助,是一个即将面临的问题。
数据仓库系统实施背景 成功实施R/3之后…
业务终于通过R/3规范了
库存准了
订单管起来了
财务结帐快了
业务和财务数据一致了
业务情景二 执行层
?没有一个好的信息决策能预警销售数据就好了 ?我们有5年的销售数据,应该好好利用利用才
对,可是怎么整理这些数据好呢 ?怎么比较我的销售和竞争对手的销售
数据仓库系统实施背景 业务情景三 操作层
业务人员 技术人员
?为什么现在系统速度变慢了 ?为什么有些报表运行要这么长时间
BW系统的整体定位
是面向企业中、高级管理进行业务分析和绩效考核的数据 整合、分析和展现的工具;
是主要用于历史性、综合性和深层次数据分析; 数据来源是ERP(SAP R/3)系统或其他业务系统; 能够提供灵活、直观、简洁和易于操作的多维查询分析; 不是日常交易操作系统,不能直接产生交易数据;
数据仓库 Chapter 19 数据仓库部署
部署的主要任务
完整的初始装载主要步骤
删除数据仓库关系表中的索引 每个维度表和对应的事实表是一对多的关系。也就是说DBMS在关系
上使用了关系完整性的检查。假定装载映像是非常仔细地建立的。 我们可以挂起这些限制,加速装载过程 如果装载过程中出现中断,确保建立合适的检查点,从最后的检查 点继续 先装载维度表,然后是事实表。一些数据仓库喜欢在装载大表之前 先装载小的维度表并验证装载过程 下载装载事实表。事实表记录的键在准备区建立装载映像前己经解 析出来 基于己经为聚合和统计表建立的计划,建立基于维度表和事实表的 聚合表。有时候,装载映像己经在准备区建立了。如果这样,应用 这些装载映像建立聚合表 在装载时停止了索引建立,现在是建立索引的时候了 如果没有挂起参考完整性约束,在装载过程中,所有的参考性错误 记录在系统中,检查日志文件,找出所有装载异常
首先部署整个企业级数据仓库(E-R模型),接着逐个部署部门数据集市 第一个部门 数据集市 下一个部门 数据集市 下一个部门 数据集市 下一个部门 数据集市
自下而上方法 实用方法
收集部门需求,计划,部署独立的数据集市,逐一进行
企业范围内的需 求分析和计划 第一个主题 数据集市 下一个主题 数据集市 下一个主题 数据集市
部署的主要任务
建立最初用户支持
为用户代表不能解 决的问题提供支持 热线支持
部门内接触 的第一点 用户代表
用户
技术支持
为硬件、系统软件 和工具提供远程或 者在线支持
初始用户支持
部署的主要任务
自上而下方法
按阶断部署
企业范围内的需 求分析和计划 企业数据仓库 第一个部门 数据集市 下一个部门 数据集市
dw数据仓库
粒度
第一种粒度:对数据仓库中的数据综合程
度高低的度量,它影响数据仓库中数据量 的多少,也影响所能回答问题的种类。
第二种粒度:样本数据库采样率的高低。
(采样粒度不同的样本数据库可以有相同 级别的综合级别。)
分割
将数据分散到各自的物理单元中去以便能分别独
立处理,以提高处理效率,数据分割后的数据单 元称为分片。 分割的一个例子 健康保险 生命保险 事故保险
数据库体系化环境
什么是数据库体系化环境? 四层体系化环境 数据集市
什么是数据库体系化环境
数据库体系化环境是在一个企业或组织内,
由各面向应用的OLTP数据库及各级面向 主题的数据仓库所组成的完整的数据环境, 在这个数据环境上建立和进行一个企业或 部门的从联机事务处理到企业管理决策的 所有应用。 两个组成部分:
数据仓库数据的不可更新性
数据仓库的数据主要提供企业决策分析之
用,所涉及的数据操作主要是数据查询, 一般情况不进行修改操作。
数据仓库数据的时变性
数据仓库随时间变化不断增加新的数据内容;
数据仓库随时间变化不断删去旧的数据内容;
数据仓库中含有大量的综合数据,这些数据随时
间变化不断进行重新组合。
DW的设计是从已有的DB系统出发,按照分析领域对
数据及数据之间的联系重新考察、组织DW中的主题。
系统设计方法的中心是利用数据模型有效地识别原有
的数据库中的数据和数据仓库中主题的数据的“共同 性”。
数据模型 是数据驱动设计方法的中心
操作型环境设计
数据仓库设计
DB
DB DW DB 数据模型
操作型处理应用 开发与设计
ODS的定义与特点
数据仓库的体系结构
数据仓库的体系结构(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。
通常包括企业内部信息和外部信息。
内部信息包括存放于数据库管理系统中的各种业务处理数据和各类文档数据。
外部信息包括各类法律法规、市场信息和竞争对手的信息等。
(2)数据的存储与管理:是整个数据仓库系统的核心。
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
(3)OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
其具体实现可以分为ROLAP、MOLAP和HOLAP。
ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
(4)前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
TOGAF讲解PPT学习课件
备注
2020/3/1
18
BI 商业智能的发展阶段
第一阶段 报表
发生了什么
第二阶段 分析
为什么会发生
第三阶段 预测
将会发生什么
第四阶段 操作
正在发生什么
第五阶段 动态数据仓库 希望发生什么
批处理和预定 义查询
动态查询逐渐 增加
分析预测 挖掘模型
持续数据更新 及快速相应查
询
事件驱动
ቤተ መጻሕፍቲ ባይዱ
2020/3/1
19
三层数据仓库结构
OLTP业务系统
供应链 系统
数据仓库
临床系 统
实验室 系统
影像系 统
患者管 理
患者 药品 医疗 病历 库存
医学知 识管理
2020/3/1
数据集市
每日/ 每月 诊次
趋势分 析/成 本分析
病人跟 踪、医 疗质量 监督
20
数据仓库解决方案
交易人员
决策人员 知识工作者
业务探索
信息探索
体系结构设计
可
业务用户
逻辑数据模型
扩 展 数 据 仓 库 实 施 方 法
全 球 项 目 管 理 方 法 论
知
预定义报 表
OLAP
模糊查询 分析
数据挖掘
物理数据模型 数据转换加载
识
应用系统开发
管 理 系 统
数据管 资产 理 管理
信息访问工具
绩效管 客户关系
理
管理
财务管理
系统安装调试 系统性能测试 系统容量规划 系统安全规划
数据备份方案
论
应用系统
系统运行管理
行业逻辑数据模型(iLDM)
培训
数据仓库(Teradata)
服务使用的财务信息 / 财务记录产品的成本和付款
OFFER (服务)
产品产生事件 / 事件包括产品类
定位网络/ 网络支持的位置
NETWORK (网络)
服务通过网络实现 / 网络支持服务
网络产生事件 / 事件包括网络类
广告针对特定产品 /
产品通过广告实现营销
cLDM – 核心主题
ETL服务器
AT&T
中央数据库
Fload Mload Fexport TPump Access Module
End Users
Teradata电信业cLDM的商业价值
使你能够轻松回答下列业务问题…
▪ 谁是我们最有价值的客户… ▪ 按在网时间、消费金额、收入、年龄、地域、业务规模... ▪ 按产品使用情况 (国内、国际、接线员服务、呼叫卡、全部)
▪ 在我们最好的客户中,谁最有可能流失? ▪ 我们的基站有问题吗? 我们可以将流失模式与用户的家庭关系或一个呼叫
Teradata数据仓库
Dr. Zhang Jian Senior Technical Consultant TD China, Apr., 2009
公司介绍
NCR公司介绍
▪ 创建于1884年,120年历史 ▪ 包括三大部门
– 数据仓库事业部 / Teradata – 金融服务 / ATM – 零售服务 / POS
•LDM逻辑数据模型 •详细交易数据 •面向主题 •3NF
•数据清洗/转换/加载 •文本文件
结算
•数据转换/压缩/传输 •文本文件 •标准数据接口
•面向业务流程 其他 •3NF
Teradata电信业cLDM
ADVERTISEMENT (广告)
第1章数据仓库的概念与体系结构
2020/11/26
数据仓库与数据挖掘
2
背景2
基于web的应用越来越普及,各种网站积累了大量的 点击流数据
访问者的访问时间、IP地址、经常访问的页面和内容、 在网页上停留的时间等;
客户的交易、付款、产品利润、查询等数据
数据仓库与数据挖掘
第1章 数据仓库的概 念与体系结构
2020/11/26
1
背景1
企业信息化程度越来越高,产生的历史数据越来越多 常用的数据处理方法:
将已失效的历史数据简单删除,减少磁盘空间占用 对历史数据通过介质进行备份后删除,可按需查看 建立一个数据仓库系统,对业务系统及其他档案系统中
技术元数据:DW设计和管理人员使用,包括:数据源信息、数 据转换的描述、DW内对象和数据结构的定义、数据清理和数据 更新时使用的规则;源数据到目的数据映射表、用户访问权限、 数据备份和导入、信息发布历史记录
业务元数据:从单位业务的角度描述DW的元数据,如业务主题 描述,即业务主题包含的数据、查询和报表等信息
✓ DW中数据应使用一致的命名规则、格式、 编码结构和相关特性来定义
2020/11/26
数据仓库与数据挖掘
6
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
✓ 操作型数据库中的数据通常实时更新
✓ DW中数据主要用于决策分析,对数据的操 作主要是数据查询和少量定期更新
14
1.3 数据仓库的技术、方法与产品
数据仓库技术是为了有效的把操作型数据集成到统一的环境中, 以提供决策性数据访问的各种技术和模型的总称。
大数据基础知识培训PPT课件
数据安全概念
确保数据在存储、传输和处理过程中的保密性、完整性和可用性。
隐私保护技术
如数据脱敏、加密、匿名化等,保护个人隐私和数据安全。
数据安全法规与标准
如GDPR、CCPA等,规定数据收集、处理和使用等方面的要求 和规范。
04
大数据处理技术
批处理技术
1 2
MapReduce编程模型 介绍MapReduce的基本原理、编程接口及运行 过程。
机器学习技术
机器学习基本概念
介绍机器学习的定义、分类及应用场景。
TensorFlow机器学习框架
阐述TensorFlow的基本原理、核心特性及其在机器学习中的应用。
Scikit-learn机器学习库
讲解Scikit-learn的核心概念、常用算法及实践技巧,以及其在机器学习领域的应用案例。
05
大数据应用实践
数据挖掘与分析工具
Mahout
基于Hadoop的机器学习库,提 供数据挖掘和数据分析算法。
MLlib
Spark的机器学习库,包含常用 的机器学习算法和实用程序。
Tableau
可视化数据分析工具,支持多种 数据源和拖拽式操作界面,方便 用户进行数据分析和挖掘。
Power BI
商业智能工具,提供数据可视化、 报表制作和数据分析功能,可与
Flink流处理框架
讲解Flink的核心概念、编程模型及优化技术,以及其在流处理领 域的应用案例。
图计算技术
图计算基本概念
介绍图计算的定义、应用场景及挑战。
Pregel图计算模型
阐述Pregel的基本原理、编程接口及运行过程。
Giraph图计算框架
讲解Giraph的核心概念、编程模型及优化技术,以及其在图计算 领域的应用案例。
数据仓库的概念与体系结构
数据仓库的概念与体系结构概念数据仓库是指集成了企业各个部门内部数据源以及外部数据源,并将这些数据进行整合、加工、清洗、归类后,存储到一个专门的数据库中,以支持企业数据决策分析的一种技术体系。
它是一个面向主题的、集成的、可变的、非易失的数据集合,支持企业决策制定者进行分析与决策。
数据仓库是将企业海量的数据以主题为维度进行归纳与整合,清洗过后的结构化数据,不仅包括内部的数据源,还可以包含外部数据源的合并,以便于管理与分析。
相对于传统的数据库,数据仓库更加注重主题分析和决策支持。
它以可视化、图表化的方式展示数据,帮助企业进行全面、深入的分析。
体系结构数据仓库的体系结构分为三层,分别是数据采集层、数据仓库层和数据应用层。
数据采集层数据采集层主要负责收集数据,并将数据送至数据仓库层进行处理和存储。
数据采集层对数据进行抽取、转换、加载等一系列预处理操作,以确保数据的质量和可靠性。
常用的数据采集技术包括ETL(抽取、转换、加载)、CDC(变更数据捕获)等。
数据仓库层数据仓库层是数据仓库体系结构中的核心层,主要用于存储、管理和加工数据。
数据仓库层主要由数据存储和数据管理两部分组成。
数据存储部分用于存储各种类型的数据,包括企业内部数据、外部数据和第三方数据。
数据管理部分则用于管理数据仓库中的数据,包括数据的分区、索引、备份等操作。
常见的数据仓库管理系统有Oracle、Teradata、Greenplum等。
数据应用层数据应用层主要用于支持企业的数据决策分析。
该层包括各种类型的分析工具和应用程序,如智能报表、数据挖掘、机器学习、数据可视化等,可以帮助企业进行复杂的数据分析和有效的决策制定。
常见的BI工具有PowerBI、Tableau、SAS、Cognos等。
数据仓库是一种用于支持企业数据决策分析的技术体系,是由数据采集层、数据仓库层、数据应用层三个主要部分组成的。
其中数据采集层负责数据的收集和处理,数据仓库层用于存储和管理数据,数据应用层则是为企业提供分析和决策支持的关键层。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用集市层 •面向应用的个性化定制。
汇总层
机构汇总
预连接/预处理 产品汇总
渠道汇总 客户汇总
账户汇总
交易统计汇总
汇总层 •提供统一的业务口径。 •避免集市的重复加工。 •随着应用建设逐步完善 •模型相对稳定,随着业务扩展可以扩展 模型; •随着业务统计口径变化,ETL加工逻辑 会变化; 基础层 •面向主题整合;保留详细数据和历史数 据 •按照业务驱动、逐步建设 •模型相对稳定;但是随着源系统和数据 业务标准的变化,ETL加工逻辑会长期 变化 ODS层 •解决源系统快速接入的问题;避免从源 系统频繁、重复数据抽取; •源系统一次性分析、一次性抽取、一次 性接入; •需要随着源系统变更进行维护 8
EDW: •一般最长在线保存7年。 •事件类数据在线保留时间会短 一些,13个月左右。
数据存储 数据应用
EDW 特点 面向主题的 集成的 稳定的 随时间变化的 详细的
ODS: •时效性要求高的 •不需要需历史数据 •需要访问最始数据(审计、稽核 类)的应用 EDW: •模型区时效性可以满足要求的 •需要访问历史数据的 •基于多个系统整合数据的 •不是必须访问原始数据的应用
前端软件(BIEE、Congnus、BO、Microstrategy)
管 控 平 台 缓 冲 层
DB(TD、DB2、Oracle)
模 型 层
汇 总 层
、调 度 软 件 ( )
Control-M Automation ETL_PLUS
集 市 层
、
ETL软件
Datastage
Powercenter
文本脚本
缓 冲 层 模 型 层 汇 总 层 集 市 层
、
ETL软件
Datastage
Powercenter
文本脚本
SASB
文思信息 版权所有,内部保密材料
YHT
CMS
PMS
。。。
6
数据仓库体系规划
从数据体系、技术体系、应用体系、运维体系和管控体系五个方面阐述 数据仓库规划。 数据体系
组 织 架 构 组 管 织 控 流 架 程 构 管 控 内 容 数据架构· ODS·基础层·汇总层·集市层
技术体系
统一交换·统一监控·统一调度·统一发布·统一管控
管 管 控 控 体 体 系 系
· ·
应用体系
应用主题·应用模式·应用方案·实施规划
运维体系
数据存储·数据质量·元数据·安全
文思信息 版权所有,内部保密材料
21
国内银行商业智能应用
支持国内银行的数据仓库应用种类超过40余个,主要分布如下
客户信息管理系统(CIM) 分析型客户关系管理系统(ACRM) 操作型客户关系管理(OCRM ) 平衡计分卡 经营指标快报(KPI Dashboard) 个人积分计算 客户贡献度计算/模型 客户流失概率模型 业务统计分析 信用卡分析 渠道分析、中间业务分析 定价系统 客户违约概率模型 信用卡申请评分模型
2
1
审计/风险管理等需要未经加工的 业务原始数据
源数据质量检查规则、常规报告
……
文思信息 版权所有,内部保密材料
9
ODS & EDW 特点比较
• • • • •
ODS : •与源系统保持一致 •基本不进行转换和整合 •当前最新数据
EDW: •第三范式模型 •进行数据整合和转换 •当前数据和历史数据
分析人员
挖掘模型
用途:提供解决那些无法预先定义的查询分析需求以及查找问题时的详细钻取。 场景: “客户交易金额和笔数分布发生变化”的详细分析,比如“哪些客户的哪些交 易有了变化,是交易种类、金额、笔数还是交易场所?这些客户的特征是怎样的?他 们在我行持有的产品分布如何?”
用途:数据挖掘通过模式识别与数学模型技术从数据仓库中的大量明细数据中发现隐 藏的模式与趋势。 场景: 经过随机分析发现那些属于“交易金额和笔数分布发生变化”的客户群中发现 部分客户最近有销户或者已经很长时间不发生往来的倾向,因此需要利用“客户流失 模型”进行评分,结合“客户等级”确定需要进行挽留的客户名单。
捕捉动态事件
操作智能是决策智能向业务系统和流程的延伸。
文思信息 版权所有,内部保密材料
23
业务需求/分析和应用模式的关系
OLAP/固定报表 用途:提供日常业务管理统计,辅助发现业务发展趋势。 场景:客户分布发生变化或者某项业务趋势呈现异常,转而使用其他分析手段,以 “客户交易金额和笔数分布发生变化”为例。 随机查询
固定报表 即席查询 数据挖掘
页面调用功能 分析型应用集成
应用 集成
统一信息 发布内容
权限 管理
认证管 理
角色管理 授权管理
文思信息 版权所有,内部保密材料
用户身份管理 统一认证 单点登录 安全审计
19
统一数据管控架构
综合信息服务管理
数 据 标 准 需 求
数据标 准信息 模型
数据标 准文档
代码标 准落地
源系统 源系统 源系统 ETL Stage
数据平台
数据服务
数据服务
FDM
ADM
数据服务
应用系统
20
文思信息 版权所有,内部保密材料
数据仓库体系规划
从数据体系、技术体系、应用体系、运维体系和管控体系五个方面阐述 数据仓库规划。 数据体系
组 织 架 构 组 管 织 控 流 架 程 构 管 控 内 容 数据架构· ODS·基础层·汇总层·集市层
• • • • •
文思信息 版权所有,内部保密材料
ODS & EDW价值和定位
业务处理系统 (OLTP)
用户群体 • 客户 • 员工 应用 • 交易处理 • 帐务处理 访问特征 • 频繁的更新 • 偶尔的查询 数据模型 • 当前状态数据 • 很少的历史数据 • 范围比较小
战术性查询 (ODS)
用户群体 • 一线的业务人员 • 客户 应用 • 业务领域查询 • 战术性决策支持 • 简单的分析(评分) 访问特征 • 当前数据访问 • 查询较多 优劣势对比 • 满足实时监控和实时业 务需求 • 不能满足中远期决策需 求
战略性分析 (EDW)
用户群 • 管理人员 • 高层领导 应用 • 战略性分析 • 复杂的查询和报表 • 预测 访问特征 • 批量插入-很少的更新 • 频繁的复杂查询 优劣势对比 • 解决企业的决策需求 • 不能满足实时监控和实 时业务需求
任务的连续性
OLTP 1 OLTP 2 OLTP 3
ODS
EDW
Advance Your Potential
数据仓库体系培训
咨询 ·解决方案
1
主题
数据仓库体系规划 数据仓库实施方法论
Q&A
文思信息 版权所有,内部保密材料
2
数据仓库规划步骤
指导方针
• • • 承前启后:着重考虑对前期工作的承接和规划成果的落地实施 敦本务实:实施公司、同业经验与银行实际相结合 远近兼顾:立足长远与满足当前需求相结合
提供检 核问题
检核规则
指标模型
数 据 质 量 需 求 元 数 据 需 求 银 行 业 务 需 求
数据标准管理
提供检 核规则 数据标 准存储 提供检 核对象
数据质量管理
定位检 核问题 检核指 标存储
影响分析、血缘分析 元数 据
提供映 射源
元数 据
操作元数据
元数 据
元 数 据 管 理 技术元数据
业务元数据
基础层
客户
账户
资产
交易
产品
渠道
财务
ODS
核心
文信息 版权所有,内部保密材料
个贷
法贷
基金
存管
国结
不同层次应用场景
4
应用用户、决策用户会访问特定应 用 ……
3
业务人员通过设定业务检查规则来 明确模型可用性
业务部门人员多数需要常规报表供 日常呈报 …… 业务人员参考整合规则来验证业务 正确性 POWER USER通常需要访问第二层对 数据进行深入分析 ……
数据质量管理 元数据管理(Metadata)
数据访问安全管理
22
文思信息 版权所有,内部保密材料
常见的应用模式及其演变发展
操作智能
ACTIVATING MAKE it happen! 使用于操作 什么正在发生
决策智能
预测 什么将会发生 事件营销
分析 为什么会发生
报表 发生什么事情 数据挖掘模型 随机查询, BI Tools 预定义报表
ODS 特点 面向数据的 非集成的 易变的 当前数据的 详细的
ODS: •全部源系统 •不重复保存已经入EDW的Event类 数据 EDW: •全部源系统的原始细节数据,不接 入派生和汇总数据。
数据模型 数据接入
ODS: •状态类数据保存当前最新数据 •日志类数据保存3个月 • 针对及其特殊的需要可以考虑 对数据保留一定时间段的历史
前端软件
管 控 平 台
DM 信用卡 集市 DM 信贷集 市 DM 风险管 理集市 DM 。。。
、调 度 软 件 ( )
Control-M Automation ETL_PLUS
、
ETL软件
ETL软件
ETL软件
ETL软件
SASB
文思信息 版权所有,内部保密材料
YHT
CMS
PMS
。。。
4
数据仓库典型体系架构(集中型-EDW)
文思信息 版权所有,内部保密材料
ODS层模型
• 简单处理 • 不考虑整合 • 考虑保留策略
• 偏源系统模型 • 部分数据保留全量 • 少量数据保留短暂历 史
文思信息 版权所有,内部保密材料