003 数据仓库专题讲座—数据仓库概论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时长-秒
多重信息源
应用A 应用B 应用C 应用D 应用A 应用B 应用C 应用D
描述 描述 描述 描述
描述
冲突的格式
char(10) date varchar(18) string(10)
char(10)
非易失性
操作型环境
插入 修改 访问 删除 删除 插入 修改 载入 访问
数据仓库
几乎不可更新 载入/访问 清理仓库数据:转移、综合 数据仓库中的休眠数据和脏数据
知识发现 数据挖掘
信息访问、应用 业务用户
来源:The Data warehouse Institute
能力 知识 分析师 工作者
主管/ 经理
客户 接触
应用 服务
业务¥技术、咨询和培训服务
支撑基础
中间件
数据仓库架构的组件
数据采集和处理
数据访问和使用
抽取、清洗、转换、加载
查询、报表、分析、挖掘
来源:By Wayne Eckerson ,Smart
另一种定义
数据仓库是一个过程而不是一个产品 将来自于不同源的数据进行整合(Assemble)和管理 (Manage)以回答(Answer)以前无法回答的或未知的 商业问题
数据仓库化是一个复杂的概念和复杂的过程 通过数据仓库体系... 描述一个完整环境的详细蓝图 举例说明源和结果之间的关系 提供组织各层之间信息沟通的基础
体系化数据仓库
数据 数据库 运行 网络 应用 分析师 管理员 管理人员 管理员 开发员
源数据 数据转换 企业数据仓库 复制和发布 数据集市
单一的事实视图 企业视图
元数据、逻辑数据模型、物理数据库设计、数据字典
整合 Assemble
管理 Manage 回答 Answer
IT用户
网络管理、系统管理、wenku.baidu.com据库管理
灵活-能被处理的足够 小的数据量 小数据量
粒度的权衡是首要的,大多数组织的最佳解决方 法就是采用多重粒度级的形式
数据层次结构
高度综合级 应用级 2000—2003
轻度综合级 元 数 据 管 理 当前细节级
周/月级 2001—2003
清单级 2002—2003
操作型转换 早期细节级
清单级 2000—2001
Data Warehouse Middleware Physical Data base Design Data Dictionaries
Database Management
Systems Management
问题回顾
关键点
关于数据仓库的观点是否改变 在数据仓库的三个域哪个域对你来说最重要 所描述的框架是否和你的数据仓库蓝图相吻合
• 数据是一致的和可访问的
• 可以自由分开或组合以测量业务
• 有一系列查询、分析和展现的工具
将原始数据转换成信息的过程,使 用户能够: • 进行战术上的和战略上的决策 • 快速地准确决策 • 有效利用商机
面向主题性
客户
组织依据 商业问题、决策 主题设计 数据模型中已定义好 的公司的主要主题领 域 典型的主题领域 客户、产品、营销活 动、帐单、投诉、帐 目 主题表达 一组相关的表
目录
数据仓库商业价值 了解数据仓库对机构的意义与价值 企业面临的挑战 挑战分析:认识客户是关键 接受挑战:通过数据仓库实现业务和IT的双赢 数据仓库基础
数据仓库发展远景 企业如何使用数据仓库 数据仓库实施方法
行业面临的挑战
各个行业都面临着在竞争中发展的挑战
用你的数据仓库直接为企业赢 利 提供BI服务 将数据仓库开放给客户和 设备提供商 跨组织扩展和集成价值链 驱动新的市场商机 将你的新业务开发转移到数据 仓库上,数据仓库真正成为象 网络一样的企业运营基础设施 企业转型
目录
数据仓库商业价值 数据仓库基础
数据仓库发展远景 通过数据仓库的成熟度分析,认识数据仓库在企业中的演进过程,明确企业 建设数据仓库的定位和发展目标 基础架构 业务能力 企业利益 投资回报
企业如何使用数据仓库 数据仓库实施方法 数据仓库实施部署
数据仓库成熟度模型
可交互的数据查询能力 更快的查询性能 分散建设
义和规则
事实的统一视图 企业级数据模型 强健的数据转换 每种数据集市支持一种定 跨业务数据的可用性
事实的统一视图 企业级数据模型
没有事实的统一视图 有限的交叉应用能力 有限的数据细节
支持深层次的分析 过于集中
当用户和数据增长带
存量保持
? 我们企业的存量保持率是多少?
? 哪些客户将最有可能要离网?
交叉销售
? 哪些客户是额外销售的目标? ? 现有客户还存在多少新的商机? ? „„
信息挑战
企业每天产生大量的数据,这些数据都分散在企业的各处,挑战是如何获取这些数据, 并将这些数据提炼成有意义的一致的信息
客户信息
One-to-One 客户关系
价格增长
推荐新的客户
企业利率
维护成本降低带来的利率
使用收益的不断增长 基本收益保持不变
客户获取成本 0 1 2 3 4 Year
5
6
7
来源: Frederick Reichheld, “The Loyalty Effect”
你了解多少...
客户
? 哪些是我们的利益最大客户
? 哪些是我们的利益最小客户
全球化
激烈竞争 成本控制
个性化需求 定价问题 新的销售渠道
企业合并 信息可用性 增长的利率
企业面临的挑战
中国电信企业面临着转型和发展的挑战
新技术带来了商业规则和手段的变化,一些传统业务迅速消退 扩大市场份额 一个重要的挑战来自于客户的忠诚度 开发新产品去吸引新的客户
数据仓库价值
来源:By Wayne Eckerson ,Smart
Campanies in the 21st Century
小结
关键点
企业面临的挑战 挑战分析:认识客户是关键 接受挑战:通过数据仓库实现业务和 IT的双赢
目录
数据仓库商业价值 数据仓库基础 了解数据仓库的基本概念和架构,对数据仓库有一个全面的基本认识,形 成企业数据仓库的一个蓝图 数据仓库的业务理解:数据到信息到知识 数据仓库的体系化结构:如何支撑业务能力
阶段: 胎儿期 婴儿期 少儿期 青年期 成人期 成熟期
知识增强
过程监控
执行训练
信息告知
业务驱动
市场驱动
来源:By Wayne EckersonGauge Your Data Warehouse Maturity
基础结构的演变
快速、投资少 改善基本信息分析 很少或没有数据转换 操作性能问题 有限的复杂查询能力 有限的交叉应用分析 缺乏历史数据 缺乏统一视图
Campanies in the 21st Century
Metadata
Logical Data Model
Network Management
支撑基础
Business & Technology - Consultation & Education Services
中间件 数据组织和管理 元数据 逻辑/物理设计 数据字典 数据仓库管理 网络 数据仓库 系统管理 业务和技术支持 服务和方法论
——Bill Inmon
什么是数据仓库(Data Warehouse)
DATA DATA DATA
D A T A
DATA DATA
INFORMATION
DATA DATA DATA DATA DATA DATA
DATA
?
信
息
INFORMATION
信
息
DATA
数据仓库是: 面向主题的 集成化的 不可更新的 随时间变化的数据集合 用以支持管理决策的过程
数据仓库专题培训 之 数据仓库概论
缪翀莺 2005年9月
内容安排
数据仓库商业价值 了解数据仓库对机构的意义与价值,以更好地理解和认识数据仓库的价值 企业面临的挑战 挑战分析:认识客户是关键 接受挑战:通过数据仓库实现业务和IT的双赢 数据仓库基础 了解数据仓库的基本概念和架构,对数据仓库有一个全面的基本认识,形 成企业数据仓库的一个蓝图 数据仓库发展远景 通过数据仓库的成熟度分析,认识数据仓库在企业中的演进过程,明确企业 建设数据仓库的定位和发展目标 企业如何使用数据仓库 了解企业使用数据仓库的持续发展过程以及数据仓库对业务的支持 数据仓库实施方法 了解数据仓库的实施特点和存在的风险,把握数据仓库实施的关键
数据仓库的业务理解
企业范围内的用于决策和规划的数据 存储
数据存储的特征: 面向主题, 随 时间变化, 非易失, 集成的.
一个单一的集成的数据存储,提供 了企业的信息软件应用的基础平台
发布或组织企业数据的地方:
一个丰富的集成的环境, 可提供 :
在日益增长的竞争环境中 生存和发展的必须的信息 维护和增加企业数据价值 的新概念和工具 不同的用户所需要的不同 层次的信息
从大规模销售向针对性营销转变
需要了解、理解客户并提供优质服务给客户
精确化管理,上市企业内控管理
向综合信息服务提供转型 提高商业智能化
关键因素分析
企业面临的挑战的关键因素是客户
客户忠诚度
新技术
针对性营销
新产品
客户
提高市场份额
商业智能 优质服务
客户价值分析
一个忠诚的客户为企业带来的价值随着时间增长
“丰富的数据…贫乏的信息”
将数据变成企业资产
信息系统的挑战
业务用户
IT用户
事实的统一视图 跨业务的信息共享 将正确的信息交给你的 上级 信息的可用性 将信息作为竞争优势
不同的平台、形式、应用和数 据库技术 不一致的数据和定义 数据和信息管理 不断增长的数据分析和信息要 求 控制问题 业务需求的响应
其他基本概念
ETL ETL(Extract/Transformation/Load)—数据装载、转换、 抽取工具。Microsoft DTS; IBM Visual Warehouse etc. 元数据 关于数据的数据,用于构造、维持、管理、和使用数据仓库 ,在数据仓库中尤为重要。 分割 数据分散到各自的物理单元中去,它们能独立地处理。 基本技术要求 管理大量数据
客户活动细节 2002-2003 基本客户数据 2002-2003 客户活动汇总 2000-2003
基本客户数据 2000-2001
客户活动细节 2000-2001
集成性
操作型环境
应用A 应用B 应用C 应用D m,f 1,0 x,y 男,女
编码
数据仓库
m,f
属性度量
应用A 时长-秒 应用B 时长-分 应用C 时长-1/10分 应用D 时长-6秒
数据仓库解决方案
数据仓库支持的企业商业智能化过程 (闭环的自学习过程)
数据仓库化的过程
双赢模式
数据仓库为业务和IT带来双赢
IT 利益
提高 分析的速度 和 灵活性
提供 企业范围内 的数据整合和 访问的基础
业务利益
改进或 再造业务 过程
获得 客户行为 的清晰 理解
竞争优势基础 数据仓库化
数据仓库的商业价值
数据仓库发展远景 企业如何使用数据仓库
数据仓库实施方法
数据仓库实施部署要求
数据仓库是...
用自己的语言描述一下你认为数据仓库是什么
A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions. The data warehouse contains granular corporate data.
来沉重工作负载要求
全面的数据 强健的数据转换 跨业务数据的可用性 支持深层次的分析 负载均衡
数据仓库业务发展远景
信息告知 知识增强 过程监控 业务驱动 市场驱动
用你的数据仓库帮助了 解企业和客户,以支撑 企业的业务能力 针对性营销 通过数据仓库将数据转 换成信息,并在企业内 部共享 精确管理
随时间变化性
历史数据 与时间相关 数据仓库的键码结构总是包含某时间元素 数据记录触发 “时间-发生”型。
粒度
高细节级-低粒度级
低细节级-高粒度级
例如:一个用 户一个月的每 个电话的细节
例如:一个 用户一个月 的电话综合
粒度的选择
高细节级-低粒度级 低细节级-高粒度级
细节级-回答任何问题 大数据量