数据仓库实施步骤与关键成功因素
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 主要实体和它们的关系 (Major Entities and Their Relationships)
逻辑数据模型 ( LDM - Logical Data Model )
• 业务模型加(CDM Plus) : • 所有的表及简单的数据(All Tables with Sample Data) • 辅助的表及简单的数据( Minor Tables with Sample Data ) • 主键与外键的关系( PK & FK Relationships ) • 数据约束( Constraints ) • 属性( Attributes )
扩展逻辑数据模型 (ELDM - Extended Logical Data Model )
• 逻辑数据模型加(LDM Plus) : • 存取详细描述(Access Demographics) • 数据详细描述(Data Demographics)
物理数据模型 ( PDM - PLeabharlann Baiduysical Data Model )
Income>$40K
Yes
NO
Debt<10% of Income
Yes
NO
Debt=0%
NO
Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
Teradata
Database
Data Mining & OLAP Assists
SQL
项目管理
18
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
3/16/2002
2.8 前端应用开发
主要任务:
• 前端应用体系结构设计 • OLAP应用设计(Summary/Fact表及Cub的产生) • 前端应用开发(随机查询、预定义报表、 OLAP应用) • 撰写用户使用手册 • 用户测试验收
交付项目:
➢ 《项目组织机构》 ➢ 《项目人员组成》
3/16/2002
4
2.2 业务探索(Business Discovery)
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
主要任务:
– 确定重点用户与数据源 – 用户需求调研与确认 – 数据源确认 – 用户需求和数据源的筛选和分析
交付项目:
➢ 《业务需求说明书BRL ( Business Requirement List )》 ➢ 《概念数据模型CDM ( Conceptual Data Model )》
数据仓库实施步骤与关键成功因素
一、数据仓库实施方法论
规划
现成解决方案规划
业务 探索
数 据 仓
?库
策 略 开 发
业务 探索
修改
验证 逻辑
解决 数据
方案 模型
解解
详决 决
细方 方
数案 案
据准 实
分备 施
析就 建
解决 方案 定义
逻辑 数据 模型 设计
绪议
定制解决方案规划
3/16/2002
设计与实现
支持与增强
• 扩张逻辑数据模型(ELDM Plus): • 索引 (Indices) • 非正则化 (Denormalization)
13
2.6 非正则化处理 ( Denormalization )
非正则化的两种类型: ❖ 物理非正则化
• 派生数据 (Derived Data) • 汇总表 (Summary Tables) • 重复的Groups ( Repeating Groups) • 多物理表 (Multiple Physical Tables) • 预连接 (Pre-joins) • 子实体 (Sub-entities)
使用工具:
• Teradata Metadata Service
Bad Credit Risks
Good Credit Risks
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
3/16/2002
6
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
2.4 逻辑数据模型设计
主要任务:
– 进行原始数据分析 – 建立实体模型 – 建立实体间依赖关系 – 完善并填入所有属性 – 建立数据库逻辑模型
利用工具:
➢ ERWin
交付项目:
➢ 数据仓库逻辑数据模型LDM ➢ 《逻辑数据模型说明书》
3/16/2002
7
2.4 逻辑数据模型概念
逻辑数据模型是用来发现、记录和沟通业务的详细“蓝图”
发现 实体
发现 属性
1. 业务规则 2. ER图 3. ERA建模
发现 关系
▪ 基于概念数据模型(CDM) ▪ 由一系列表和实体详细描述组成 ▪ 通用的业务语言 ▪ 便于业务与业务之间的功能理解 ▪ 集成当前和未来数据的蓝图 ▪ 独立于技术 ▪ 为物理数据库设计作准备 ▪ 是IT人员和业务人员沟通的工具
19
2.9 数据挖掘服务
1. 知识发现 (Knowledge Discovery): 发现将数据转变成信息的潜在模式
数据
知识
信息
决策 与行动
2. 知识应用(Knowledge Deployment): 将发现的知识应用于某种目标,例如进行预测
3/16/2002
20
2.9 数据挖掘方法
TeraMiner
❖ 逻辑非正则化
• 视图 (Views) • 逻辑星型结构 (Logical Star Schemas)
物理非正则化对模型的灵活性会有影响 逻辑非正则化是一个优选的方法(OLAP实现)
3/16/2002
14
2.6 物理数据模型(PDM)
3/16/2002
15
2.7 数据转换与加载(ETL)
物理数据 模型
物理数据库
设计 解
决 方 案 体 系 结
数据转换 元 解
数决
据方
应用开发
管案 理集
成
数 据 仓 库 评
构
设
数据挖掘
估
计
服务
数据仓库管理 (处理流程与操作)
解决方案支持
应用增强
逻辑数据 模型回顾 物理数据 库回顾
性能调整
容量规划
数据仓库的循环过程 2
二、项目具体实施步骤
物理数据模型
业务探索
系
元解
项 目
逻辑数据模型 元数据 数据质量 命名规范
▪ 数据采集与转换 ▪ 用户存取及工具 ▪ 备份系统 ▪ 操作管理
11
2.6 物理数据库设计
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
• 转换逻辑数据模型(LDM)为物理数据模型 • 定义主索引、次索引 • 非正则化处理(denormalizations) • 数据库建立 • 设计优化 • 数据库功能测试
统 体
数据转换
数决 据方
前 期 准
信息探索
系 结 构
应用开发
管案 理集
成
备
设
逻辑数据
计
数据挖掘 服务
模型
数据仓库管理
项目具体实施步骤
1. 项目前期准备 2. 业务探索(Business Discovery) 3. 信息探索(Information Discovery) 4. 逻辑数据模型设计 5. 系统体系结构设计 6. 物理数据库设计 7. 数据转换加载ETL 8. 前端应用开发 9. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
3/16/2002
使用工具:
• ERWwin
交付项目:
➢ 物理数据模型(LDM) ➢ 《物理数据模型说明书》 ➢ 《数据库描述语言DDL》
建模方法:
• 第三范式 3NF • 星型结构 • 雪花状结构
3/16/2002
12
3/16/2002
2.6 数据模型的演变
概念数据模型( CDM – Conceptual Data Model )
SQL, C, Sh
2) 在加载服务器上进行
C, Sh
清洗(数据析取后、
加载前)
数据仓库
SQL
3) 在数据仓库里进行清
洗(数据加载后)
3/16/2002
17
3/16/2002
2.7 数据转换常用手段
▪ 析取 Extracting ▪ 条件 Conditioning ▪ 剔除 Scrubbing ▪ 合并 Merging ▪ 浓缩 Enrichment ▪ 确认 Validating ▪ 加载 Loading ▪ 评分 Scoring ▪ 家庭关系识别 Householding
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
• 数据源及其特性定义 • 数据析取、转换和加载策略设计 • 构建和测试初始加载的程序和处理流程 • 构建和测试日常加载的程序和处理流程 • 40%的工作量在数据转换与加载上
使用工具:
• Teradata Builder、C、Shell、Perl
22
2.10 元数据管理
元数据(Metadata) 是指关于数据的数据,即用来描述数据的类型、 来源、定义、存储位置,使得业务用户可以正确地使用数据仓库。
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
• 定义元数据使用功能 • 设计元数据环境逻辑结构 • 设计元数据环境物理结构 • 选择合适的元数据管理工具 • 建立元数据仓库(Metadata Repository) • 建立和测试元数据接口
2. 定义业务驱动力 3. 定义数据仓库成功的关键因素 4. 定义数据仓库的实施原则 5. 对系统体系结构各个组件进行详细设计
交付项目:
➢ 《系统体系结构设计说明书》
3/16/2002
10
3/16/2002
2.5 体系结构设计组件
▪ 用户类型 ▪ 拓扑结构 ▪ 网络存取与互连 ▪ 组织机构 ▪ 安全性 ▪ 数据体系结构
3/16/2002
5
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
2.3 信息探索(Information Discovery)
主要任务:
– 分析用户需求 – 数据源分析 – 进行工具评估 – 系统安全性设计 – 系统命名规范设计
交付项目:
➢ 《功能需求列表FRL ( Function Requirement List )》 ➢ 《系统安全性设计说明书》 ➢ 《系统命名规范说明书》 ➢ 《数据质量分析》
3/16/2002
8
2.4 逻辑数据模型(LDM)示例
3/16/2002
9
2.5 系统体系结构设计
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
1. 对业务、技术环境及企业文化的充分了解,从 技术、组织、教育和支持等方面对系统进行全 面评估
3/16/2002
3
2.1 项目前期准备
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
主要任务:
– 项目启动会议(Kick-off Meeting) – 确认项目范围和主要目标 – 确认项目阶段性验收及总体验收标准 – 确认项目实施计划 – 成立项目组 – 确定各项目小组的成员及各自的工作职责 – 确定各项目小组的阶段性工作目标 – 确定教育训练计划 – 确定服务流程及方式
业务理解 体系结构 和
技术准备
数据理解 和
数据准备
分析建模 知识应用 和
模型评估
知识转移
3/16/2002
21
2.9 数据挖掘常用算法及应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
交付项目:
➢ 《 数据转换加载设计说明书》 ➢ 《数据映射 (Data Mapping)说明书 》 ➢ 数据转换加载脚本 ( ETL Scripts) ➢ 加载流程控制( ETL Process Control)
3/16/2002
16
2.7 数据清洗方法
源系统 ETL服务器
1) 在源系统上进行清洗 (数据析取前)
使用工具:
• 查询报表工具 • OLAP工具(Brio,Cognos,MicroStrategy…) • 基于Web的开发工具(InterDev,ColdFusion…) • 其他开发工具,如: Portal
交付项目:
➢ 《前端应用体系结构设计说明书》 ➢ 《应用模块设计说明书 》 ➢ 《用户使用手册 》
逻辑数据模型 ( LDM - Logical Data Model )
• 业务模型加(CDM Plus) : • 所有的表及简单的数据(All Tables with Sample Data) • 辅助的表及简单的数据( Minor Tables with Sample Data ) • 主键与外键的关系( PK & FK Relationships ) • 数据约束( Constraints ) • 属性( Attributes )
扩展逻辑数据模型 (ELDM - Extended Logical Data Model )
• 逻辑数据模型加(LDM Plus) : • 存取详细描述(Access Demographics) • 数据详细描述(Data Demographics)
物理数据模型 ( PDM - PLeabharlann Baiduysical Data Model )
Income>$40K
Yes
NO
Debt<10% of Income
Yes
NO
Debt=0%
NO
Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
Teradata
Database
Data Mining & OLAP Assists
SQL
项目管理
18
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
3/16/2002
2.8 前端应用开发
主要任务:
• 前端应用体系结构设计 • OLAP应用设计(Summary/Fact表及Cub的产生) • 前端应用开发(随机查询、预定义报表、 OLAP应用) • 撰写用户使用手册 • 用户测试验收
交付项目:
➢ 《项目组织机构》 ➢ 《项目人员组成》
3/16/2002
4
2.2 业务探索(Business Discovery)
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
主要任务:
– 确定重点用户与数据源 – 用户需求调研与确认 – 数据源确认 – 用户需求和数据源的筛选和分析
交付项目:
➢ 《业务需求说明书BRL ( Business Requirement List )》 ➢ 《概念数据模型CDM ( Conceptual Data Model )》
数据仓库实施步骤与关键成功因素
一、数据仓库实施方法论
规划
现成解决方案规划
业务 探索
数 据 仓
?库
策 略 开 发
业务 探索
修改
验证 逻辑
解决 数据
方案 模型
解解
详决 决
细方 方
数案 案
据准 实
分备 施
析就 建
解决 方案 定义
逻辑 数据 模型 设计
绪议
定制解决方案规划
3/16/2002
设计与实现
支持与增强
• 扩张逻辑数据模型(ELDM Plus): • 索引 (Indices) • 非正则化 (Denormalization)
13
2.6 非正则化处理 ( Denormalization )
非正则化的两种类型: ❖ 物理非正则化
• 派生数据 (Derived Data) • 汇总表 (Summary Tables) • 重复的Groups ( Repeating Groups) • 多物理表 (Multiple Physical Tables) • 预连接 (Pre-joins) • 子实体 (Sub-entities)
使用工具:
• Teradata Metadata Service
Bad Credit Risks
Good Credit Risks
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
3/16/2002
6
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
2.4 逻辑数据模型设计
主要任务:
– 进行原始数据分析 – 建立实体模型 – 建立实体间依赖关系 – 完善并填入所有属性 – 建立数据库逻辑模型
利用工具:
➢ ERWin
交付项目:
➢ 数据仓库逻辑数据模型LDM ➢ 《逻辑数据模型说明书》
3/16/2002
7
2.4 逻辑数据模型概念
逻辑数据模型是用来发现、记录和沟通业务的详细“蓝图”
发现 实体
发现 属性
1. 业务规则 2. ER图 3. ERA建模
发现 关系
▪ 基于概念数据模型(CDM) ▪ 由一系列表和实体详细描述组成 ▪ 通用的业务语言 ▪ 便于业务与业务之间的功能理解 ▪ 集成当前和未来数据的蓝图 ▪ 独立于技术 ▪ 为物理数据库设计作准备 ▪ 是IT人员和业务人员沟通的工具
19
2.9 数据挖掘服务
1. 知识发现 (Knowledge Discovery): 发现将数据转变成信息的潜在模式
数据
知识
信息
决策 与行动
2. 知识应用(Knowledge Deployment): 将发现的知识应用于某种目标,例如进行预测
3/16/2002
20
2.9 数据挖掘方法
TeraMiner
❖ 逻辑非正则化
• 视图 (Views) • 逻辑星型结构 (Logical Star Schemas)
物理非正则化对模型的灵活性会有影响 逻辑非正则化是一个优选的方法(OLAP实现)
3/16/2002
14
2.6 物理数据模型(PDM)
3/16/2002
15
2.7 数据转换与加载(ETL)
物理数据 模型
物理数据库
设计 解
决 方 案 体 系 结
数据转换 元 解
数决
据方
应用开发
管案 理集
成
数 据 仓 库 评
构
设
数据挖掘
估
计
服务
数据仓库管理 (处理流程与操作)
解决方案支持
应用增强
逻辑数据 模型回顾 物理数据 库回顾
性能调整
容量规划
数据仓库的循环过程 2
二、项目具体实施步骤
物理数据模型
业务探索
系
元解
项 目
逻辑数据模型 元数据 数据质量 命名规范
▪ 数据采集与转换 ▪ 用户存取及工具 ▪ 备份系统 ▪ 操作管理
11
2.6 物理数据库设计
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
• 转换逻辑数据模型(LDM)为物理数据模型 • 定义主索引、次索引 • 非正则化处理(denormalizations) • 数据库建立 • 设计优化 • 数据库功能测试
统 体
数据转换
数决 据方
前 期 准
信息探索
系 结 构
应用开发
管案 理集
成
备
设
逻辑数据
计
数据挖掘 服务
模型
数据仓库管理
项目具体实施步骤
1. 项目前期准备 2. 业务探索(Business Discovery) 3. 信息探索(Information Discovery) 4. 逻辑数据模型设计 5. 系统体系结构设计 6. 物理数据库设计 7. 数据转换加载ETL 8. 前端应用开发 9. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
3/16/2002
使用工具:
• ERWwin
交付项目:
➢ 物理数据模型(LDM) ➢ 《物理数据模型说明书》 ➢ 《数据库描述语言DDL》
建模方法:
• 第三范式 3NF • 星型结构 • 雪花状结构
3/16/2002
12
3/16/2002
2.6 数据模型的演变
概念数据模型( CDM – Conceptual Data Model )
SQL, C, Sh
2) 在加载服务器上进行
C, Sh
清洗(数据析取后、
加载前)
数据仓库
SQL
3) 在数据仓库里进行清
洗(数据加载后)
3/16/2002
17
3/16/2002
2.7 数据转换常用手段
▪ 析取 Extracting ▪ 条件 Conditioning ▪ 剔除 Scrubbing ▪ 合并 Merging ▪ 浓缩 Enrichment ▪ 确认 Validating ▪ 加载 Loading ▪ 评分 Scoring ▪ 家庭关系识别 Householding
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
• 数据源及其特性定义 • 数据析取、转换和加载策略设计 • 构建和测试初始加载的程序和处理流程 • 构建和测试日常加载的程序和处理流程 • 40%的工作量在数据转换与加载上
使用工具:
• Teradata Builder、C、Shell、Perl
22
2.10 元数据管理
元数据(Metadata) 是指关于数据的数据,即用来描述数据的类型、 来源、定义、存储位置,使得业务用户可以正确地使用数据仓库。
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
• 定义元数据使用功能 • 设计元数据环境逻辑结构 • 设计元数据环境物理结构 • 选择合适的元数据管理工具 • 建立元数据仓库(Metadata Repository) • 建立和测试元数据接口
2. 定义业务驱动力 3. 定义数据仓库成功的关键因素 4. 定义数据仓库的实施原则 5. 对系统体系结构各个组件进行详细设计
交付项目:
➢ 《系统体系结构设计说明书》
3/16/2002
10
3/16/2002
2.5 体系结构设计组件
▪ 用户类型 ▪ 拓扑结构 ▪ 网络存取与互连 ▪ 组织机构 ▪ 安全性 ▪ 数据体系结构
3/16/2002
5
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
2.3 信息探索(Information Discovery)
主要任务:
– 分析用户需求 – 数据源分析 – 进行工具评估 – 系统安全性设计 – 系统命名规范设计
交付项目:
➢ 《功能需求列表FRL ( Function Requirement List )》 ➢ 《系统安全性设计说明书》 ➢ 《系统命名规范说明书》 ➢ 《数据质量分析》
3/16/2002
8
2.4 逻辑数据模型(LDM)示例
3/16/2002
9
2.5 系统体系结构设计
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数
决
据方
应用开发 管
案
理集
数据挖掘
成
设
服务
计 数据仓库管理
主要任务:
1. 对业务、技术环境及企业文化的充分了解,从 技术、组织、教育和支持等方面对系统进行全 面评估
3/16/2002
3
2.1 项目前期准备
业务探索
项
目
前
信息探索
期
准
备
逻辑数据
模型
主要任务:
– 项目启动会议(Kick-off Meeting) – 确认项目范围和主要目标 – 确认项目阶段性验收及总体验收标准 – 确认项目实施计划 – 成立项目组 – 确定各项目小组的成员及各自的工作职责 – 确定各项目小组的阶段性工作目标 – 确定教育训练计划 – 确定服务流程及方式
业务理解 体系结构 和
技术准备
数据理解 和
数据准备
分析建模 知识应用 和
模型评估
知识转移
3/16/2002
21
2.9 数据挖掘常用算法及应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
交付项目:
➢ 《 数据转换加载设计说明书》 ➢ 《数据映射 (Data Mapping)说明书 》 ➢ 数据转换加载脚本 ( ETL Scripts) ➢ 加载流程控制( ETL Process Control)
3/16/2002
16
2.7 数据清洗方法
源系统 ETL服务器
1) 在源系统上进行清洗 (数据析取前)
使用工具:
• 查询报表工具 • OLAP工具(Brio,Cognos,MicroStrategy…) • 基于Web的开发工具(InterDev,ColdFusion…) • 其他开发工具,如: Portal
交付项目:
➢ 《前端应用体系结构设计说明书》 ➢ 《应用模块设计说明书 》 ➢ 《用户使用手册 》