数据仓库实施步骤与关键成功因素

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 主要实体和它们的关系 (Major Entities and Their Relationships)
逻辑数据模型 ( LDM - Logical Data Model )
• 业务模型加(CDM Plus) : • 所有的表及简单的数据(All Tables with Sample Data) • 辅助的表及简单的数据( Minor Tables with Sample Data ) • 主键与外键的关系( PK & FK Relationships ) • 数据约束( Constraints ) • 属性( Attributes )
扩展逻辑数据模型 (ELDM - Extended Logical Data Model )
• 逻辑数据模型加(LDM Plus) : • 存取详细描述(Access Demographics) • 数据详细描述(Data Demographics)
物理数据模型 ( PDM - PLeabharlann Baiduysical Data Model )
Income>$40K
Yes
NO
Debt<10% of Income
Yes
NO
Debt=0%
NO
Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
Teradata
Database
Data Mining & OLAP Assists
SQL
项目管理
18
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数

据方
应用开发 管

理集
数据挖掘


服务
计 数据仓库管理
3/16/2002
2.8 前端应用开发
主要任务:
• 前端应用体系结构设计 • OLAP应用设计(Summary/Fact表及Cub的产生) • 前端应用开发(随机查询、预定义报表、 OLAP应用) • 撰写用户使用手册 • 用户测试验收
交付项目:
➢ 《项目组织机构》 ➢ 《项目人员组成》
3/16/2002
4
2.2 业务探索(Business Discovery)
业务探索



信息探索



逻辑数据
模型
主要任务:
– 确定重点用户与数据源 – 用户需求调研与确认 – 数据源确认 – 用户需求和数据源的筛选和分析
交付项目:
➢ 《业务需求说明书BRL ( Business Requirement List )》 ➢ 《概念数据模型CDM ( Conceptual Data Model )》
数据仓库实施步骤与关键成功因素
一、数据仓库实施方法论
规划
现成解决方案规划
业务 探索
数 据 仓
?库
策 略 开 发
业务 探索
修改
验证 逻辑
解决 数据
方案 模型
解解
详决 决
细方 方
数案 案
据准 实
分备 施
析就 建
解决 方案 定义
逻辑 数据 模型 设计
绪议
定制解决方案规划
3/16/2002
设计与实现
支持与增强
• 扩张逻辑数据模型(ELDM Plus): • 索引 (Indices) • 非正则化 (Denormalization)
13
2.6 非正则化处理 ( Denormalization )
非正则化的两种类型: ❖ 物理非正则化
• 派生数据 (Derived Data) • 汇总表 (Summary Tables) • 重复的Groups ( Repeating Groups) • 多物理表 (Multiple Physical Tables) • 预连接 (Pre-joins) • 子实体 (Sub-entities)
使用工具:
• Teradata Metadata Service
Bad Credit Risks
Good Credit Risks
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
3/16/2002
6
业务探索



信息探索



逻辑数据
模型
2.4 逻辑数据模型设计
主要任务:
– 进行原始数据分析 – 建立实体模型 – 建立实体间依赖关系 – 完善并填入所有属性 – 建立数据库逻辑模型
利用工具:
➢ ERWin
交付项目:
➢ 数据仓库逻辑数据模型LDM ➢ 《逻辑数据模型说明书》
3/16/2002
7
2.4 逻辑数据模型概念
逻辑数据模型是用来发现、记录和沟通业务的详细“蓝图”
发现 实体
发现 属性
1. 业务规则 2. ER图 3. ERA建模
发现 关系
▪ 基于概念数据模型(CDM) ▪ 由一系列表和实体详细描述组成 ▪ 通用的业务语言 ▪ 便于业务与业务之间的功能理解 ▪ 集成当前和未来数据的蓝图 ▪ 独立于技术 ▪ 为物理数据库设计作准备 ▪ 是IT人员和业务人员沟通的工具
19
2.9 数据挖掘服务
1. 知识发现 (Knowledge Discovery): 发现将数据转变成信息的潜在模式
数据
知识
信息
决策 与行动
2. 知识应用(Knowledge Deployment): 将发现的知识应用于某种目标,例如进行预测
3/16/2002
20
2.9 数据挖掘方法
TeraMiner
❖ 逻辑非正则化
• 视图 (Views) • 逻辑星型结构 (Logical Star Schemas)
物理非正则化对模型的灵活性会有影响 逻辑非正则化是一个优选的方法(OLAP实现)
3/16/2002
14
2.6 物理数据模型(PDM)
3/16/2002
15
2.7 数据转换与加载(ETL)
物理数据 模型
物理数据库
设计 解
决 方 案 体 系 结
数据转换 元 解
数决
据方
应用开发
管案 理集

数 据 仓 库 评


数据挖掘


服务
数据仓库管理 (处理流程与操作)
解决方案支持
应用增强
逻辑数据 模型回顾 物理数据 库回顾
性能调整
容量规划
数据仓库的循环过程 2
二、项目具体实施步骤
物理数据模型
业务探索

元解
项 目
逻辑数据模型 元数据 数据质量 命名规范
▪ 数据采集与转换 ▪ 用户存取及工具 ▪ 备份系统 ▪ 操作管理
11
2.6 物理数据库设计
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数

据方
应用开发 管

理集
数据挖掘


服务
计 数据仓库管理
主要任务:
• 转换逻辑数据模型(LDM)为物理数据模型 • 定义主索引、次索引 • 非正则化处理(denormalizations) • 数据库建立 • 设计优化 • 数据库功能测试
统 体
数据转换
数决 据方
前 期 准
信息探索
系 结 构
应用开发
管案 理集



逻辑数据

数据挖掘 服务
模型
数据仓库管理
项目具体实施步骤
1. 项目前期准备 2. 业务探索(Business Discovery) 3. 信息探索(Information Discovery) 4. 逻辑数据模型设计 5. 系统体系结构设计 6. 物理数据库设计 7. 数据转换加载ETL 8. 前端应用开发 9. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2
factor n
factor 1 factor 2
3/16/2002
使用工具:
• ERWwin
交付项目:
➢ 物理数据模型(LDM) ➢ 《物理数据模型说明书》 ➢ 《数据库描述语言DDL》
建模方法:
• 第三范式 3NF • 星型结构 • 雪花状结构
3/16/2002
12
3/16/2002
2.6 数据模型的演变
概念数据模型( CDM – Conceptual Data Model )
SQL, C, Sh
2) 在加载服务器上进行
C, Sh
清洗(数据析取后、
加载前)
数据仓库
SQL
3) 在数据仓库里进行清
洗(数据加载后)
3/16/2002
17
3/16/2002
2.7 数据转换常用手段
▪ 析取 Extracting ▪ 条件 Conditioning ▪ 剔除 Scrubbing ▪ 合并 Merging ▪ 浓缩 Enrichment ▪ 确认 Validating ▪ 加载 Loading ▪ 评分 Scoring ▪ 家庭关系识别 Householding
系 统 体 系 结 构
元解
数据转换 数

据方
应用开发 管

理集
数据挖掘


服务
计 数据仓库管理
主要任务:
• 数据源及其特性定义 • 数据析取、转换和加载策略设计 • 构建和测试初始加载的程序和处理流程 • 构建和测试日常加载的程序和处理流程 • 40%的工作量在数据转换与加载上
使用工具:
• Teradata Builder、C、Shell、Perl
22
2.10 元数据管理
元数据(Metadata) 是指关于数据的数据,即用来描述数据的类型、 来源、定义、存储位置,使得业务用户可以正确地使用数据仓库。
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数

据方
应用开发 管

理集
数据挖掘


服务
计 数据仓库管理
主要任务:
• 定义元数据使用功能 • 设计元数据环境逻辑结构 • 设计元数据环境物理结构 • 选择合适的元数据管理工具 • 建立元数据仓库(Metadata Repository) • 建立和测试元数据接口
2. 定义业务驱动力 3. 定义数据仓库成功的关键因素 4. 定义数据仓库的实施原则 5. 对系统体系结构各个组件进行详细设计
交付项目:
➢ 《系统体系结构设计说明书》
3/16/2002
10
3/16/2002
2.5 体系结构设计组件
▪ 用户类型 ▪ 拓扑结构 ▪ 网络存取与互连 ▪ 组织机构 ▪ 安全性 ▪ 数据体系结构
3/16/2002
5
业务探索



信息探索



逻辑数据
模型
2.3 信息探索(Information Discovery)
主要任务:
– 分析用户需求 – 数据源分析 – 进行工具评估 – 系统安全性设计 – 系统命名规范设计
交付项目:
➢ 《功能需求列表FRL ( Function Requirement List )》 ➢ 《系统安全性设计说明书》 ➢ 《系统命名规范说明书》 ➢ 《数据质量分析》
3/16/2002
8
2.4 逻辑数据模型(LDM)示例
3/16/2002
9
2.5 系统体系结构设计
物理数据 模型
系 统 体 系 结 构
元解
数据转换 数

据方
应用开发 管

理集
数据挖掘


服务
计 数据仓库管理
主要任务:
1. 对业务、技术环境及企业文化的充分了解,从 技术、组织、教育和支持等方面对系统进行全 面评估
3/16/2002
3
2.1 项目前期准备
业务探索



信息探索



逻辑数据
模型
主要任务:
– 项目启动会议(Kick-off Meeting) – 确认项目范围和主要目标 – 确认项目阶段性验收及总体验收标准 – 确认项目实施计划 – 成立项目组 – 确定各项目小组的成员及各自的工作职责 – 确定各项目小组的阶段性工作目标 – 确定教育训练计划 – 确定服务流程及方式
业务理解 体系结构 和
技术准备
数据理解 和
数据准备
分析建模 知识应用 和
模型评估
知识转移
3/16/2002
21
2.9 数据挖掘常用算法及应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
交付项目:
➢ 《 数据转换加载设计说明书》 ➢ 《数据映射 (Data Mapping)说明书 》 ➢ 数据转换加载脚本 ( ETL Scripts) ➢ 加载流程控制( ETL Process Control)
3/16/2002
16
2.7 数据清洗方法
源系统 ETL服务器
1) 在源系统上进行清洗 (数据析取前)
使用工具:
• 查询报表工具 • OLAP工具(Brio,Cognos,MicroStrategy…) • 基于Web的开发工具(InterDev,ColdFusion…) • 其他开发工具,如: Portal
交付项目:
➢ 《前端应用体系结构设计说明书》 ➢ 《应用模块设计说明书 》 ➢ 《用户使用手册 》
相关文档
最新文档