数据整合面对的挑战及其解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非侵入式捕获 + E-LT 处理
• • • •
消除数据延迟 减少数据转换时间 提高数据可靠性 通过异构平台支持提高灵活性
OTN DBA 圆桌会议
23
Oracle Data Quality (ODP/ODQ)
OTN DBA 圆桌会议
24
Oracle 的数据质量产品
适用于客户和产品数据的同类最佳解决方案
治理
• 定义数据度量标准 • 监视结果 • 量化问题区域 • 量化改进措施 • 将度量标准与业务影响 相关联 • 沟通结果 • 确定后续步骤的优先顺序
源
OTN DBA 圆桌会议
27
姓名常见错误和变化
变化或错误 顺序错误 抄写错误 姓名连在一起 昵称和别名 干扰因素 缩写 日期不准确 前缀/后缀错误 拼写和输入错误
6
我们需要实时信息
OTN DBA 圆桌会议
7
为何数据仓库需要实时数据?
实时 = 相关可操作性信息
提高洞察以制定运营决策
通过运营效率改善客户服务和节省成本
提高盈利能力、客户忠诚度和竞争优势
OTN DBA 圆桌会议
8
向实时数据仓库转化的动因
传统数据仓库
实时数据仓库
转型 ETL 原有应用程 序、打包应 用程序、 OLTP 数据库
单向查询分流 双向 主用/备用或 主动-主动,实现高可用性 对等 负载平衡、 多主
广播 数据分发
集成/整合 数据仓库
级联式 数据集市
OTN DBA 圆桌会议
21
针对数据仓库的实时更改数据
采用 Oracle GoldenGate 的同类最佳实时数据更改解决方案
传统 ETL + CDC
• • •
使用复杂的适配器在 OLTP 系统上 进行侵入式捕获 在昂贵的中间层服务器上通过 ETL 引擎进行转换 通过在晚上/白天进行大批处理,将 数据批量加载到数据仓库
28
数据质量问题示例
客户数据
匹配的记录
省/市/ 自治区 MA MA Nweton Newton … MA MA … … 邮政 编码 02106 02106 02106
非标准格式
电话 617 555 000 617555000 617-532-9550 617-536-5480 … mburkes@gmail.com 6175541329 … 电子邮件 bob.williams@yahoo.com
3
现代数据集成平台与实时数据仓库的 业务动因
需要持续、实时、可靠的信息 实时企业
持续的可用性 实现全天候全球运营
• 即使发生灾难时仍可持续运行 • 计划停电期间不会停机 • 针对集成的低影响数据捕获
实时数据 实现智能和操作
• 精确到秒的数据以便操作 • 访问及时信息以便进行分析 • 数据跨地区分布
可靠的信息
• 与其他系统一致 •高数据完整性
OTN DBA 圆桌会议
4
需要取消 ETL 批处理窗口
数据过多,但没有足够时间进行批处理
运营
可用
运营
OTN DBA 圆桌会议
5
实时运营 BI 实战
欺诈检测
网上促销优化
联系人优化
客户流失
基于位置的服务
供应链改善
OTN DBA 圆桌会议
无处不在的运营 BI。
OLTP 数据库源
可热插拔的架构 通过 Oracle GoldenGate 实现 基于日志的 CDC
OTN DBA 圆桌会议
13
高性能 传统:单独的 ETL 服务器
• 专用 ETL 引擎 • 性能低下 • 独立服务器成本高
独特优势:E-LT 架构
传统 ETL 架构
提取 转换 加载
Oracle:没有新服务器
OTN DBA 圆桌会议
17
Oracle GoldenGate (OGG)
OTN DBA 圆桌会议
18
Oracle GoldenGate 11g
低影响的实时数据集成和事务复制
零停机升级和迁移
消息总线
新应用程序/新操作系统/ 新数据库/新硬件
查询分流、灾难恢复
副本/备用
基于日志的、 更改的数据
数据库 分布式系统
双向
目标 Oracle 和非 Oracle 数据库
• • • •
跨异构系统的实时更改数据捕获、路由和交付 非侵入式、基于日志的更改数据捕获,将对基础架构的影响降至最低 跨地区的事务完整性和有保障的数据交付 双向复制并支持不同的复制拓扑结构
OTN DBA 圆桌会议
20
Oracle GoldenGate 拓扑结构
数据挖掘
新
• 只有与 Oracle 产品结合使用时 E-LT 才会快 20 倍
OTN DBA 圆桌会议
15
ODI 速度更快
每小时高达 7TB 的实际数据加载和复杂数据转换
ODI ELT(数据库云服务器上)
ODI 随数据库云服务器扩展 ODI 在数据库云服务器上运行 — 不需要 ETL 硬件 常规管理、监视和管理 所有基于工具的快速 ETL 开发的优势
14
针对数据库云服务器进行了优化
最快的 E-L-T 处理
• 巨大的高容量并行硬件实现超大数据量的快速处理
OLAP
• 数据库云服务器直接在存储端进行 数据密集型处理
• 最全面的分析功能
• OLAP、统计、空间数据、数据挖掘、实时 事务 ETL、高效的点查询
ELT
• 专门针对数据仓库的强大优化
• 灵活分区、位图索引、联接索引、物化视图、结果缓存
流程管理器 服务总线 数据服务
数据联合
Oracle Data Integrator E-LT/ETL
Oracle GoldenGate 实时 数据集成
最新更新
Oracle Data Quality 监测 清理 分析
可靠的数据
可访问性
存储
数据仓库/ 数据集市
OLTP 系统
OLAP 多维数据集
平面文件
Web 2.0 Web 和事件服务、 SOA
客户/第三方数据 客户/第三方匹配和 合并 任何源系统 地址验证 产品/项目数据
产品/项目匹配和合并 属性提取和标准化
源和目标的数据监测 数据控制和可见性 任何数据仓库
Oracle Data Integrator 企业版 任何计划系统
OTN DBA 圆桌会议
25
Oracle Data Quality
E-LT
实时 连续馈送
企业数据仓库 原有应用程序、 打包应用程序、 OLTP 企业数据仓库
• •
几天前的旧数据 在指定的“非营业时间”内批量提取 数据
• •
需要中间层服务器用于转换
流程的中断会影响数据恢复能力
• 及时的相关数据 • 源系统和数据仓库的最高可用性 • 去掉了用于转换的中间层服务器, 降低了总拥有成本 • 中断后能完全恢复
OTN DBA 圆桌会议
示例 • Mark Douglas 或 Douglas Mark • Hannah、Hamah • Mary Anne、Maryanne • Chris — Christine、Christopher、Tina • 句号、破折号、斜线、头衔、省略号 • FedEx/Federal Express、 Mfg/Manufacturing、 • 12/10/1915, 21/10/1951, 10121951, 00001951 • MacDonald/McDonald/Donald • P0rter、Beht
SQL
数据 仓储
数据 联合 数据访问
自定义
Java
OLTP 和 ODS 系统
数据仓库、 数据仓库、 数据仓库、数据集市 数据集市 数据集市
Oracle、PeopleSoft、 Siebel、SAP、 自定义应用程序
文件、Excel XML
OLAP
自定义编码的高额成本
缺少干净一致的数据
多种标准和准则
OTN DBA 圆桌会议
提取
ODI + Oracle GoldenGate
• • • •
从运营系统连续馈送 非侵入式数据捕获 瘦中间层,在数据库平台(目标)上 执行转换 白天进行小规模批处理或夜间进行批 量处理
少量 批量 异构
GG+ ODI
GG+ ODI
转换
查找 数据
转换
查找 数据
预备
加载
OTN DBA 圆桌会议
22
ODI EE 与 GoldenGate:全面、集成
优化数据仓库 — 通过 Oracle Data Integration 来实现 客户成功案例
问答
ODI 社区资源
OTN DBA 圆桌会议
10
全面的数据集成解决方案
面向企业的全面、集成、开放的解决方案
Oracle 应用程序
自定义应用 程序
MDM 应用程序
业务智能
活动监视
SOA 平台
全面的数据集成解决方案 SOA 抽象
• • • • 降低成本:有效利用计算资源和分区负载 高效:利用数据库优化器 快速:利用本地批量加载和其他数据库接口 可伸缩:在将处理器添加到源或目标的过程中 可伸缩
下一代架构
优势
最佳性能和可伸缩性 更好利用硬件 易于管理且成本更低
“E-LT”
转换 提取 加载 转换
OTN DBA 圆桌会议
OTN DBA 圆桌会议
9
议题
• 应对数据集成挑战 • Oracle Data Integration 解决方案概述
• Oracle Data Integrator (ODI) • Oracle GoldenGate (OGG) • Oracle Data Quality (ODP/ODQ)
• • • •
• • • •
优化数据仓库 — 通过 Oracle Data Integration 来实现 客户成功案例 问答 ODI 社区资源
OTN DBA 圆桌会议
2
集成挑战
分散的方法
分析 定制报表 打包的 应用程序 业务 智能 企业绩效
数据孤岛
信息 延迟
批处理脚本
数据 迁移
数据 复制
数据集市
数据中心
较差的 数据质量
作为集成流程的一部分,确保数据质量
为集成流程提供同类最佳数据质量和监测
ODI EE
wk.baidu.com
更好的数据可见性 更严密的数据控制
更高的数据准确性
可视化数据质量工具
Oracle Data Profiling 源和目标的 元数据监测
Oracle Data Quality
重复检测、 匹配和合并
OTN DBA 圆桌会议
<在此处插入图片>
应对通用数据集成与应用程序可用性挑战 — IT 人员的观点
Daniel Koh
高级业务开发经理 — ASEAN 数据解决方案,Oracle Corporation 2011 年 7 月
议题
• 应对数据集成挑战 • Oracle Data Integration 解决方案概述
Oracle Data Integrator (ODI) Oracle GoldenGate (OGG) Oracle Data Quality (ODP/ODQ)
传统 ETL
随着数据集的增加,不断需要额外硬件 ($$) ETL 并行优化和设计 ($$$) 严重依赖 ETL 系统的可用 资源 性能低下 — 在数据库外进行转换,需要临时表 缺少能快速加载数据的轻型架构 ETL 引擎硬件资源仅用于 ETL 硬件位于不同位置,多个供应商 与数据库和 BI 基础架构的管理和监视不同 ($$)
姓名 Bob Williams Robert Williams Burkes, Mike and Ilda Jason Bourne, Bourne & Cie. …
整个企业的数据同步
实时 BI、运营报表 ODS/数据仓库
原有 消息总线
OTN DBA 圆桌会议
事件驱动式架构、 SOA
19
Oracle GoldenGate 架构
为提高速度、灵活性和可靠性而设计
捕获
跟踪
LAN/WAN Internet TCP/IP
跟踪
交付
源 Oracle 和非 Oracle 数据库
OTN DBA 圆桌会议
16
Oracle Data Integrator:高性能
• 最高的 E-LT 批处理性能
• 出色的基础 E-LT 架构 • 不依赖中间层,数据转换速度更快 • 在数据库层执行转换
• Data Integrator 在数据库云服务器上全 速运行
• 每小时处理超过 7TB 数据 • 无需额外的 ETL 硬件 • 高效
26
解决方案:数据质量生命周期
Data Quality 提供可靠的数据
调查
•运行自动监测 • 遵从以下方面的标准: - 完整性 - 值和频率 - 模式、形式、格式 • 查看实体关系 • 确认引用完整性
提高
• 自动改进 • 应用/实施标准 • 对非结构化的自由格式文本数据 进行标准化处理 • 识别相关记录 • 整合重复记录 • 清理和纠正 • 应用生存逻辑 • 追加内容
OTN DBA 圆桌会议
11
Oracle Data Integrator (ODI)
OTN DBA 圆桌会议
12
Oracle Data Integrator 企业版
优化 E-LT 以提高性能
原有源
E-LT 转换 与 E-T-L
应用程序源
任何数据仓库
基于集的声明式设计 可插入的知识模块
任何计划系统
• • • •
消除数据延迟 减少数据转换时间 提高数据可靠性 通过异构平台支持提高灵活性
OTN DBA 圆桌会议
23
Oracle Data Quality (ODP/ODQ)
OTN DBA 圆桌会议
24
Oracle 的数据质量产品
适用于客户和产品数据的同类最佳解决方案
治理
• 定义数据度量标准 • 监视结果 • 量化问题区域 • 量化改进措施 • 将度量标准与业务影响 相关联 • 沟通结果 • 确定后续步骤的优先顺序
源
OTN DBA 圆桌会议
27
姓名常见错误和变化
变化或错误 顺序错误 抄写错误 姓名连在一起 昵称和别名 干扰因素 缩写 日期不准确 前缀/后缀错误 拼写和输入错误
6
我们需要实时信息
OTN DBA 圆桌会议
7
为何数据仓库需要实时数据?
实时 = 相关可操作性信息
提高洞察以制定运营决策
通过运营效率改善客户服务和节省成本
提高盈利能力、客户忠诚度和竞争优势
OTN DBA 圆桌会议
8
向实时数据仓库转化的动因
传统数据仓库
实时数据仓库
转型 ETL 原有应用程 序、打包应 用程序、 OLTP 数据库
单向查询分流 双向 主用/备用或 主动-主动,实现高可用性 对等 负载平衡、 多主
广播 数据分发
集成/整合 数据仓库
级联式 数据集市
OTN DBA 圆桌会议
21
针对数据仓库的实时更改数据
采用 Oracle GoldenGate 的同类最佳实时数据更改解决方案
传统 ETL + CDC
• • •
使用复杂的适配器在 OLTP 系统上 进行侵入式捕获 在昂贵的中间层服务器上通过 ETL 引擎进行转换 通过在晚上/白天进行大批处理,将 数据批量加载到数据仓库
28
数据质量问题示例
客户数据
匹配的记录
省/市/ 自治区 MA MA Nweton Newton … MA MA … … 邮政 编码 02106 02106 02106
非标准格式
电话 617 555 000 617555000 617-532-9550 617-536-5480 … mburkes@gmail.com 6175541329 … 电子邮件 bob.williams@yahoo.com
3
现代数据集成平台与实时数据仓库的 业务动因
需要持续、实时、可靠的信息 实时企业
持续的可用性 实现全天候全球运营
• 即使发生灾难时仍可持续运行 • 计划停电期间不会停机 • 针对集成的低影响数据捕获
实时数据 实现智能和操作
• 精确到秒的数据以便操作 • 访问及时信息以便进行分析 • 数据跨地区分布
可靠的信息
• 与其他系统一致 •高数据完整性
OTN DBA 圆桌会议
4
需要取消 ETL 批处理窗口
数据过多,但没有足够时间进行批处理
运营
可用
运营
OTN DBA 圆桌会议
5
实时运营 BI 实战
欺诈检测
网上促销优化
联系人优化
客户流失
基于位置的服务
供应链改善
OTN DBA 圆桌会议
无处不在的运营 BI。
OLTP 数据库源
可热插拔的架构 通过 Oracle GoldenGate 实现 基于日志的 CDC
OTN DBA 圆桌会议
13
高性能 传统:单独的 ETL 服务器
• 专用 ETL 引擎 • 性能低下 • 独立服务器成本高
独特优势:E-LT 架构
传统 ETL 架构
提取 转换 加载
Oracle:没有新服务器
OTN DBA 圆桌会议
17
Oracle GoldenGate (OGG)
OTN DBA 圆桌会议
18
Oracle GoldenGate 11g
低影响的实时数据集成和事务复制
零停机升级和迁移
消息总线
新应用程序/新操作系统/ 新数据库/新硬件
查询分流、灾难恢复
副本/备用
基于日志的、 更改的数据
数据库 分布式系统
双向
目标 Oracle 和非 Oracle 数据库
• • • •
跨异构系统的实时更改数据捕获、路由和交付 非侵入式、基于日志的更改数据捕获,将对基础架构的影响降至最低 跨地区的事务完整性和有保障的数据交付 双向复制并支持不同的复制拓扑结构
OTN DBA 圆桌会议
20
Oracle GoldenGate 拓扑结构
数据挖掘
新
• 只有与 Oracle 产品结合使用时 E-LT 才会快 20 倍
OTN DBA 圆桌会议
15
ODI 速度更快
每小时高达 7TB 的实际数据加载和复杂数据转换
ODI ELT(数据库云服务器上)
ODI 随数据库云服务器扩展 ODI 在数据库云服务器上运行 — 不需要 ETL 硬件 常规管理、监视和管理 所有基于工具的快速 ETL 开发的优势
14
针对数据库云服务器进行了优化
最快的 E-L-T 处理
• 巨大的高容量并行硬件实现超大数据量的快速处理
OLAP
• 数据库云服务器直接在存储端进行 数据密集型处理
• 最全面的分析功能
• OLAP、统计、空间数据、数据挖掘、实时 事务 ETL、高效的点查询
ELT
• 专门针对数据仓库的强大优化
• 灵活分区、位图索引、联接索引、物化视图、结果缓存
流程管理器 服务总线 数据服务
数据联合
Oracle Data Integrator E-LT/ETL
Oracle GoldenGate 实时 数据集成
最新更新
Oracle Data Quality 监测 清理 分析
可靠的数据
可访问性
存储
数据仓库/ 数据集市
OLTP 系统
OLAP 多维数据集
平面文件
Web 2.0 Web 和事件服务、 SOA
客户/第三方数据 客户/第三方匹配和 合并 任何源系统 地址验证 产品/项目数据
产品/项目匹配和合并 属性提取和标准化
源和目标的数据监测 数据控制和可见性 任何数据仓库
Oracle Data Integrator 企业版 任何计划系统
OTN DBA 圆桌会议
25
Oracle Data Quality
E-LT
实时 连续馈送
企业数据仓库 原有应用程序、 打包应用程序、 OLTP 企业数据仓库
• •
几天前的旧数据 在指定的“非营业时间”内批量提取 数据
• •
需要中间层服务器用于转换
流程的中断会影响数据恢复能力
• 及时的相关数据 • 源系统和数据仓库的最高可用性 • 去掉了用于转换的中间层服务器, 降低了总拥有成本 • 中断后能完全恢复
OTN DBA 圆桌会议
示例 • Mark Douglas 或 Douglas Mark • Hannah、Hamah • Mary Anne、Maryanne • Chris — Christine、Christopher、Tina • 句号、破折号、斜线、头衔、省略号 • FedEx/Federal Express、 Mfg/Manufacturing、 • 12/10/1915, 21/10/1951, 10121951, 00001951 • MacDonald/McDonald/Donald • P0rter、Beht
SQL
数据 仓储
数据 联合 数据访问
自定义
Java
OLTP 和 ODS 系统
数据仓库、 数据仓库、 数据仓库、数据集市 数据集市 数据集市
Oracle、PeopleSoft、 Siebel、SAP、 自定义应用程序
文件、Excel XML
OLAP
自定义编码的高额成本
缺少干净一致的数据
多种标准和准则
OTN DBA 圆桌会议
提取
ODI + Oracle GoldenGate
• • • •
从运营系统连续馈送 非侵入式数据捕获 瘦中间层,在数据库平台(目标)上 执行转换 白天进行小规模批处理或夜间进行批 量处理
少量 批量 异构
GG+ ODI
GG+ ODI
转换
查找 数据
转换
查找 数据
预备
加载
OTN DBA 圆桌会议
22
ODI EE 与 GoldenGate:全面、集成
优化数据仓库 — 通过 Oracle Data Integration 来实现 客户成功案例
问答
ODI 社区资源
OTN DBA 圆桌会议
10
全面的数据集成解决方案
面向企业的全面、集成、开放的解决方案
Oracle 应用程序
自定义应用 程序
MDM 应用程序
业务智能
活动监视
SOA 平台
全面的数据集成解决方案 SOA 抽象
• • • • 降低成本:有效利用计算资源和分区负载 高效:利用数据库优化器 快速:利用本地批量加载和其他数据库接口 可伸缩:在将处理器添加到源或目标的过程中 可伸缩
下一代架构
优势
最佳性能和可伸缩性 更好利用硬件 易于管理且成本更低
“E-LT”
转换 提取 加载 转换
OTN DBA 圆桌会议
OTN DBA 圆桌会议
9
议题
• 应对数据集成挑战 • Oracle Data Integration 解决方案概述
• Oracle Data Integrator (ODI) • Oracle GoldenGate (OGG) • Oracle Data Quality (ODP/ODQ)
• • • •
• • • •
优化数据仓库 — 通过 Oracle Data Integration 来实现 客户成功案例 问答 ODI 社区资源
OTN DBA 圆桌会议
2
集成挑战
分散的方法
分析 定制报表 打包的 应用程序 业务 智能 企业绩效
数据孤岛
信息 延迟
批处理脚本
数据 迁移
数据 复制
数据集市
数据中心
较差的 数据质量
作为集成流程的一部分,确保数据质量
为集成流程提供同类最佳数据质量和监测
ODI EE
wk.baidu.com
更好的数据可见性 更严密的数据控制
更高的数据准确性
可视化数据质量工具
Oracle Data Profiling 源和目标的 元数据监测
Oracle Data Quality
重复检测、 匹配和合并
OTN DBA 圆桌会议
<在此处插入图片>
应对通用数据集成与应用程序可用性挑战 — IT 人员的观点
Daniel Koh
高级业务开发经理 — ASEAN 数据解决方案,Oracle Corporation 2011 年 7 月
议题
• 应对数据集成挑战 • Oracle Data Integration 解决方案概述
Oracle Data Integrator (ODI) Oracle GoldenGate (OGG) Oracle Data Quality (ODP/ODQ)
传统 ETL
随着数据集的增加,不断需要额外硬件 ($$) ETL 并行优化和设计 ($$$) 严重依赖 ETL 系统的可用 资源 性能低下 — 在数据库外进行转换,需要临时表 缺少能快速加载数据的轻型架构 ETL 引擎硬件资源仅用于 ETL 硬件位于不同位置,多个供应商 与数据库和 BI 基础架构的管理和监视不同 ($$)
姓名 Bob Williams Robert Williams Burkes, Mike and Ilda Jason Bourne, Bourne & Cie. …
整个企业的数据同步
实时 BI、运营报表 ODS/数据仓库
原有 消息总线
OTN DBA 圆桌会议
事件驱动式架构、 SOA
19
Oracle GoldenGate 架构
为提高速度、灵活性和可靠性而设计
捕获
跟踪
LAN/WAN Internet TCP/IP
跟踪
交付
源 Oracle 和非 Oracle 数据库
OTN DBA 圆桌会议
16
Oracle Data Integrator:高性能
• 最高的 E-LT 批处理性能
• 出色的基础 E-LT 架构 • 不依赖中间层,数据转换速度更快 • 在数据库层执行转换
• Data Integrator 在数据库云服务器上全 速运行
• 每小时处理超过 7TB 数据 • 无需额外的 ETL 硬件 • 高效
26
解决方案:数据质量生命周期
Data Quality 提供可靠的数据
调查
•运行自动监测 • 遵从以下方面的标准: - 完整性 - 值和频率 - 模式、形式、格式 • 查看实体关系 • 确认引用完整性
提高
• 自动改进 • 应用/实施标准 • 对非结构化的自由格式文本数据 进行标准化处理 • 识别相关记录 • 整合重复记录 • 清理和纠正 • 应用生存逻辑 • 追加内容
OTN DBA 圆桌会议
11
Oracle Data Integrator (ODI)
OTN DBA 圆桌会议
12
Oracle Data Integrator 企业版
优化 E-LT 以提高性能
原有源
E-LT 转换 与 E-T-L
应用程序源
任何数据仓库
基于集的声明式设计 可插入的知识模块
任何计划系统