Oracle 大数据连接器
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Oracle 大数据连接器Hadoop与 Oracle 数据库集成罗海雄
以下内容旨在概述产品的总体发展方向。该内容仅供参考,不可纳入任何合同。该信息不承诺提供任何资料、代码或功能,并且不应该作为制定购买决策的依据。描述的有关Oracle 产品的任何特性或功能的开发、发行和时间规划均由 Oracle 自行决定。
获取、组织、分析所有数据
Oracle
数据库云服务器
获取组织分析和可视化
流
Oracle
商务智能云服务器Oracle
大数据机
Oracle
Big Data
Connectors
Endeca Information Discovery
议题
•Oracle Hadoop装载器
•Oracle Hadoop分布式文件系统直接连接器•Oracle Data Integrator Hadoop适配器•Oracle R Hadoop连接器
•总结
概述 MapReduce 工作流的 最后阶段
分区表和未分区表
在线和离线加载
SHUFFLE /SORT
SHUFFLE /SORT
REDUCE REDUCE REDUCE
MAP MAP MAP
MAP MAP MAP
REDUCE
REDUCE ORACLE HADOOP 装载器
SHUFFLE /SORT
SHUFFLE /SORT REDUCE REDUCE REDUCE
MAP
MAP MAP
MAP MAP MAP
REDUCE
REDUCE
3. 从Reducer节点连接到数据库,并行加载到数据库分区(JDBC或OCI方式)
1. 从数据库读取目标表元数据
2.执行分区、排序和数据
转换
在线模式
SHUFFLE /SORT
SHUFFLE /SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP MAP
MAP REDUCE
REDUCE
1. 从数据库读取目标表元数据
2. 执行分区、排序和数据转换
3. 从Reducer 节点写入 Oracle Data Pump 文件
5. 使用外部表机制并行导入数据库
数据 数据
数据 数据 数据
4. 将文件从 HDFS 复制到数据库可以访问这些文件的位置
离线模式
4. 1 使用 ODCH 访问 HDFS 中的 datapump 文件(稍后介绍)
实施步骤
•步骤1: 选中数据输入格式
使用内置的格式:Hive表输入-HivetoAvro 或者文本文件-DelimitedText
或者自己写Java类,实现接口:org.apache.hadoop.mapreduce.RecordReader以支持自定义格式•步骤2: 创建装载器映射文档
创建装载器映射文档,说明目标表,列,以及列和输入数据的映射关系
•步骤3: 指定表的元数据
指定JDBC连接,装载器自动从数据库中获取,适用于Loader直连接数据库的情况
或者通过 OraLoaderMetadata 工具将元数据提取成XML格式的文档,适用于Loader不直接连接数据库•步骤4: 运行装载器
Run: hadoop ${OLH_HOME}/jlib/oraloader.jar oracle.hadoop.loader.OraLoader -conf MyConf.xml •步骤5: 如果使用离线模式,则需要处理离线文件
优点:与 SQOOP、OraOOP 相比较
•将数据库服务器处理压力分流到 Hadoop:–将输入数据转换为最终数据库格式
–对数据进行预分区
–在表分区内按主键对行进行排序
–使用OCI 在线加载模式时,进行高性能的直接路径加载•生成二进制 datapump 文件
•跨Reducer的负载均衡
议题
•Oracle Hadoop装载器
•Oracle Hadoop分布式文件系统直接连接器•Oracle Data Integrator Hadoop适配器•Oracle R Hadoop连接器
•总结
从 Oracle 数据库直接访问
对 HDFS 的 SQL 访问
外部表视图
数据查询或导入
DCH DCH
外部表
DCH DCH DCH DCH SQL 查询
Infini
Band
HDFS 客户端
HDFS
Oracle 数据库
SHUFFLE /SORT
SHUFFLE /SORT REDUCE REDUCE REDUCE
MAP
MAP MAP
MAP MAP MAP
REDUCE
REDUCE
数据
数据
数据
数据
数据
任何 MAPREDUCE 作业
外部表
SQL 查询
ODCH
ODCH
1. 创建外部表
2. 发布HDFS数据文件路径
3. 通过外部表访问数据