Cloudera大数据行业应用介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010
Flume Bigtop Oozie MRUnit HCatalog Sqoop Whirr Avro Hive Pig Mahout HBase ZooKeepe r Core Hadoop +YARN
2011
Core Hadoop +YARN
2006
2009
2012-2014
6
Cloudera是公认的Hadoop平台的领导者
加密和秘钥管理
Sentry|Rhino
Cloudera导航器
13
Cloudera全球客户精选…
Financial Services Telecom
Healthcare & Life Sciences
强大的客户基础

完整的数据安全和数据治理
完整的合作伙伴生态环境
Source: Ovum Decision Matrix: Selecting a Hadoop Platform, 2015
Cloudera
2008年成立于硅谷
第一个企业级Hadoop产品提供商
24x7 全球支持
3/5 财富500强企业客户
服务
NoSQL Database HBase Streaming Spark Streaming
统一的数据存储
统一的系统管理和安全
持续的创新能力 • Cloudera Manager • Flume,Sqoop • Search • Impala • Sentry • Director,Navigator • Kudu • Record Service
Infrastructure
11
Cloudera 企业数据中枢 CDH
统一的数据访问
处理
Ingest Sqoop, Flume, Kafka
探索
Analytic Database Impala Search Solr
建模
Machine Learning R, Spark Mllib, Mahout
12
全面的安全与管治
外围组件
对集群访问的管理与 保护
技术理念: 认证 网络隔离
数据
保护数据以防未授权 的访问与操作
技术理念: 加密, 信令, 数据屏蔽
访问
定义哪些用户与应用 程序可以操作数据
技术理念: 权限 授权
可见性
关于数据源以及数据 使用状况的报告
技术理念: 审计 数据沿袭
Kerberos | AD/LDAP
昂贵而遥不可及
$30,000+ per TB
4
在传统数据库(RDBMS) 时代, 应用创造新数据.
在Hadoop 时代, 数据创造新的应用.
5
Hadoop十年
Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop Whirr Avro Hive Pig Mahout HBase ZooKeeper Parquet Sentry RecordServic e Kudu Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop Whirr Avro Hive Pig Mahout HBase ZooC Ko er e per e Hadoop +YARN
9
Cloudera和Apache开源社区
Leaders Across the Hadoop Ecosystem
Doug Cutting: Hadoop创始人,前Apache基金会主席
22 100
上百万
项目由Cloudera员工创建 Committer 席位覆盖Hadoop生态圈 生产环境部署节点,覆盖全行业 Hadoop相关的原理及架构类书籍
Cloudera大数据行业应用介绍
1
BIG DATA(大数据)
Volume(数量)
Variety (类型)
Velocity(速度)
= Value (价值)
2
BIG DATA
=? HADOOP
Hadoop: 扩展性 & 灵活性 – 存储 & 计算
传统方式
计算 (RDBMS, EDW) 数据存储 (SAN, NAS) 计算 (CPU)
Present
Core Hadoop (HDFS, MR)
HBase ZooKeeper Core Hadoop
2008
Hive Pig Mahout HBase ZooKeeper Core Hadoop
Sqoop Whirr Avro Hive Pig Mahout HBase ZooKeeper Core Hadoop
全行业客户(金融、电信、零售、能源、互联网、媒体等) 2200多个生态链合作伙伴培训和认证 Hadoop生态圈最大贡献者,Intel合作加速企业数据中心的革新 Cloudera中国 2014年9月成立,上海是大中华区总部,负责产品培训、 专业技术服务和产品支持,在北京和广州有本地支持
8
它 是 谁 ?
Hadoop方式
内存 z z 商业化的“不怎么可靠”的服务器 混合的开源软件 • 可无限平行扩展 • 网络不再是瓶颈 • 轻松摄取任何类型的数据 • 灵活的读取时检查数据类型的访问方 式 经济且可以企及 $300-$1,000 per TB 存储 (Disk)
Network
昂贵的、专用的、“可靠的”服务器 昂贵的封闭软件 • 扩展困难 • 网络成为不可避免的瓶颈 • 只能处理结构化/关系型数据 • 很难增加新的字段和数据类型
15
10
完整的合作伙伴生态环境
Applications
More than 2,200 partners
Enterprise Data Hub
Operational Tools
System Integration
Model Serve
Data Systems
Process Discove r
Security and Administration Unlimited Storage
Transform MapReduce, Hive, Pig, Spark
系统和数据管理 Cloudera Navigator
YARN, Cloudera Manager
无限制的存储 HDFS, HBase
灵活的部署模式
On-Premises Appliances Engineered Systems Public Cloud Private Cloud Hybrid Cloud
相关文档
最新文档