大数据技术与构成团队介绍展示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/10/5
HDFS Hadoop支持所有类型数据的导入与存储
数据存储(分布式)
Hadoop分布式存储系统满足大规模的全数据数据存储
HDFS 节点
HDFS 节点
HDFS 节点
节点扩展
HDFS 节点
HDFS 节点
。。。
2020/10/5
Oracle 实时日志数据
数据处理(分布式)
MPP 关系型数据库
大数据思维重要特征是相关性思维
一些看起来不相关的东西,其实它们有其内在相关性。
传统的思维方式习惯于“因果”
往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分 析按照我们既定的目标进行,一切以业务驱动为主。
大数据的思维是“相关性”思维 大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个 必然,不需要找到先后关联发生的一个因果规律。
大数据平台
二进制数据
2020/10/5
需要具备分布式处理能力
大规模计算和处理任务
计算任务拆分
2020/10/5
计算节点
随着节点数的增加,其处理能 力线性提升。
需要支持开放式的数据结构
向量空间
矩阵
邻接表
Key-Value
大数据 技术
JSon
索引
GI
2020/10/5
S
关系模型
需要具备多种数据处理的技术
数据实时计算, 流式数据处理技 术。
可扩展的机器学 习领域经典算法 的实现。
可伸缩的分布 式迭代图处理 系统
大规模科学 的计算
为海量数据提供 了分布式处理.
Hadoop数据库, 提供海量结构化 存储。.
高性能的全文 搜索服务.
分布式内存计算 技术,提供高性 能数据计算。
2020/10/5
HDFS为分布式文件系统,为海量数据提供了存储服务。
内存
数据库
计算
索引 技术
图计算
流处理
1: 计算框架多样性在 分布式计算环境中成 为事实,没有一种框 架适合所有计算,不 同的场景使用多种的 计算框架组合。
Hadoop Core
任务调度框架:YARN 数据存储框架:HDFS
2: Hadoop core开源 核心成为一种标准,成 为众多计算框架彼此合 作的基础.
是 是 数据处理技术(包括nosql) 是 是 丰富 是 是
数据采集
DB2 Oracle 。。。
Mysql
日志系统
console(控制台)、RPC (Thrift-RPC)、text(文 件)、tail(UNIX tail)、 syslog(syslog日志系统, 支持TCP和UDP等2种模 式),exec(命令执行)等
•
•
2020/10/5
Google,Facebook等获得巨大商业化成功 •
的公司,将研发的部分计算框架开源回馈
社区;
•
分享与迭代创新精神,推动社区不断出现
新的计算框架;
没有任何商业实体能够拥有hadoop 核心; 任何对hadoop core的优化改进,如 果采用商业形式的封装,都是对行业
say NO;
大数据团队的组成
业务分析 算法研究 开发测试 实施维护
2020/10/5
MPI? Storm?
Impala?
Databus? Ooize?
Hive?
Kafka?
Pregel?
Falcon?
与似类技术对比
分布式存储 分布式处理
数据库 内存计算 流式处理 数据结构 数据挖掘 统计计算
2020/10/5
是 是 nosql 否 否 单一 否 是
MPP数据库
是 是 sql 否 否 单一 否 是
Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。
Hadoop开源生态发展法则
数据处理技术
MapReduce Hbase?D?atabusS?olOr?oizSe?parkTe?z?HivKea?fka?MPI?
Impala? Storm?
Pregel? Falcon?
消息
批处理
传递
数据模型创建
。。。
科学计算
清洗、归整、转换、计算、 建模 。。。
2020/10/5
数据应用(分布式)
数据应用
查询、统计报表、机器学习、自然语 言识别、复杂网络
数据结构 、模型
Key-Value
文本
全文索引 JSon
向量空间 矩阵
邻接表
Hadoop Core
2020/10/5
如何组建大数据团队
2020/10/5
2020/10/5
大数据应用需要大数据技术
2020/10/5
需要具备海量存储的能力
海量历史数据
事务数据
分布式存储
• 容量可扩展 • 单位存储成本低 • 适用于海量存储
2020/10/5
磁盘阵列
• 容量扩展有限 • 单位存储成本高 • 适用于关键交易系统
需要兼容全类别格式的数据
关系型数据 文本数据
关于大数据技术与思路的介绍
2020/10/5
从大数据思维谈起
2020/10/5
功能的价值VS数据的价值
功能的价值
数据的价值
静态的
传统与经验
创新与发现
动态的
被动的
产品 或 服务
主动的
价值 递减的
价值 递增的
2020/10/5
用户使用中留下了实用的信息痕迹产生了数据 ,能告诉我们,每一个客户的 消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可 以被集合到一起来进行分类。
流式处理
内存计算
数据统计
批量处理
数据检索 (精确、模糊)
大数据 技术
图计算
2020/10/5
自然语言识别
wk.baidu.com机器学习
Hadoop技术是支撑大数据的最佳实践
2020/10/5
从Apache软件基金会讲起
Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。
Apache软件基金会
荣获了著名IT杂志SD Times颁发的2013 SD Times 100奖项,位于“极大影响力”分类 第二位,仅次于亚马逊。
专门为运作一个开源软件项目的 Apache 的 团体提供支持的非盈利性组织。这个开源软 件项目就是 Apache 项目。
2020/10/5
Hadoop生态体系
提供类SQL交互 接口。
Hadoop与关系 型数据库交互
……
Hadoop由 Apache基金 会 于 2005 年秋天作为 Lucene的子 项目Nutch的 一部分正式 引入。
丰富的生态体系满足专业化的需求
数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别
服务器
游戏主机
办公电脑
移动设备
不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求
显示器 至强处理器 i7处理器
光驱
主板
内存
显卡
2020/10/5
Solr? MR?
Tez? Spark?
HDFS Hadoop支持所有类型数据的导入与存储
数据存储(分布式)
Hadoop分布式存储系统满足大规模的全数据数据存储
HDFS 节点
HDFS 节点
HDFS 节点
节点扩展
HDFS 节点
HDFS 节点
。。。
2020/10/5
Oracle 实时日志数据
数据处理(分布式)
MPP 关系型数据库
大数据思维重要特征是相关性思维
一些看起来不相关的东西,其实它们有其内在相关性。
传统的思维方式习惯于“因果”
往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分 析按照我们既定的目标进行,一切以业务驱动为主。
大数据的思维是“相关性”思维 大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个 必然,不需要找到先后关联发生的一个因果规律。
大数据平台
二进制数据
2020/10/5
需要具备分布式处理能力
大规模计算和处理任务
计算任务拆分
2020/10/5
计算节点
随着节点数的增加,其处理能 力线性提升。
需要支持开放式的数据结构
向量空间
矩阵
邻接表
Key-Value
大数据 技术
JSon
索引
GI
2020/10/5
S
关系模型
需要具备多种数据处理的技术
数据实时计算, 流式数据处理技 术。
可扩展的机器学 习领域经典算法 的实现。
可伸缩的分布 式迭代图处理 系统
大规模科学 的计算
为海量数据提供 了分布式处理.
Hadoop数据库, 提供海量结构化 存储。.
高性能的全文 搜索服务.
分布式内存计算 技术,提供高性 能数据计算。
2020/10/5
HDFS为分布式文件系统,为海量数据提供了存储服务。
内存
数据库
计算
索引 技术
图计算
流处理
1: 计算框架多样性在 分布式计算环境中成 为事实,没有一种框 架适合所有计算,不 同的场景使用多种的 计算框架组合。
Hadoop Core
任务调度框架:YARN 数据存储框架:HDFS
2: Hadoop core开源 核心成为一种标准,成 为众多计算框架彼此合 作的基础.
是 是 数据处理技术(包括nosql) 是 是 丰富 是 是
数据采集
DB2 Oracle 。。。
Mysql
日志系统
console(控制台)、RPC (Thrift-RPC)、text(文 件)、tail(UNIX tail)、 syslog(syslog日志系统, 支持TCP和UDP等2种模 式),exec(命令执行)等
•
•
2020/10/5
Google,Facebook等获得巨大商业化成功 •
的公司,将研发的部分计算框架开源回馈
社区;
•
分享与迭代创新精神,推动社区不断出现
新的计算框架;
没有任何商业实体能够拥有hadoop 核心; 任何对hadoop core的优化改进,如 果采用商业形式的封装,都是对行业
say NO;
大数据团队的组成
业务分析 算法研究 开发测试 实施维护
2020/10/5
MPI? Storm?
Impala?
Databus? Ooize?
Hive?
Kafka?
Pregel?
Falcon?
与似类技术对比
分布式存储 分布式处理
数据库 内存计算 流式处理 数据结构 数据挖掘 统计计算
2020/10/5
是 是 nosql 否 否 单一 否 是
MPP数据库
是 是 sql 否 否 单一 否 是
Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。
Hadoop开源生态发展法则
数据处理技术
MapReduce Hbase?D?atabusS?olOr?oizSe?parkTe?z?HivKea?fka?MPI?
Impala? Storm?
Pregel? Falcon?
消息
批处理
传递
数据模型创建
。。。
科学计算
清洗、归整、转换、计算、 建模 。。。
2020/10/5
数据应用(分布式)
数据应用
查询、统计报表、机器学习、自然语 言识别、复杂网络
数据结构 、模型
Key-Value
文本
全文索引 JSon
向量空间 矩阵
邻接表
Hadoop Core
2020/10/5
如何组建大数据团队
2020/10/5
2020/10/5
大数据应用需要大数据技术
2020/10/5
需要具备海量存储的能力
海量历史数据
事务数据
分布式存储
• 容量可扩展 • 单位存储成本低 • 适用于海量存储
2020/10/5
磁盘阵列
• 容量扩展有限 • 单位存储成本高 • 适用于关键交易系统
需要兼容全类别格式的数据
关系型数据 文本数据
关于大数据技术与思路的介绍
2020/10/5
从大数据思维谈起
2020/10/5
功能的价值VS数据的价值
功能的价值
数据的价值
静态的
传统与经验
创新与发现
动态的
被动的
产品 或 服务
主动的
价值 递减的
价值 递增的
2020/10/5
用户使用中留下了实用的信息痕迹产生了数据 ,能告诉我们,每一个客户的 消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可 以被集合到一起来进行分类。
流式处理
内存计算
数据统计
批量处理
数据检索 (精确、模糊)
大数据 技术
图计算
2020/10/5
自然语言识别
wk.baidu.com机器学习
Hadoop技术是支撑大数据的最佳实践
2020/10/5
从Apache软件基金会讲起
Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。
Apache软件基金会
荣获了著名IT杂志SD Times颁发的2013 SD Times 100奖项,位于“极大影响力”分类 第二位,仅次于亚马逊。
专门为运作一个开源软件项目的 Apache 的 团体提供支持的非盈利性组织。这个开源软 件项目就是 Apache 项目。
2020/10/5
Hadoop生态体系
提供类SQL交互 接口。
Hadoop与关系 型数据库交互
……
Hadoop由 Apache基金 会 于 2005 年秋天作为 Lucene的子 项目Nutch的 一部分正式 引入。
丰富的生态体系满足专业化的需求
数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别
服务器
游戏主机
办公电脑
移动设备
不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求
显示器 至强处理器 i7处理器
光驱
主板
内存
显卡
2020/10/5
Solr? MR?
Tez? Spark?