大数据技术与构成团队介绍展示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据思维重要特征是相关性思维
一些看起来不相关的东西,其实它们有其内在相关性。
传统的思维方式习惯于“因果”
往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分 析按照我们既定的目标进行,一切以业务驱动为主。
大数据的思维是“相关性”思维 大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个 必然,不需要找到先后关联发生的一个因果规律。
Tez?
Spark? Hive?
Storm? Impala? Pregel? Kafka? Falcon? MPI?
与似类技术对比
MPP数据库
分布式存储
是 是 nosql 否 否 是 是 sql 否 否 是 是 数据处理技术(包括nosql) 是 是
分布式处理
数据库 内存计算 流式处理
数据结构
数据挖掘 统计计算
开发
模型构建 算法编码 算法训练
业务 分析
挖掘分析场景 确定分析目标 场景抽象 算法研究匹配
数据应用(分布式)
数据应用 查询、统计报表、机器学习、自然语 言识别、复杂网络
数据结构 、模型 Hadoop Core
Key-Value 文本 全文索引 JSon 向量空间 矩阵 邻接表
如何组建大数据团队
大数据团队的组成
业务分析
算法研究
大数据 团队
开发测试
实施维护
团队组织
业务 专家
理解业务 梳理数据 应用场景沟通 规划功能点 制定开发计划
2017
关于大数据技术与思路的介绍
从大数据思维谈起
功能的价值VS数据的价值
功能的价值
传统与经验
数据的价值
创新与发现
静态的
动态的
被动的
产品 或 服务
主动的
价值 递减的
价值 递增的
用户使用中留下了实用的信息痕迹产生了数据 ,能告诉我们,每一个客户的 消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可 以被集合到一起来进行分类。
单一
否 是
单一
否 是
丰富
是 是
数据采集
DB2 Oracle 。。。
Mysql
日志系统
console(控制台)、RPC (Thrift-RPC)、text(文 件)、tail(UNIX tail)、 syslog(syslog日志系统, 支持TCP和UDP等2种模 式),exec(命令执行)等
HDFS
Hadoop支持所有类型数据的导入与存储
数据存储(分布式)
Hadoop分布式存储系统满足大规模的全数据数据存储
HDFS 节点 HDFS 节点 HDFS 节点 HDFS 节点 HDFS 节点
节点扩展
。。。
Oracle
实时日志数据
数据处理(分布式)
MPP 关系型数据库
数据模型创建
。。。
科学计算
清洗、归整、转换、计算、 建模 。。。
批处理
消息 传递 内存 索引 技术
数据处理技术
Impala? Storm? Pregel? Falcon?
图计算 流处理
1: 计算框架多样性在 分布式计算环境中成
为事实,没有一种框
架适合所有计算,不 同的场景使用多种的 计算框架组合。
数据库
计算
Hadoop Core
•
任务调度框架:YARN 数据存储框架:HDFS
荣获了著名IT杂志SD Times颁发的2013 SD Times 100奖项,位于“极大影响力”分类 专门为运作一个开源软件项目的 Apache 的 团体提供支持的非盈利性组织。这个开源软
第二位,仅次于亚马逊。
件项目就是 Apache 项目。
Hadoop生态体系
……
提供类SQL交互 接口。 Hadoop与关系 型数据库交互
从“人找信息”到“信息找人”
人找信息
信息找人
从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求,你
需要什么信息,企业和机器提前知道,而且主动给你提供你所需要的信息。
大数据应用需要大数据技术
需要具备海量存储的能力
海量历史数据 事务数据
分布式存储
磁盘阵列 • 容量扩展有限 • 单位存储成本高 • 适用于关键交易系统
高性能的全文 搜索服务.
分布式内存计算 技术,提供高性 能数据计算。
HDFS为分布式文件系统,为海量数据提供了存储服务。
Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。
Hadoop开源生态发展法则
MapReduce Kafka? Solr? Spark? ? Hbase? MPI? Tez? Databus? Ooize? Hive?
JSon
关系模型
索引
GI S
需要具备多种数据处理的技术
流式处理 内存计算
数据统计 批量处理
数据检索 (精确、模糊)
大数据 技术
图计算
自然语言识别
机器学习
Hadoop技术是支撑大数据的最佳实践
从Apache软件基金会讲起
Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。
Apache软件基金会
Google,Facebook等获得巨大商业化成功 • 的公司,将研发的部分计算框架开源回馈 • 社区; 分享与迭代创新精神,推动社区不断出现 新的计算框架;
2: Hadoop core开源 核心成为一种标准,成 为众多计算框架彼此合 作的基础.
没有任何商业实体能够拥有hadoop 核心; 任何对hadoop core的优化改进,如 果采用商业形式的封装,都是对行业 say NO;
• 容量可扩展 • 单位存储成本低 • 适用于海量存储
需要兼容全类别格式的数据
大数据平台
关系型数据 文本数据
Biblioteka Baidu二进制数据
需要具备分布式处理能力
大规模计算和处理任务
计算任务拆分
计算节点
随着节点数的增加,其处理能 力线性提升。
需要支持开放式的数据结构
矩阵 向量空间 邻接表
Key-Value
大数据 技术
•
丰富的生态体系满足专业化的需求
数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别
服务器
游戏主机
办公电脑
移动设备
不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求
显示器
至强处理器
i7处理器
光驱
主板
内存
显卡
MR? Databus? Ooize?
Solr?
Hadoop由 Apache基金 会 于 2005 年秋天作为 Lucene的子 项目Nutch的 一部分正式 引入。
数据实时计算, 流式数据处理技 术。
可扩展的机器学 习领域经典算法 的实现。
可伸缩的分布 式迭代图处理 系统
大规模科学 的计算
为海量数据提供 了分布式处理.
Hadoop数据库, 提供海量结构化 存储。.