大数据体系结构及关键技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
神经网络 Neural Networks
Q5 Q6 Q3 Q4
n 倾向性分析 n 客户保留 n 目标市场 n 欺诈检测
I1
I2
factor n
factor 1 factor 2
知识发现KDD系统特征
知识发现系统需要一个前处理 过程 n 数据抽取 n 数据清洗 n 数据选择 n 数据转换
知识发现系统是一个自动/半自 动过程
五、知名企业大数据架构
又拍云存储架构
大数据:IBM大数据方案
大数据分析实例:
北京邮电大学——“云海”移动互联网数据分析平台
1.大数据架构:曙光智慧交通系统架构
1.大数据架构:IBM
1.大数据架构:HP云监控大数据解决方案
大数据架构
Intel分布式Hadoop架构
大数据架构:微软大数据解决方案
心脏疾病管理
血压管理
血糖管理
体重管理
移动全球眼 移动OA 心电图测量 心电图诊断呈现 血压/血糖管理 运动能量检测 紧急呼叫一键通 GPS定位 健康档案自管理
•BSS/OSS
短信接口
彩信接口
•省领航平台
WAP接口
云计算演进:桌面云理解(ND—NC—CCN)
云计算架构:通用三层架构(IBM为例,加BPaaS)
1.大数据系统架构Hadoop:层次对应
大数据:分布式计算架构
大数据架构: MapReduce工作原理1
大数据架构: MapReduce工作原理2
三、大数据的关键技术
大数据关键技术到底有哪些? 核心问题是:(计算、存储、分析)算法
大数据:恐怖的大数据(生活示例) 智能性:数据分析、自然语言理解
大数据架构:整体逻辑功能架构
大数据架构理解:搜索引擎
大数据架构理解:网页内容抓取
大数据系统架构Hadoop
Hadoop分布式系统组成
大数据系统架构Hadoop
在图中,Hadoop主要的功能组件有: Hadoop Common: 包含HDFS、MapReduce和其他项目公共内容; HDFS:Hadoop分布式文件系统; MapReduce:一个用于并行处理大数据集的软件框架。Map 函数接受一组数据 并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对 )缩小键/值对列表; HBase: 类似Google BigTable的分布式NoSQL列数据库; Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一 张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务 进行运行;
大数据关键技术2:并行计算能力
大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。 针对不同计算场景发展出特定分布式计算框架。
Yahoo 提出的S4 系统、Twitter 的Storm,谷歌2010 年公布的Dremel系统, MapReduce 内存化以提高实时性的Spark 框架.
大数据关键技术3:数据分析技术
2010年3月9日,中国物联网标准联合工作组筹备会议在京召开。3月中旬 ,浙江省成立了物联网产业规划编制小组,浙江省经济和信息化委员会副 主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网 产业调研和发展规划编制工作,提出“感知杭州”的发展愿景。
物联网的体系架构
物联网的体系架构
物联网的体系架构
Integrator)、
ETL Data Export
Application & Operations
Services
Transport Services
Target adaptors Load
Transform Extract
Runtime Mata data Services
Meta data Import/ export
它们之间要通过网络接口连接,这导致在进行
数据密集型计算(Data Intensive Computing )时I/O 容易成为瓶颈。单机文件系统不提供数 据冗余、可扩展性、容错及并发能力差
谷歌文件系统(GFS)和Hadoop 的分布式文件 系统HDFS(Hadoop Distributed File System )奠定了大数据存储技术的基础。GFS/HDFS 将 计算和存储节点在物理上结合在一起,从而避免 在数据密集计算中易形成的I/O 吞吐量的制约, 同时这类分布式存储系统的文件系统也采用了分 布式架构,能达到较高的并发访问能力。
设计了一套基于 Microsoft SQL Server 2012 和 Microsoft Azure HDInsight 的端到端 大数据解决方案。在 HDInsight 上快速部署 Hadoop 群集。
大数据平台架构
引跑科技EngineOne平台
大数据虚拟化架构:VMWare BDE
vSphere Big Data Extensions (BDE)是VMware基于 Serengeti开源技术的企业发行 版,增强基础架构,更好地部署、运行和管理大数据负载,虚拟化应用。
Meta data management
Source adaptors
Design management
ETL Data import/ Rule import
四、物联网与云计算架构
互联网上的物联网:概念
互联网上的物联网:发展
2009年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中 心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术”, 明确要求尽快建立中国的传感信息中心,或叫“感知中国”中心。
移动和各 种计算设 备
普遍存在 的计算模 型
大数据关键技术5:数据挖掘算法
决策树 Decision Trees
Income>$40K n 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
信息时代的大数据需求
信息社会需求:信息化-智能化-现代化
人力工具 -- 镰刀 -- 锄头
动力工具 -- 机车 -- 机床
智能工具 --推理机 --智能网
农业社会
工业社会
信息社会
信息时代数据大爆炸,推动智能技术发展
信息时代,软件编程模型发展
“面向信息处理”的智能化编程模型,编程简化为数据配置与 管理
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
n 客户保留 n 客户生命周期管理 n 目标市场 n 价格弹性分析
聚类分析 Clustering
n 客户细分 n 市场细分
关联分析 Association
n 市场组合分析 n 套装产品分析 n 目录设计 n 交叉销售
大数据+技术架构数据智能
二、大数据的系统架构
传统数据库技术架构:
Oracle数据库体系架构
大数据架构:分层架构
从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过5 个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
大数据的系统架构:整体系统架构
新一代编程语言
大数据虚拟化(BDE/Serengeti)的部署结构图
大数据虚拟化架构:VMWare BDE
Serengeti管理服务器的系统架构图
大数据架构
Netflix基于AWS的大数据平台,不用HDFS而用amazon的S3 (美国最大的在线DVD租赁商,奈飞公司,提供在线影片租赁业务)
Zookeeper:分布式锁,提供类似Google Chubby的功能; Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制; Pig:大数据数据流分析平台,为用户提供多种接口; Sqoop:在HADOOP与传统的数据库间进行数据的传递。
大数据系统架构Hadoop:功能定位
物联网示范:智能家居大数据管理系统
物联网示范:动态跟踪管理,牧场大数据
物联网示范:医疗健康大数据 管理体系架构
•大中型医院
•基层医疗机构
•政企客户领
导
•健康管理服务
•离退休干部
终端功能
健康管理功能
平台功能 医疗服务功能
客户关怀功能
预约就医 互动交流 用药提醒 运动情况监测
血糖监测
血压监测
日常心电监测
2010年2月25日, 中国首个传感网大学科技园在无锡成立,北京邮电大学无 锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。
移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为 首的国内大中城市争相建设智能城市,争取成为感知中国示范城市。
2010年3月2日,上海物联网中心在上海嘉定揭牌,宣称将以此打造国内最 具竞争力、具有国际影响的物联网技术研发基地,总投资达8亿元。把合 作伙伴锁定为中国科学院上海微系统与信息技术研究所。
多个算法
数据管理系 统,包括数 据库和数据 仓库
数据管理和 预言模型系 统
同质/局 部区域 的计算 机群集
intranet/e xtranet网 络计算
有些系统支 持对象、文 本、和连续 的媒体数据
支持半结构 化数据和 web数据
第四代
和移动数据/ 各种计算数
据联合ຫໍສະໝຸດ Baidu
多个算法
数据管理、 预言模型、 移动系统
大数据时代的新命题:
数据在爆炸式增长 -互联网海量大数据 -物联网各类型数据 发数据处理能力要求提高 -大规模数据存取方式 -大数据并行技术能力 数据间关联性分析加强 -社交网络关系 -多业务关联性 -用户行为分析 网络数据的实时同步 -一切营销都线下+线上 -多业务跨地域数据同步
“数据结构化”本身是最具 挑战性的一个环节. 海量数据与快速处理是一 对悖论.
BPaaS
Saa S
Paa S
IaaS
云计算的不同服务层次和内容:
云计算的应用案例:广州品高IaaS
云计算的统一数据中心
➢ Cisco’s Cloud Computing Approach ➢ Combining the unified data center and cloud intelligent network ➢ Network Service becomes an essential element
云场呈现如下图。
大数据分析 世界杯:英格兰vs意大利 1:2。数据热图
大数据关键技术5:数据挖掘算法
代
特征
数据挖掘算法
集成
分布计算 数据模型
模型
第一代
数据挖掘作为 一个独立的应 用
支持一个或者 独立的系
多个算法
统
单个机 器
向量数据
第二代 第三代
和数据库以及 数据仓库集成
和预言模型 系统集成
多个算法:能够 挖掘一次不能放 进内存的数据
知识发现系统要有很好的性能
数据挖掘的主要方法
✓ 分类(Classification) ✓ 聚类(Clustering) ✓ 相关规则(Association
Rule) ✓ 回归(Regression) ✓ 其他
数据挖掘主要方法:ETL
ETL Process Framework
ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Informatic PowerCenter、AICloudETL、DataStage、DataSpider, 等。
逻辑推理(演示) 艺术性:分形算法、视频动画(演示)
大数据关键技术1:大数据存储技术
数据的海量化和快增长特征、以及数据格式的多样化是大数据对
存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传 统技术,并能够弹性扩展存储容量。
网络附着存储系统(NAS)和存储区域网络( SAN)等体系,存储和计算的物理设备分离,
大数据体系结构及关键技术
主要内容
一、大数据时代的新命题 二、大数据的体系结构 三、大数据的关键技术
四、物联网与云计算架构 五、知名企业大数据架构 六、大数据系统设计案例
总结、交流、作业
一、大数据时代的新命题
谷歌大数据中心:全球主要DC有8个
大数据表象概念:百度数据规模
大数据表象概念:对系统要求
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府
POS. 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
数据爆炸,知识贫乏
大数据关键技术4:数据显示技术
基于计算流体力学的三维呈现: 如用能场所3D场景及CFD温度及能效