大数据体系结构及关键技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

神经网络 Neural Networks
Q5 Q6 Q3 Q4
n 倾向性分析 n 客户保留 n 目标市场 n 欺诈检测
I1
I2
factor n
factor 1 factor 2
知识发现KDD系统特征
知识发现系统需要一个前处理 过程 n 数据抽取 n 数据清洗 n 数据选择 n 数据转换
知识发现系统是一个自动/半自 动过程
五、知名企业大数据架构
又拍云存储架构
大数据:IBM大数据方案
大数据分析实例:
北京邮电大学——“云海”移动互联网数据分析平台
1.大数据架构:曙光智慧交通系统架构
1.大数据架构:IBM
1.大数据架构:HP云监控大数据解决方案
大数据架构
Intel分布式Hadoop架构
大数据架构:微软大数据解决方案
心脏疾病管理
血压管理
血糖管理
体重管理
移动全球眼 移动OA 心电图测量 心电图诊断呈现 血压/血糖管理 运动能量检测 紧急呼叫一键通 GPS定位 健康档案自管理
•BSS/OSS
短信接口
彩信接口
•省领航平台
WAP接口
云计算演进:桌面云理解(ND—NC—CCN)
云计算架构:通用三层架构(IBM为例,加BPaaS)
1.大数据系统架构Hadoop:层次对应
大数据:分布式计算架构
大数据架构: MapReduce工作原理1
大数据架构: MapReduce工作原理2
三、大数据的关键技术
大数据关键技术到底有哪些? 核心问题是:(计算、存储、分析)算法
大数据:恐怖的大数据(生活示例) 智能性:数据分析、自然语言理解
大数据架构:整体逻辑功能架构
大数据架构理解:搜索引擎
大数据架构理解:网页内容抓取
大数据系统架构Hadoop
Hadoop分布式系统组成
大数据系统架构Hadoop
在图中,Hadoop主要的功能组件有: Hadoop Common: 包含HDFS、MapReduce和其他项目公共内容; HDFS:Hadoop分布式文件系统; MapReduce:一个用于并行处理大数据集的软件框架。Map 函数接受一组数据 并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对 )缩小键/值对列表; HBase: 类似Google BigTable的分布式NoSQL列数据库; Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一 张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务 进行运行;
大数据关键技术2:并行计算能力
大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。 针对不同计算场景发展出特定分布式计算框架。
Yahoo 提出的S4 系统、Twitter 的Storm,谷歌2010 年公布的Dremel系统, MapReduce 内存化以提高实时性的Spark 框架.
大数据关键技术3:数据分析技术
2010年3月9日,中国物联网标准联合工作组筹备会议在京召开。3月中旬 ,浙江省成立了物联网产业规划编制小组,浙江省经济和信息化委员会副 主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网 产业调研和发展规划编制工作,提出“感知杭州”的发展愿景。
物联网的体系架构
物联网的体系架构
物联网的体系架构
Integrator)、
ETL Data Export
Application & Operations
Services
Transport Services
Target adaptors Load
Transform Extract
Runtime Mata data Services
Meta data Import/ export
它们之间要通过网络接口连接,这导致在进行
数据密集型计算(Data Intensive Computing )时I/O 容易成为瓶颈。单机文件系统不提供数 据冗余、可扩展性、容错及并发能力差
谷歌文件系统(GFS)和Hadoop 的分布式文件 系统HDFS(Hadoop Distributed File System )奠定了大数据存储技术的基础。GFS/HDFS 将 计算和存储节点在物理上结合在一起,从而避免 在数据密集计算中易形成的I/O 吞吐量的制约, 同时这类分布式存储系统的文件系统也采用了分 布式架构,能达到较高的并发访问能力。
设计了一套基于 Microsoft SQL Server 2012 和 Microsoft Azure HDInsight 的端到端 大数据解决方案。在 HDInsight 上快速部署 Hadoop 群集。
大数据平台架构
引跑科技EngineOne平台
大数据虚拟化架构:VMWare BDE
vSphere Big Data Extensions (BDE)是VMware基于 Serengeti开源技术的企业发行 版,增强基础架构,更好地部署、运行和管理大数据负载,虚拟化应用。
Meta data management
Source adaptors
Design management
ETL Data import/ Rule import
四、物联网与云计算架构
互联网上的物联网:概念
互联网上的物联网:发展
2009年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中 心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术”, 明确要求尽快建立中国的传感信息中心,或叫“感知中国”中心。
移动和各 种计算设 备
普遍存在 的计算模 型
大数据关键技术5:数据挖掘算法
决策树 Decision Trees
Income>$40K n 倾向性分析
Yes
NO
Debt<10% of Income
Debt=0%
Yes
NO
NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
信息时代的大数据需求
信息社会需求:信息化-智能化-现代化
人力工具 -- 镰刀 -- 锄头
动力工具 -- 机车 -- 机床
智能工具 --推理机 --智能网
农业社会
工业社会
信息社会
信息时代数据大爆炸,推动智能技术发展
信息时代,软件编程模型发展
“面向信息处理”的智能化编程模型,编程简化为数据配置与 管理
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
n 客户保留 n 客户生命周期管理 n 目标市场 n 价格弹性分析
聚类分析 Clustering
n 客户细分 n 市场细分
关联分析 Association
n 市场组合分析 n 套装产品分析 n 目录设计 n 交叉销售
大数据+技术架构数据智能
二、大数据的系统架构
传统数据库技术架构:
Oracle数据库体系架构
大数据架构:分层架构
从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过5 个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
大数据的系统架构:整体系统架构
新一代编程语言
大数据虚拟化(BDE/Serengeti)的部署结构图
大数据虚拟化架构:VMWare BDE
Serengeti管理服务器的系统架构图
大数据架构
Netflix基于AWS的大数据平台,不用HDFS而用amazon的S3 (美国最大的在线DVD租赁商,奈飞公司,提供在线影片租赁业务)
Zookeeper:分布式锁,提供类似Google Chubby的功能; Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制; Pig:大数据数据流分析平台,为用户提供多种接口; Sqoop:在HADOOP与传统的数据库间进行数据的传递。
大数据系统架构Hadoop:功能定位
物联网示范:智能家居大数据管理系统
物联网示范:动态跟踪管理,牧场大数据
物联网示范:医疗健康大数据 管理体系架构
•大中型医院
•基层医疗机构
•政企客户领

•健康管理服务
•离退休干部
终端功能
健康管理功能
平台功能 医疗服务功能
客户关怀功能
预约就医 互动交流 用药提醒 运动情况监测
血糖监测
血压监测
日常心电监测
2010年2月25日, 中国首个传感网大学科技园在无锡成立,北京邮电大学无 锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。
移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为 首的国内大中城市争相建设智能城市,争取成为感知中国示范城市。
2010年3月2日,上海物联网中心在上海嘉定揭牌,宣称将以此打造国内最 具竞争力、具有国际影响的物联网技术研发基地,总投资达8亿元。把合 作伙伴锁定为中国科学院上海微系统与信息技术研究所。
多个算法
数据管理系 统,包括数 据库和数据 仓库
数据管理和 预言模型系 统
同质/局 部区域 的计算 机群集
intranet/e xtranet网 络计算
有些系统支 持对象、文 本、和连续 的媒体数据
支持半结构 化数据和 web数据
第四代
和移动数据/ 各种计算数
据联合ຫໍສະໝຸດ Baidu
多个算法
数据管理、 预言模型、 移动系统
大数据时代的新命题:
数据在爆炸式增长 -互联网海量大数据 -物联网各类型数据 发数据处理能力要求提高 -大规模数据存取方式 -大数据并行技术能力 数据间关联性分析加强 -社交网络关系 -多业务关联性 -用户行为分析 网络数据的实时同步 -一切营销都线下+线上 -多业务跨地域数据同步
“数据结构化”本身是最具 挑战性的一个环节. 海量数据与快速处理是一 对悖论.
BPaaS
Saa S
Paa S
IaaS
云计算的不同服务层次和内容:
云计算的应用案例:广州品高IaaS
云计算的统一数据中心
➢ Cisco’s Cloud Computing Approach ➢ Combining the unified data center and cloud intelligent network ➢ Network Service becomes an essential element
云场呈现如下图。
大数据分析 世界杯:英格兰vs意大利 1:2。数据热图
大数据关键技术5:数据挖掘算法

特征
数据挖掘算法
集成
分布计算 数据模型
模型
第一代
数据挖掘作为 一个独立的应 用
支持一个或者 独立的系
多个算法

单个机 器
向量数据
第二代 第三代
和数据库以及 数据仓库集成
和预言模型 系统集成
多个算法:能够 挖掘一次不能放 进内存的数据
知识发现系统要有很好的性能
数据挖掘的主要方法
✓ 分类(Classification) ✓ 聚类(Clustering) ✓ 相关规则(Association
Rule) ✓ 回归(Regression) ✓ 其他
数据挖掘主要方法:ETL
ETL Process Framework
ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Informatic PowerCenter、AICloudETL、DataStage、DataSpider, 等。
逻辑推理(演示) 艺术性:分形算法、视频动画(演示)
大数据关键技术1:大数据存储技术
数据的海量化和快增长特征、以及数据格式的多样化是大数据对
存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传 统技术,并能够弹性扩展存储容量。
网络附着存储系统(NAS)和存储区域网络( SAN)等体系,存储和计算的物理设备分离,
大数据体系结构及关键技术
主要内容
一、大数据时代的新命题 二、大数据的体系结构 三、大数据的关键技术
四、物联网与云计算架构 五、知名企业大数据架构 六、大数据系统设计案例
总结、交流、作业
一、大数据时代的新命题
谷歌大数据中心:全球主要DC有8个
大数据表象概念:百度数据规模
大数据表象概念:对系统要求
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府
POS. 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
数据爆炸,知识贫乏
大数据关键技术4:数据显示技术
基于计算流体力学的三维呈现: 如用能场所3D场景及CFD温度及能效
相关文档
最新文档