大数据体系结构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
WAP接口
云计算演进:桌面云理解(ND—NC—CCN)
云计算架构:通用三层架构(IBM为例,加BPaaS)
Cloud Service Consumer
Cloud Services
Cloud Service Provider
Common Cloud Management Platform (CCMP)
2010年2月25日, 中国首个传感网大学科技园在无锡成立,北京邮电大学 无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。
移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为 首的国内大中城市争相建设智能城市,争取成为感知中国示范城市。 2010年3月2日,上海物联网中心在上海嘉定揭牌,宣称将以此打造国内 最具竞争力、具有国际影响的物联网技术研发基地,总投资达 8亿元。把 合作伙伴锁定为中国科学院上海微系统与信息技术研究所。 2010年3月9日,中国物联网标准联合工作组筹备会议在京召开。3月中旬 ,浙江省成立了物联网产业规划编制小组,浙江省经济和信息化委员会副 主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网 产业调研和发展规划编制工作,提出“感知杭州”的发展愿景。
“数据结构化”本身是最 具挑战性的一个环节. 海量数据与快速处理是一 对悖论.
信息时代的大数据需求
信息社会需求:信息化-智能化-现代化
人力工具 -- 镰刀 -- 锄头 动力工具 -- 机车 -- 机床 智能工具 --推理机 --智能网
农业社会
工业社会
信息社会
信息时代数据大爆炸,推动智能技术发展
谷歌文件系统(GFS)和Hadoop 的分布式文件系 统HDFS(Hadoop Distributed File System)奠 定了大数据存储技术的基础。GFS/HDFS 将计算 和存储节点在物理上结合在一起,从而避免在数 据密集计算中易形成的I/O 吞吐量的制约,同时 这类分布式存储系统的文件系统也采用了分布式 架构,能达到较高的并发访问能力。
第三代
和预言模型 系统集成 和移动数据/ 各种计算数 据联合
多个算法
多个算法
第四代
普遍存在 的计算模 型
大数据关键技术5:数据挖掘算法
决策树 Decision Trees
Income>$40K
Yes NO
序列分析 Sequence Analysis
Open Accn’t
Add New Product Decrease Usage
心移 移 电动 动 图 全 测 球 量 眼 OA
健康管理功能
医疗服务功能
客户关怀功能
体 重 管 理
血 糖 管 理
血 压 管 理
心 脏 疾 病 管 理
日 常 心 电 监 测
血 压 监 测
血 糖 监 测
运 动 情 况 监 测
用 药 提 醒
互 动 交 流
预 约 就 医
短信接口
BSS/OSS
彩信接口
省领航平台
物联网的体系架构
物联网的体系架构
物联网的体系架构
物联网示范:智能家居大数据管理系统
物联网示范:动态跟踪管理,牧场大数据
物联网示范:医疗健康大数据 管理体系架构
大中型医院 基层医疗机构 政企客户领导 离退休干部
健康管理服务
平台功能
终端功能
健 紧 运 血 心 康 急 动 压 电 定 档 呼 能 图 血 位 案 叫 量 诊 糖 自 一 检 断 管 管 键 测 呈 理 理 通 现 GPS /
大数据关键技术2:并行计算能力
大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。
针对不同计算场景发展出特定分布式计算框架。
Yahoo 提出的 S4 系统、 Twitter 的 Storm, 谷歌 2010 年公布的 Dremel 系统, MapReduce内存化以提高实时性的Spark 框架.
ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator) 、Informatic PowerCenter、AICloudETL、DataStage、DataSpider, 等。 ETL Data Export Target adaptors Application & Operations Services Meta data Import/ export
Internet of Things
Communication: Any route Any Net
互联网上的物联网:发展
2009年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分 中心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术 ”,明确要求尽快建立中国的传感信息中心,或叫“感知中国”中心。
数据爆炸,知识贫乏
大数据关键技术4:数据显示技术
基于计算流体力学的三维呈现: 如用能场所3D场景及CFD温度及能效
云场呈现如下图。
大数据分析
世界杯:英格兰vs意大利 1:2。数据热图
大数据关键技术5:数据挖掘算法
代 特征 数据挖掘算法
集成 独立的系 统
数据管理系 统,包括数 据库和数据 仓库 数据管理和 预言模型系 统 数据管理、 预言模型、 移动系统
• 倾向性分析
???
Debt<10% of Income
Debt=0%
Time
• • • • 客户保留 客户生命周期管理 目标市场 价格弹性分析
Yes
Good Credit Risks
NO
NO
Bad Credit Risks
Yes
Good Credit Risks
聚类分析 Clustering
• 客户细分 • 市场细分
大数据系统架构Hadoop:功能定位
1.大数据系统架构Hadoop:层次对应
大数据:分布式计算架构
大数据架构:
MapReduce工作原理1
大数据架构:
MapReduce工作原理2
三、大数据的关键技术
大数据关键技术到底有哪些?
核心问题是:(计算、存储、分析)算法
大数据:恐怖的大数据(生活示例) 智能性:数据分析、自然语言理解 逻辑推理(演示) 艺术性:分形算法、视频动画(演示)
分布计算 模型
数据模型
第一代
数据挖掘作为 一个独立的应 用 和数据库以及 数据仓库集成
支持一个或者 多个算法
多个算法:能够 挖掘一次不能放 进内存的数据
单个机 器 同质/局 部区域 的计算 机群集
intranet/e xtranet 网 络计算 移动和各 种计算设 备
向量数据
第二代
有些系统支 持对象、文 本、和连续 的媒体数据 支持半结构 化 数 据 和 web数据
信息时代,软件编程模型发展
“面向信息处理”的智能化编程模型,编程简化为数据配置 与管理
大数据+技术架构数据智能
二、大数据的系统架构
传统数据库技术架构:
Oracle数据库体系架构
大数据架构:分层架构
从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过 5 个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
Cloud Service Creator
Existing & 3rd party services, Partner Ecosystems Cloud Service Integration Tools
BPaaS
Business-Processas-a-Service
SaaS
Sof tware-as-a-Service Operational Support Services (OSS)
关联分析 Association
• • • • 市场组合分析 套装产品分析 目录设计 交叉销售
神经网络 Neural Networks
• • • •
4
Q Q
5 6
倾向性分析 客户保留 目标市场 欺诈检测
Q
3
Q
I
2
factor n factor 1 factor 2
I
1
知识发现KDD系统特征
知识发现系统需要一个前处理 过程 • 数据抽取 • 数据清洗 • 数据选择 • 数据转换
大数据关键技术1:大数据存储技术
数据的海量化和快增长特征、以及数据格式的多样化是大数据对
存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传 统技术,并能够弹性扩展存储容量。
网络附着存储系统(NAS)和存储区域网络 (SAN)等体系,存储和计算的物理设备分离, 它们之间要通过网络接口连接,这导致在进行 数据密集型计算(Data Intensive Computing) 时I/O 容易成为瓶颈。单机文件系统不提供数 据冗余、可扩展性、容错及并发能力差
互联网上的物联网:概念
Computing: Anytime Any where Collecting: Any object Any equipment Linking: Any Place Any Point Content: Anything Anybody Servering: Any type Any Business
大数据关键技术3:数据分析技术
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 POS. 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
大数据的系统架构:整体系统架构
新一代编程语言
大数据架构:整体逻辑功能架构
大数据架构理解:搜索引擎
Байду номын сангаас数据架构理解:网页内容抓取
大数据系统架构Hadoop
Hadoop分布式系统组成
大数据系统架构Hadoop
在图中,Hadoop主要的功能组件有: Hadoop Common: 包含HDFS、MapReduce和其他项目公共内容; HDFS:Hadoop分布式文件系统; MapReduce:一个用于并行处理大数据集的软件框架。Map 函数接受一组数 据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。 Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一 个键/值对)缩小键/值对列表; HBase: 类似Google BigTable的分布式NoSQL列数据库; Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为 一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce 任务进行运行; Zookeeper:分布式锁,提供类似Google Chubby的功能; Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ; Pig:大数据数据流分析平台,为用户提供多种接口; Sqoop:在HADOOP与传统的数据库间进行数据的传递。
数据挖掘的主要方法
分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
知识发现系统是一个自动/半自 动过程
知识发现系统要有很好的性能
数据挖掘主要方法:ETL
ETL Process Framework
Load
Runtime Mata data Services Meta data management
Transform
Transport Services
Extract Source adaptors ETL Data import/ Rule import Design management
四、物联网与云计算架构
大数据表象概念:百度数据规模
大数据表象概念:对系统要求
大数据时代的新命题:
数据在爆炸式增长 -互联网海量大数据 -物联网各类型数据 发数据处理能力要求提高 -大规模数据存取方式 -大数据并行技术能力 数据间关联性分析加强 -社交网络关系 -多业务关联性 -用户行为分析 网络数据的实时同步 -一切营销都线下+线上 -多业务跨地域数据同步
大数据科学与工程系列
大数据体系结构
陈志成 中国科学院大学 2014年06月
主要内容
一、大数据时代的新命题 二、大数据的体系结构 三、大数据的关键技术 四、物联网与云计算架构 五、知名企业大数据架构 六、大数据系统设计案例 总结、交流、作业
一、大数据时代的新命题
谷歌大数据中心:全球主要DC有8个