大数据分析与处理所面临的挑战—从计算的角度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据规模小 数据类型单一 基于尽可能精确的模型 单台机器处理为主体
处理海量数据 关注数据的获取、存储、
查询及管理 利用廉价存储集群 侧重高I/O、高网络带宽
和高可扩展性
使用迭代计算 重复调用相同数据以拟合复杂
模型(深度学习) 网格计算和云计算方式无法满
足计算密集型需求
大数据技术的发展:(1)由存储管理为主到分析挖掘为主; (2)由数据密集型到数据与计算密集型共存的形态;
视频
文件
记录
歌曲
报告
图片
表格
数据的常见形式
必然对社会、科学、经济、人文的方 方面面产生冲击 (特别是:支持决策 科学化、社会科学方法论、科学第四 范式、形成新的产业形态、改变生活 方式),因而广泛关注是必然的。
大数据价值如何才能显现?
大数据研究并不是某一个领域的专项问 题,而是多学科综合性研究问题。 (Big data research is not the province of any one field, but is a thoroughly interdisciplinary enterprise, NRC )
基本科 学问题
4
2
关键技术:支持大数据高效获取、 存
储、调用与处理的信息技术
(计算机软、硬件基础与技术;大数据处理算法 ……)
3 核心基础:大数据分析与挖掘的统计学与 计算基础 (表示、建模、分析基础、大数据分析与挖掘算法 ……)
应用展示:大数据工程 (结合领域的大数据应用)
(智慧城市(交通、医疗、环境、安全丶政务)丶工业、农业、……)
超算模式 (集中控制丶多点执行丶数据集中)
支持计算:任务不易分解、紧藕合问题 优势与劣势:计算效率高,易解决计算
密集型问题,但数据访问和数据存储存 在瓶颈!
计算环境和编程模型的演变
单台服务器已 经不能应对超 大规模数据分 析任务
单纯CPU计算 效率较低,堆 机器已经不能 满足需求
采用分布式计 算架构 (MpReduce, Spark,…)
大数据分析与处理所面临的 挑战—从计算的角度
目录
第一部分 第二部分 第三部分 第四部分
大数据与大数据研究 大数据分析与处理对计算科学的挑战 一个实验、两个实例 结语
大数据为什么会热?是炒作还是必然?
大数据从信息载体这一底层,一个更普 适、更本质的的角度,捕捉信息化的共 性基础丶普适技术与未来发展。 (Digitization Datafication)
目录
第一部分 第二部分 第三部分 第四部分
大数据与大数据研究 大数据分析与处理对计算科学的挑战 一个实验、两个实例 结语
计算任务与要求的演变
阶段三
阶段二
要求:大数据分析与挖掘为主
阶段一
要求:大规模数据管 理与处理为主
任务:对分布、非结构化、大规模、异构数据的 实时分析与决策支持。(大数据计算)
要求:科学计算 任务:海量数据的获
统筹规划、高瞻远瞩
撑技术?)
03 以特定基础设施(如
天河二)支撑发展 (单
一模式风险!)
发挥特色、有所作为
04 聚焦科学问题+突破核心 技术+开展示范应用,支
持大数据科学、技术与产
业的可持续发展
大数据研究与应用的发展趋势?
小数Baidu Nhomakorabea (计算密集型)
大数据管理与处理 (数据密集型)
大数据分析与挖掘 (数据-计算密集型)
传统并行
单一结构( GPU、MIC )
大规模高性 能并行通信编 程模型
(MPI)
分布并行
混合结构( CPU+GPU +MIC)
搜索引擎
核物理 航天科技 高频交易 斯隆巡天
大规模
Developing scalable &incremental algorithms
实时
Coping with the need for real-time analysis & decision- making
计算环境和编程模型的演变
传统计算:数据能够在自身的计算环境内存贮和集中处理;现代计算:正在 改变这种模式,必须支持大数据计算(特别数据分布在不同物理位置)
如何选择大数据研究的组织路线?
必须有国家战略 (应充分把握:大数据的“基础、技术、产业伴生发展”的 独有特征)
01 走 多 学 科 协 作 之 路 (requiring intimate blending, 要解决”统 筹、聚力”问题 )
02 紧密结合领域数据,甚
至应用驱动/产业带动(
公共基础问题,核心支
为主
取、存储、处理及浅
任 务 : 求 解 PDE 、 层分析(统计计算、机
解复杂优化问题 器学习、数据挖掘等)。
Dealing with highly distributed data sources
Working with different formats & structure
分布
非结构
天气预报
选用高性能服务器 。采用分布式异构 计算模型,分布式 服务器挂载GPU
现代超 算回归
计算环境和编程模型的演变
既使对同一类型数据,不同的计算任务可以是数据 密集型(如基因数据中的“炎黄计划”任务), 也可 以是计算密集型的(如基因组装,强NP向题)
单机串行
单一结构( CPU);
串行程序设 计;
编程模型的演变
计算
Computational
统计
Statistical
人本
Human-centric
大数据带来大价值仅当公共政策、核心 基础、关键技术丶基础设施、人力储备取 得突破之后,我们应该有所作为!
关注什么样的基本问题?
1
公共政策:大数据资源管理与价值链管理
(数据共享、标准、质量、安全、隐私、可用性 ……)
分布/分散计算模式
分布并行/集中计算模式
网格计算模式 (多管理域、 云计算模式 (单自治域
异地分布、按需聚合的网络 、异地分布、按需聚合
计算环境)
的网格计算模式)
支持计算:有很好的可分解性、松散 藕合的计算任务,如高能物理数据、 基因比对、搜索等;
优势与劣势:解决了大能算的问题, 但效率低是严重挑战!
采用异构计算 架构 (CPU+GPU)
传统超算 被忽视
为了帮助数据科学家 们提高效率,超算正 在逐渐回归,但我们 仍面临许多挑战…
计算机专家
数据分析专家
单块GPU卡计算 能力有限,我们 有几百万张图片 需要学习
单台服务器最多挂 载四块计算卡,我 们有超过十亿个参 数需要训练
扩展异构计算 模型,单台服 务器挂载多块 GPU