大数据与数据科学 精品讲义PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据:机遇与挑战
动态:
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的 探索与实践,取得一批令人振奋的结果。
以压缩感知为代表的处理高维数据 的稀疏性理论与方法(L1, L1/2, SCAD)
以卷积神经网络为代表的深度学习 算法(尤其对于图像大数据)
以经验级联贝叶斯(EHB)与正则化 贝叶斯方法为代表的结构发现方法 与推理方法
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪更加难以判定(基础不牢,地动山 摇!)
独P立值同检分验布的被基破础坏被破坏
大件In数(fe定 样Srtea理 本ntic和 数cea中lT>lye心>sHt极维iynp限g数o(定)tShH理eIsT的is!)条.
以hadoop、spark、Petuum为代 表的分布式计算架构与编程模型
以排序与搜索、排序学习、参数服 务器等为基础的互联网应用
实现全球首部稀疏微波成像验证性原理样机 深度网络
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
大数据:机遇与挑战
挑战: 传统统计vs大数据方法
传统的统计方法
预期的大数据方法
目的
经典 统计 方法
抽样(独立同分 布)
n→∞(估计分布、 极限定理)
推断
目的
大数 据分 析方 法
大数据(自然产生 ,不满足独立同分 布)
直接分析(数据量 巨大、计算能力超 强使变得可能)
大数据技术需要多学科综合研究
数据获取与 数据管理
数据存储 与处理
数据分析 与理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一: 大数据资源管理与公
共政策
领域科学问题二: 大数据高效获取、 存储、调用与处理
的信息技术
领域科学问题三 大数据分析与处理的 统计学与计算基础
领域科学问题四 大数据工程(结合领
)
经济社会活动的碎片化再现(真实
的大世界) 大价值!
解读各自领域的大数据正成为各行各业的基
本科学活动(人类基因组
解读DNA数
据是生命医学的基本科学活动)。
大数据 需要大智慧
大数据是需要新的处理思 维和技术的信息资产。
( Laney Douglas, Gartner. June, 来自百度文库012)
Big Data needs Big judgement !
推断
基础在哪?算法是什么?合理性在哪?
大数据:机遇与挑战
挑战一: 认识论上的困惑
数据特征的改变
中小规模、固定 尺寸、非时变、 单一结构、集中 存储
超大规模、分布存 储或数据源、流数 据、超高维、异构 等;
分析目标的改变
寻找统计规律, 因果分析为主
关联性分析,支 持智能决策
认识论上的困惑
样本等于母体? 相关性能替代因果性? 查询将替代推断? 大数据可代替理论?
大数据:机遇与挑战
为什么突然变得如此有用?
数据量+计算能力
大数据的“大”
反映真实世界的 数据(碎片)其 量己达到可以从 一定程度上反映 其真实面貌的程
“大度”。是一个相对的概念
(量变 质变)
大数据:机遇与挑战
核心: 在大数据技术中,分析与处理是核心(MIT Technology Review, 2015)
融合 (互联网+)
预处理 (对齐、配准、标准化等)
关键要素分析 (售电量影响因素分析等)
优化与控制 (电力调度等)
大数据:机遇与挑战
聚焦大数据分析与处理具有紧迫性
据IDC统计数据显示,中国目前拥有的数据量占全球的14%(己收集),但数 据利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用。
目录
第一部分 第二部分 第三部分 第四部分
大数据:机遇与挑战
大数据分析与处理中的关键科学问题 关于若干大数据科学问题的研究 结语
大数据:机遇与挑战
背景: 大数据与大数据时代
信息技术革命与经济社会活动的交融 大数据(数量巨大、种类繁多、增长极快 、价值稀疏的复杂数据);
科学观测、实验过程的记录(理想的小世界
环境、气象、交通、 社会发展等大数据
交通流、医疗、商业、 环境、劳动力等数据
突发事件预测、关键 人群监测
医疗诊断方案
环境治理
城市智慧管理
大数据技术:有关如何收集、整理(存储)、解读和应用大数据的理论与方法
大数据:机遇与挑战
价值: 大数据具有重大的科学社会经济价值
大数据技术是一个 国家创新能力的核 心要素及核心竞争 力指标:它能帮助 人们从大数据中发 现新知识,创造新 价值,形成新理念, 因而是认知世界与 改造世界的能力 (即国家创新驱动 发展的一种能力)
对于一大类问题应用,P =
Goo0.g0l1e 导Flu致T1r1e%nd的s:误大报量率误;报
流感而爆P发=规0.模05。导(E致st2im9%at的in误g
hig报h 率10!0 out of 108 weeks)
— D. Laz—erR, e. tNaul.z, zToh,eSPtaatraisbtilecal of GEororoglres,FNlua: tTurarep,s2in01B4ig Data Analysis, Science, 2014
(从数据到模式、从模式到知识、 从知识到决策每一个阶段都需要猜 想、假设和理论的支撑)!
--- Financial times,2014 --- Science,2014
Big Data or Big Mistake?
大数据:机遇与挑战
挑战二: 方法论上的冲击
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑基础等)
( Shah, et al, Harvard Business Review, 2012 )
拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇
大数据:机遇与挑战
重要性: 发展大数据技术是国家战略
大数据技术是解决众多国家重大现实需求问题的共性基础
社会媒体、人口流 动、居住交通数据
医疗、医保、健康、 影像等大数据
域的大数据应用)
数据是基础、平台是支撑、分析是核心、效益是根本
大数据:机遇与挑战
处理
分析
统计
查询
(电商、语音识别等) (google翻译、风险、信
用评估等)
发展趋势预测 (负荷预测等)
共性结构发现 (电力客户细分等)
排序 (网页排序、推荐系统等)
比对 (电商等)
关联性
模式识别
(设备交叉故障等) (设备故障诊断等)