大数据分析与处理中的关键科学问题
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术需要多学科综合研究
数据获取与 数据管理
数据存储 与处理
数据分析 与理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一: 大数据资源管理与
公共政策
领域科学问题二: 大数据高效获取、 存储、调用与处理
的信息技术
领域科学问题三 大数据分析与处 理的统计学与计
算基础
领域科学问题四 大数据工程(结 合领域的大数据
科学观测、实验过程的记录(理想的小世界
)
经济社会活动的碎片化再现(真实
的大世界) 大价值!
解读各自领域的大数据正成为各行各业的基
本科学活动(人类基因组
解读DNA
数据是生命医学的基本科学活动)。
大数据 需要大智慧
大数据是需要新的处理思 维和技术的信息资产。
( Laney Douglas, Gartner. June, 2012)
大数据分析与处理中的 关键科学问题
目录
第一部分 第二部分 第三部分 第四部分
大数据及其面临的挑战
大数据分析与处理中的关键科学问题 关于若干大数据科学问题的研究 结语
大数据及其面临的挑战
背景: 大数据与大数据时代
信息技术革命与经济社会活动的交融 大数据(数量巨大、种类繁多、增长极快 、价值稀疏的复杂数据);
融合 (互联网+)
预处理 (对齐、配准、标准化等)
关键要素分析
优化与控制
(售电量影响因素分析等) (电力调度等)
大数据及其面临的挑战
聚焦大数据分析与处理具有紧迫性
据IDC统计数据显示,中国目前拥有的数据量占全球的14%(己收集),但数 据利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用。
社会媒体、人口流 动、居住交通数据
医疗、医保、健康、 影像等大数据
环境、气象、交通、 社会发展等大数据
交通流、医疗、商业、 环境、劳动力等数据
突发事件预测、关键 人群监测
医疗诊断方案
环境治理
城市智慧管理
大数据技术:有关如何收集、整理(存储)、解读和应用大数据的理论与方法
大数据及其面临的挑战
价值: 大数据具有重大的科学社会经济价值
以hadoop、spark、神经计算机为 代表的分布式计算架构
以排序与搜索、排序学习、参数服 务器等为基础的互联网应用
实现全球首部稀疏微波成像验证性原理样机 深度网络
局部有进展(偏重架谣构言、比应真用理与多、实科践学方内面涵探的索探)讨,少、但缺少对科学问题的系 统研究。核心基础和共性技术尚未建立起来。国内外处于同一水平。
大数据技术是一个 国家创新能力的核 心要素及核心竞争 力指标:它能帮助 人们从大数据中发 现新知识,创造新 价值,形成新理念, 因而是认知世界与 改造世界的能力 (即国家创新驱动 发展的一种能力)
大数据及其面临的挑战
核心: 在大数据技术中,分析与处理是核心(MIT Technology Review, 2015)
样本等于母体? 相关性能替代因果性? 大数据推出来的才是真的? 数据足够多可代替理论?
(从数据到模式、从模式到知识、 从知识到决策每一个阶段都需要猜 想、假设和理论的支撑)!
--- Financial times,2014 --- Science,2014
Big Data or Big Mistake?
大数据及其面临的挑战
挑战二: 方法论上的冲击
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
独P立值同检分验布的被基破础坏被破坏
立项依据(为什么聚焦分析与处理?)
动态:
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的 探索与实践,取得一批令人振奋的结果。
以压缩感知为代表的处理高维数据 的稀疏性理论与方法(L1, L1/2, SCAD)
以卷积神经网络为代表的深度学习 算法(尤其对于图像大数据)
以经验级联贝叶斯(EHB)方法为代 表的多粒度并行计算模式和结构发 现方法
大S数ta定tic理al和ly 中Hy心p极ot限he定si理s 的条 件In(fe样re本nc数e T>e>st维ing数()SHIT!). 对于一大类问题应用,P = 0.01 导致11%的误报率;
Goo而gPle=Fl0u.0T5re导nd致s:2大9%量的误误报 流感报爆率发!规模。(Estimating high—1R0.0Nouuztzoof, S1t0a8tiwsteiceakls) — DE. rLraozresr,, Netaatul.,reT,h2e0P1a4rable of Google Flu: Traps in Big Data Analysis, Science, 2014
公众要的是答案、不是数据!
大数据 Leabharlann Baidu垃圾
大分析 大价值
大数据及其面临的挑战
挑战一: 认识论上的困惑
数据特征的改变
中小规模、固定 尺寸、非时变、 单一结构、集中 存储
超大规模、分布存 储、流数据、超高 维、多源异构等;
分析目标的改变
寻找统计规律, 因果分析为主
关联性分析,支 持智能决策
认识论上的困惑
应用)
数据是基础、平台是支撑、分析是核心、效益是根本
大数据及其面临的挑战
处理
分析
统计
查询
(电商、语音识别等) (google翻译、风险、信
用评估等等)
发展趋势预测 (负荷预测等)
共性结构发现 (电力客户细分等)
排序 (网页排序、推荐系统等)
比对 (电商等)
关联性
模式识别
(设备交叉故障等) (设备故障诊断等)
Big Data needs Big judgement !
( Shah, et al, Harvard Business Review, 2012 )
拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇
大数据及其面临的挑战
重要性: 发展大数据技术是国家战略
大数据技术是解决众多国家重大现实需求问题的共性基础
大数据及其面临的挑战
对策建议: 国家应有大数据重大战略
聚焦大数据分析与处理的核心基础 与共性关键技术研究,力求在分析基础 、处理算法、真伪性判定、结合典型领 域的示范应用等方面取得突破,为各行 各业大数据应用提供科学支撑和共性技 术支撑。
大数据及其面临的挑战
数据获取与 数据管理
数据存储 与处理
数据分析 与理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一: 大数据资源管理与
公共政策
领域科学问题二: 大数据高效获取、 存储、调用与处理
的信息技术
领域科学问题三 大数据分析与处 理的统计学与计
算基础
领域科学问题四 大数据工程(结 合领域的大数据
科学观测、实验过程的记录(理想的小世界
)
经济社会活动的碎片化再现(真实
的大世界) 大价值!
解读各自领域的大数据正成为各行各业的基
本科学活动(人类基因组
解读DNA
数据是生命医学的基本科学活动)。
大数据 需要大智慧
大数据是需要新的处理思 维和技术的信息资产。
( Laney Douglas, Gartner. June, 2012)
大数据分析与处理中的 关键科学问题
目录
第一部分 第二部分 第三部分 第四部分
大数据及其面临的挑战
大数据分析与处理中的关键科学问题 关于若干大数据科学问题的研究 结语
大数据及其面临的挑战
背景: 大数据与大数据时代
信息技术革命与经济社会活动的交融 大数据(数量巨大、种类繁多、增长极快 、价值稀疏的复杂数据);
融合 (互联网+)
预处理 (对齐、配准、标准化等)
关键要素分析
优化与控制
(售电量影响因素分析等) (电力调度等)
大数据及其面临的挑战
聚焦大数据分析与处理具有紧迫性
据IDC统计数据显示,中国目前拥有的数据量占全球的14%(己收集),但数 据利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用。
社会媒体、人口流 动、居住交通数据
医疗、医保、健康、 影像等大数据
环境、气象、交通、 社会发展等大数据
交通流、医疗、商业、 环境、劳动力等数据
突发事件预测、关键 人群监测
医疗诊断方案
环境治理
城市智慧管理
大数据技术:有关如何收集、整理(存储)、解读和应用大数据的理论与方法
大数据及其面临的挑战
价值: 大数据具有重大的科学社会经济价值
以hadoop、spark、神经计算机为 代表的分布式计算架构
以排序与搜索、排序学习、参数服 务器等为基础的互联网应用
实现全球首部稀疏微波成像验证性原理样机 深度网络
局部有进展(偏重架谣构言、比应真用理与多、实科践学方内面涵探的索探)讨,少、但缺少对科学问题的系 统研究。核心基础和共性技术尚未建立起来。国内外处于同一水平。
大数据技术是一个 国家创新能力的核 心要素及核心竞争 力指标:它能帮助 人们从大数据中发 现新知识,创造新 价值,形成新理念, 因而是认知世界与 改造世界的能力 (即国家创新驱动 发展的一种能力)
大数据及其面临的挑战
核心: 在大数据技术中,分析与处理是核心(MIT Technology Review, 2015)
样本等于母体? 相关性能替代因果性? 大数据推出来的才是真的? 数据足够多可代替理论?
(从数据到模式、从模式到知识、 从知识到决策每一个阶段都需要猜 想、假设和理论的支撑)!
--- Financial times,2014 --- Science,2014
Big Data or Big Mistake?
大数据及其面临的挑战
挑战二: 方法论上的冲击
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
独P立值同检分验布的被基破础坏被破坏
立项依据(为什么聚焦分析与处理?)
动态:
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的 探索与实践,取得一批令人振奋的结果。
以压缩感知为代表的处理高维数据 的稀疏性理论与方法(L1, L1/2, SCAD)
以卷积神经网络为代表的深度学习 算法(尤其对于图像大数据)
以经验级联贝叶斯(EHB)方法为代 表的多粒度并行计算模式和结构发 现方法
大S数ta定tic理al和ly 中Hy心p极ot限he定si理s 的条 件In(fe样re本nc数e T>e>st维ing数()SHIT!). 对于一大类问题应用,P = 0.01 导致11%的误报率;
Goo而gPle=Fl0u.0T5re导nd致s:2大9%量的误误报 流感报爆率发!规模。(Estimating high—1R0.0Nouuztzoof, S1t0a8tiwsteiceakls) — DE. rLraozresr,, Netaatul.,reT,h2e0P1a4rable of Google Flu: Traps in Big Data Analysis, Science, 2014
公众要的是答案、不是数据!
大数据 Leabharlann Baidu垃圾
大分析 大价值
大数据及其面临的挑战
挑战一: 认识论上的困惑
数据特征的改变
中小规模、固定 尺寸、非时变、 单一结构、集中 存储
超大规模、分布存 储、流数据、超高 维、多源异构等;
分析目标的改变
寻找统计规律, 因果分析为主
关联性分析,支 持智能决策
认识论上的困惑
应用)
数据是基础、平台是支撑、分析是核心、效益是根本
大数据及其面临的挑战
处理
分析
统计
查询
(电商、语音识别等) (google翻译、风险、信
用评估等等)
发展趋势预测 (负荷预测等)
共性结构发现 (电力客户细分等)
排序 (网页排序、推荐系统等)
比对 (电商等)
关联性
模式识别
(设备交叉故障等) (设备故障诊断等)
Big Data needs Big judgement !
( Shah, et al, Harvard Business Review, 2012 )
拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇
大数据及其面临的挑战
重要性: 发展大数据技术是国家战略
大数据技术是解决众多国家重大现实需求问题的共性基础
大数据及其面临的挑战
对策建议: 国家应有大数据重大战略
聚焦大数据分析与处理的核心基础 与共性关键技术研究,力求在分析基础 、处理算法、真伪性判定、结合典型领 域的示范应用等方面取得突破,为各行 各业大数据应用提供科学支撑和共性技 术支撑。
大数据及其面临的挑战