大数据分析与处理中的关键科学问题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对显于然高p/维n为未很必大总的是数成,立并(不原趋因于:0高!维)时
相X大数=关数(据x;1定,可x或2律,能者和,随x在p中)时难线心间保性目极变证相限标化关e定一(与的理DX意(不t中))义再某,下成具些,立有分所!了量选生不命周
变期量且X无活法性完发全生刻变画化响,应分)析结果(变如量聚选类
立项依据(为什么聚焦分析与处理?)
动态:
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的 探索与实践,取得一批令人振奋的结果。
以压缩感知为代表的处理高维数据 的稀疏性理论与方法(L1, L1/2, SCAD)
以卷积神经网络为代表的深度学习 算法(尤其对于图像大数据)
以经验级联贝叶斯(EHB)方法为代 表的多粒度并行计算模式和结构发 现方法
突发事件预测、关键 人群监测
医疗诊断方案
环境治理
城市智慧管理
大数据技术:有关如何收集、整理(存储)、解读和应用大数据的理论与方法
大数据及其面临的挑战
价值: 大数据具有重大的科学社会经济价值
大数据技术是一个 国家创新能力的核 心要素及核心竞争 力指标:它能帮助 人们从大数据中发 现新知识,创造新 价值,形成新理念, 因而是认知世界与 改造世界的能力 (即国家创新驱动 发展的一种能力)
热情至高的价值取向与选择。
谁为如此高涨的大众热情负责?
解决大数据发展基础与共性技
术问题,引导大数据产业健康
可持续发展是国家责任。NSFC
应有的承担
学界期盼
为此共同努力!
目录
第一部分 第二部分 第三部分 第四部分
大数据及其面临的挑战
大数据分析与处理中的关键科学问题
关于若干大数据科学问题的研究 结语
大数据关键科学问题(挑战的进一步分析)
拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇
大数据及其面临的挑战
重要性: 发展大数据技术是国家战略
大数据技术是解决众多国家重大现实需求问题的共性基础
社会媒体、人口流 动、居住交通数据
医疗、医保、健康、 影像等大数据
环境、气象、交通、 社会发展等大数据
交通流、医疗、商业、 环境、劳动力等数据
程序:串行程序设计 MPI并行 多粒 度异构分布并行
模式1:计算密集型 数据密集型 混 合型(计算密集型+数据密集型)
模式2:传统并行 分布式并行
传统算法失效
分布式计算可行吗? 解什么时候可组装? 流数据如何高效处理? 随机计算高效吗? 异构并行可靠吗? (大数据基础算法)
大数据分析与处理的新型计算 模式与高效算法
随机机制
D1
f1 目标二
f
…. ….
X1 X2 X3 …
度分布提Dk并出行适f计应2 算异模构式计聚的算合机系环制列境高下效多算粒

Xn 法理(的大领Dm数先据核f算心m 法技)术,。形成大数据处
基于Hadoop的处理可行吗?所出现的几个算
法并没有理论上的可行性支持!
择C与lu预st测er(失D效(t)!))对t具有某种稳定性吗? 在大数据分析与处理的统计学
与计算基础方面取得突破性进展, 建立起若干新的理论,推动形成数 据科学的基础理论体系。
大数据关键科学问题(挑战的进一步分析)
挑战二 (处理模式需革新)
科学问题二
计算模式更新
环境:单一结构(CPU,MIC) 混合结 构(CPU+GPU+MIC共存协作计算)
大数据及其面临的挑战
背景: 大数据与大数据时代
信息技术革命与经济社会活动的交融 大数据(数量巨大、种类繁多、增长极快 、价值稀疏的复杂数据);
科学观测、实验过程的记录(理想的小世界

经济社会活动的碎片化再现(真实
的大世界) 大价值!
解读各自领域的大数据正成为各行各业的基
本科学活动(人类基因组
解读DNA
大数据及其面临的挑战
对策建议: 国家应有大数据重大战略
聚焦大数据分析与处理的核心基础 与共性关键技术研究,力求在分析基础 、处理算法、真伪性判定、结合典型领 域的示范应用等方面取得突破,为各行 各业大数据应用提供科学支撑和共性技 术支撑。
大数据及其面临的挑战
切入好:大数据技术涉 及方方面面,但分析与 处理是核心。经过近几 年的“期望膨胀期”之 后的冷思考,对其中科 学问题有了更准确的把 握,对研究方法有了初 步尝试 有了开展 研究的基础。
排序 (网页排序、推荐系统等)
比对 (电商等)
关联性
模式识别
(设备交叉故障等) (设备故障诊断等)
融合 (互联网+)
预处理 (对齐、配准、标准化等)
关键要素分析
优化与控制
(售电量影响因素分析等) (电力调度等)
大数据及其面临的挑战
聚焦大数据分析与处理具有紧迫性
据IDC统计数据显示,中国目前拥有的数据量占全球的14%(己收集),但数 据利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用。
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
大数据及其面临的挑战
挑战一: 认识论上的困惑
数据特征的改变
中小规模、固定 尺寸、非时变、 单一结构、集中 存储
超大规模、分布存 储、流数据、超高 维、多源异构等;
分析目标的改变
寻找统计规律, 因果分析为主
关联性分析,支 持智能决策
认识论上的困惑
数据是生命医学的基本科学活动)。
大数据 需要大智慧
大数据是需要新的处理思 维和技术的信息资产。
( Laney Douglas, Gartner. June, 2012)
Big Data needs Big judgement !
( Shah, et al, Harvard Business Review, 2012 )
大数据关键科学问题(挑战的进一步分析)
挑战三 (决策应用缺基础)
决策分析少基础 (Financial Times,14)
以查询、简单模型为基础的大数据 决策方式其逻辑基础何在?
如何评价其有效性、可靠性?
行业应用缺支撑
大数据行业应用需求旺盛,但缺乏 有效的共性技术支撑与理论指导;
基于大数据的科学发现(所谓的第 四范式)仍缺乏有效的方法论支撑 与理论基础;
基于大数据的科学发现真伪性判定 更加困难
科学问题三
面向典型领域的基于大数据的 科学发现及其方法论依据
目标三
在国家重大需求的若干典型领 域,形成大数据分析与处理的行业 核心技术,促进相应领域科学发现 新模式的形成,推动各行各业利用 大数据的能力与水平。
大数据及其面临的挑战
挑战二: 方法论上的冲击
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
独P立值同检分验布的被基破础坏被破坏
大数据关键科学问题
科学问题
(1个中心3个问题)
如何从大数据中获取知识、 支撑决策、赢得价值?
支持大数据分析与处理的统 计学基础与计算基础;
大数据分析与处理的新型计 算模式与高效算法;
面向典型领域的基于大数据 的科学发现及其方法论依据 。
数据表示 与
数据建模
分析理论 与
分析方法
计算模式 与
大数据及其面临的挑战
核心: 在大数据技术中,分析与处理是核心(MIT Technology Review, 2015)
大数据技术需要多学科综合研究
数据获取与 数据管理
Baidu Nhomakorabea
数据存储 与处理
数据分析 与理解
结合领域的 大数据应用




领域科学问题一: 大数据资源管理与
公共政策
领域科学问题二: 大数据高效获取、 存储、调用与处理
样本等于母体? 相关性能替代因果性? 大数据推出来的才是真的? 数据足够多可代替理论?
(从数据到模式、从模式到知识、 从知识到决策每一个阶段都需要猜 想、假设和理论的支撑)!
--- Financial times,2014 --- Science,2014
Big Data or Big Mistake?
计算方法
决策分析 与
真伪评价
大数据关键科学问题
1
主要研究内容1:
大数据表示与大数据建模
主要研究大数据的高效表示及相应的计算建模方法论:
大数据的表示理论与方法(新型编码、基于特征的表示、隐结 构表示、异构数据的统一表示)
大数据抽样理论(对样本总体的推断、数据的集约表示、支持 分布随机处理的抽样理论)
的信息技术
领域科学问题三 大数据分析与处 理的统计学与计
算基础
领域科学问题四 大数据工程(结 合领域的大数据
应用)
数据是基础、平台是支撑、分析是核心、效益是根本
大数据及其面临的挑战
处理
分析
统计
查询
(电商、语音识别等) (google翻译、风险、信
用评估等等)
发展趋势预测 (负荷预测等)
共性结构发现 (电力客户细分等)
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
挑战一 分析基础被破坏 挑战二 处理模式需革新 挑战三 决策应用缺基础
大数据关键科学问题(挑战的进一步分析)
大S数ta定tic理al和ly 中Hy心p极ot限he定si理s 的条 件In(fe样re本nc数e T>e>st维ing数()SHIT!). 对于一大类问题应用,P = 0.01 导致11%的误报率;
Goo而gPle=Fl0u.0T5re导nd致s:2大9%量的误误报 流感报爆率发!规模。(Estimating high—1R0.0Nouuztzoof, S1t0a8tiwsteiceakls) — DE. rLraozresr,, Netaatul.,reT,h2e0P1a4rable of Google Flu: Traps in Big Data Analysis, Science, 2014
——认为大数据科学平台是满足国 家重大需求的领域方向和我国可能 实现重大科技突破的领域。
大数据技术发展难得机遇
中央重 视,有 体制优 势
产业倒 逼,有 创新驱 动的原 始驱动 力
良好积 累,有 取得突 破、占 据领先 的可能
大数据及其面临的挑战
正当时:“研究大数据、投资
大数据”已是当下蜂踴而至、
大数据及其面临的挑战
机遇多:数据分析与处理是中国人擅长领域,有优良传统和较深厚的积累,尤其是通
过近年来的反复研讨与实践,对解决大数据分析中关键科学问题有了一些新的解决思 路,再加之,国家重视、产业倒逼都是难得机遇,为该领域的突破带来了可能 有了取得突破的可能。
“在大数据科学平台、干细胞与再生 医学等满足国家重大需求的领域方向 、我国可能实现重大科技突破的领域 以及世界可能发生重大科技事件的领 域加快或加强重大科技布局”。
稀疏建模的理论与方法(高阶、非线性稀疏性理论与方法) 高维数据建模的理论与方法(降维、高维统计推断等) 高不确定性数据的建模(统计、概率、逻辑、认知模型等)
以hadoop、spark、神经计算机为 代表的分布式计算架构
以排序与搜索、排序学习、参数服 务器等为基础的互联网应用
实现全球首部稀疏微波成像验证性原理样机 深度网络
局部有进展(偏重架谣构言、比应真用理与多、实科践学方内面涵探的索探)讨,少、但缺少对科学问题的系 统研究。核心基础和共性技术尚未建立起来。国内外处于同一水平。
大数据分析与处理中的 关键科学问题
徐宗本
(西安交通大学)
邮箱: zbxu@mail.xjtu.edu.cn 主页: http://zbxu.gr.xjtu.edu.cn
目录
第一部分 第二部分 第三部分 第四部分
大数据及其面临的挑战
大数据分析与处理中的关键科学问题 关于若干大数据科学问题的研究 结语
挑战一 (分析基础被破坏)
统计学基础被破坏 (Nature,2014)
计算理论必须重建
对大数据计算如何定义可解? 对大数据计算如何区别难和易? 对大数据如何度量计算复杂性?
(时间十存储十通讯十能耗?)
科学问题一
基大于数线性据的分相析关与性不处再理能的完统全刻计画学随与机变量之 间破破计的坏坏算相建p/关模基n-;f础(>x破0,y的,坏z)假中表设对示(x基,典y底,z型的的例独无子立关:性性D假假N设设A!的维 以度线p=性3回0亿归碱为基例对, Y,=样a本T X个+数en中=E病( X人e) 数= 0,
相关文档
最新文档