大数据分析与处理的基础理论与核心算法 (3)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Google Flu: Traps in Big Data Analysis, Science, 2014)
?
P值检验的基础被破坏 (R. Nuzzo, Statistical Errors, Nature, 2014)
根据大数定理和中心极限 定理
以独立同分布为基础
本质原因:对大数据沿用原有的理论框架是不适用的。
数据获取与 数据管理
数据存储与 数据处理
数据分析与 数据理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一 领域科学问题二 领域科学问题三 领域科学问题四
大数据资源管理 大数据存储与处
与公共政策
理的信息技术
大数据分析的 理论与算法
大数据工程(结 合领域的大数据
应用)
根据MIT技术评论(2015年)的观点:“在大数据技术中,分析 与处理是核心”。
3 真伪性更加难以判定:必须发展新的分析理论与方法!
基于大数据的科学发现(所谓的第四范式)仍缺乏有效的方 法论支撑与理论基础;
如何评价其有效性、可靠性?
一、立项依据(大数据分析与处理面临巨大挑战)
一个例子:“谷歌流感趋势预测失败:大数据分析为何出错?”
Google2012年发布了一个基于大数 据的流感趋势预测软件(Google Flue Trend),近期的Science文章 指出这样的预测频频出错:“在 108周的预报中高达100周的预测出 现大的偏差”。 (D. Lazer, et al., The Parable of
因此,大数据具有大价值。主要体现在:可以为我们提供社会科学的新方法论、 科学研究的新范式、高新科技的新领域和社会进步的新引擎。可以说,大数据技 术是解决众多国家重大现实需求问题的共性基础。
5
一、立项依据(大数据分析与处理是核心)
大数据技术是大数据的采集、传输、存储、处理、分析与应用的总称。
大数据技术需要多学科综合研究
Spark:由UC Berkeley AMP Lab于2009年提 出;
参数服务器:由卡耐基梅隆大学教授邢波于 2014年在ICML上提出;
对于Hadoop、Spark架构下大数据算法的可行 性研究(徐宗本团队于2014年提出)
局部有进展(偏重架构、应用与实践方面探索),但缺少对科学问题的系统研 究。核心基础和共性算法均尚未建立起来。国内外处于同一水平。
以Hadoop、Spark、参数服务器 为代表的分布式计算架构
突破点
贝叶斯方法:由Thomas Bayes于1702-1761年提 出,经过近两个世纪的努力才得到了科学界的认可;
Baidu Nhomakorabea 经验级联贝叶斯方法:由Tenenbaum于2011年提 出
正则贝叶斯方法:由清华大学朱军于2013年提出;
Hadoop:由Apache Software Foundation 公司于2005年提出;
一、立项依据(大数据分析与处理面临巨大挑战)
处理对象上:数据特征突变
中小规模 结构化 非时变
单一结构 集中存储 传统数据特征
超大规模 非结构化
流数据 多源异构 分布存储 大数据特征
一、立项依据(大数据分析与处理面临巨大挑战)
认识论上:对传统形成挑战 传统的统计方法
预期的大数据方法
目的
经典 统计 方法
计算基础被破坏(计算复杂性理论不再成立) 逻辑基础不再适用(基于查询、相关等推理的逻辑基础尚未建立)
2 计算模式与算法被改变
单机计算模式到分布式计算模式(数据如何分布?用什么平台?集 群间怎么通信?用什么样的编程语言?);
适应于分布式计算模式的计算方法还未建立(分布式计算可行吗? 解什么时候可组装?流数据如何高效处理?)
SCAD:由范剑青于2005年提出; L1/2:由徐宗本于2009年提出;
以卷积神经网络为代表的深度学习 算法
卷积神经网络:由LeCun于1962-1989年提 出;
深度学习:由Hinton于2006年提出;
一、立项依据(国内外研究进展)
代表性进展
以经验级联贝叶斯(EHB)方法为代 表的结构发现与推理方法
一、立项依据(数据与大数据)
2015年8月19日国务院常务会通过了《关于促进大数据发展的行动纲要》 ,强调通过大数据的发展,提升创业创新活力和社会治理水平。这表明: 发展大数据技术己是国家战略。
4
一、立项依据(数据与大数据)
作为经济社会活动的片断记 录,数据的积累己经大到可 以直接从数据中发现规律、 概括经验、解释本质的程度 (量变→质变),加之计算 能力的突飞猛进,使得这种 大数据分析变得可能。
抽样(独立同分 布)
n→∞(估计分布、 极限定理)
推断
目的
大数 据分 析方 法
大数据(自然产生 ,不满足独立同分 布)
直接分析(数据量 巨大、计算能力超 强)
推断
基础在哪?算法是什么?合理性在哪?
一、立项依据(大数据分析与处理面临巨大挑战)
方法论上:理论和方法失效
1 分析基础被破坏
统计学基础被破坏(独立同分布被破坏、大数定理和中心极限定理 的条件不满足(样本数 >> 维数)、 P值检验的基础被破坏)
一、立项依据(国内外研究进展)
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的探索 与实践,取得一批令人振奋的结果。
代表性进展
突破点
以压缩感知为代表的处理高维数据 的稀疏性理论与方法
压缩感知(L1):由 E. J. Candes、J. Romberg、 T. Tao 和D. L. Donoho 等科学家于2004 年提出;
重大研究计划立项建议 大数据分析与处理的基础理论与核心算法
引言
问题一
问题二
委务会议已通过管理科学部启动 “大数据驱动的管理与决策研究” 重大计划,为什么还有必要启动 新的大数据重大计划?
为什么要聚焦研究“大数据分 析与处理的基础理论与核心算 法”?
汇报内容
第一部分 第二部分 第三部分
为什么要聚焦大数据分析与处理? 研究内容、科学问题与科学目标 必要性:为什么还要启动新的大数据重大计划?
一、立项依据(大数据分析与处理是核心)
聚焦大数据分析与处理具有紧迫性
据国际数据联盟(IDC)统计,中国目前拥有的数据量占全球的14%,但数据 利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用,其本质原
因是这些数据没有利到深入分析与处理。
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
?
P值检验的基础被破坏 (R. Nuzzo, Statistical Errors, Nature, 2014)
根据大数定理和中心极限 定理
以独立同分布为基础
本质原因:对大数据沿用原有的理论框架是不适用的。
数据获取与 数据管理
数据存储与 数据处理
数据分析与 数据理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一 领域科学问题二 领域科学问题三 领域科学问题四
大数据资源管理 大数据存储与处
与公共政策
理的信息技术
大数据分析的 理论与算法
大数据工程(结 合领域的大数据
应用)
根据MIT技术评论(2015年)的观点:“在大数据技术中,分析 与处理是核心”。
3 真伪性更加难以判定:必须发展新的分析理论与方法!
基于大数据的科学发现(所谓的第四范式)仍缺乏有效的方 法论支撑与理论基础;
如何评价其有效性、可靠性?
一、立项依据(大数据分析与处理面临巨大挑战)
一个例子:“谷歌流感趋势预测失败:大数据分析为何出错?”
Google2012年发布了一个基于大数 据的流感趋势预测软件(Google Flue Trend),近期的Science文章 指出这样的预测频频出错:“在 108周的预报中高达100周的预测出 现大的偏差”。 (D. Lazer, et al., The Parable of
因此,大数据具有大价值。主要体现在:可以为我们提供社会科学的新方法论、 科学研究的新范式、高新科技的新领域和社会进步的新引擎。可以说,大数据技 术是解决众多国家重大现实需求问题的共性基础。
5
一、立项依据(大数据分析与处理是核心)
大数据技术是大数据的采集、传输、存储、处理、分析与应用的总称。
大数据技术需要多学科综合研究
Spark:由UC Berkeley AMP Lab于2009年提 出;
参数服务器:由卡耐基梅隆大学教授邢波于 2014年在ICML上提出;
对于Hadoop、Spark架构下大数据算法的可行 性研究(徐宗本团队于2014年提出)
局部有进展(偏重架构、应用与实践方面探索),但缺少对科学问题的系统研 究。核心基础和共性算法均尚未建立起来。国内外处于同一水平。
以Hadoop、Spark、参数服务器 为代表的分布式计算架构
突破点
贝叶斯方法:由Thomas Bayes于1702-1761年提 出,经过近两个世纪的努力才得到了科学界的认可;
Baidu Nhomakorabea 经验级联贝叶斯方法:由Tenenbaum于2011年提 出
正则贝叶斯方法:由清华大学朱军于2013年提出;
Hadoop:由Apache Software Foundation 公司于2005年提出;
一、立项依据(大数据分析与处理面临巨大挑战)
处理对象上:数据特征突变
中小规模 结构化 非时变
单一结构 集中存储 传统数据特征
超大规模 非结构化
流数据 多源异构 分布存储 大数据特征
一、立项依据(大数据分析与处理面临巨大挑战)
认识论上:对传统形成挑战 传统的统计方法
预期的大数据方法
目的
经典 统计 方法
计算基础被破坏(计算复杂性理论不再成立) 逻辑基础不再适用(基于查询、相关等推理的逻辑基础尚未建立)
2 计算模式与算法被改变
单机计算模式到分布式计算模式(数据如何分布?用什么平台?集 群间怎么通信?用什么样的编程语言?);
适应于分布式计算模式的计算方法还未建立(分布式计算可行吗? 解什么时候可组装?流数据如何高效处理?)
SCAD:由范剑青于2005年提出; L1/2:由徐宗本于2009年提出;
以卷积神经网络为代表的深度学习 算法
卷积神经网络:由LeCun于1962-1989年提 出;
深度学习:由Hinton于2006年提出;
一、立项依据(国内外研究进展)
代表性进展
以经验级联贝叶斯(EHB)方法为代 表的结构发现与推理方法
一、立项依据(数据与大数据)
2015年8月19日国务院常务会通过了《关于促进大数据发展的行动纲要》 ,强调通过大数据的发展,提升创业创新活力和社会治理水平。这表明: 发展大数据技术己是国家战略。
4
一、立项依据(数据与大数据)
作为经济社会活动的片断记 录,数据的积累己经大到可 以直接从数据中发现规律、 概括经验、解释本质的程度 (量变→质变),加之计算 能力的突飞猛进,使得这种 大数据分析变得可能。
抽样(独立同分 布)
n→∞(估计分布、 极限定理)
推断
目的
大数 据分 析方 法
大数据(自然产生 ,不满足独立同分 布)
直接分析(数据量 巨大、计算能力超 强)
推断
基础在哪?算法是什么?合理性在哪?
一、立项依据(大数据分析与处理面临巨大挑战)
方法论上:理论和方法失效
1 分析基础被破坏
统计学基础被破坏(独立同分布被破坏、大数定理和中心极限定理 的条件不满足(样本数 >> 维数)、 P值检验的基础被破坏)
一、立项依据(国内外研究进展)
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的探索 与实践,取得一批令人振奋的结果。
代表性进展
突破点
以压缩感知为代表的处理高维数据 的稀疏性理论与方法
压缩感知(L1):由 E. J. Candes、J. Romberg、 T. Tao 和D. L. Donoho 等科学家于2004 年提出;
重大研究计划立项建议 大数据分析与处理的基础理论与核心算法
引言
问题一
问题二
委务会议已通过管理科学部启动 “大数据驱动的管理与决策研究” 重大计划,为什么还有必要启动 新的大数据重大计划?
为什么要聚焦研究“大数据分 析与处理的基础理论与核心算 法”?
汇报内容
第一部分 第二部分 第三部分
为什么要聚焦大数据分析与处理? 研究内容、科学问题与科学目标 必要性:为什么还要启动新的大数据重大计划?
一、立项依据(大数据分析与处理是核心)
聚焦大数据分析与处理具有紧迫性
据国际数据联盟(IDC)统计,中国目前拥有的数据量占全球的14%,但数据 利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用,其本质原
因是这些数据没有利到深入分析与处理。
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值