大数据培训教程大数据的来源和动机77
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 狭义的:BigData 泛指数据集的大小,产生的速度和数据类型超过了通常的数据库,数据管理软件 在限定的时间范围内所能获取,存储,管理和分析的范畴。这是一个相对的概念,不能从绝对意 义上指明某一个数值来定义,而且这个相对的标准根据所处的行业和客户的不同千差万别
市场曲线
2.大数据时代的典型技术
Science, and Society”
2009年
10月,Toy Hey, “The 4th Paradigm: Data-Intensive Science Discovery”
2011年
2月,SCIENCE,“SPECIALS: Dealing with Data” 5月,EMC World’2011, “Cloud Meets Big Data” 6月,麦肯锡,“Big Data: The Next Frontier for Innovation, competition, and productivity” 6月,IDC( Sponsored by EMC ),“DIGTIAL UNIVERSE: Extracting Value from Chaos”
* “Data Science”在字眼上最早由EMC提出。。。
All the models are wrong, and increasingly you can succeed without tBiblioteka Baiduem. - From Peter Norvig, GOOGLE
BigData 是什么 – 用于承载所有的概念
6个首先启动大数据计划的政府部门中,国家科学基金会的研究内容提 到要“形成一个包含数学、统计基础和计算机算法的独特科学”,其他 大多是应对挑战的数据工程类项目,如 ➢ 国防部高级技术研究局 • 多尺度异常检测项目 • 网络内部威胁项目 • INSIGHT(网络威胁自动识别) • Machine Reading项目 • Mind’s Eys(机器视觉)项目 • VIRAT(军事图像分析与预警) • XDATA(半结构化与非结构化数据的计算技术与软件工具)
2012年
1月,达沃斯世界经济论坛,“Big Data, Big Impact: New Possibilities for International Development”
3月,美国奥巴马政府,“Big Data Research and Development Initiative” 5月,联合国,“Big Data for Development: Challenges and Opportunities”
以GOOGLE为代表的互联网公司是大数据发展的始作
俑者
HDFS是GFS的开源实现 Fackbook的HayStack解决了海量小文件(
如图片)的存储问题
大数据可以说发轫于GOOGLE 于2003年陆续发表的一些技 术论文
-“The Google File System” - “MapReduce: Simplified
Data Processing on Large Cluster” - “Bigtable: A Distributed Storage System for Structured Data”
NoSQL(Not Only SQL) ➢ GOOGLE的BIGTABLE ➢ AMAZON的DYNAMO ➢ YAHOO的PNUTS
• BigData 的定义 – 盛名之下,其实难负
– 广义的:大数据已经不再局限于技术领域。如今,大数据已成为一项业务上优先考虑的工作任务 ,因为它能够对全球整合经济时代的商务产生深远的影响。除了为应对长期存在的业务挑战提供 解决方案之外,大数据还为流程、组织、整个行业、甚至社会本身的转型激发了许多新的方式。
ACID vs BASE ➢ Basically available ➢ Soft state ➢ Eventually consistent
以弱一致获取高可用 基于SPANNER的混合型数据库F1(用于
即相对于试验科学(第一范式)、理论科学(第二范式)、计算科学(第三范式 )而言。
数据科学继承了统计学的很多东西。。。 ➢ 强调后见之明(hindsight)或预见(foresight)而非洞察(insight) ➢ 强调相关关系(correlation)而非因果关系(causality) ➢ Correlation is enough and the end of theory!
美国政府的大数据计划具有很强烈的宣传符号色彩
3月29日:奥巴马政府以“Big Data is a Big Deal”为题发布新闻。宣 布投资2亿美元启动“大数据研究和发展计划”以图增强收集海量数据 、分析萃取信息的能力。与工业界、大学研究界、非营利性机构与管理 者一起利用大数据所创造的机会。
5月23日:在TechCrunch Disrupt大会上,透露了5项将要颁布的重要 联邦举措。其核心是政府开放数据计划,将政府数据和一些企业数据公 开,以图改善美国人的生活方式,进而创造工作岗位。
Obama Election TOP Contributor
麦肯锡的咨询报告比较系统的确立了大数据的概念
更为深远的可能是“数据科学”的最终兴起
2007年,已故图灵奖得主吉姆.格雷(Jim Gray)在他最后一次演讲中描绘了数 据密集型科研“第四范式”(The 4th Paradigm)的愿景。
大数据培训教程大数据 的来源和动机77
2020年7月7日星期二
大数据,盛名难负
Be Internetional
Agenda
• 1.大数据的时代背景 • 2.大数据时代的典型技术
1.大数据的时代背景
大数据浪潮兴起的主要脉络
2008年
9月,NATURE,“SPECIALS: Big Data” 12月,计算社区联盟,“Big Data Computing: Creating Revolutionary Breakthroughs in Commerce,
市场曲线
2.大数据时代的典型技术
Science, and Society”
2009年
10月,Toy Hey, “The 4th Paradigm: Data-Intensive Science Discovery”
2011年
2月,SCIENCE,“SPECIALS: Dealing with Data” 5月,EMC World’2011, “Cloud Meets Big Data” 6月,麦肯锡,“Big Data: The Next Frontier for Innovation, competition, and productivity” 6月,IDC( Sponsored by EMC ),“DIGTIAL UNIVERSE: Extracting Value from Chaos”
* “Data Science”在字眼上最早由EMC提出。。。
All the models are wrong, and increasingly you can succeed without tBiblioteka Baiduem. - From Peter Norvig, GOOGLE
BigData 是什么 – 用于承载所有的概念
6个首先启动大数据计划的政府部门中,国家科学基金会的研究内容提 到要“形成一个包含数学、统计基础和计算机算法的独特科学”,其他 大多是应对挑战的数据工程类项目,如 ➢ 国防部高级技术研究局 • 多尺度异常检测项目 • 网络内部威胁项目 • INSIGHT(网络威胁自动识别) • Machine Reading项目 • Mind’s Eys(机器视觉)项目 • VIRAT(军事图像分析与预警) • XDATA(半结构化与非结构化数据的计算技术与软件工具)
2012年
1月,达沃斯世界经济论坛,“Big Data, Big Impact: New Possibilities for International Development”
3月,美国奥巴马政府,“Big Data Research and Development Initiative” 5月,联合国,“Big Data for Development: Challenges and Opportunities”
以GOOGLE为代表的互联网公司是大数据发展的始作
俑者
HDFS是GFS的开源实现 Fackbook的HayStack解决了海量小文件(
如图片)的存储问题
大数据可以说发轫于GOOGLE 于2003年陆续发表的一些技 术论文
-“The Google File System” - “MapReduce: Simplified
Data Processing on Large Cluster” - “Bigtable: A Distributed Storage System for Structured Data”
NoSQL(Not Only SQL) ➢ GOOGLE的BIGTABLE ➢ AMAZON的DYNAMO ➢ YAHOO的PNUTS
• BigData 的定义 – 盛名之下,其实难负
– 广义的:大数据已经不再局限于技术领域。如今,大数据已成为一项业务上优先考虑的工作任务 ,因为它能够对全球整合经济时代的商务产生深远的影响。除了为应对长期存在的业务挑战提供 解决方案之外,大数据还为流程、组织、整个行业、甚至社会本身的转型激发了许多新的方式。
ACID vs BASE ➢ Basically available ➢ Soft state ➢ Eventually consistent
以弱一致获取高可用 基于SPANNER的混合型数据库F1(用于
即相对于试验科学(第一范式)、理论科学(第二范式)、计算科学(第三范式 )而言。
数据科学继承了统计学的很多东西。。。 ➢ 强调后见之明(hindsight)或预见(foresight)而非洞察(insight) ➢ 强调相关关系(correlation)而非因果关系(causality) ➢ Correlation is enough and the end of theory!
美国政府的大数据计划具有很强烈的宣传符号色彩
3月29日:奥巴马政府以“Big Data is a Big Deal”为题发布新闻。宣 布投资2亿美元启动“大数据研究和发展计划”以图增强收集海量数据 、分析萃取信息的能力。与工业界、大学研究界、非营利性机构与管理 者一起利用大数据所创造的机会。
5月23日:在TechCrunch Disrupt大会上,透露了5项将要颁布的重要 联邦举措。其核心是政府开放数据计划,将政府数据和一些企业数据公 开,以图改善美国人的生活方式,进而创造工作岗位。
Obama Election TOP Contributor
麦肯锡的咨询报告比较系统的确立了大数据的概念
更为深远的可能是“数据科学”的最终兴起
2007年,已故图灵奖得主吉姆.格雷(Jim Gray)在他最后一次演讲中描绘了数 据密集型科研“第四范式”(The 4th Paradigm)的愿景。
大数据培训教程大数据 的来源和动机77
2020年7月7日星期二
大数据,盛名难负
Be Internetional
Agenda
• 1.大数据的时代背景 • 2.大数据时代的典型技术
1.大数据的时代背景
大数据浪潮兴起的主要脉络
2008年
9月,NATURE,“SPECIALS: Big Data” 12月,计算社区联盟,“Big Data Computing: Creating Revolutionary Breakthroughs in Commerce,