主要由ICT企业提供技术支持电信运营

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

•时间
源自文库
•人口
•长度重量•空间 •面积体积•颜色
压 •声音图 像

天体
•云计
联网 •Web2.0 •随时随 •主动 地 •Web1. •碎片
0
•移动互
算 •全部
•被动
上帝是数学家吗?
大数据 量化
量化
哲学
物理世界 宗教
•24
精神世界
主要内容
• 大数据的“热” •25 • 大数据的“大” • 大数据的“数”
大数据时代
2000年后,互联网 公司开启数据分析 挖掘新时代
数据库时代 数据耦合时代
1946年,电脑诞生, 数据与应用紧密捆绑 在文件中,彼此不分
•1946 •1961
数据分析时代 1990年代
,提出数 据分析挖 掘
1960年代,数据与应用分离, 数据库技术蓬勃发展,但重视 事务处理
•1970
•1990
•12
史上的大数据:政府最先遇到
•约前2200年大禹“平水土分九州数
万民” •公元2年,汉书.地理志:全国103 个郡国,人口是59,594,978人 •1909年,秦政府颁布调查户口章程
古罗马,每5年一次
税收!
•美国宪法规定10年一次人口普查 •1880年统计用了8年,预计1890年 要13年 •穿孔卡片制表机的发明,要1年
互联网
•共识
大数据=战略资源
政府
•6
什么是大数据
无法在一定时间内用常规软件工具对其内容进行抓取、管 理和处理的大量而复杂的数据集合 —— 维基百科 数量大、获取速度快或形态多样的数据,难以用传统关系 型数据分析方法进行有效分析,或者需要大规模的水平扩 展才能高效处理 —— 美国NIST 体量大、快速和多样化的信息资产,需用高效率和创新型 的信息技术加以处理,以提高发现洞察、做出决策和优化 流程的能力 —— Gartner公司
全球数据量预测(单位ZB)
14
计算能力的加速
•15
3V 特性
•17
4V/3V: 只是在说“大”!
“大”是相对的
不同企业,大的概念不同
–2012年的“大” •18
• 从几个TB(1TB=1,024GB)到多个PB • Google, 1000PB
–2013年的“大”
• 数PB(1PB=1,024TB) • 百度1000PB
• 大数据的“大”
• • • • 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
“信息化”浪潮
•互联网
•保存与传承 •口耳相传 •语言 •文字
与持久保存 •印刷术
•大范围传播
硅介质 数字化 网络化
•距今10万年前
•距今5000年前
•公元1000年
•公元2000年
古登堡印刷术发明后,50年书籍增加了800万册,增长1倍 ,是之前西方数据量的总和
•2000 •2003
•2008
•2013
主要内容
• 大数据的“热” •20 • 大数据的“大”
• 大数据的“数”
• 大数据的颠覆性 • 大数据的隐私保护 • 大数据与大众生活
数据的内涵
•21 可被量化、分析和再使用的信息 • •知识 • 通常是测量获得的 • 可用图形图像可视化 •信息 • 模拟数据和数字数据
• 是最底层的抽象?
•数据
•22
史上数据理论的重大突破
市场经济
复式记账法:商业、贸易、金融等的基础
• 复式记账法 物理 学 • • •
伽利略:实验科学 牛顿: 物理世界数学化 量子力学:从宏观到微观
计算机
图灵:让通用自动计算成为可能
通信
香农:信息论
不断量化的宇宙
量 •辐 射
•能
•信息
•电流电
•社会关
• 大数据的颠覆性
• 大数据与隐私保护 • 大数据的实践
思维的三大转变 • •26 •纷繁复
•全体
数据
• 从样本 • 到总体
•相关关系

• 杂 从因果到相关
从样本到总体 •27 统计学的理论基础 •
–用尽可能少的数据,证实尽可能大的事实
• 样本分析
–精确性随着随机性的增加而大幅提高 –精确性不样本空间数量的增加关系不大
IBM 、沃尔玛等传统企 业大规模并购大数据公 司,进军大数据领域
2011年麦肯锡总结大 数据现象并发布报告 ,点燃大数据热潮 2012年初世界经济论 坛讨论大数据一题引 起政商界高度关注
IT和其他行业
咨询公司
2000年以来,搜索、 广告和电商利用大数 据获得丰厚回报
经济界
2012年,美国、英国、日 本等政府积极开放数据, 并资助大数据研发
1086年,英国《末日审判书》 人口、土地、财产登记
史上的大数据:天文学制造了数据大爆炸
第谷 人肉的“大数据”资源
开普勒 突破性的“处理”算法
伽利略 工具的“大数据”资源
牛顿 •13 划时代先进的理论
•14
数据量的增速
1980以来,每40个月翻一番 数据量增速,是GDP增速的4倍 数据处理能力,是GDP增速的9倍 2000年人类信息75%是模拟数据,2007年是6%,现在1%?
–Hadoop
• 开源模仿Google MapReduce,2003年的技术
–Google Dremel
• 2012年,新的编程框架
引爆此轮大数据的原因
•从流程电子化到数据资产化
•1)数据更加丰富,有分析价值,从TB到PB
•2)分析工具更加强大,成本够低,MapReduce •3)互联网商业上的成功,引起重视,麦肯锡报告
• 样本分析的缺陷
–绝对的随机性 –不适合考察子类别 –事先设计好的问题
从样本到总体:信不信由你 • •28 “样本”的统计,2003-2012年
–房价:全国143%,北京256% –收入:上涨180% –CPI:中国涨幅34%,美国36%
• “总体”的大数据
–货币发行量:+500%,超过美国,占全球50% –GDP增长4倍,CPI应是100%涨幅! –股市:“上浮零” –淘宝TCPI指数:6.9% –全国工业用电量指数:4.7%
大数据革命与大众生活变革
黄欣荣 博士
教授
江西财经大学 马克思主义学院
32478179@qq.com 2014.5.18
从马航失联谈起
主要内容 • 3大数据的“热” •
• • • • • 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据时代的隐私保护 大数据时代的大众生活
大数据引发全球高度重视
6
大数据的产业热
•来源:Wikibon公司,2012年
•据Wikibon公司测算,2011年全球大数据产值已经达到51亿美元
。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT 产业增速的7倍
•8
大数据的投融资热
以数据为中心的时代 •ICT产业发展周期
大数据
主要内容
•10 大数据的“热” •
相关文档
最新文档