大数据时代与我们的生活

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1086年,英国《末日审判书》 人口、土地、财产登记
史上的大数据:天文学制造了数据大爆炸
第谷 人肉的“大数据”资源
开普勒 突破性的“处理”算法
伽利略 工具的“大数据”资源
牛顿 •13 划时代先进的理论
•14
数据量的增速
1980以来,每40个月翻一番 数据量增速,是GDP增速的4倍 数据处理能力,是GDP增速的9倍 2000年人类信息75%是模拟数据,2007年是6%,现在1%?
• 样本分析的缺陷
–绝对的随机性 –不适合考察子类别 –事先设计好的问题
从样本到总体:信不信由你 • •28 “样本”的统计,2003-2012年
–房价:全国143%,北京256% –收入:上涨180% –CPI:中国涨幅34%,美国36%
• “总体”的大数据
–货币发行量:+500%,超过美国,占全球50% –GDP增长4倍,CPI应是100%涨幅! –股市:“上浮零” –淘宝TCPI指数:6.9% –全国工业用电量指数:4.7%
共同提高从大量数字数据中访 问、组织、收集发现信息的工 具和技术水平;扩大大数据技 术开发和应用所需人才的供给 ;了解更多正在进行的联邦政 府的计划,解决由大数据带来 的机遇和挑战;计划与工业界 、大学研究界、非营利性机构 与管理者一起利用大数据所创 造的机会。
开放政府数据联盟
•截止2012年12月,美国的“开放政府计划”共有54个国
•时间
•人口
•长度重量•空间 •面积体积•颜色
压 •声音图 像

天体
•云计
联网 •Web2.0 •随时随 •主动 地 •Web1. •碎片
0
•移动互
算 •全部
•被动
上帝是数学家吗?
大数据 量化
量化
哲学
物理世界 宗教
•24
精神世界
主要内容
• 大数据的“热” •25 • 大数据的“大” • 大数据的“数”
大数据时代
2000年后,互联网 公司开启数据分析 挖掘新时代
数据库时代 数据耦合时代
1946年,电脑诞生, 数据与应用紧密捆绑 在文件中,彼此不分
•1946 •1961
数据分析时代 1990年代
,提出数 据分析挖 掘
1960年代,数据与应用分离, 数据库技术蓬勃发展,但重视 事务处理
•1970
•1990
互联网
•共识
大数据=战略资源
政府
•6
什么是大数据
无法在一定时间内用常规软件工具对其内容进行抓取、管 理和处理的大量而复杂的数据集合 —— 维基百科 数量大、获取速度快或形态多样的数据,难以用传统关系 型数据分析方法进行有效分析,或者需要大规模的水平扩 展才能高效处理 —— 美国NIST 体量大、快速和多样化的信息资产,需用高效率和创新型 的信息技术加以处理,以提高发现洞察、做出决策和优化 流程的能力 —— Gartner公司
从精确到效率:用概率说话 •29 大量信息和精确性,存在矛盾 •
–错误数据的混入,不准确性
• 关系数据库是数据稀缺时代设计的
–“电信化”是短缺经济的产物
• 算法的进步快于芯片,大数据优于算法
–用简单算法替代小数据的精确算法 –简单算法+海量数据?
•30
从精确到效率:自然语言处理的发展史
正例:TCPI,大众点 评,Google翻译
•12
史上的大数据:政府最先遇到
•约前2200年大禹“平水土分九州数
万民” •公元2年,汉书.地理志:全国103 个郡国,人口是59,594,978人 •1909年,秦政府颁布调查户口章程
古罗马,每5年一次
税收!
•美国宪法规定10年一次人口普查 •1880年统计用了8年,预计1890年 要13年 •穿孔卡片制表机的发明,要1年
•磁盘 •3-4年
•磁带 •30年
•如何保存 •如何打开 •如何检索 •如何甄别
•《妙法莲花经》 •南北朝
•羊皮圣经 •4世纪
•普通CD •20-50年
•U盘 •8-10年 •35
•36
永恒的忘记…
• 将隐私的讨论,扩展到时间 维度 • 对于人类而言,遗忘一直是 常态,记忆才是例外,而现 在记忆却成了常态
• 是最底层的抽象?
•数据
•22
史上数据理论的重大突破
市场经济
复式记账法:商业、贸易、金融等的基础
• 复式记账法 物理 学 • • •
伽利略:实验科学 牛顿: 物理世界数学化 量子力学:从宏观到微观
计算机
图灵:让通用自动计算成为可能
通信
香农:信息论
不断量化的宇宙
量 •辐 射
•能
•信息
•电流电
•社会关
家加入了由美国发起的“开放政府计划”。 •网站Data.gov公开的数据类别(不涉及隐私和国家安全) 超过400项,且数量仍在增加。
智利、爱沙尼亚、以色列、意大利、约旦、秘鲁、罗马尼亚、西班牙
等国家建立了网站,向公民公布各类公共数据,包括犯罪统计数字以及 政党资金、地方财政预算和政府采购数据。
•41
•国防部
•XDATA计划
•能源部
•卫生福利
部源自文库
•生物传感2.0 •HPSS:是对
:旨在开发用 于分析大量的 半结构化和非 结构化数据的 计算技术和软 件工具。
磁盘和磁带系 统上PB级数据 进行管理的数 据管理软件。
:是第一个考 虑到区域和国 家协调的情况 下,通过互操 作的网络系统 对公众健康意 识的可行性分 析的系统。
加入“开放政府联盟”的门槛
财政透明
信息自由
• 能及时公开政府财政预
算和支出的信息和文件
• 有专门的法律保证公民
获取政府信息和数据的 权力
财产公开
公民参与
• 有专门的制度规定如何
公开高级政府官员的收 入和财产
的制定、保护民权
• 允许公民参与公共政策
主要内容
• 大数据的“热” •42 • 大数据的“大” • 大数据的“数” • 大数据的颠覆性
6
大数据的产业热
•来源:Wikibon公司,2012年
•据Wikibon公司测算,2011年全球大数据产值已经达到51亿美元
。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT 产业增速的7倍
•8
大数据的投融资热
以数据为中心的时代 •ICT产业发展周期
大数据
主要内容
•10 大数据的“热” •
• 大数据的“大”
• • • • 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
“信息化”浪潮
•互联网
•保存与传承 •口耳相传 •语言 •文字
与持久保存 •印刷术
•大范围传播
硅介质 数字化 网络化
•距今10万年前
•距今5000年前
•公元1000年
•公元2000年
古登堡印刷术发明后,50年书籍增加了800万册,增长1倍 ,是之前西方数据量的总和
飞鸟派
要让机器翻译或 语音识别,就需 要先让机器理解 自然语言 反例:中国的英 语教学
新派
•从基于规则到对大
数据的统计 •数据比算法更重要
从因果到相关:Why—>Related • 哲学争论:因果关系存在吗? •31
–如果是,人的自由意志存在吗?
• 机器会告诉是什么,而不是为什么
–语义网络 –人工智能 –人类认知水平相关
•认知大自 •认知物理 •认知信息 •认知人类

世界
世界
行为
• 农耕文明 • 定居生活 • 阶级社会
• 工业文明 • 资本主义 • 毁了自然
• XX文明? • 技术生物? • 信息革命 • 毁“三观” • 毁了时间? ?
大数据,经过1000年的发展后…
•壁画 •1.1万年前
•乌龟壳 •前14-11世纪
• 结论:没有关系
•33
大数据让社会学成为科学?
• 人类工作娱乐等活动具有间歇性,总 是在长时间休息后突然爆发,然后沉 寂
• 人类93%的行为是可预测的
• 自然界人类世界,符合幂律
• 人类的行为是随机的,不可预测的 • 人的行为是小概率事件, • 人类需要的是随机的智慧
•34
假如人类的行为可以预测…
全球数据量预测(单位ZB)
14
计算能力的加速
•15
3V 特性
•17
4V/3V: 只是在说“大”!
“大”是相对的
不同企业,大的概念不同
–2012年的“大” •18
• 从几个TB(1TB=1,024GB)到多个PB • Google, 1000PB
–2013年的“大”
• 数PB(1PB=1,024TB) • 百度1000PB
IBM 、沃尔玛等传统企 业大规模并购大数据公 司,进军大数据领域
2011年麦肯锡总结大 数据现象并发布报告 ,点燃大数据热潮 2012年初世界经济论 坛讨论大数据一题引 起政商界高度关注
IT和其他行业
咨询公司
2000年以来,搜索、 广告和电商利用大数 据获得丰厚回报
经济界
2012年,美国、英国、日 本等政府积极开放数据, 并资助大数据研发
澳大利亚
美国政府大数据计划


2012年3月29日,奥巴马政府宣布“大数据的研究和发展计划(Big Data Research and Development Initiative)”。 首批共有包括美国科学基金会、卫生福利部/国家卫生研究所、能 源部、国防部、国防部高级研究计划局、地质调查局等六个联邦 政府的部门和机构宣布新的2亿美元的投资。
•2000 •2003
•2008
•2013
主要内容
• 大数据的“热” •20 • 大数据的“大”
• 大数据的“数”
• 大数据的颠覆性 • 大数据的隐私保护 • 大数据与大众生活
数据的内涵
•21 可被量化、分析和再使用的信息 • •知识 • 通常是测量获得的 • 可用图形图像可视化 •信息 • 模拟数据和数字数据
大数据革命与大众生活变革
黄欣荣 博士
教授
江西财经大学 马克思主义学院
32478179@qq.com 2014.5.18
从马航失联谈起
主要内容 • 3大数据的“热” •
• • • • • 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据时代的隐私保护 大数据时代的大众生活
大数据引发全球高度重视
–Hadoop
• 开源模仿Google MapReduce,2003年的技术
–Google Dremel
• 2012年,新的编程框架
引爆此轮大数据的原因
•从流程电子化到数据资产化
•1)数据更加丰富,有分析价值,从TB到PB
•2)分析工具更加强大,成本够低,MapReduce •3)互联网商业上的成功,引起重视,麦肯锡报告
• “丁蟹效应”
–凡是播出由郑少秋主演的电视剧,恒生指数或A股 就会有32个明显下跌 –巧合?自我实现?大数据分析?
手机会致癌,相关吗? •32 对比丹麦1990-2007年所有手机数据库 • (358403人) • 10729个中枢神经系统肿瘤患者数据库 • 研究目的
–是否手机使用者更容易致癌? –是否通话时间长更容易会致癌?
• 大数据的颠覆性
• 大数据与隐私保护 • 大数据的实践
思维的三大转变 • •26 •纷繁复
•全体
数据
• 从样本 • 到总体
•相关关系

• 杂 从因果到相关
从样本到总体 •27 统计学的理论基础 •
–用尽可能少的数据,证实尽可能大的事实
• 样本分析
–精确性随着随机性的增加而大幅提高 –精确性不样本空间数量的增加关系不大
• 大数据将所有人置于数字圆 形监狱的中央
大数据是一种新资源
• 你不可能再造Google ,Facebook, 腾讯百度阿里 •37 • 你在读书,书在读你
•农业社会 •工业时代
•信息时代
• 土地 • 人口 • 资本 • 技术,机器,能源
• 用户 • 数据
可被消费,但没法被耗尽 可被创造,而不会被销毁 ,除非丢失或遗忘 大数据消耗的是注意力 每“滴”数据的价值不同 叠加效应不是加法的,而 是指数的
•38
国家/地区 美国 欧盟 英国 日本 时间
多国政府的战略
内容 2012年3月 启动由联邦政府六个部门组织的大数据研究计划,投 资两亿美元,力图巩固领先地位 2012年9月 联合欧洲整体力量,制定大数据战略,作为欧盟 Horizon 2020战略一部分,加速追赶 2013年1月 英国把大数据作为八大关键技术领域之一,计划两年 内向大数据关键技术投入1.89亿英镑,抢占先机 2012年7月 《面向2020年的ICT综合战略》将“通过大数据应用促 进社会发展经济增长”作为五大重点之一,并提出活 力数据战略,提升日本竞争力 2013年3月 发布大数据战略报告,宣布将于2013年7月前完成政 府大数据制定,促进大数据在政府中的应用
• 大数据的隐私保护
• 大数据与大众生活
•43
隐私保护的历史变迁
•21世纪 •20世纪 •数据为重
•人为重
•19世纪 •住宅为重



个人控制、编辑、管理和删除关于 他们自己的信息,并决定何时何地 、一何种方式公开这种信息的权利 。
传统隐私保护的“三板斧”
就像印刷业的发展促成了保护言论自由的立法, •44 大数据也需要新的法律
相关文档
最新文档