大数据与统计讲义.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

持系统,这是现代数据应用概念最早的起源和
赫伯特·西蒙
起点。
13
结蛹——数据仓库之厚积薄发
1970年
IBM研究员埃德加·科德发明了关系型数据库,
解决了快速组织、存储和读取数据的问题,被
誉为“关系型数据库之父”。
埃德加·科德
14
数据仓库之厚积薄发
Barry Devlin
1988年
为解决不同运营系统的数据集成问题,IBM的
24
经济总量
经济发展的先行指标和指示器 全国GDP与CRI变动趋势分析
26
经济总量
经济发展的先行指标和指示器
全国财政收入与CRI变动趋势分析
27
采集自动化:
——文字变成数据 ——方位变成数据 ——沟通变成数据 ——一切事物变成数据
28
• 什么意思?
——真可以! ——过去我喜欢一个人 现在我喜欢一个人
大 数 据 与 统 计
张芃
国家统计局统计资料管理中心
1
大数据与统计
2
大数据来了
• 联合国: 2012年,《大数据促发展:挑战与机遇》 • OECD研究报告:使用大数据做决策 • 美国 – 2010年:《规划数字化的未来》 – 2012年: Big Data is a Big Deal – 2013年:《实现政府信息公开化和机器可读化》总统令 • 中国 – 2012年:中国通信学会大数据专家委员会 – 大数据发展战略
10
起源 结蛹 蚕动 破茧 化蝶 翱翔
数 据 应 用 的 前 世 今 生
11
起源——从数据到知识的挑战和跨越
1946年
人类历史上第一台电子计算机在美国费城问世。
计算机的主要设计者冯·诺依曼被后世称为“计算
冯·诺依曼
机之父”。
12
从数据到知识的挑战和跨越
1947年
卡内基梅隆大学的赫伯特·西蒙开始研究决策支
32
数据挖掘的技术基础:
人工智能 机器学习 模式识别 统计学 数据库 可视化技术
33
数据挖掘的任务:
关联分析 聚类分析 分类分析 异常分析 特定群组分析 演变分析
34
分析技术化:
奥巴马
21
大数据时代对统计将产生怎样的影响
• 非精准化 • 非结构化 • 非样本化 • 非滞后性
22
统计如何应对大数据时代
• 理念革命化 • 采集自动化 • 存储规模化 • 挖掘深度化 • 分析技术化 • 展现可视化 • 发布即时化 • 人才复合化
理念革命化:
——思维观念的改变真的那么重要吗? ——数据的价值在哪里? ——数据需要精准码? ——如何采集数据? ——指标体系重要吗? ——因果关系还是相关关系? ——统计需要预测吗?
• 是统计分析与预测在电子化、信息化、网络化社 会的新实践
8
大数据的价值
• 对大数据的掌握程度可以转化为经济价值的来源 • 大数据时代已经撼动了世界的方方面面 • 核心思想:用规模剧增来改变现状
9
为什么会出现大数据
• 计算机技术提高 • 数据采集自动化 • 数据存储能力倍增
• 以计算机技术为基础的 数据应用进程的历史推动
• 大数据是对海量信息进行分析,从而收集 有价值的见解、发现规律和预言复杂问题 答案的技巧与科学。
从特征看: • 样本=总体
• 接受不精确
• 相关关系更重要
7
对中国统计而言,大数据并不新鲜
• 所谓“大数据”不过是 全面统计的理念与方法在 信息化时代的升华
• 是成熟了的电子商务与数据挖掘技术相结合的产 物
1993年
发明关系型数据库的埃德加·科德再立新功,他 立足数据仓库的新基础,详尽的阐述了构建联 机分析的十二条原则。
埃德加·科德
18
破茧——数据挖掘之智能生命的产生
1989年
德斯纳提出了数据应用的概念和定义,强调了 数据应用是一系列以事实为支持,辅助决策的 技术和方法的集合,获得了业界的广泛认同。
3
什么是大数据
从技术角度看:
1KB:2^10 1MB:2^20 1GB:2^30 1TB:2^40 1PB:2^50 1EB:2^60 1ZB:2^70 1YB:2^80 1BB:2^90
4
从概念看:
• 维基百科:“大数据”是由数量巨大、结构复杂、类型众多数 据构成的数据集合, 是基于云计算的数据处理与应用模式,通 过数据的整合共享、 交叉复用形成的智力资源和知识服务能力 。 • 特点:6个V – Volume:数据量大 – Variety: 数据类型多 – Velocity:处理速度快 – Value:应用价值大 – Vender:获取与发送的方式自由灵活 – Veracity:真实准确性 5
两名研究员Barry Devlin和Paul Murphy创造 性的提出“数据仓库”的概念,但没有进一步
提出实际的架构和设计。
Paul Murphy
15
数据仓库之厚积薄发 1992年
比尔·恩门第一次给出了数据仓库的清晰定义和 操作性很强的实战法则,真正拉开了数据仓库 走向大规模应用的序幕。
比尔·恩门
存储规模化:
在过去50年中,数字存储成本大约每两年削 减一半, 而存储密度则增加了5000万倍。
30
挖掘深度化:
• 数据挖掘:是指从数据库的大量 数据中揭示出隐含的、 先前未知 的并有潜在价值的信息的非平凡 过程。 是通过分析每个数据,从 大量数据中寻找其规律的技术。
31
数据挖掘步骤:
Biblioteka Baidu
数据准备:从相关的数据源中选取所需的 数据并整合成用于数据挖掘的数据集 寻找规律:用某种方法将数据集所含的规 律找出来 结果展示:尽可能以用户可理解的方式( 如可视化)将找出的规律表示出来
德斯纳
19
化蝶——可视化信息的华丽上演
1855年
弗罗伦斯·南丁格尔把克里米亚战争中战斗死亡
和非战斗死亡的士兵数量制作成图表。
这份视觉效果强烈的图表,催生了一座医院,
弗罗伦斯·南丁格尔
改变了一个制度。
20
可视化信息的华丽上演
2010年
3月,奥巴马任命专人运用“数据可视化”的技 术推进联邦政府专项资金使用情况的透明度。
比尔·恩门被誉为“数据仓库之父”,他强调数 据的一致性,主张由顶至底的构建方法。
16
数据仓库之厚积薄发 1996年
斯坦福大学博士,拉尔夫·金博尔出版《数据仓
库的工具》,认为务实的数据仓库应该从下往 上。他认同了比尔·恩门对于数据仓库的定义,
拉尔夫·金博尔
却在具体的构建方法上和他分庭抗礼。
17
蚕动——联机分析之惊艳
相关文档
最新文档