大数据思维-培训
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
源自文库 大数据现象
Source: Exabytes: Documenting the 'digital age' and huge growth in computing capacity, The Washington Post
新理念?
• 大数据时代,我们需要什么样的“新理念 ”?
• 在思考问题和解决问题的方法上有什么新 的特点 • 通过一些案例来说明大数据时代我们应有 的一些思维模式
大数据、大科学
• 饶毅先生 vs 华大基因的杨焕明院士 之争
跟帖评论:生命科学由实验科学正向理论科学转变。大数据,大科学研究思路 必然会导致生命科学的变革。人类基因组计划就是一个典型案例。
脑科学的一些数字
• 大脑由数十亿神经元组成,通过数 千个突触相互连接;
• 仅大脑皮层中的突触连接数量就超 过了160万亿个(万亿10^12) • 用电子显微镜来重建1mm^3的大脑 (大约一根针的针头)中的所有突 触回路,信息量大约在10^15字节 (1PB) • 人类大脑包含约10^6个这样大小的 神经组织
大数据的价值
• 大数据将逐渐成为现代社会基础设施的一 部分,就像公路、铁路、港口、水电和通 信网络一样不可或缺。
• 大数据是信息时代的“石油”,是推动信 息经济发展的动力。
大数据的价值在于应用
• 产业转型与升级 • 提升政府治理能力 • 促进社会创新发展
大数据思维
• • • • 数据思维 互联网思维 计算思维 ……
• 马克思说: “人的本质不是单个人所固有的 抽象物,在其现实性上,它是一切社会关 系的总和。”(《马克思恩格斯选集》第2版 第1卷第60页)
1 “数据”思维
量化、决策、整合
1.1量化思维: 一切皆可量化!
• 数据是指存储在某种介质上能够识别的物 理符号,是对客观事物性质和状态的描述. • 先有数据再说应用
• Stephen Beck
• 每一天,我们的身后都拖着 一条由个人信息组成的长长 的“尾巴”——
– – – – – ◎点击网页 ◎切换电视频道 ◎驾车穿过自动收费站 ◎用信用卡购物 ◎使用手机
– 科学实验 – 理论推导 – 仿真计算 – 基于数据的分析
Microsoft Research, 2009年10月
James (Jim) Gray
• 数据库技术和事务处理 专家 • 1944年生,加州大学伯克 利分校计算机科学系博士。 • 数据库和事务处理研究专
家
• 1998年获图灵奖(时任微 软研究员) • 2007年1月失联至今
• 需要运用新理念、新技术、新方法对其进行全生 命周期的创新管理和应用,
• 从而促进国民经济的转型升级、社会管理的模式 更新,乃至国家综合竞争力的全面提升。
数据获取技术的革命性进步
• 传感器等自动采集的数据 • WEB2.0等用户生成数据(UGC) • 日志等系统自动生成数据
Apache Web Server Log
大数据?
容量大
变化快
类型多
真实性
传统数据库的4个要求
• • • • 大型: Large Volume 共享: Shared (multi-user) 持久: Durable (durability) 可靠: Reliable (Reliability)
• ACID (Atomicity, Consistency, Isolation, Durability) • High performance: TpmC
• 而雅虎、Google这样的公司 ,正在以平均每人、每月 2500条信息的速度,捕获我 们的详细数据。
科学=数据
• 《科学》发专刊,“科 学就是数据,数据就是 科学” • “数据推动着科学的发 展”
《科学》2011年2月11日
基因测序数据
• 在人体的基因中 ,有30亿个碱基 对,每个人的不 同,就是由碱基 对排列差异造成 的
真实性
• GIGO是MIS时代的金科玉律 • 大数据是真实反映,也可能是虚假反映。 • 数据质量问题是新的巨大的挑战
用大数据解决问题的新思路
• 航线网络: 顶点3k, 边50k • 联程设计:根据联程航班搭配规则生成联程航班
Model-based approach
Big data based approach?
2个大数据应用
• TerraServer: 与美国地质调查 局合作。引领了基于互联网的 地图服务
• SDSS斯隆数字巡天项目:与天 体物理研究联合会(ARC)合作. 后 来发展为WWT(world wide telecsope)全球望远镜,全球百 性均可观看
第四科学范式
• 几千年前
– 科学以实验为主 – 描述自然现象
eScience
• eScience是信息技术与科学家相遇而催生的 新的学科,科学家利用许多不同的方法收 集或产生了数据, • 如何从这些积累起来的海量数据中分析发 现科学规律?正是这门学科的目的和任务 。
• 如何对海量的数据进行组织、管理和分析 挖掘?
第四研究范式的提出
• 数据本身的价值越来 越被认识, • 基于数据的科学发现, 被认为是第四研究范 式。
• 过去数百年
– 科学出现了理论研究分支 – 利用模型和归纳
• 过去数十年
– 科学出现了计算分支 – 对复杂现象进行仿真
第四科学范式
• 今天
– 将理论、实验和计算模拟统一起来 – 由仪器收集或者计算模拟产生数据 – 由计算机存储和处理数据 – 科学家通过数据分析挖掘软件分析数据,发现 规律
人文社会学科
大数据思维 Big Data Thinking
杜小勇 中国人民大学信息学院 duyong@ruc.edu.cn
2015年6月13日
大数据?
• 大数据是因信息技术特别是数据获取技术的革命 性进步而形成的信息爆炸现象, • 因其规模巨大、类型复杂、产生速度快、价值密 度低等因素,对现有信息技术产生巨大挑战,
类型多(Variety)
• 数据类型多样: 结构化、半结构化、非结构 化
• 数据形态各异:流数据、图数据、关系数 据 • 处理要求不同:批处理、联机处理、流式 处理 • 在一个大数据应用 中共存。
变化快(Velocity)
• 不是静态的大数据,而是动态变化的数据 • 不是低频,而是高频 • 不是更新,而是插入