大数据思维-培训学院
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
政府治理
• 业务层次:
• 管理层次:
• 决策层次:
第三十二页,共94页。
例:网格化管理
• 对社区进行网格化划分
• 通过视频监控、传感器,以及配置网格管理员 ,收集信息。
• 将信息上传到一个统一的平台上进行分享和管 理
第三十三页,共94页。
大数据治理(Governing)
• 数据质量 • 数据隐私 • 数据安全 • 数据标准 • 数据溯源
第四十页,共94页。
“经验”思维
• 崇尚“经验主义”、让数据本身说话
第四十一页,共94页。
要全部数据,不要抽样!
• 模型不再那么重要,让数据说话
• “All models are wrong, but some are useful.” --- 统计学家George Box
• “All models are wrong, and increasingly you can succeed without them.” --- Peter Norvig
The Washington Post
第三页,共94页。
新理念?
• 大数据时代,我们需要什么样的“新理念”?
• 在思考问题和解决问题的方法上有什么新的特 点
• 通过一些案例来说明大数据时代我们应有的一些 思维模式
第四页,共94页。
大数据?
容量大
变化快
类型多
第五页,共94页。
真实性
传统数据库的4个要求
第十八页,共94页。
科学=数据
• 《科学》发专刊,“科学就 是数据,数据就是科学”
• “数据推动着科学的发展”
《科学》2011年2月11日
第十九页,共94页。
基因测序数据
• 在人体的基因中, 有30亿个碱基对, 每个人的不同,就 是由碱基对排列差 异造成的
第二十页,共94页。
大数据、大科学
• 饶毅先生 vs 华大基因的杨焕明院士 之争
• 大型: Large Volume • 共享: Shared (multi-user)
• 持久: Durable (durability) • 可靠: Reliable (Reliability)
• ACID (Atomicity, Consistency, Isolation, Durability)
• High performance: TpmC
第六页,共94页。
类型多(Variety)
• 数据类型多样: 结构化、半结构化、非结构化 • 数据形态各异:流数据、图数据、关系数据
• 处理要求不同:批处理、联机处理、流式处 理
• 在一个大数据应用 中共存。
第七页,共94页。
变化快(Velocity)
– 数据分布(均匀分布,正态分布,高斯分布,泊松分 布,。。。)
– 数据抽样
– 假设检验
– 大数定理
第三十六页,共94页。
大数定理
• 在随机事件的大量重复出现中,往往呈现几乎 必然的规律。
• 在独立同分布的假设下,重复试验多次,随机 事件的频率近似于它的概率。偶然中包含着某 种必然。
• 例子:抛硬币试验,硬币落下后哪面朝上是偶 然的,但是当抛硬币的次数足够多之后就会发 现,硬币朝上的次数约占总次数的二分之一。
– 技术的原因
– 历史的原因 – 认识的原因
• 打破数据孤岛,是开展大数据应用的前提
第四十五页,共94页。
信息化1.0
信息化3.0
信息化2.0
第四十六页,共94页。
目标 机器代替人工
技术
集中数据库 OA,MIS系统
典型应用
特点
基于数据库的信息 部门级应用,信息孤
系统
岛
政府部门整体业务 分布式数据库 过程一体化
第四十八页,共94页。
案例:淘宝微贷
• 淘宝:电子商务平台
– 淘宝网(taobao):C2C业务, – 天猫(原名淘宝商城):平台型B2C电子商务服务
商 – 淘网(etao):一站式购物搜索引擎
• 开展微贷业务
– 尽管不能经营储蓄业务,但是支付宝平台有上千 亿的存量
– 基于交易记录,可以进行自动化诚信评价 – 违约率仅有百分之零点几
第十页,共94页。
Model-based approach
第十一页,共94页。
Big data based approach?
第十二页,共94页。
大数据的价值
• 大数据将逐渐成为现代社会基础设施的一部分 ,就像公路、铁路、港口、水电和通信网络一 样不可或缺。
• 大数据是信息时代的“石油”,是推动信息经 济发展的动力。
第二十三页,共94页。
第四研究范式的提出
• 数据本身的价值越来 越被认识,
• 基于数据的科学发现, 被认为是第四研究范 式。
– 科学实验
Microsoft Research, 2009年10月
– 理论推导 – 仿Байду номын сангаас计算 – 基于数据的分析
第二十四页,共94页。
James (Jim) Gray
• 数据库技术和事务处理专 家
第二十六页,共94页。
第四科学范式
• 几千年前
– 科学以实验为主
– 描述自然现象
• 过去数百年
– 科学出现了理论研究分支
– 利用模型和归纳
• 过去数十年
– 科学出现了计算分支 – 对复杂现象进行仿真
第二十七页,共94页。
第四科学范式
• 今天
– 将理论、实验和计算模拟统一起来 – 由仪器收集或者计算模拟产生数据
第三十七页,共94页。
统计机器学习
训练
测试
预测
模型
第三十八页,共94页。
线性回归
第三十九页,共94页。
大数定理的假设
• 这个定理有前提
– 独立同分布
– 试验的次数非常大
• 在很多情况下,这些假设不一定能满足
– 问题空间的参数太大,训练数据对问题空间的覆盖 度不大
– 试验条件在变化,不能满足独立同分布
第二十九页,共94页。
人文社会学科
• 机理不清
• 模型难以建立
• 信息系统客观地记录了大量的”社会关系”,这些 大数据库本身可以看作是一个”模型”.
第三十页,共94据 搜索数据
电商数据 社交数据
应用 公众行为
信用计算 关系营销
第三十一页,共94页。
第十三页,共94页。
大数据的价值在于应用
• 产业转型与升级 • 提升政府治理能力 • 促进社会创新发展
第十四页,共94页。
大数据思维
• 数据思维 • 互联网思维 • 计算思维
• ……
第十五页,共94页。
1 “数据”思维
量化、决策、整合
第十六页,共94页。
1.1量化思维: 一切皆可量化!
• 数据是指存储在某种介质上能够识别的物理符 号,是对客观事物性质和状态的描述.
第一页,共94页。
数据获取技术的革命性进步
• 传感器等自动采集的数据 • WEB2.0等用户生成数据(UGC) • 日志等系统自动生成数据
Apache Web Server Log
第二页,共94页。
大数据现象
Source: Exabytes: Documenting the 'digital age' and huge growth in computing capacity,
第五十页,共94页。
案例:电信运营
卖管道: 经营流量
卖服务: 经营业务
卖知识:
经营数据
第五十一页,共94页。
小结
• 量化思维: 一切皆可量化
• 决策思维: 让数据说话 • 整合思维: 数据跨界融合
• 数据客观地记载了我们的世界。只要有可能, 我们努力去获取、保存、处理之。
第五十二页,共94页。
以数据为中心的新思维
• 1944年生,加州大学伯克 利分校计算机科学系博士 。
• 数据库和事务处理研究专 家
• 1998年获图灵奖(时任微软 研究员)
• 2007年1月失联至今
第二十五页,共94页。
2个大数据应用
• TerraServer: 与美国地质调查局 合作。引领了基于互联网的地图 服务
• SDSS斯隆数字巡天项目:与天体 物理研究联合会(ARC)合作. 后来 发展为WWT(world wide telecsope) 全球望远镜,全球百性均可观看
第四十二页,共94页。
案例:语言翻译
• 通过搜索去找到相同或者相似的句子,直接返回 结果
If you do not leave me, we will die together.搜索引擎:如果你不离开我,我 们会死在一起
四级:你如果不离开我,我 就和你同归于尽。
六级:你若不离不弃,我必 生死相依。
– 由计算机存储和处理数据 – 科学家通过数据分析挖掘软件分析数据,发现规律
第二十八页,共94页。
人文社会学科
• 马克思说: “人的本质不是单个人所固有的抽象 物,在其现实性上,它是一切社会关系的总和
。”(《马克思恩格斯选集》第2版第1卷第60 页)
• 人与动物的区别就是人会劳动,而劳动就形成了 一定的社会关系。
• 不是静态的大数据,而是动态变化的数据
• 不是低频,而是高频
• 不是更新,而是插入
第八页,共94页。
真实性
• GIGO是MIS时代的金科玉律
• 大数据是真实反映,也可能是虚假反映。
• 数据质量问题是新的巨大的挑战
第九页,共94页。
用大数据解决问题的新思路
• 航线网络: 顶点3k, 边50k • 联程设计:根据联程航班搭配规则生成联程航班
第四十三页,共94页。
案例:IBM沃森问答系统
• 北京时间2011年2 月17日,电脑沃 森狂胜人类
• 三个比赛日的总 成绩,沃森获得 77147美元,肯·詹 宁斯排名第二获 得24000美元,而 布拉德·拉特只获 得了21600美元 。
第四十四页,共94页。
1.3 整合思维:跨界的创新
• 数据孤岛的形成
• 大数据时代使得数据具有独立存在的价值, 数据作为资产的地位突显。
• 以前都是先有应用后有数据,现在是先有数 据再说应用
• 软件是为数据服务的,我们需要以数据为中 心的新思维
第五十三页,共94页。
• 先有数据再说应用
第十七页,共94页。
• Stephen Beck
• 每一天,我们的身后都拖着一条 由个人信息组成的长长的“尾巴 ”——
– ◎点击网页 – ◎切换电视频道 – ◎驾车穿过自动收费站
– ◎用信用卡购物 – ◎使用手机
• 而雅虎、Google这样的公司, 正在以平均每人、每月2500 条信息的速度,捕获我们的 详细数据。
跟帖评论:生命科学由实验科学正向理论科学转变。大数据,大科学研究思路
必然会导致生命科学的变革。人类基因组计划就是一个典型案例。
第二十一页,共94页。
脑科学的一些数字
• 大脑由数十亿神经元组成,通过数千个突 触相互连接;
• 仅大脑皮层中的突触连接数量就超过 了160万亿个(万亿10^12)
• 用电子显微镜来重建1mm^3的大脑( 大约一根针的针头)中的所有突触回 路,信息量大约在10^15字节(1PB)
• 人类大脑包含约10^6个这样大小的 神经组织
第二十二页,共94页。
eScience
• eScience是信息技术与科学家相遇而催生的 新的学科,科学家利用许多不同的方法收集 或产生了数据,
• 如何从这些积累起来的海量数据中分析发现科学 规律?正是这门学科的目的和任务。
• 如何对海量的数据进行组织、管理和分析挖掘 ?
国家“金字”工程
纵向整合,数据大集中
对大数据进行整合 云计算 分析,创造价值 大数据系统
舆情分析,打击犯 信息开放、融合;大
罪
数据
第四十七页,共94页。
信息化3.0
• 云计算解决了计算资源的共享问题 • 大数据技术试图解决数据的利用问题 • 大数据是由于不同来源的数据汇集而带来的“跨
界”型创新应用。
第三十四页,共94页。
1.2 决策思维:让数据说话
• 决策模式: • 直觉驱动的决策
– 拍脑袋的决策,有随意性
• 逻辑驱动的决策
– 基于逻辑分析的推理
• 经验驱动的决策
– 用数据说话、用数据来 管理、用数据来决策、用数据 来创新
第三十五页,共94页。
如何看待大数据?
• 概率论和统计学将经验变成了“科学”
第四十九页,共94页。
跨界应用比比皆是
• 2014年7月22号,上海。阿里巴巴宣布,和中 行、招行、建行等7家银行深度合作,为中小 企业提供基于网商信用的无抵押贷款,最高授 信额度1000万元。
• 阿里将平台拥有的数万家企业交易数据开放给银 行,降低银行贷款风控成本的同时,亦为苦于无 法自证信用的中小企业,提供了第三方担保。
大数据?
• 大数据是因信息技术特别是数据获取技术的革命性进步 而形成的信息爆炸现象,
• 因其规模巨大、类型复杂、产生速度快、价值密度 低等因素,对现有信息技术产生巨大挑战,
• 需要运用新理念、新技术、新方法对其进行全生命周 期的创新管理和应用,
• 从而促进国民经济的转型升级、社会管理的模式更新 ,乃至国家综合竞争力的全面提升。