大数据认知

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

不断量化的宇宙
信 能量 息 辐射
时间 长度重 空间 量 人口 天体 面积体 积
Web1.0 被动 Web2.0 主动 碎片 移动互 联网 随时随 地
社会关 电流电压 系
声音图像
云计算 全部
数据驱动
引爆大数据的原因
从流程电子化到数据资产化 1)数据更加丰富,有分析价值,从TB到PB 2)分析工具更加强大,成本够低,MapReduce 3)互联网商业上的成功,引起重视,麦肯锡报告
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
Insurance
360˚ View of Domain or Subject Catastrophe Modeling Fraud & Abuse Producer Performance Analytics Analytics Sandbox • • •
Leabharlann Baidu
1990
2000 2003
2008
2013
初始期-发展期-成长成熟期
过去
随机样本
现在
全体数据
精确性
混杂性
因果关系
相关关系
21
数据成为资产
数据资产评估模型
公司的价值与其 数据规模、活性 及其解释、运用 的能力成正比 价值 = f(颗粒度, 维度,规模, 活 性,关联度)x f (应用)
缺少数据资产不足以谈产业;缺少数据思维不足以语未来
数据成为资产
不同行业数据资产特征对比
话说电子商务公司“银行”,银行搞电子商务;搜索巨头 做电信业务,电信运营商搞应用商店。
Operational systems Integration & Analytics (DW, MDM,…)
The unseen information (Big Data)
全新的计算时代
Volume多 Velocity快 Variety杂 Veracity垃圾*
Data at rest
Terabytes to exabytes of existing data to process
Data in motion
Streaming data, milliseconds to seconds to respond
大数据约90%是机器数据
商业应用程序数据2%
关系型数据、高度结构化、基于僵 化模式 财务记录、多维数据、数据计算 月报,非实时事件
人为产生的数据8%
由人与人之间的互动而产生 包括电子邮件、即时通信、语音、 视频和文本 储存在集中式公司服务器、文件共 享和桌面中
机器产生的数据90%
时间序列非结构化数据,无预定义 模式 由所有 IT 系统生成,大量不同类 型的格式 巨量;快速导航和相关性最重要
Governance
信息社会的发展&企业内部管理的变革
C端用户应用的网络发展: l 目录式(yahoo)-搜索式(google)-分享式(FaceBook)-推荐式(个性化信息服务平 台) B端企业内部管理变革 l 小农生产--小规模生产-大规模生产-大规模按需定制-大规模个性化生产-大规模协同生产 l 营销管理变革 大众-分众-微众-个性化 粗放-精细化 社会变革: l (1)强调消费者已逐渐取得交易主权; l (2)消费者需求差异日趋扩大; l (3)数据增加、竞争加剧、互联网改变传统行业加快
技术描述
针对大量数据进行分布 式处理的系统框架 文本内容分词与分析; 图像、音视频分析 流计算引擎 通过交互式可视化界面 辅助用户进行分析 计算机模拟人类学习行 为,包括特征提取、图 形生成等 保护隐私数据与信息个 体的对应关系等安全技 术 存储、放置、调度大规 模的数据
非结构化数据处理 实时数据处理 可视化交互界面 智能数据分析 数据隐私保护 高效存储和管理大规 模数据
大数据的“大“
• • • • • • • • • • • 《红楼梦》含标点87万字(不含标点853509字) 每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes 1GB 约等于671部红楼梦 1TB 约等于631,903 部 1PB 约等于647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB ) 中国国家图书馆:2631万册 1EB = 4000倍美国国会图书馆存储的信息量 600美元的硬盘就可以存储全世界所有的歌曲 MGI估计,全球企业2010 年在硬盘上存储了超过7EB(1EB 等于10 亿GB) 的新数据,同时,消费者在PC 和笔记本等设备上存储了超过6EB 新数据
Data in many forms
Structured, unstructured, text, multimedia
Data in doubt
Uncertainty due to data inconsistency & incompleteness, ambiguities, latency, deception, model approximations
大数据分析的广泛应用
Banking
• • • • Optimizing Offers and Cross-sell Customer Service and Call Center Efficiency Fraud Detection & Investigation Credit & Counterparty Risk • • • • •
何为大?—数据度量
• 1Byte = 8 Bit • 1KB = 1,024 Bytes • 1MB = 1,024 KB = 1,048,576 Bytes • 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes • 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes • 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes • 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes • 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes • 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
大数据基础概念
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
重-设计 重-发布 新-平台 每年 每季 每月
使用群体智慧 开发&QA 少量IT参与 • 太多项目 • 茅盾的优先级 • 昂贵 调整、商品化&it优化,业务改进 • 手动&高成本 • 仅提供前5%最热门内容 • 专家偏见
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
大数据时代
数据库时代 数据耦合时代
1946年,电脑诞生, 数据与应用紧密捆绑 在文件中,彼此不分 1960年代,数据与应用分离, 数据库技术蓬勃发展,但重视 事务处理
数据分析时代
1990年代, 提出数据 分析挖掘
2000年后,互联网 公司开启数据分析 挖掘新时代
1946
2018-11-12
1961
1970
各IT厂家纷纷快速跟进大数据技术
p “大数据”对信息处理设施和技术提出了更高的要求 p 全球主流IT厂家纷纷加大在大数据领域的投入,行业价值快速增长
虚拟化应用
大数据产业相关企业一览 图 广告/媒体应用
商务智能
分析与展示
日志数据应 用
数据即服务 IT基础设施 即服务
数据分析 基础设施
数据操作 基础设施
大数据涉及的关键技术
需求 大数据采集处理 存储、 组织、 管理 大数据分析
海量数据分布式处理
关键技术
Hadoop 生态系统 文本处理技术;自然 语言理解; 多媒体处 理技术… Streaming Data 交互式可视化探 索分析技术 大规模机器学习 技术 数据隐私防范保 护措施与数据安 全技术 数据存储备份技术、 数据放置和调度技术、 数据溯源
阿里巴巴云梯一 数据规模(2012)
集群容量
–约3200台服务器
–物理CPU ~30000核 –内存 ~100TB –磁盘 ~36000块 –存储容量 ~60PB
集群负载 –每天Job数 150,000+道 –每天hive query数 6,000+
–每天扫描数据量 ~7.5PB
–每天扫描文件数 ~4亿 –存储利用率 ~80% –CPU利用率~65% 峰值80% 阿里巴巴是数据信息流制造业
13
互联网络
Google机房硬件(几十万台服务器)
几百万平米米几百个数据中心
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
* Truthfulness, accuracy or precision, correctness
业务发展-DAAS模式精髓IT比业务反应更快!
批准&部署研究 • 优先级问题 • 错过截止日期 • 与市场脱节 BI,分析&多变量测试 • 太多噪音数据 • 事后诸葛 • 依靠猜测
实时自动调节
系统自动升级
结构化 数据库
关键技术
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
v在web 2.0的时代,人们从信息的被动接受者变成了主动创造者
v全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… v每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… v推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… v每天亚马逊上将产生 6.3 百万笔订单… v每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… vGoogle 上每天需要处理24PB 的数据…
专注于企业级大数据
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据能做什么方法(HOW) 7. 大数据有哪些潜在价值 8. 大数据有哪些关键的技术
IBM大数据的五大关键用例
大数据探究
查找、可视化和理解所有大数据,从而改进决策制定
增强的全方位客户视图
整合额外的内部和外部信息源,从而扩展现有客户视图(MDM、CRM 等)
运营分析和优化
分析各种机器数据以改进业务成果
安全/智能扩展
实时降低风险、检测欺诈、监控电子安全
数据仓库扩充
集成大数据和数据仓库功能以提高运营效率
商业模式驱动
数据竞争的压力
能力向消费者转移
大数据的激增
社会在发生变革
• Google ,Facebook, 腾讯百度阿里彻底的改变了人们生活 • 你在读书,书在读你 • 数据是一种资产,成为商品构成成分、是一种资源
农业社会
• 土地 人口
工业时代
• 资本、技术,机器,能源
信息时代
4
• 用户、数据
UGC时代到来
相关文档
最新文档