大数据与人工智能

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与人工智能
提纲
什么是大数据 大数据系统 从数据获取价值
大数据驱动智能
什么是大数据
3Leabharlann Baidu
什么是大数据
• 老生常谈的4个V
• 第五个V: Value
• 10秒的iPhone视频
1980x1080x25x10 =518,400,000像素 是大数据吗?
• 一个Excel表,10,000行
因果与关联 - 天气预报
• 因果关系用方程表达
– 严谨准确 – 专业 运动方程式(风场) 热力方程式 水气(物质)方程式 连续方程式(质量守恒)
• 什么是关联
– 闪电与雷声
• 用简化模型去近似方程式
– 因果不明,或关联关系太过复杂时
五分钟设计“大数据云计算人工智能” 系统
• 问题描述
Machine analytics
数据ETL和清洗
HDFS
大数据洞察:群体和个体
大数据洞察:生态和信息传播
应用画像
设备画像
核心算法
• 文本挖掘 • 机器学习 • 知识图谱
用户画像
交互式数据洞察
• 超越传统BI报表的形式
• 动态、变化的需求
• 数据组织形态 • 实时响应
从文本提取结构化知识
• “北京时间8月15日凌晨,2016年里约奥运会跳水女子单人三米板比赛中出现了 浪漫的一幕。获得亚军的中国美女何姿在颁奖仪式后收到了男友秦凯的求婚。今 天的比赛中,施廷懋以总分406.05分获得冠军,在帮助中国队实现该项目八连冠 的同时,何姿以387.90分遗憾获得银牌”。
2000s,社交网络的盛 行,海量数据和日志 1. 分布式编程模型 MapReduce(2004年) 2. 分布式系统,如 Hadoop (2006), Spark (2012) , Hive (2013) 3.NoSQL数据库流行, 如Cassandra (2008)
2010s,随大数据和人工 智能的发展 1. 分布式机器学习系统 广泛应用 2. 分布式图数据库被用 于大数据知识图谱的处 理和分析
8:10am
9:10am
数值化
• 可计算性
"The true sign of intelligence is not knowledge but imagination." --- Einstein
什么是机器智能
• 数据+模型+计算力 人 记忆 经验 学习 发现因果 设计机器 计算机 更强的记忆 基于数据做预测 统计学习 关联/使用因果 ?? 计算机 人
• 高效、容错、易用
大数据系统是一个“操作系统”
数据分析 统计
数据分析 统计
数据存储
数据存储
2个CPU
100+ CPU
1-4块硬盘
800+ 硬盘
资源管理
• 计算、存储、IO
文件管理
相同的操作逻辑
从文件系统到对象存储
• 海量非结构化数据
– 文本、语音、图片
• (分布式)文件系统
– 目录结构 – 支持大文件 – 元数据服务器成为瓶颈
大数据的价值体现:小
• 数据知识决策(1bit)
• 精确(概率)
• 举个例子
– 极致的个性化推荐
大数据的价值潜力:智能
• 语言 • 视觉 • 预测
• 举个例子
– 语音识别 - 样本量:3千小时10万小时 - 识别率:80%90% – 图片识别 - 样本量:几万十亿 - 识别率:70%95%
(大)数据从哪里来
• 传感器
– 制造业、公共事业 – 手机、PC、手环 – 摄像头
• 带宽
– 40 kbps (2G) 15GB/年 – 20 Mbps (4G)
• 计算
– Moore’s Law
• 存储
– TB级SSD
大数据系统
9
如何处理海量数据
• 一个关于屏保的的真实的故事…
– 2003年的知春路…
大数据驱动智能
29
什么是智能
• 语言 • 逻辑 • 推理 • 理解 • 记忆 • 判断 • 学习 • 想象 • 情感 Intelligence has been defined in many different ways including as one's capacity for logic, understanding, self-awareness, learning, emotional knowledge, planning, creativity and problem solving.
*这是gif, 放映可见
时空数据的交互式可视化
• Uber每天收集上亿级别的车辆位置
– 发现供需关系 – 了解该城市的市场活动 – 挖掘数据中的商业价值。
*这个gif, 放映可见
数据驱动的决策
• 个性化营销
• 城市规划
• 更精确的度量
– 成本 – 收益
数据驱动的预测
• 需求
• 政策走势
• 故障和维护 • 历史会重复
• MPI
分布式系统的前世今生
• 应用驱动
– 数据
• 硬件驱动
– 突破约束
• 人的驱动
– 聪明人 – 懒人
1980s,个人电脑普及 1990s,数据中心提供 商业化系统部署解决方 案 1. 分布式系统采用 Client-Server架构 1.P2P分布式架构 2. 分布式SQL数据库 (1979) 2. 网格计算 3. 网络文件系统(1984)
何姿 男友 求婚 秦凯
获得
亚军/银牌
大数据的可视化呈现
• 挑战更大
• 更易用
• 更丰富 • 更灵活
动态信息的可视化
• 波士顿的地铁运输系统
地铁列车在凌晨5:00开 始服务,平均每8分钟有 一辆列车驶出。
*这是gif, 放映可见
在工作日的早高峰8:00, 列车分布更加密集,发车 频率降低至3分钟。
• 对象存储
– – – – 去中心化 Key-Value 架构 支持小文件 分布式元数据存储
数据分析
具有同样的可视化 及分析能力
SQL语法相同
大数据怎么玩
从数据获取价值
17
大数据的价值获取
数据
• • • • 转换 整合 存储 呈现
知识
• 洞察 • 交互式查询 • 呈现
决策
• 预测
Human analytics
用户A,用户B,转账金额 是大数据吗?
大数据的价值来源:全
• 数据维度 • 时间、空间维度 • 跨界
McKinsey, Big data: The next frontier for innovation, competition, and productivity, 2011
• 举个例子
– 个人健康数据
相关文档
最新文档