新技术基础知识介绍——大数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研发新产品 (产品/品牌创新) 获取新用户 (渠道/营销创新) 降低成本 (价格策略创新) 提高客户忠诚度 (服务创新) 加强风险管控 (风险防范创新)
产品市场细分
渠道创新 与交叉销售 降低决策成本 实现流程优化 用户个性化 分析与服务
1. 2. 3. 4. 市 场 吸 引 力
舆情监测及分析系统 大情报系统 平安城市 快速险情或疾病应急系统 物 流
1. 日志查询与分析 2. 电信增值服务 3. 社交媒体分析降低用户转网 率 4. 基于LBS的精准产品营销
15
案例:某企业以大数据技术为核心,建立基于数据驱动的运营体系
洞察:理解顾客心理、行为以及企业行动对 他们的影响,如用户评价分析 定位:缩小目标,确定受众群体,对市场精 细化细分,如用户画像 个性化:分别对待不同顾客,增强针对性, 如精准推荐 情景:比对单一顾客数据与整体数据,以帮 助顾客理解自我,或识别相关风险,如信用 评分 获得认知 如用户洞 察、产品 洞察、消 费特征、 细化分类 等 1、用户分类 2、精准营销 3、线上体验优化 4、产品与服务优 化 5、运营优化
Spark
应用数据区(高性能实时访问)
HBase
资源 管理
HBase
资源 管理
Impala 存储 管理
结构化、关系化数据 基础层、汇总层、 指标数据
YARN
批量 数据 处理 计算
处理非结构化数 据,抽取结构化信 息、构建索引 结构化与非结构化 数据的整合、处理
Hadoop
资源 管理
YARN
YARN
HDFS
电子商务
政府公 共服务
电 信 交通 医疗
1. 2. 3. 4.
客户购买行为分析 交叉销售 品牌定价策略分析 销售效果分析
1. 在线教育效果分 析 2. 大学生情绪分析 教 育
风险预测与防范
1. 2. 3. 4.
1. 电子健康档案管 智能交通和道路监控管理 理 客票和客户管理 2. 疾病预防和控制 货运和物流管理 3. 自动化诊断和处 航空/铁路智能线路调度 理系统 应用成熟度
数据发现
数据可视化
数据追溯
决策支持
业务数据字典
数据湖 数据仓库
实时
商业智能 / 数据可视化
信息模型 基础层
集成化的主 题模型与数 据
报表 仪表盘 即席分析 与查询 BI 服务
渠道
CRM ERP 主数据 社交互联网
流处理 / 事件处理
批量 数据流
与源系统保持近实 时数据同步,一体 化模型
访问与汇总 层
新技术基础知识介绍
1
2016年,AlphaGo战胜李世石
2
2017年7月,李彦宏实战百度无人驾驶
3
无人超市一夜之间出现在大街小巷
4
今天,我们的“吓尿指数”已经不超过三十年
5
从企业角度来看,科技类企业正在成为商业的主角
单位:10亿美元
6
企业必须要依托新技术展开数字化转型,否则必将面临挑战
业绩落后企业
更多
不是随机样本而是全部数据,
么”,而不是“为什么”
技术发展,让我们处理所有
更多的数据成为可能。
来源:维克托·迈尔-舍恩伯格,英,数据科学的技术权威
13
典型事例,对相关性的追求
佛教关于因果报应的解释
哲学范畴的因果关系
舍恩伯格对大数据的相关性解释
佛教《三世因果经》主要讲:一是人的命是自己造就的; 原因和结果是揭示客观世界中普遍联系着的事物具有 二是怎样为自己造一个好命;三是行善积德与行凶作恶 先后相继、彼此制约的一对范畴。原因是指引起一定 现象的现象,结果是指由于原因的作用而引起的现象。 干坏事的因果循环报应规律。
第三方数据
标 杆 经 营 数 据 用 户 信 息 行 业 参 考 信 息
自 动 化 设 备
订 单 交 付 体 系
渠 道 运 营 与 门 店
经 销 商 体 系
门 店 体 系
电 商 与 微 店
O 2 O 平 台
大数据解决方案示例
数据采集 元数据管理 Sources
业务系统 ODS
数据流
规则
数据存储
模型
数据采集交换层 Spider 数据源层
数据源
数据采集
数据传输
数据交换
开发运维
Storm
FTP
CDC
压缩解压缩
Sqoop
Flume
Web Services
MQ
Kafka
工具支撑 ……
结构化数据
数据源
数据源 数据源
非结构化数据
……
数据源
数据源
……
18
速率 Velocity
多样 Variety 价值 Value
12
大数据思维区别于传统思维,其精髓在于数据分析方法的3个转变 更杂
不是精确性而是混杂性, 在大数据
环境中,更重要的是发现事物变化 的趋势,在一定程度上,不追求数 据的精度。
更好
不是因果关系而是相关关系,大 数据的核心是预测,相关关系是 大数据预测的关键,揭示“是什
VS
业绩领先企业
百丽(BeLLe) 诺基亚(Nokia) 爱立信(Ericsson) 柯达(Kodak) 摩立特(Monitor) 雅虎(Yahoo)
红领 华为 海尔 BAT/J、新美大、OfO Amazon Google
7
对新技术的理解和运用,正是数字化转型的基础
A:人工智能
B:区块链
C:云
D:大数据
IoT:物联网
• • • •
智能制造、供应链 智能财务、HR
• • • •
智能合约 共享账本
• • • •
外部协同在云端 内部协同在云端
• • • •
大数据市场分析 大数据精准营销
• • • •
人-机互联 工业互联
智能营销
智能决策
鉴证证明
数字资产
信息存储在云端
基础设施在云端
大数据的相关关系,而不强调因果关系;(舍恩伯 格),其实这个只是一种对无法探究因果的妥协,人 类应该去探寻因果,因为世界存在客观的运转规律;
14
大数据的典型行业应用
大数据典型行业应用
市场吸引力:金融、电子商务、物流、政府公共服务数据较高; 企业业务 大数据的作用 应用成熟度:金融、电子商务、电信、医疗最高。 1. 深度分析型CRM 2. 防欺诈和金融风险管 理 3. 根据客户建议优化业 务 4. 风险可控的产品组合 管理 金融
* 2012年IBM对95个国家中26 个行业的1144名专业人员调查 结果
10
不同认知角度的大数据定义
原始版本 大数据技术 用以区分数据 “信号”数据 暗数据 新瓶装旧酒
以大数据的三个特 征数量(Volume) 种类(Variety) 速度(Velocity) 定义大数据,是最 为人所知,且被公 认的一种。
立方体,衍生 数据,汇总数 据,分析结果 数据
业务导向模型, 通过数据映射 成为报表和分 析结果
星型模型,
数据水库
数据从源端抽取, 基本不做转换,保 持与源端相同存储 格式,包含历史数 据
数据探索实验室
数据挖掘 机器学习 数据探索 数据发现
数据整合与数据质量
实时整合
数据传输
消息队列
数据访问
批量抽取
整合点
文本挖掘
数据挖掘工具
多维分析工具
展示工具组件
Mahout/R
组件包管理
对外服务协议
数据分析建模层
自然语言处理
文本挖掘EagleEye
Web挖掘
其他数据挖掘与文本挖掘工具
聚类算法
时间序列分析
数据标准
协同推荐
社交媒体分析
机器学习
分类算法
预测算法
数据服务层
数据封装 服务封装 标准接口 权限隐私控制 SQL/Mahout/R ……
数据转换
元数据定义
数据质量
任务调度
17
大数据解决方案示例
客户端展示层
PC/平板端应用
用户体验 产品部门 营销管理
数据产品服务
公关部门
战略决策
移动端应用
企业合作
信用与流失分析
数据应用
APP 风险管理
微信服务/订阅号
决策支持
基础管理层
数据质量
元数据
应用层
客户关系管理
资讯分析
应用开发服务层
应用开发工具库 自助查询工具 SPSS AS
11
大数据的典型特征(4V)
规模 Volume
• 企业充斥着日益增长的各种类型的数据,很容易积累出TB级别,甚至PB级 别的信息数据。 • 将每天12TB的Twitter数据用于提高产品的顾客情绪分析。 • 将每年3500亿的智能电表读数用于预测用电量。
• 有时候,2分钟也意味着太长了。针对时间敏感的进程,例如油井泄漏,大 数据被用做数据流的形式以提高它的价值。 • 审查每天5百万的交易活动用以确定潜在的欺诈行为。 • 实时分析每天5亿次的通话记录用以更快的分析及预测客户的流失。 • 大数据包括任何结构化的、非结构化类型的数据,例如:文本、传感器数据、 音频、视频、点击流量以及日志文件等等。综合分析这些数据,有利于提高 企业的洞察力。 • 从成千上万个实时监控摄像头中发现价值信息点。 • 以80%的数据,图像,视频和文件增长的优势,提高客户满意度。 • 随着物联网的广泛应用,信息感知无处不在,信息的获取成几何式增长,但 价值密度较低。 • 通过使用先进的技术能更迅速地完成数据的价值“提纯”,大浪淘沙却弥足 珍贵。
我们除了面对更大 量(Volume)更多 种类(Variety)、 更快速(Velocity) 的数据以外,一批 新技术应运而生, 尤其是用以存储和 处理数据的开源技 术,如Hadoop、 NoSQL等。 学习和使用这些技 术和工具,需要一 个有别于传统技术 的名称,最终,将 其称为“大数据”。
从技术角度定义 “大数据”难免模 糊,人们也尝试着 从业务角度来定义 “大数据”,用以 区分数据。 一种分类是交易、 互动、观察。 另一种分类是流程、 人、机器。
大数据精细管理
大数据智能决策
产业互联
OMO
8
技术
A:人工智能 B:区块链 C:云计算 D:大数据 IoT:物联网
D
9
大数据的定义,随着技术的发展不断演进
定义大数据
更广的信息范围 新的数据与分析类型
Wiki百科:大数据是指一个超大的、难以用现有常规的数 据管理技术和工具处理的数据集。 研究机构(Gartner):大数据是需要新的处理模式,才能 具有更强的决策力、洞察力和流程优化能力的,海量、高 增长率和多样化的信息资产。 IDC报告:大数据技术描述了一种新一代技术和构架,用于 以很经济的方式、以高速的捕获、发现和分析技术,从各 种超大规模的数据中提取价值 。 咨询公司:大数据是在互联网、云计算、移动、社交等技 术飞速发展的背景下,产生的需要新的技术和能力才能经 济地处理的,具有规模大、速度快、多样性及价值密度低 等特点的各类数据资产。
实际上,今天业界在谈大数据时,更多是指:在大规模数据的基 础之上,可以做到的事情,而这些事情在小规模数据的基础上是 无法完成的。 --大数据现已成为人们获得新的认知、创造新的价值的途径 --大数据时代对我们的思维方式提出了挑战
实时信息
来自新技术的数据 非传统形式的媒体 大数据量 最新流行词 社交媒体数据
HDFS
Streams
迭代 式计 算与 机器 学习
分类、预测、聚类 、时序分析等监督 与无监督学习 多维度、大时间跨 度范围的数据筛选 对比、处理
YARN
MongoDB
生命周期
作业调度 管理
存储 管理
非结构/半结构/结构化数据
存储 管理
关系化、结构化宽表数据
存储 管理
NoSQL类数据
索引数据/其他应用数据
数据 存储
数据解析 如采用自 然语言处 理、语音 识别、图 像识别
大数据平台
经营 数据 基础 信息 交易 信息 行为 信息
数字化场景
企业经营数据
E R P wk.baidu.com 息
16
全渠道数据
协 同 工 作 平 台
社交平台数据
第 三 方 电 商 …… 社 交 媒 体 与 视 频 论 坛 与 贴 吧 搜 索 与 地 图 ……
作业调度管理
工作流编排
Oozie/Azkaban
作业调度
DataStage
运行监控
数据管控
数据存储处理层
结构化数据区(交互式OLAP访问)
SMP数据库集群
MPP 数据库机器
数据安全
探索发现区(多类型数据的批量处理计算)
Hadoop MapReduce
流式数据处理区
Storm
资源 管理
数据挖掘与深度分析区
从商业价值角度更 为直接的定义: 传统的事务性数据, 当我们记录下他们 的时候,要做什么/ 改变什么已经太晚 了(它已经发生)。 现今,企业可以利 用新的“信号 (Signal)”数据, 预测什么将要发生, 而因此早些做出改 进。
先前由于技术限制 这是最为懒惰和偏 而被我们忽略或无 激的一种定义。认 法进行的数据分析。 为“大数据”只是 或将其称为“暗数 将原有的BI分析或 据”(Dark Data)。商业智能重新冠以 了一个高大上的名 字。本质没有区别。