大数据简介,应用及技术简述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Part 1 什么是大数据
大数据定义:
所涉及的资料量规模巨大到无法 通过目前主流软件工具,在合理时间 内达到撷取、管理、处理、并整理成 为帮助企业经营决策更积极目的的资 讯。
主要的特点:
• Volume 数据体量 • Velocity 数据速度 • Variety 数据多样 • Veracity 数据真实
21
16
24
21
18
%
%
%
%
%
数据价值 体现在三个方
面 •增加收入
•减少支出
•降低风险
精准经 营
降低成 本
智能服 风险管
务
理
创新经 营
Part 4大数据主要应用行业
能源行业
随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大
大
数据技术分析
用物户流用行电业模式,可以改进电网运行,合理设计电力需求响应系统,确保
10倍到50倍 • 是传统数据仓库的10
倍到50倍
Big Data 大数据
Variety
数据多样
• 大数据的异构和多样性 • 很多不同形式(文本、
图像、视频、机器数据) • 无模式或者模式不明显 • 不连贯的语法或句义
Value
数据价值
• 大量的不相关信息 • 对未来趋势与模式的可
预测分析
• 深度复杂分析(机器学 习、人工智能Vs传统 商务智能)
数
电 利网 用运 大行数安据全优。化物流网络,提高物流效率,降低
• 4V特征
Part 1 什么是大数据
大数据是需要新处理模式才能具有更强的决 策力、洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资产。 大数据就是“未来的新石油”。
大数据的特征
Part 2 大数据的特征
Volume
数据量体
• 非结构化数据的超大规 模和增长
• 总数据量的80~90% • 比结构化数据增长快
用户画像 构建 推理
R语言
预测
关联分 析 数据库
体系
知识图谱
MPP混合 架构
NoSQL
NewSQ L数据集
Lambda 架构
数据归
成实
约维
体识别
度归约
数据冗
数值归
余软件采集
约
系统日志抓取
企业特定API、网络众包
Part 3 大数据技术现况—将在三个环节分
采集 端
多源数 据融合
社交数据、 IOT数据 等外部数 据与企业 内 部数据 融合拉通
Velocity 数据速度
• 实时分析而非批量式分 析
• 数据输入、处理与丢弃 • 立竿见影而非事后见效
Part 2 大数据的4V特征—Volume
1Bit y
1 K B
1
1
M
G
B
B
1 T B
1 P B
1 E B
1 Z B
1 Y B
1PB相当于50%的全美学术研究图书馆藏书 信息内容 5EB相当于至今全世界人类所讲过的话语
Part 2 大数据的4V特征—Variety
行业/企业内 数据
企业内部多个应用系统的 数据、互联网和物联网的 兴起,带来了微博、社交 网站、传感器等多种来源。
保存在关系数据库中的结 构化数据只占少数, 70~80%的数据是如图片、 音频、视频、模型、连接 信息、文档等非结构化和 半结构化数据。
数据之间频繁交互,比如 游客在旅行途中上传的图 片和日志,就与游客的位 置、行程等信息有了很强 的关联性。
大数据技术 与应用
什么是大数据
Part 1 什么是大数据
何为大?—数据度量
1Byte = 8 Bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes 数据没有办法在可容忍的时间下使用常规软 件方法完成存储、管理和处理任务
1ZB如同全世界海滩上的沙子数量总和
1YB相当于7000位人类体内的微细胞总和
Part 2 大数据的4V特征—Velocity
• 实时数据流处理的要 求,是区别大数据引 用和传统数据仓库技 术,BI技术的关键差 别之一;
• 1s 是临界点,对于大 数据应用而言,必须要 在1秒钟内形成答案, 否则处理结果就是过 时和无效的;
Part 3 大数据及其关联技云术计算、大数据和物
联网代表了IT领域最
大数据
新的技术发展趋势, 三者既有区别又有联
系
云计算 云计算为物联网提供海量数
据存储能力
物联网为云计算技术提供了 广阔的应用空间
物联网
大数据应用
Part 4大数据主要用途
24%的大数据企业认为在
为用户实施智能服务方面 有较大帮助
运营化 发展
分析端
处理实时 化
针对网络视频 化潮流, 更加 强化对实时流 数 据的处理能 力
高效化
数据量的不断 增加, 云端处 理API结合后 台支撑将使数
应用端
智能化
以机器学习作 为核心, 将实 现对用户需求 的自 我理解和 智能迭代
云端化
云计算和移动 互联网 将促进 大数据应用从 2B市场迅速推 广到 2C市场
Part 2 大数据的4V特征—Value
• 价值密度低(Value) • 价值密度的高低与数据总量的大小成反比。以视频为
例,一部1小时的视频,在连续不间断的监控中,有 用数据可能仅有一二秒。 • 如何通过强大的机器算法更迅速地完成数据的价值 “提纯”成为目前大数据背景下亟待解决的难题。
挖掘大数据的价值类 似沙里淘金,从海量 数据中挖掘稀疏但珍 贵的信息
大数据技术简介及现况
Part 3 大数据技术简介
数据可 视化
数据分析 挖掘
数据存 储
数据预 处理
数据采 集
2D法 时间可 视化
实时处 理 Spark Storm 分布式架 构 Hadoop MapRed u数c据e 清 理 遗漏 值处理百度文库噪音数 据硬件采集 传 感技术 RFID
多维
法
层次
法
机器语 音