大数据分析技术介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的背景
数据量增加
数据结构日趋复杂
大量新数据源的出现则导致了非结构化、 半结构化数据爆发式的增长
根据IDC 监测,人类产生的数据量正在呈指数级 增长,大约每两年翻一番,这个速度在2020 年之 前会继续保持下去。这意味着人类在最近两年产生 的数据量相当于之前产生的全部数据量。
TB
PB
EB
ZB
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话, 足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个 人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息, 这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联 网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
• 2010年海地地震,海地人散落在全国各地,援助人员为 弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往 灾区上空来查找需要援助的人群。
• 一些研究人员采取了一种不同的做法:他们开始跟踪 海地人所持手机内部的SIM卡,由此判断出手机持有人所 处的位置和行动方向。正如一份联合国(UN)报告所述,此 举帮助他们“准确地分析出了逾60万名海地人逃离太子港 之后的目的地。”后来,当海地爆发霍乱疫情时,同一批 研究人员再次通过追踪SIM卡把药品投放到正确的地点, 阻止了疫情的蔓延。
大数据分析技术介绍
——大数据引领我们走向数据智能化时代
大数据的定义理解
大数据的定义理解
1
大数据时代的背景
什么是大数据 2
大数据的“4V”特征
3
大数据的构成
大数据时代的背景
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到 了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其 增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物 联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银 行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
▪ 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理 的范畴
▪ 大数据时代正在来临…
大数据时代的背景
20世纪90年代,数据仓库之父的Bill Inmon就经常 提及Big Data。
2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。
覆性的价值
指数型增长的海量数据
所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯 锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了 超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔 记本等设备上存储了超过6EB新数据。1EB数据相当于美国国 会图书馆中存储的数据的4000多倍。事实上,我们如今产生如 此多的数据,以至于根本不可能全部存储下来。例如,医疗卫 生提供商会处理掉他们所产生的90%的数据(比如手术过程中 产生的几乎所有实时视频图像)。
大数据的4V特征 体量Volume 多样性Variety
价值密度Value
非结构化数据的超大规模和增长 • 占总数据量的80~90% • 比结构化数据增长快10倍到50倍 • 是传统数据仓库的10倍到50倍
大数据的异构和多样性 • 很多不同形式(文本、图像、视频、机器数据) • 无模式或者模式不明显 • 不连贯的语法或句义
• 大量的不相关信息 • 对未来趋势与模式的可预测分析 • 深度复杂分析(机器学习、人工智能Vs传统商务
智能(咨询、报告等)
速度Velocity
实时分析而非批量式分析 • 数据输入、处理与丢弃 • 立竿见影而非事后见效
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联 网世界中人与人交互信息,位置信息等是大数据的主要来源. •文本/图片/视频 等非结构化/半结构化数据 •能够在不同的数据类型中,进行交叉分析的技术,是大数据的 核心技术之一.语义分析技术,图文转换技术,模式识别技术,地 理信息技术等,都会在大数据分析时获得应用.
• 实时处理的要求,是区别大数据引用和传统数据仓库技术, BI技术的关键差别之一.
Volume 数据量
PB是大数据層次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB ->DB
大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠
大数据的技术与应用
大数据的技术与应用
1
大数据技术要解决的问题
非结构化数据
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的 数据即称为非结构化数据,包括所有格式的办公文档、文本、 图片、XML、HTML、各类报表、图像和音频/视频信息等等
。
Velocity 速度
• 1s 是临界点.
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理 结果就是过时和无效的.
大数据的构成
大数据包括: 交易数据和交互数据 集在#43; 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。
海量交互数据: 源于各种网络和社交媒体。它包括了呼叫详细记 录、设备和传感器信息、GPS和地理定位映射数 据、通过管理文件传输协议传送的海量图像文件、 Web文本和点击流数据、评价数据、科学信息、 电子邮件等等。可以告诉我们未来会发生什么。