大数据分析课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据采集
数据管理
数据储存
数据分析与挖掘
大数据的相关技术
数据采集
数据储存与管理
• ETL • 数据众包（CrowdSouring）
数据分析与挖掘
计算结果展示
数据众包
数据众包是一种新的数据采集方式，由企业方通过平台把数据采集任务外包给非特定的大众网络。
大数据的相关技术
数据采集
数据分析与挖掘
数据储存与管理
大数据的4V特征体量Volume 多样性Variety
价值密度Value
非结构化数据的超大规模和增长 • 占总数据量的80~90% • 比结构化数据增长快10倍到50倍 • 是传统数据仓库的10倍到50倍
大数据的异构和多样性 • 很多不同形式（文本、图像、视频、机器数据） • 无模式或者模式不明显 • the above
EB
Variety 多样的数据类型
发现数据价值
Volume 海量的数据规模
软件是大数据的引擎
• 和数据中心（Data Center ）一样，软件是大数据的驱动力.
• 软件改变世界!
大数据生态:软件是引擎
大数据技术要解决的问题
企业用以分析的数据越全面，分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力，并将其与已知业务的各个细节相融合。
2、经典数据库技术并没有考虑数据的多类别（variety） SQL（结构化数据查询语言），在设计的一开始是没有考虑非结构化数据的。
3、实时性的技术挑战：
一般而言，像数据仓库系统、BI应用，对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求，是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
关系型数据库中的表都是存储一些格式化的数据结构，每个元组字段的组成都一样，即使不是每个元组都需要所有的字段，但数据库会为每个元组分配所有的字段。
非关系型数据库以键值对存储，它的结构不固定，每一个元组可以有不一样的字段，每个元组可以根据需要增加一些自己的键值对，这样就不会局限于固定的结构，可以减少一些时间和空间的开销。
覆性的价值
指数型增长的海量数据
所有研究都表明，未来数年数据量会呈现指数增长。根据麦肯锡全球研究院（MGI）估计，全球企业2010年在硬盘上存储了超过7EB（1EB等于10亿GB）的新数据，而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上，我们如今产生如此多的数据，以至于根本不可能全部存储下来。例如，医疗卫生提供商会处理掉他们所产生的90%的数据（比如手术过程中产生的几乎所有实时视频图像）。
分布式文件系统
Google文件系统（Google File System，GFS）是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，将服务器故障视为正常现象，通过软件的方式自动容错，在保证系统可靠性和可用性的同时，大大减少了系统的成本。
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴
大数据时代正在来临…
大数据时代的背景
20世纪90年代，数据仓库之父的Bill Inmon就经常提及Big Data。
2011年5月，在“云计算相遇大数据”为主题的EMC World 2011 会议中，EMC 抛出了Big Data概念。
• ETL
• 结构化、非结构化
• 数据众包
和半结构化数据
（CrowdSouring） • 分布式文件系统
• 关系数据库
• 非关系数据库
（NoSQL）
• 数据仓库
• 云计算和云存储
• 实时流处理
计算结果展示
分布式文件系统
分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。
大数据的技术与应用
大数据的技术与应用
1
大数据技术要解决的问题
大数据怎么用 2
大数据的相关技术
3
大数据的应用实例
大数据技术要解决的问题
Streams Real time Near time
Batch
Velocity 快速的数据流转
Value
Structured Unstructured
TB
Semi-structured
• 大量的不相关信息 • 对未来趋势与模式的可预测分析 • 深度复杂分析（机器学习、人工智能Vs传统商务
智能(咨询、报告等）
速度Velocity
实时分析而非批量式分析
• 数据输入、处理与丢弃 • 立竿见影而非事后见效
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低（Value）”就是 “大数据”的显著特征，或者说，只有具备这些特点的数据，才是大数据。
• 实时处理的要求,是区别大数据引用和传统数据仓库技术, BI技术的关键差别之一.
Volume 数据量
PB是大数据層次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB ->DB
大数据不仅仅是“大”
多大？ PB 级
比大更重要的是数据的复杂性，有时甚至大数据中的小数据如一条微博就具有颠
大数据技术被设计用于在成本可承受的条件下，通过非常快速（velocity）地采集、发现和分析，从大量（volumes）、多类别（variety）的数据中提取价值（value），将是IT 领域新一代的技术与架构。
技术领域的挑战
技术架构的挑战：
1、对现有数据库管理技术的挑战
传统的数据库部署不能处理数TB 级别的数据，也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distri buted Database) ，可以扩展到数百万的机器，数已百计的数据中心，上万亿的行数据。
分布式文件系统
GFS将整个系统分为三类角色：Client（客户端）、Master （主服务器）、Chunk Server（数据块服务器）。
分布式文件系统
Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distri buted File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。
全球每秒钟发送 2.9 百万封电子邮件，一分钟读一篇的话，足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube，足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息，假设10 秒钟浏览一条信息，这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟，被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
转换为结构化存储
按照非结构化存储
➢ 大数据技术：
➢ 解决方案：
• 数据采集：ETL工具 • 数据存取：关系数据库；NoSQL；SQL等 • 基础架构支持：云存储；分布式文件系统等 • 计算结果展现：云计算；标签云；关系图等
• Hadoop（MapReduce技术） • 流计算（twitter的storm和yahoo！的S4）
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
• 2010年海地地震，海地人散落在全国各地，援助人员为弄清该去哪里援助手忙脚乱。传统上，他们只能通过飞往灾区上空来查找需要援助的人群。
• 一些研究人员采取了一种不同的做法：他们开始跟踪海地人所持手机内部的SIM卡，由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述，此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来，当海地爆发霍乱疫情时，同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点，阻止了疫情的蔓延。
非关系型数据库NoSQL
非关系型数据库NoSQL
Bigtable的设计目的是可靠地处理PB级别的数据，并且能够部署到上千台机器上。Bigtable已经在超过 60个Google的产品和项目上得到了应用，包括 Goo gle Analytics、GoogleEarth等。
大数据的构成
大数据包括：交易数据和交互数据集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据：企业内部的经营交易信息主要包括联机交易数据和联机分析数据，是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据，我们能了解过去发生了什么。
海量交互数据：源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、 Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。
大数据分析
——大数据引领我们走向数据智能化时代
大数据的定义理解
大数据的定义理解
1
大数据时代的背景
什么是大数据 2
大数据的“4V”特征
3
大数据的构成
大数据时代的背景
半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。互联网（社交、搜索、电商）、移动互联网（微博）、物联网（传感器，智慧地球）、车联网、GPS、医学影像、安全监控、金融（银行、股市、保险）、电信（通话、短信）都在疯狂产生着数据。
大数据时代的背景
数据量增加
数据结构日趋复杂
大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长
根据IDC 监测，人类产生的数据量正在呈指数级增长，大约每两年翻一番，这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
TB
PB
EB
ZB
分布式文件系统
一个HDFS集群是由一个Namenode和一定数目的Datanodes 组成。
非关系型数据库NoSQL
关系型数据库的局限性 – 难以满足高并发读写的需求 – 难以满足对海量数据高效率存储和访问的需求 – 难以满足对数据库高可扩展性和高可用性的需求
非关系型数据库NoSQL
NoSQL 数据存储不需要固定的表结构，通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. •文本/图片/视频等非结构化/半结构化数据 •能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.
• 统计和分析：A/B test; top N排行榜；地域占比；海量数据的查询、统计、更新等操作效率低
文本情感分析
• 非结构化数据
• 数据挖掘：关联规则分析；分类；聚类
图片、视频、word、pdf、ppt等文件存储
• 模型预测：预测模型；机器学习；建模仿真
不利于检索、查询和存储
• 半结构化数据
非结构化数据
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
。
Velocity 速度
• 1s 是临界点.
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.
网络架构、数据中心、运维的挑战：
人们每天创建的数据量正呈爆炸式增长，但就数据保存来说，我们的技术改进不大，而数据丢失的可能性却不断增加。
如此庞大的数据量首先在存储上就会是一个非常严重的问题，硬件的更新速度将是大数据发展的基石。
一些相关技术
➢ 分析技术：
➢ 存储
• 数据处理：自然语言处理技术
• 结构化数据：