大数据技术和应用(PPT 22张)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的收集方式
物联网 云计算
移动互联网
车联网 手机、平板电脑、PC 遍布地球各个角落的各种各样的传感器
大数据的收集方式
物联网、云计算、移动互联网、车联网、手机、车联网、PC以及遍 布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方 式。
大数据领域的技术
Hadoop
Hadoop原本来自于谷歌一款名为MapReduce 的编程模型包。谷歌的MapReduce框架可以把一个 应用程序分解为许多并行计算指令,跨大量的计算 节点运行非常巨大的数据集。 Hadoop得以在大数据处理应用中广泛应用得益 于其自身在数据提取、变形和加载(ETL)方面上的天 然优势。Hadoop的分布式架构,将大数据处理引擎 尽可能的靠近存储,对例如像ETL这样的批处理操 作相对合适,因为类似这样操作的批处理结果可以 直接走向存储。Hadoop的MapReduce功能实现了 将单个任务打碎,并将碎片任务(Map)发送到多个 节点上,之后再以单个数据集的形式加载(Reduce)
其他大数据技术
Apache Drill
为了帮助企业 用户寻找更为有效、 加快Hadoop数据查
大数据的应用
大数据在风电领域的应用
首先,结合了大数据分析和天气建模技术的能源 电力系统能够提高风电的可靠性。以往对风资源的预 测不够精准,在风能无法贡献预期功力时,火电就要 作为后备电力。这样,电网对风电的依赖程度越高, 需要建设后备电站的成本就越高。另外,启用火电站 的就等于向环境中释放碳排。然而,在大数据分析的 帮助下,温度、气压、湿度、降雨量、风向和风力等 变量都得到充分考虑,对风电的预测更加精准。电网 调度人员可以提前做好调度安排,也有助于电网消纳 更多风torm的话,可能会是这样: 分布式实时计算系统。按照storm作者的说法,storm 对于实时计算的意义类似于hadoop对于批处理的意 义。 在淘宝,storm被广泛用来进行实时日志处理, 出现在实时统计、实时风控、实时推荐等场景中。一 般来说,我们从类kafka的metaQ或者基于hbase的 timetunnel中读取实时日志消息,经过一系列处理, 最终将处理结果写入到一个分布式存储中,提供给应 用程序访问。我们每天的实时消息量从几百万到几十 亿不等,数据总量达到TB级。对于我们来说,storm
Hadoop是一个由Apache基金会所开发的分布式系 统基础架构。Hadoop 是一个能够对大量数据进行分布 式处理的软件框架。但是 Hadoop 是以一种可靠、高效、 可伸缩的方式进行处理的。Hadoop 是可靠的,因为它 假设计算元素和存储会失败,因此它维护多个工作数据 副本,确保能够针对Hadoop失败的节点重新分布处理。 Hadoop 是高效的,因为它以并行的方式工作,通过并 行处理加快处理速度。Hadoop 还是可伸缩的,能够处
第二,数据类型繁多。网络上提到的网络日志、视频、图片、地理位
置信息等等。 第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用 的数据仅仅有一两秒。 第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术 有着本质的不同。业界将其归纳为4个“V”——Volume,Variety, Value,Velocity。
大数据的4V特性
大数据的4个“V”,或者说特点有四个层面: 第一,数据体量巨大。从TB级别,跃升到PB级别;位、bit (比特, Binary Digits):存放以为二进制数,即 0或 1,最小的存储单位。字节 byte:8个二进制位为一个字节(B)。(1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 1YB=1024ZB 1BB=1024YB)
大数据时代
大数据技术和应用
一.什么是大数据?
大数据的概念
大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才 能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样 化的信息资产。 大数据的4V特点 Volume(大量) Velocity(高速) Variety(多样) Value(价值)
第二步是通过大数据的技术途径进行“全量数据挖
掘”,最后利用分析结果进行“资源优化配置”。
通过实时 路况的数据是怎么收集的?实际上经过了三个阶段,开始是跟交通口的 一些公司合作,获取交通流量监测设备的数据,这个方法缺陷很明显, 一个是受制于人,一个是想扩大监测范围就要部署大量设备,费时费力, 而且还受法律制约。于是一些专门做路况的公司开始用出租车当浮动车 收集数据。但这种办法还是无法覆盖大量的大小路段,随着移动互联网 的普及,高德地图的APP能够实时上传大量机动车的速度和位置信息, 经过去噪和综合分析,就形成了覆盖率极高的实时路况信息。这就是一 个典型的“众包”过程。
大数据的核心价值
大数据的核心价值是什么?
无论是大数据在农业的应用也好,工业的应用 也好,抑或是在金融行业的应用也好,最终都是通 过大数据技术来获知事情发展的真相,最终利用这 个“真相”来更加合理的配置资源。 也就是说大数据的核心价值就是:优化资源 配 置
大数据的核心价值
网上相关研究表明:
要实现大数据的核心价值,还需要前两个重要 的步骤 第一步是通过“众包”的形式收集海量数据,
它主要有以下几个优点:
⒈高可靠性。 Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。 Hadoop是在可用的计算机集簇间分配数据并完成 计算任务的,这些集簇可以方便地扩展到数以千计的节 点中。 ⒊高效性。 Hadoop能够在节点之间动态地移动数据,并保证 各个节点的动态平衡,因此处理速度非常快。 ⒋高容错性。 Hadoop能够自动保存数据的多个副本,并且能够