大数据可视化关键技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 of 45
5.1大数据架构
第5章 大数据可视化的关键技术
大数据的数据特征,有4V、5V、7V或11V特征等来描述。 容量( Volume):数据的大小决定所考虑的数据的价值和潜在的信息 。 (量); 速度(Velocity):指获得数据的速度,实时获取需要的信息(速); 种类(Variety):结构化数据、半结构化数据和非结构化数据(类); 价值(value):价值密度低;合理运用大数据,以低成本创造高价值 (价); 真实性(Veracity):数据的质量,数据清洗,去伪存真(真); 可视化(Visualization):可视化可推动大数据的普及应用(普); 粘性(Viscosity):改善用户体验,增加用户对媒体的粘性(粘); 上述定义都有一定的道理,特别是5V定义,目前已经被越来越多地接受。 大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注相关关 系。也就是说,只要知道“是什么”,而不需要知道“为什么”。
系统协调者
•系统协调者角色提供系统必须满足的整体要求,包括政 策、治理、架构、资源和业务需求,以及为确保系统符 合这些需求而进行的监控和审计活动。 系统协调者的功能是配置和管理大数据架构的其他组件, 来执行一个或多个工作负载。 •系统协调者也可以通过管理角色监控工作负载和系统, 还可能弹性地分配和提供额外的物理或虚拟资源,以满 足由变化/激增的数据或用户/交易数量而带来的工作负载 需求。
8 of 45
02
5.1大数据架构
第5章 大数据可视化的关键技术
大数据应用提供者
•大数据应用提供者在数据的生命周期中执行一系列操作, 以满足系统协调者建立的系统要求及安全和隐私要求。 大数据应用提供者通过把大数据框架中的一般性资源和 服务能力相结合,把业务逻辑和功能封装成架构组件, 构造出特定的大数据应用系统。 •大数据应用提供者角色的扮演者包指应用程序专家、平 台专家、咨询师等。大数据应用提供者角色执行的活动 包括数据的收集、预处理、分析、可视化和访问 。 •大数据应用提供者可以是单个实例,也可以是一组更细 粒度大数据应用提供着实例的集合,集合中的每个实例 执行数据生命周期中的不同活动。
5 of 45
5.1大数据架构
价值链(水平轴)和IT价值链(垂直轴)。
第5章 大数据可视化的关键技术
大数据参考架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息
6 of 45
5.1大数据架构
第5章 大数据可视化的关键技术
参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其 中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。
高级大数据人才培养丛书之一,大数据挖掘技术与应用
Biblioteka Baidu
大数据可视化
BIG DATA
高级大数据人才培养系列丛书
第5章 大数据可视化的关键技术
5.1大数据架构
5.2大数据核心技术
5.3 可视化关键技术
5.4大数据可视化渲染 习题
2 of 45
5.1大数据架构
第5章 大数据可视化的关键技术
•对于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是需要 新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 。 高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模 大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范 围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和 价值密度低四大特征。 •ITU Y.3600标准首先明确给出了大数据的定义:一种允许可能在实时性约 束条件下收集、存储、管理、分析和可视化具有异构特征的大量数据集的模 式。 •国内普遍接受的定义:具有数量巨大、来源多样、生成极快、且多变等特 征并且难以用传统数据体系结构有效处理的数据。因此大数据的内涵不仅是 数据本身,还包括大数据技术和大数据应用。
哪5V?
4 of 45
5.1大数据架构
第5章 大数据可视化的关键技术
大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。 一个概念体系 二个价值链维度
指它为大数据参考架构中使用的概 念提供了一个构件层级分类体系, 即“角色-活动-功能组件”,用于 描述参考架构中的逻辑构件及其关 系
“IT价值链”和“信息价值链”,其 中“IT价值链”反映的是大数据作为 一种新兴的数据应用范式对IT技术产 生的新需求所带来的价值,“信息价 值链”反映的是大数据作为一种数据 科学方法论对数据到知识的处理过程 中所实现的信息流价值。
03
9 of 45
5.1大数据架构
第5章 大数据可视化的关键技术
收集活动用于处理与数据提供者的接口。它可以是一般服务,也可以是特定于 应用的服务。
预处理活动执行的任务类似于ETL的转换(transformation)环节,包括数据验 证、消洗、去除异常值、标准化、格式化或封装。 分析活动的任务是实现从数据中提取出知识。分析活动还可以使用大数据框架 提供者的消息和通信框架在应用逻辑中传递数据和控制功能。 可视化活动的任务是将分析活动结果以最利于沟通和理解知识的方式展现给数 据消费者。可视化的功能包括生成基于文本的报告或者以图形方式渲染分析结果。 可视化的结果可以是静态的,存储在大数据框架提供者中供以后访问。可视化活 动可以完全由应用程序实现,也可以使用大数据框架提供者提供的专门的可视化 处理框架实现。
01
7 of 45
5.1大数据架构
第5章 大数据可视化的关键技术
数据提供者
•数据提供者角色为大数据系统提供可用的数据。数据提 供者通常需要为各种数据源(原始数据或由其它系统预 先转换的数据)创建一个抽象的数据源,通过不同的接 口提供发现和访问数据功能。 •在一个大数据系统中,数据提供者的活动通常包括采集 数据、持久化数据、对敏感信息进行转换和清洗、创建 数据源的元数据及访问策略、访问控制、通过软件的可 编程接口实现推或拉式的数据访问、发布数据可用及访 问方法的信息等。 •针对大数据的4V特性和系统设计方面的考虑,暴露和访 问数据的接口需要根据变化的复杂性采用推和拉两种软 件机制。这两种软件机制包指订阅事件、坚挺数据馈送、 查询特定数据属性或内容,以及提交一段代码来执行数 据处理功能。