大数据导论 2.1.1 熟悉大数据的定义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据的例子包括:XML文件中提供作者和创建日期信息的标签;数码照片中 提供文件大小和分辨率的属性文件。
Big Data
感谢聆听!
Big Data
二、大数据的3V和5V特征
3. Velocity(速度,速率) 数据产生和更新的频率,也是衡量大数据的一个重要特征。在大数据环境 中,数据产生得很快,在极短的时间内就能聚集起大量的数据集。从企业的角 度来说,数据的速率代表数据从进入企业边缘到能够马上进行处理的时间。处 理快速的数据输入流,需要企业设计出弹性的数据处理方案,同时也需要强大 的数据存储能力。有效处理大数据需要在数据变化的过程中对它的数量和种类 执行分析,而不只是在它静止后执行分析。 根据数据源的不同,速率不可能一直很快。
结构化
大数据
流数据
TB ZB
Volime
Big Data
Variety 种类 Velocity 速度 Volime 数量
二、大数据的3V和5V特征
(1)Volume(数量) 最初考虑到数据的容量,是指被大数据解决方案所处理的数据量大,并且 在持续增长。数据容量大能够影响数据的独立存储和处理需求,同时还能对数 据准备、数据恢复、数据管理的操作产生影响。如今,存储的数据数量正在急 剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控 数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB 级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数 据的比例却不断下降。
半结构化 “准”结构化
非结构化
·具有可件
·具有不规则数据格式的文本数据,通过使用工具 可以使之格式化 ·举例:包含不一致的数据值和格式的网站点击数据
·没有固定结构的数据,通常保存为不同类 型的文件 ·举例:文本文档、PDF文档、图像和视频
Big Data
一、大数据的定义
随着“大数据”的出现,数据仓库、数据安全、数据分析、数据挖掘等围 绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引 领了又一轮数据技术革新的浪潮。
Big Data
二、大数据的3V和5V特征
从字面来看,“大数据”这个词可能会让人觉得只是容量非常大的数据集 合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无 法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理” 这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。
Big Data
四、 大数据的结构类型
大数据具有多种形式,从高度结构化的财务数据,到文本文件、多媒体文 件和基因定位图的任何数据,都可以称为大数据。数据量大是大数据的一致特 征。由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就 是在并行计算的环境中进行大规模并行处理(Massively Parallel Processing, MPP),这使得同时发生的并行摄取、并行数据装载和分析成为可能。实际上, 大多数的大数据都是非结构化或半结构化的,这需要不同的技术和工具来处理 和分析。
三广义的大数据人才组织数据科学家等数据处理存储分析技术hadoopnosql机器学习统计分析等非结构化数据文本视频声音传感器gps等等结构化数据客户数据销售数据等狭义的大数据具备备3v特特征广义的大数据广义的大数据bigdata所谓大数据是一个综合性概念它包括因具备3v特征而难以进行管理的数据对这些数据进行存储处理分析的技术以及能够通过分析这些数据获得实用意义和观点的人才和组织
二、大数据的3V和5V特征
大数据实现的主要价值可以基于下面3个评价准则中的1个或多个进行评判: (1)它提供了更有用的信息吗? (2)它改进了信息的精确性吗? (3)它改进了响应的及时性吗? 总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解, 其衡量标准也在随着技术的进步而改变。
第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降; 第三,随着云计算兴起,大数据的存储、处理环境已经没有必要自行搭建。
Big Data
一、大数据的定义
所谓“用现有的一般技术难以管理”,例如是指用目前在企业数据库占据 主流地位的关系型数据库无法进行管理的、具有复杂结构的数据;或者也可以 说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范 围的庞大数据。
Big Data
二、大数据的3V和5V特征
(2)Variety(种类、多样性) 数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数 据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据 存储等。 随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更 加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文 件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和 被动系统的传感器数据等原始、半结构化和非结构化数据。
IBM说:“可以用3个特征相结合来定义大数据:数量(Volume,或称容 量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V, 即庞大容量、极快速度和种类丰富的数据” 。
Big Data
二、大数据的3V和5V特征
Variety 结构化和 非结构化
批量数据
Velocity
Big Data
二、大数据的3V和5V特征
除了数据真实性和时间,价值也受如下几个生命周期相关的因素影响: (1)数据是否存储良好? (2)数据有价值的部分是否在数据清洗的时候被删除了? (3)数据分析时我们提出的问题是正确的吗? (4)数据分析的结果是否准确地传达给了做决策的人员?
Big Data
《大数据导论》
熟悉大数据的定义
一、大数据的定义
所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据 的集合。
对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构 和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别:
第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且 多样的数据;
Big Data
四、 大数据的结构类型
大数据最突出的特征是它的结构。如图显示了几种不同数据结构类型数据 的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据 类型(半、准和非结构化)。
Big Data
更更结结构构化化
结构化
·包括预定义的数据类型、格式和结构的数据 ·举例:事务性数据和联机分析处理
狭义的大 数据(具 备3V特 征)
广义的 大数据
Big Data
广义的大数据
三、 广义的大数据
“所谓大数据,是一个综合性概念,它包括因具备3V特征而难以进行管理 的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数 据获得实用意义和观点的人才和组织。”
“存储、处理、分析的技术”,指的是用于大规模数据分布式处理的框架 Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等;“能够 通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前十分紧俏 的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。
Big Data
二、大数据的3V和5V特征
种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的 文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是 很难存储的,它们都属于非结构化数据。
当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不 同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。 例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备 了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的 视频数据来分析顾客购买行为的案例。
Big Data
二、大数据的3V和5V特征
这个定义除了揭示大数据传统的3V基本特征,即大数据量、多样性和高速 之外,还增添了一个新特征:价值。考虑到非结构化数据的较低信噪比需要, 数据真实性(Veracity)随后也被添加到这个特征列表中。最终,其目的是执 行能够及时向企业传递高价值、高质量结果的分析。
四、 大数据的结构类型
人们通常最熟悉结构化数据的分析,然而,半结构化数据(XML)、“准” 结构化数据(网站地址字符串)和非结构化数据代表了不同的挑战,需要不同 的技术来分析。
除了三种基本的数据类型以外,还有一种重要的数据类型为元数据。元数 据提供了一个数据集的特征和结构信息。这种数据主要由机器生成,并且能够 添加到数据集中。搜寻元数据对于大数据存储、处理和分析是至关重要的一步, 因为元数据提供了数据系谱信息,以及数据处理的起源。
Big Data
二、大数据的3V和5V特征
IBM在3V的基础上又归纳总结了第四个V一一Veracity(真实和准确)。 “只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数 据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打 破,企业愈发需要有效的信息治理以确保其真实性及安全性。”
Big Data
二、大数据的3V和5V特征
典型的生成大量数据的数据源包括: (1)在线交易,例如官方在线销售点和网银。 (2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列 望远镜。 (3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。 (4)社交媒体、脸书、推特、微信、QQ等。
研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具 有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信 息资产。
Big Data
一、大数据的定义
麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软 件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并 且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于 一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的 数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定 行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范 围可以从几十TB到几PB。”
Big Data
二、大数据的3V和5V特征
IDC(互联网数据中心)说:“大数据是一个貌似不知道从哪里冒出来的大 的动力。但是实际上,大数据并不是新生事物。然而,它确实正在进入主流, 并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速 发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具, 正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域 的动力/活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使 用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样 (Variety)数据中经济地提取价值(Value)。”
Big Data
三、 广义的大数据
狭义上,大数据的定义着眼点于数据的性质上,我们在广义层面上再
为大数据下一个定义。
人才、组织 (数据科学家等)
数据处理、 存储、分析技术 (Hadoop、NoSQL、 机器学习、统计分析等)
非结构化数据 (文本、视频、声音、
传感器、GPS等)
结构化数据 (客户数据、 销售数据等)
相关文档
最新文档