大数据的四个基本特征

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据的四个基本特征

大数据的四个基本特征 1

某种程度上,大数据是数据分析的前沿技术。简而言之,从各类数据中快速获取有价值信息的能力,就是大数据技术。理解这一点非常重要,也正是这一点,使得这项技术有可能走向很多企业。

2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。

在莱尼的理论基础上,IBM提出大数据的4V特征?得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB 级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快;第四,真实性(Veracity),即追求高质量的数据。

虽然不同学者、不同研究机构对大数据的定义不尽相同,但都广泛提及了这4个基本特征。

1、大容量

根据马的说法,天文学和遗传学是最早产生大数据变化的领域。2000年,当斯隆数字巡天项目启动时,新墨西哥州的望远镜在短短几周内收集的数据比天文学历史上的数据还多。一旦2016年智利大型全景巡天望远镜投入使用,5天内收集的信息量将相当于前者10年的信息档案。

2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。

随着各种便携设备、物联网、云计算、云存储等技术的发展,人和事的所有轨迹都可以被记录,于是数据被大量产生。

移动互联网的核心网络节点是人,不再是网页。人人都成了数据生产者,短信、微博、照片、视频都是它的数据产品。数据来自众多的自动传感器、自动记录设备、生产监控、环境监控、交通监控、安全监控等。从自动流程录音、刷卡机、收银机、电子收费系统、互联网点击、电话拨号等设施,以及各种服务流程登记等。

大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。

我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。

2011年,马丁·希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章,对1986——2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。

据他们估算:2007年,人类大约存储了超过300EB的数据;1986——2007年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。

这样大的数据量意味着什么?

据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。

公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆(library of Alexandria)尽最大努力收集了当时能收集到的所有文字著作,可以代表当时世界上能收集到的知识量。然而,在数字数据的洪流席卷全球之后,每个人都可以获得大量的数据,这相当于当时亚历山大图书馆存储数据总量的320倍。

2、多样性

随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。

例如,在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭等等,这些数据在体量和速度上都达到了大数据的规模。

探索这些不同形状、不同速度的数据流之间的相关性,是大数据做前人没做过、前人做不到的事情的机会。

大数据不仅是处理海量数据的利器,也使处理不同来源、不同格式的多样化数据成为可能。

例如,为了使计算机能够理解人的意图,人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步工作,完成某种特定的任务。

在以往,人们只能通过编程这种规范化计算机语言发出指令,随着自然语言处理技术的发展,人们可以用计算机处理自然语言,实现人与计算机之间基于文本和语音的有效通信,为此,还出现了专门提供结构化语言解决方案的组织—语言数据公司。

语言无疑是一种新的数据来源,也是一种更加复杂多样的数据。它包含了大量的省略、指称、纠正、重复、强调、逆序等语言现象。,以及杂音、歧义、口语、音变等语音现象。

苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流,并调用手机自带的各项应用,读短信、询问天气、设置闹钟、安排日程,乃至搜寻餐厅、电影院等生活信息,收看相关评论,甚至直接订位、订票,Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。

为了让Siri足够聪明,苹果公司引入了谷歌、维基百科等外部数据源,在语音识别和语音合成方面,未来版本的Siri或许可以让我们听到中国各地的方言,比如四川话、湖南话和河南话。

相关文档
最新文档