大数据及其成因_涂子沛
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据及其成因
涂子沛
(上海承泰信息技术有限公司)
摘要:
大数据的成因源于信息技术的发展。回顾半个多世纪人类信息社会的历史,
1966年摩尔定律的提出,
使晶体管越做越小、成本越来越低,为大数据现象的形成奠定了
物理基础,这相当于铸器,人类有能力制造巨
鼎盛载海量的数据;1989年数据挖掘技术的
产生,让大数据实现了“大价值”;2004年出现
的社交媒体,则把全世界每个人都转变成了
潜在的数据生成器,向摩尔定律铸成的巨鼎
当中贡献数据,这是“大容量”形成的主要原因。本文通过分析大数据的静
态的概念和动态的成因,
使人们更清楚地理解大数据的特点。关键词:大数据成因,摩尔定律,数据挖掘,社交媒体
作者简介:涂子沛,上海承泰信息技术有限公司首席数据科学家。研究方向为信息技术的发展、应用及对当前政治、经济和文化生活的影响。
传统意义上的“
数据”,是指“有根据的数字”,数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不精确的,
也是远远不够的。例如,有人问“姚明多高?”,如果回答说“很高”、“非常
高”、“最高”,别人听了,只能得到一个抽象的印象。但如果回答“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具,人类的一
切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币,其背后都是数据,它们的发明和出现,都极大地推动了人类文明的进步。
一、大数据现象的成因源于信息技术的发展
数据最早的来源,是测量,所谓“有根据的数字”,是指数据对客观世界测量结果的记录,而不是随意产生的。测量,是从古至今科学研究最主要的手段,可以说,没有测量,就没有科学,也可以说,一切科学的本质都是测量,就此而言,数据之于科学的重要性,就像语言之于文学,音符之于音乐,色彩、形状之于美术一样,离开数据,就没有科学可言。
除了测量,新的数据还可以由老数据经计算衍生而来,测量和计算,都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”,原始森林是指天然就存在的,而原始数据仅仅是指第一手、没有经过人为修改的数据。
传统意义上的数据、信息和知识具有完全不同的概念。数据是信息的载体、信息是有背景的数据,而知识是经过人类的归纳和整理,呈现规律的信息。
图1 传统意义上数据和信息的区别
但进入信息时代之后,“数据”二字的内涵开始扩大,它不仅指“有根据的数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等等。其中的原因,是因为1960年代软件科学取得了巨大进步,发明了数据库(da-tabase)。此后,数字、文本、图片都不加区别的保存在电脑的数据库中,数据也逐渐成为“数字、文本、图片、视频”等等的统称,也就是“信息”的代名词。
文本、音频、视频,其本身就已经是信息,而且它们的来源也不是对世界
图2 从传统意义上来说:信息是有背景的数据
的测量,而是对世界的一种记录,所以信息时代的数据,又多了一个来源:记录①。
除了内涵的扩大,数据库发明之后,还有一个重要的现象在发生,那就是数据的总量在不断增加,而且增加的速度不断加快。到了1980年代,美国就有人提出了“大数据”的概念,这个时候,还没有进入数据大爆炸的年代,但已有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此有了“大数据”的提法,这时候的“大”,主要指数据价值上的重要性。到了2000年代,尤其是2004年社交媒体产生之后,数据开始爆炸,大数据的提法又重新进入了大众的视野,并获得了更大的关注,这个时候的“大”,含义也更加丰富了,一是指容量大,二是指价值大。
从这个角度出发,大数据可以首先理解为传统的小数据加上现代的“大记录”,这种大记录,其主要的表现形式是文本、图像、音频、视频等等,和传统的测量完全是两回事。而且大数据之所以“大”,主要是“大记录”的增长,因为信息技术的进步,人类记录的范围在不断扩大:
大数据=传统的小数据+现代的大记录
(源于测量)(源于记录)
但到底多大才算大呢?十多年来颇多争议,这首先涉及的衡量数据大
①进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件,虽然包含很多条信息,但从技术的角度从发,可能还是“一个数据”,就此而言,现代意义上数据的范畴,其实比
信息还大。
小的单位,2000年,“太”级别的数据就被认为是大数据了,这个时候,拥有“太”(T)级别数据的企业并不多,但这之后,互联网企业开始崛起,这些企业拥有各种各样的数据,其中大部分都是文本、图片和视频,因此容量巨大,传统的企业根本无法望其项背。
理解几个主要的存贮单位:
一首音乐≈约4个兆(M)
一部电影≈约1个吉(G)(1个吉=1024个兆,相当于250首歌曲的大小)
一个普通图书馆的藏书≈1个太(T)(1个太=1024个吉,相当于1024部电影的大小)
我认为,除了互联网行业,各行各业的数据都在爆炸,只是规模不同,如果仅仅把大数据的标准限定在互联网企业,认为只有互联网企业才拥有大数据,那就严重的窄化了大数据的意义。毕竟容量只是表象,价值才是本质。大数据的真正意义还是在于大价值,价值的获得,主要是通过数据的整合、分析和开放。大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新的知识、创造新的价值,从而为社会带来“大知识”、“大科技”、“大利润”和“大智能”等等发展机遇。
之所以能从数据中发现知识,还是因为数据是对世界的测量和记录。人类知识的唯一来源,是对过去经验的整理,这依赖于对过去的记录。如果传统的数据是人类部分知识的来源,那现代意义上的大数据将逐渐成人类全部知识的来源,因为人类的记录范围正在呈加速度扩大。
对客观世界的记录,也是对历史和现实的记录。随着人类跃进到大数据时代,数据不仅是一种新的历史记录方式、还将是记录历史最好、最可靠的方式。从今以后,所有的历史记录,无论是文字、图像、音频、视频、数字,都将以数据的形式存在,历史将是动态的数据,数据是静态的历史。历史的碎片,就是游离的数据,历史的迷雾,就是模糊的数据,历史的盲点,就是缺失的数据。用数据构建的历史,因为精确的细节而永远鲜活,后世的历史学家能够经由数据再现当时的社会情况。
以上的论述,是从概念上分析“数据”和“大数据”的区别,掌握一个概念最好的方法,还是从动态上了解其成因。大数据现象的成因,不仅是因为人类信息技术的进步,而且是信息技术领域不同时期多个进步交互作用的结