认识大数据(一)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
认识大数据(一)
也谈大数据(一)记录中的世界
2015年9月24日孙波
今天去听了个讲座,关于大数据和云计算,主讲老师主要围绕大数据的一些基础和应用示例以及数据安全方面,有一点收获,有一点想法,很多老师没有提到的东西,还有些自己对大数据理解已经沉淀很久了,特此写下来。主要是关于大数据的认识。
一、大数据的概念
讲座上,老师讲的大数据概念,几乎和百度百科上的一样:大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。然而这样的“大数据”对我们又有什么价值呢?我觉得,我们所提到的大数据,必须是以能从中挖掘出一定价值的,能指导我们现实生活作为前提条件的。
我理解的大数据有两个层面:
为了进一步阐述我的大数据观点,这里我提出“三个世界”的观点,所谓三个世界,是指“客观世界”、“记录世界”、“认知世界”
1、客观世界
“客观世界”指的是唯物主义理论中的世界,它不以人类的认知为界限,不为人类的意识所改变。是一个客观现实,不管人类是否探索到,或者是否了解,是否理解。
2、记录世界
“记录世界”可以说是数字化的“客观世界”,是人类在生产、生活过程中对“客观世界”的发现和有意或者无意的信息记录。一定程度上是对“客观世界”的信息化映射。
3、认知世界
“认知世界”是指人类对客观世界的认知,从而产生了一个在人类文明中的“世界”,这个世界里包含了人类各个历史阶段各个层次的文明,从地心说到日心说,牛顿定律到相对论等等,也是指人类科学和社会意识形态中所理解的“世
界”。“认知世界”是人类试图去探索“客观世界”,去理解“客观世界”的成果。通常“认知世界”是一部分人类专注于对“记录世界”的分析研究和归纳总结后产生的。
为了更好的说明这三个世界,我举一个例子。
描述1:孙波生活在地球上,地球上经常有火山喷发。
描述2:孙波每次打喷嚏都会写进日记。地球上每次火山喷发也都有人类记录。
描述3:若干年后,通过这些记录,人们有一个惊人的发现:孙波每打100个喷嚏,就正好会有一座火山喷发,于是科学家推导出这个理论:每当孙波打喷嚏的次数能被100整除,就会发生火山喷发。从此,每当孙波打90个喷嚏的时候,火山周围的村民就会搬迁或者躲到地下。
上面三个描述,描述1就是客观世界,描述2就是记录世界,描述3就是认知世界。虽然例
子举得荒诞,但是人类文明就是在这样三个世界中轮转进步的,比如太阳历和月亮历的建立,看云、看日晕、看月晕识天气,等等那些古老的常识,就是通过对客观世界的观察记录,然后再在记录中分析总结,得出结论,人类对这些推导和理论,在一开始往往是知其然而不知其所以然的,新的研究会解答之前的疑问,却会带来新的问题。
事实上,人类科学文明就好比在剥一个由客观现实做成的洋葱,每剥开一层就是科学文明有一次进步,这个洋葱会越剥越小,但是永远剥不到核心,可以一直剥下去。
这个就像儿子问我的问题:“为什们蜻蜓低飞就是要下雨了?”,“因为下雨前气压低湿度大,飞虫翅膀湿了飞不高”;“为什么翅膀湿了就飞不高?”,“因为小水珠比较重!”;“为什么小水珠重?”,“因为水的密度比空气大!”;“为什么水的密度大就重?”,“因为万有引力,质量越大,引力越大!”,“什么是万有引力?”“……”。其实,当年劳动人民看到低飞的蜻蜓就知道要下
雨,根本不知道后面这么多为什么。而万有引力也不是问题的终点,至少目前的相对论指出:万有引力的根本是质量对时空的扭曲。而即便是大名鼎鼎的“相对论”,我儿子也能大胆的问上更多个“为什么?”
三、记录世界的重要性
很多时候,人类对客观世界进行了记录,然后要在很久之后才能发现其中的规律,产生新的认知理论。因此,记录世界是人类主观意识下,对客观世界的映射,而其中蕴藏的秘密,或许等待着我们去发现。
如实、客观、标准化的记录,并且该记录可以长期保存,准确还原,这样的记录具有最大的价值。
四、“大数据”时代为什么现在到来
先让我们回到“大数据”的官方定义,以及它的特性,我们看到,大数据有以下几个特性:
容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量;
复杂性(Complexity):数据量巨大,来源多渠道;
大数据为什么现在到来?因为现在的人类技术让“大数据”有了存在的可能。
记得1997年的时候,我在大学念书,好友汪明写信告诉我,他买了一个4.3G的大脚硬盘,哇!4.3G啊,让我激动不已,那时候还是用10
多张1.44M软盘装win95的年代,一张600M光盘里有200多个游戏,就像宝贝一样,我这个计算机专业的人家里,硬盘是540M的,还分了C:D:E:F:4个区,现在人家居然买了4.3G的硬盘。
别的方面,我就不再讲一遍计算机的发展史了,知名的摩尔定律说明了一切。
据我所知,目前的大数据相关概念,其实很早以前就有了,当年我学过一门课程叫做“数据挖掘”。在某些时候,其研究的对象,就类似与目前的“大数据”,只是很多时候,供分析研究的数据仅限于专业领域,其复杂性,多样性和实时性不足,这一方面和“大数据”理论有偏差。
而互联网发展到大约2010年,智能手机把移动数据终端,GPS放到每个人的口袋里,这可以说是一个“大数据”理论的“奇点”。
回到那个我打喷嚏的故事中来,我每次打喷嚏都写在日记中,所以可能有一本包着塑料红书
皮的《孙波日记》在我床头的抽屉里。而每次火山喷发,都有史料记载,然而,不同地方的火山喷发情况却分别独自记录在各地的某些科学家的书本上,有罗马文的,有英文的,有中文的……,这些记录都是对现实世界的记录,也共同组成了我理论中的“记录世界”。然而,《孙波日记》放在我的抽屉里,各地的火山记录也散布各处,这样的情况下,就算一万年,也不会有人发现“孙波每打100个喷嚏,就会有1个火山喷发”。
直到如今,信息化时代到来,各地的地质学家和历史学家把各自的火山喷发数据按照时间索引汇集成册,纂书一本《地球火山历史》然后发到互联网,同时,我把我的日记放到了QQ空间,再然后,孙波的一个学地理的网上好友无意间发现了这个惊人的规律:孙波每100个喷嚏就会让一座火山喷发。
补充说明,这个“孙波打喷嚏引发火山”理论,如果时间和实践证明这一理论可以指导现实,那么即便现在看似无厘头,但是背后一定有