开普勒之长和第谷之短——科学史上的大数据故事
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
开普勒之长和第谷之短——科学史上的大数据故事
天文学家第谷数十年如一日,每晚观测行星运动,却未有所获。
开普勒把数据分析从每晚拉远到每年,发现了行星围绕太阳旋转的规律,由此拉开了近代天文学的序幕。
数据不是越多越好,而是在海量数据下清醒地分析。
四百多年前的简单教训,对于今天仍然适用。
演讲者|张首晟(斯坦福大学终身教授,美国国家科学院院士、中国科学院外籍院士)
人人都说这是一个大数据时代,我想和大家分享一个科学史上大数据的故事。
在中世纪,科学界最大的争论在于,到底是地球围绕太阳旋转,还是太阳围绕地球旋转。
站在地球上来看,好像是太阳绕着地球旋转。
但是观测别的行星运行轨迹,好像又在围绕太阳运行。
那时候有一位非常伟大的天文学家叫第谷·布拉赫(Tycho Brahe,1546-1601),为了解决这个人类科学最初的大争论,开始了寻求数据支持的伟大征程。
1576年,第谷接受了当时丹麦国王腓特烈二世的资助,搭建了自己的天文台,配备了齐全的观测仪器。
第谷·布拉赫和他的汝岛天文台
从那时之后的20年里,他每天晚上风雨无阻地观测行星运动的轨迹,把每个行星每天晚上的位置,精确地记录下来。
他对于行星的观测精密程度,达到了当时前所未有的程度,是天文史上第一个真正地开始收集大数据的天文学家。
但是光有大数据还是不能解决问题。
第谷拥有大量的精确数据,也花了很长的时间观察,但是他没有足够的智慧从中发现行星运行的规律。
于是他找到另一位数学很强的科学家开普勒作为他的助手,两人一起分析。
但是两位科学家在一起看了很久还是没有看懂。
为什么两个聪明绝顶的人陷入困境呢?
如果放在今天,我们肯定认为问题应该出在大数据的量还不够大。
但是,不管是多么精确的大数据,它最重要的特点就在于量大,所以噪音也非常大。
想要得到大数据的智慧,并不是把大数据变成更大的数据,而是要把大数据的噪音过滤掉,从中拿出最精髓的东西。
地球围绕太阳转,行星也围绕着太阳转,运动轨迹本身就是一个参照体围绕另一个参照体在运动,所以最后看到的数据非常复杂。
所以,看了半天看不懂。
有一天,开普勒提出了一个非常奇妙的想法:大数据是误人的,我们把海量的数据扔掉,把每天取一次的数据变成每年取一次。
地球每365天就会回到原点,而其他的行星还在自己的轨道上运动,这样就减少了一个变量,多了一个固定的参照,他用这个思路,一下子把行星运动的轨道画出来了,得出了所有行星围绕太阳运动的结论。
在此基础上,开普勒提出了著名的行星运动三大定律,成就了近
代天文学的开端。
所以当我们拥有海量数据的时候,我们不是让自己沉浸其中,而是要独具慧眼,在繁杂的数据中,发现内在的规律,才能成就自己的智慧。
大数据时代的来临,确实给了我们很大的机会。
但是在这个巨大的机会之下,人类也遇到了非常大的知识洪水危机。
人类知识发展到了今天,就像一棵丰茂的大树,越来越远的枝叶,通往不同的方向。
但危机来源于枝与枝之间的距离越来越远,很少有人能够看到知识的大树和枝叶之间的关系。
我们必须学会用跨界的思维,用简洁的第一性原理,把这个丰茂的大树看清。