大数据发展简史 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据发展简史

以下是我所罗列的在计量数据量的历史过程中一些具有里程碑意义的事件，以及属于“大数据”概念进化历程中的一些“第一次”或者是新发现。

1944年

卫斯理大学图书馆员弗莱蒙特·雷德出版了《学者与研究型图书馆的未来》一书。他估计美国高校图书馆的规模每16年就翻一番。按照这一增长速度，雷德推测2040年耶鲁大学图书馆将拥有“约2亿册藏书，将占据6,000余英里书架…[需要的]编目人员超过6,000人。”

1961年

德里克·普赖斯出版了《巴比伦以来的科学》，在这本书中，普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。他得出以下结论：新期刊的数量以指数方式增长而不是以线性方式增长，每15年翻一番，每50年以10为指数倍进行增长。普赖斯将其称之为“指数增长规律”，并解释道，“科学每前进一步就以一个相当恒定的出现率产生一系列新的进步。因此在任何时候，新科学的产生数量永远严格地与科学发现总量成正比。”

1964年4月

哈里·J·格雷和亨利·拉斯顿在美国电气与电子工程师协会（IEEE）的《电子计算机学报》上发表了《应对信息爆炸的技巧》一文，在文中，他们提出了以下建议：

1）任何人都不应该发表新论文。2）如果1）不可行，仅短小的论文可以被发表。“短小”的意思是文章不超过2,500字符，空格、标点符号都计算在内。3）如果2）被采纳，则应该实行下述限制：“只有将现存总长度为2501或更多字符的文章删除一篇或多篇，短小的文章才可以被发表。”

上述建议的实行将产生一个重要的副产品，即减轻人才选拔委员会的负担。因为一个人的出版物列表将仅被一个负数所代替，这个负数指代了他从现有信息存储中删除论文的净数目。

1967年11月

B·A·马里恩和P·A·D·德·梅恩在《美国计算机协会通讯》上发表了《自动数据压缩》一文，文章指出，“近年来被人们所关注的‘信息爆炸’使得对所有信息的存储需求保持在最低限度是非常必要的。”文章描写道：“全自动压缩机由三部分组成，能够快速处理信息，它可以被应用于‘任何’信息主体，大大降低了缓慢的外部存储要求，并可以通过计算机提高信息传输速度。”

1971年

亚瑟·米勒在《侵犯隐私》中写道：“太多的信息处理者看似是以个人档案存储容量的比特数目来衡量一个人。”

1975年

日本邮电部开始实施了“信息流普查”计划，以调查日本的信息总量（这一思想首次是在1969年的一篇文章中提出的）。普查以“字数总量”作为所有媒体的统一衡量单位。1975年的普查已经发现信息供给要比信息消费发展得快得多。1978年的普查报告指出“人们对单向传播的大众传媒所提供信息的需求停滞不前，对以双向传播为特征的个人通信媒体所提供信息的需求大规模增长…我们的社会正在进入一个新阶段…在这一阶段中，处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息，而不再是那些传统的被大量复制的、一致性的信息。[阿利斯泰尔·D·达夫，2000；参见马丁·希尔伯特，2012]

1980年4月

I·A·特詹姆斯兰德在第四届美国电气和电子工程师协会（IEEE）“大规模存储系统专题研讨会”上做了一个报告，题为《我们该何去何从？》。在报告中，他指出“那些很早以前就熟悉存储装置的人们发现，‘帕金森第一法则’可以被用来解释我们的现状——‘数据扩展至任何可用空间’…我相信大量数据正在被保留，因为用户无法识别无用的数据；相较于丢弃潜在有用数据的不利后果，存储无用数据的损失不那么明显。”

1981年

匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目，包括以比特为单位计量信息量。这项研究一直持续至今。1993年，匈牙利中央统计办公室首席科学家伊斯特万·迪恩斯编制了一本国家信息账户的标准体系手册。[见伊斯特万·迪恩斯，1994；马丁·希尔伯特，2012]

1983年8月

伊契尔·索勒·普尔在《科学》杂志上发表了《追踪信息流》一文，通过对1960年到1977年17种主流通讯媒体发展趋势的观察，他得出如下结论“这些媒体为10岁以上的美国人创造的可用词汇以每年8.9%的速度增长…事实上这些媒体创造的、真正参与流通的单词仅以每年2.9%的速度增长…在上述期间，信息流的增长在很大程度上是由于广播的发展…但是在那段时期末 [1977年]情况发

生了变化：点对点的媒体比广播发展得快。”普尔、伊诺兹、高崎、赫维茨在《通信流：一项美国与日本的信息普查》中做了后续研究，这本书对美国和日本所产生的信息量进行了比较。

1986年7月

哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗？》一文。贝克尔预计“古滕堡所实现的记录密度大约是每立方英尺500个符号（字符），是公元前4,000年苏美尔人泥土片记录密度的500倍。到2000年，半导体随机存取存储器将能够在每立方英尺存储1.25×1011个字节。”

对于数据存储而言，1996年数字存储就比纸张存储更能节约成本，这是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日《IBM系统期刊》上所发表的《存储系统的演进》一文中指出的。

1997年10月

迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会（IEEE）关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。文章以下述内容开头：“可视化对计算机系统提出了一个有趣的挑战：通常情况下数据集相当大，耗尽了主存储器、本地磁盘、甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器（内核）无法容纳数据集，或者当本地磁盘都无法容纳数据集的时候，最常用的解决办法就是获取更多的资源。”这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

1997年

迈克尔·莱斯克发表了《世界上究竟有多少信息？》一文，莱斯克得出以下结论“世界上的信息总量近乎几千PB；到2000年，磁带和磁盘的生产将达到上述水平。因此，在短短几年内，（a）我们可以存储任何信息——没有信息不得不被放弃，（b）人们再也不会看到典型的信息片段。”

1998年10月

K·G·科夫曼和安德鲁·奥德里科发表了《互联网的规模与增长速度》一文。他们认为“公共互联网流量的增长速度，虽然比通常认为的要低，却仍然以每年100%的速度增长，要比其他网络流量的增长快很多。然而，如果以当前的趋势继续发展，在2002年左右，美国的数据流量就要赶超声音流量，且将由互联网主宰。”奥德里科随后建立了明尼苏达互联网流量研究所（MINTS），跟踪2002年到2009年互联网流量的增长情况。

1999年8月

史蒂夫·布赖森、大卫·肯怀特、迈克尔·考克斯、大卫·埃尔斯沃思以及罗伯特·海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章（这篇文章有一个部分的标题为“大数据的科学可视化”）。文章开篇指出：“功能强大的计算机是许多查询领域的福音。它们也是祸害；高速运转的计算产生了规模庞大的数据。曾几何时我们认为兆字节（MB）的数据集就很大了，现在我们在单个模拟计算中就发现了300GB范围的数据集。但是研究高端计算产生的数据是一个很有意义的尝试。不止一位科学家曾经指出，审视所有的数字是极其困难的。正如数学家、计算机科学家先驱理查德·W·海明指出的，计算的目的是获得规律性的认识，而不是简单地获得数字。”10月份，在美国电气和电子

工程师协会（IEEE）1999年关于可视化的年会上，布赖森、肯怀特、海门斯与大卫·班克斯、罗伯特·范·里拉和山姆·思尔顿在名为“自动化或者交互：什么更

适合大数据？”的专题讨论小组中共同探讨大数据的问题。

2000年10月

彼得·莱曼与哈尔·R·瓦里安在加州大学伯克利分校网站上发布了一项研究成果：《信息知多少？》。这是在计算机存储方面第一个综合性地量化研究世界上每年产生并存储在四种物理媒体：纸张、胶卷、光盘（CD与DVD）和磁盘中新的以及原始信息（不包括备份）总量的成果。研究发现，1999年，世界上产生了1.5EB独一无二的信息，或者说是为地球上每个男人、每个女人以及每个孩子产