大数据的产生与发展史

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同一时期,英国哲学家托马斯·汉密尔顿在《美国人及其作风》中 总结“我认为,在这群不断猜测、估算、预期和计算的美国人当中, 算数就像是一种与生俱来的本能。”
比如在1825年,费城的一名医生统计了7077名新生儿的
重量,并制作了一张重量分布表,发给新生儿的母亲,以 方便她们对比掌握自己孩子的情况。
初数时代:奠定共和
抽样时代:统计革命的福祉
最初的数据调查主要的目标是追求被调查群体的“大”,当时大家 都相信,只有更大,才能更准。但随着时间推移这种方法的效率较 低以及费用大的缺点的暴露,人们开始寻求新的调查方法。
抽样时代:统计革命的福祉
1895年,有学者提出抽样的观点,认为只要方法 得当,就可以从总体当中抽出一部分有代表性的个 体,通过研究部分个体的特点,从而推断出整体的 属性,类似中国人所说的“一斑窥豹”、“一叶知秋”。
大数据的产生与发展史
小数据之历史
数据本无大小,但运用数据立场却分出大小,是 谓大
数据。数据表示的是过去,但表达的是未来,所以 观
察数据需要有历史观。 当今美国的数据文化渗透在社会各个方面,呈现
出 高效,简洁,以及秩序。 这一切最早可以追溯到这个国家建立之初的数据

初数时代:奠定共和
克服民主的劣势:用数据分权
主动切断自己后方补给,带领全体部队全力突进、穿越整个佐治 亚州。他试图以数据为“航标”,根据农场、牲畜、集市、车站等重 要资源在各地的分布,精心计算,确定最佳的行军路线和在各地 的 停留时间,沿着这条线路,部队在当地完成补给,遭遇敌方最少的 阻击。这被后世历史学家认为整个南北战争中“最为大胆、最为关 键的一次行动”,是战争后期重要的转折点,也被称为“毁灭之路”。
爆发:镀金时代的崛起
世纪巅峰:大数据驱动的创新
1870美国历史上出现第一件用于数据处理工作的机械设 备——西顿制表机。可以同步查阅各张问卷上相应的数据, 大大方便了制表工作。
1890年,年轻的霍尔瑞斯打开了数据自动化处理的大 门;在他的基础上,IBM随之开启了一个打孔卡片的新时 代;1951年,人口普查产生的大数据又促成了第一台商用 计算机 的诞生......这些成就,最终引领美国在全世界率先迈入了 信息时
在这样一批建国者的推动下,数学教育很快在这个新生的国家普 及。
3.改革货币体系,统一了重量和测量单位。
1831年,法国的史学家、政治家托克维尔在《论美国的民主》中 写到“美国人已经习惯了精确的计算”,“他们喜欢秩序井然,没有 秩序,事业就不能发达。他们特别重视信誉,信誉是生意健康发展 的基础。他们的大脑已经习惯于精确的计算,按常规办事也在他们 的头脑中扎根。
从1787年到19世纪30年代,这一阶段认为是美国数据历 史的初数时代,这是个孕育的时代,可谓是有数初成。在 这个时代,数据好比涟漪,静静在历史长河上静静地泛起 波纹,把千千万万普通人卷进它的晕圈,冲刷,洗涤,浸 泡,使其成为具有数据意识的公民个体。
内战时期:终结奴隶制的灯塔
用数据远征:谢尔曼将军的“向大海进军”
参众两院权利分衡:众议院按人口比 参议院每州两名
第一次人口普查:仅询问家几人、几男几女、几黑几白、几大 几小,完全的“点人头”。但在黑人问题上将 “ 3∕5”写入宪法,承认种族不平等。
第二次人口普查:学者建议收集“出生率、性别、年龄、婚姻状 况、健康、职业、寿命”但最终没通过国会谈论。 1830年:统计每个家庭的残疾人数。 1840年:统计文盲、白痴、精神病患者数量以及各种牲畜的数量, 农作物的产量。 1850年:普查对象由家庭细化到个人。 1860年:全国工厂、农场、学校、教堂的情况,教师、学生、雇员 的多少都一一列入普查范围 1880年:普查全面改革,扩大为人口、出生死亡率、农业、社会、 工业等五个部分。
最终在志同道合者的呼吁之下,最终促使人口普查在19世纪逐 渐推进到政策制定领域,在这个过程中,数据开始从政治精英走向 平民大众。
2.数学教育的普及,数据意识,数据文化逐步形成。
美国的建国者认为,共和国的目标不是愚民,而是培养有智识 的公民。华盛顿、富兰克林和杰斐逊便是其中的杰出代表。华盛顿 的第一份工作是弗吉尼亚州的土地测量员,深知数据对于认识客观 世界的重要性,曾组织了美国的第一次农业调查。杰斐逊也曾做过 土地测量员,除了是一名政治家还研究密码学、测量学和考古学。
向大海进军
兵家与“向海洋进军”
自古中国多良将,也有运用数据的经典案例。孙膑减灶, 破庞涓于马陵;虞诩疑兵,平羌军于西凉;林彪临战,细 查歼敌缴获......但较之谢尔曼以数据行军千里,决胜沙场, 均有不及。
这正是因为谢尔曼有数据可用,他人给他提供了大量数 据。这种“有数据可用”,源于美国建国之后就开始的、长 期的、周期的努力以及强大的制度保障。有没有这种制度 化的数据体系,才是近代美国将军和中国将军在数据使用 方面拉开差距的根本原因。数据不仅仅应该是一种计算、
...... 美国成为世界上最早定期(10年)开展人口普查的国家,并因
ห้องสมุดไป่ตู้
初数时代:奠定共和
有数初成:共和反哺数据文化
1.人口普查从政治领域不断扩张,蔓延政策制定,后是 社会生活。
1794年,在美国党政之争初现端倪时,民间就出现了批判的声 音,主张通过“事实”和“数据”来营造共识、消除党争。其中当时的 教育家诺亚·韦伯斯特和耶鲁大学校长德怀特,他们主张:如果事 实是制定政策的基础、知识能够在决策者之间营造共识,那么系 统性收集数据的工作,就应该由政府亲自来完成。
抽样调查很快便被证实实际可用性。盖洛普在 1936~2012年19次总统大选预测中,成功预测17次轰 动全球。
和《乱世佳人》共舞
1936年在《乱世佳人》开拍之前,好莱坞对这本畅销小说看法不 一,甚至一度有流拍的趋势。原因是在好莱坞出品的以南北战争为 题材的电影全部亏本,没有任何一部赚钱。
为了知道这部小说在美国民众的流行程度(虽然他们大概估计已 有200~300万),好莱坞的电话打到了盖洛普的公司,用数据证明 《乱世佳人》到底有多流行。一周之后,他告诉对方,此书非常流 行,每10个受访者中,就有8个表示听说过这本书。1937年1月, 盖洛普非常肯定的告诉制片人《乱世佳人》已经成为美国有史以 来最流行的小说,有1400万美国人读过,其流行程度仅次于《圣 经》。
相关文档
最新文档