[TED故事] 上帝是个数学家

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[TED故事] 上帝是个数学家

每一个TED演讲在观者的眼中只是一个孤独的文本,唯有置于更广义的社会背景中,我们才能明白在这短短十八分钟的讲述背后所经历的挣扎、迷茫、坚定、梦想与奋斗。我们的团队新成员余恺将为大家带来别具一格的TED故事,分享TED演讲人背后的不凡人生和精彩思想。这一系列稿件旨在进一步推动TED演讲成为教育素材。余恺(yukind)目前在澳大利亚墨尔本大学进行社会研究项目并修读发展研究的硕士学位。

《上帝是个数学家》

by 余恺

《创世纪》说上帝用六天的时间创造了世界,但上帝在创世之前在干什么呢?

来自剑桥大学的数学教授小木头(J.E.Littlewood)曾经提出一个有趣的判断:“上帝在创世之前只是在研究纯理论的数学,然后他想做点应用应该是件有意思的事情。”(“Before Creation God did just pure mathematics. Then He thought it would be a pleasant change to do some applied.”)

按照小木头教授的理论,所有的数学家都是神学家了,难怪当年我上高数课时总有如沐天书的感觉。

+ 达尔文二世or克雷格文格一世?

克雷格文特(Craig Venter)显然是理解了小木头所说的上帝造物的数学原理。在2008年的TED上,这位被《华盛顿邮报》称为“不是这个时代最激动人心的,就是这个时代最疯狂的”科学家宣告了造物计划:我们已经把生物学数码化,现在是时候带着这些数据代码进入生物学的新时代,设计和制造生命的时代。”

克雷格文特注定是会被写入十年后课本的人物,正如那些为他铺下科学探索征程之路的伟大名字一样。在这条生命探索道路上留下过印迹的最伟大名字无疑是今年迎来200岁诞辰的查尔斯达尔文。有趣的是,达尔文是在小猎犬号(Beagle 号)上踏上了他改写人类历史的环球航行,而克雷格文特则在2003年启动了巫师二号(Sorcerer II )考察计划。达尔文探索的是物种,而克雷格文特的任务则比达尔文更深入一步:探索新的基因,测定整个生态系统的序列。

但克雷格文特不想只成为“达尔文第二”。显然他不仅仅只想完成在科学界里拥有神一般地位的达尔文类似的研究,他想做的,是神的工作:在数据化的宇宙中创造新的生命。

: Craig Venter on DNA and the sea

本站文章:《克雷格·文特:DNA和海洋(全文翻译)》“左手测序,右手造物”的克雷格文特的工作并不像传统想

象的生物学:拿个订书钉钉住青蛙腿,在女生歇斯底里的尖叫声和男生血腥的暴力满足中完成的一节青蛙解剖的生物

实验课。克雷格文特更像是一位数学家:他面对的是一堆以A、T、C、G代表的数据符号,这堆数据符号所组成的碱基对序列通过统计软件分析,与现有的大型基因数据库中存有的序列进行比较,克雷格文特就可以“发现”新的物种。“发现”这个词需要重新理解:克雷格文特可能不知道这个物种长什么样子,但他解读了上帝在这个物种中留下的数据——碱基对序列。从某种意义上,克雷格文特的研究方法是“Google式的科学”(the Google way of science)。

+ 什么是Google式的科学?

在Google搜索栏中输入“siecnc”一词进行搜索,结果出来的是“science”,同时Google还会向你提问“Did you mean: science”?

为什么Google会知道我们拼错单词了?是不是Google有一个词典的数据库?

实际上Google并不知道正确拼写,也没有预置词典数据库,Google是通过所拥有的巨大的互联网网页数据库分析当输

入的单词为“siecnc”的时候,有多少人会对所提的问题“你要找的是不是:science”提供肯定的回答。Google的拼写检查系统不是微软式的词典检查,而是把每一个人的回答作为数据点进行分析。

如果按照传统的科学理论模式,Google的拼写检查系统首先要做的是学习词典,把所有的单词都学会了,然后再对输入的单词进行配对,当无法配对的时候,就认为这个单词是错的。这套模式被称为“理论假设-科学验证”的模式:词典所代表的单词库是理论假设的前提、而输入的单词与原有单词库的配对过程则是科学验证或曰实验的过程。

: Sergey Brin and Larry Page on Google

但传统“理论假设-科学验证”模式的问题在于:人拼错单词的可能性几乎是一个无限的集合,怎样才能最准确地通过拼错的单词找到用户想要表达的正确单词呢?Google的方法是,不找最准确,而找最可能的。

另一个问题则是在于人类是处于不断创造新词汇的动态过程中,词典的容量很难跟上单词数量的增加。以英语为例,美国“全球语言监测站”表示,第100万个英语单词于2009年6月10日诞生,该单词是:Web2.0。

该网站所使用的确认单词正式地位的方法是:“当只有全世界60%的人正式使用某个单词,而且不同群体的人能理解这个单词,此时,这个单词才会有意义。比如只有在硅谷中工作的人才理解的某个新技术术语就不能算作是一个主流单词。分析采用的计算机模型检查5千个网站、辞典、学术出版物和新闻稿件,查看单词的使用频率。一个单词必须出现

2.5万次才能得到认可,成为英语中的正式一员。”

这正是词典编撰人Erin McKean在TED演讲上所说,词典编撰人的工作并不是像交通警察一般判断好词、坏词、哪些词能成为英语、哪些不能够;而是更像一位渔夫把网撒到英语的浩瀚大海里,时不时打捞起一些令人欣喜的珍奇。

: Erin McKean redefines the dictionary

本站文章:《Wordnik:重新定义词典》

Google所用的纠错模式,所遵从的正是Erin McKean的“打捞式”哲学:没有理论假设,在一个庞大的数据库中,用人们搜索的关键词与搜索结果选择的关联(correlation)作为分析的依据。

运用Google式的关联模式,Google 开发了语言翻译系统,实现语言之间同样是按照关联性进行分析。Google研发主管Peter Norvig曾得意洋洋地说:“在我们进行中文翻译系统开发工作的团队中没有一个人懂中文。”不懂中文怎么翻译呢?只要懂数学就可以了,通过计算数学的分析,可以找到数据间的关联性,实现机器系统的翻译。

Google的成功正是基于这套Google式的科学实现盈利。Google向人们提供免费的搜索服务,而收入则来源于每次人们输入关键词后在结果页面右侧的广告栏。通过搜索关键词

相关文档
最新文档