人工智能导论课件第3章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第2节
1
小数据时代的随机采样
2
大数据与乔布斯的癌症治疗
3
全数据模式:样本=总体
3.2 思维转变之一:样本=总体
• 很长以来,因为记录、储存和分析数据的工具不够好,为了让分析变得简单, 当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和 信息流通受限制的模拟数据时代的产物。如今信息技术的条件已经有了非常大 的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经 大大地增加,而且未来会越来越多。
• 这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所 以我们必须尽可能精准地量化我们的记录。在某些方面,我们已经意识到了差 别。例如,一个小商店在晚上打烊的时候要把收银台里的每分钱都数清楚,但 是我们不会、也不可能用“分”这个单位去精确度量国民生产总值。随着规模 的扩大,对精确度的痴迷将减弱。
3.1 大数据与人工智能
• 这就是为什么近几年时间内,诸如“人工智能”、“物联网”、“大数据”、 “云计算”、“算法”、“数据挖掘”和“智能XX”这些时髦概念突然纷纷冒 出来的理由,原来它们都是“同一条线上拴着的蚂蚱” !
图3-3 一根绳上的蚂蚱
3.1 大数据与人工智能
• 万物大数据主要包括人与人、人与物、物与物三者相互作用所产生(制造)的 大数据。其中人与人、人与物之间制造出来的数据,有少部分被感知,物与物 之间制造出来的数据还根本没法被感知的。
• 在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生。如果可 能的话,我们会收集所有的数据,即“样本=总体”,这是指我们能对数据进 行深度探讨。
3.2.3 全数据模式:样本=总体
• 在上面提到的例子中,用采样的方法分析情况正确率可达97%。对于某些事物 来说,3%的错误率是可以接受的,但是你可能会失去对某些特定子类别进行 进一步研究的能力。
3.1 大数据与人工智能
• 在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千 上万的数据。而“大数据”全在于发现和理解信息内容及信息与信息之间的关 系。实际上,大数据的精髓在于我们分析信息时的三个转变,这些转变将改变 我们理解和组建社会的方法,这三个转变是相互联系和相互作用的。
第3节
1
பைடு நூலகம்允许不精确
2
纷繁的数据越多越好
3
混杂性是标准途径
4
5%的数字数据与95%的非结构化数据
3.3 思维转变之二:接受数据的混杂性
• 当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取 的。直到今天,我们的数字技术依然建立在精准的基础上。我们假设只要电子 数据表格把数据排序,数据库引擎就可以找出和我们检索的内容完全一致的检 索记录。
• 事实上人们对数据并不陌生。上古时期的结绳记事、以月之盈亏计算岁月,到 后来部落内部以猎物、采摘多寡计算贡献,再到历朝历代的土地农田、人口粮 食、马匹军队等各类事项都涉及到大量的数据。这些数据虽然越来越多、越来 越大,但是,人们都未曾冠之以“大”字,那是什么事情让“数据”这瓶老酒 突然换发了青春并如此时髦起来呢?
• 对于人与人、人与物之间被感知到的那部分很小的数据(相对于万物释放的量 来说非常小,但是绝对量却非常大),这主要是指在2000年后,因为人类信息 交换、信息存储、信息处理三方面能力的大幅增长而产生的数据,这个实际上 就是我们日常所听到的“大数据”概念,是以人为中心的狭义大数据,也是实 用性(商业、监控或发展等使用)大数据。信息存储、处理等能力的增强为我 们利用大数据提供了近乎无限的想象空间。
3.3 思维转变之二:接受数据的混杂性
• 针对小数据量和特定事情,追求精确性依然是可行的,比如一个人的银行账户 上是否有足够的钱开具支票。但是,在大数据时代,很多时候,追求精确度已 经变得不可行,甚至不受欢迎了。大数据纷繁多样,优劣掺杂,分布在全球多 个服务器上。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大 体的发展方向即可。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。 适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
3.2.3 全数据模式:样本=总体
• 因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以 我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以 用大数据去论证新的假设。当然,有些时候,我们还是可以使用样本分析法, 毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有 数据成为了最好也是可行的选择。于是,慢慢地,我们会完全抛弃样本分析。
• 大数据时代的第一个转变,是要分析与某事物相关的所有数据,而不是依靠分 析少量的数据样本。
3.2 思维转变之一:样本=总体
• 在某些方面,人们依然还没有意识到自己拥有了能够收集和处理更大规模数据 的能力,还是在信息匮乏的假设下做很多事情。人们甚至发展了一些使用尽可 能少的信息的技术,例如统计学的一个目的就是用尽可能少的数据来证实尽可 能重大的发现。
3.2.1 小数据时代的随机采样
• 然而,人口普查是一项耗资且费时的事情,尽管如此,当时收集的信息也只是 一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。 实际上,“人口普查”这个词来源于拉丁语的“censere”,本意就是推测、估 算。
3.2.1 小数据时代的随机采样
• 三百多年前,一个名叫约翰·格朗特的英国缝纫用品商提出了一个很有新意的方 法,来推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法 不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们 可以利用少量有用的样本信息来获取人口的整体情况。样本分析法一直都有较 大的漏洞,因此,无论是进行人口普查还是其他大数据类的任务,人们还是一 直使用清点这种“野蛮”的方法。
人工智能导论
Introduction to artificial intelligence
第二部分 基础知识
第3章 大数据思维
【导读案例】亚马逊推荐系统
• 讨论:
1
大数据与人工智能
2
思维转变之一:样本=总体
3
思维转变之二:接受数据的混杂性
4
思维转变之三:数据的相关关系
第1节
3.1 大数据与人工智能
3.2.3 全数据模式:样本=总体
• 采样的目的是用最少的数据得到更多的信息,而当我们可以处理海量数据的时 候,采样就没有什么意义了。如今,计算和制表已经不再困难,感应器、手机 导航、网站点击和微信等被动地收集了大量数据,而计算机可以轻易地对这些 数据进行处理。但是,数据处理技术己经发生了翻天覆地的改变,而我们的方 法和思维却没有跟上这种改变。
3.2.2 大数据与乔布斯的癌症治疗
• 苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式, 成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。他得到的不是一 个标记的样本,他得到了包括整个基因密码的数据文档。
• 对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足 够相似。但是,史蒂夫•乔布斯的医生们能够基于乔布斯的特定基因组成,按所 需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布 斯曾经开玩笑地说:“我要么是第一个通过这种方式战胜癌症的人,要么就是 最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种 获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。
3.2.1 小数据时代的随机采样
• 随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只 是一条捷径,是在不可收集和分析全部数据的情况下的选择,它的成功依赖于 采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任 何偏见,分析结果就会相去甚远。
3.2.2 大数据与乔布斯的癌症治疗
3.2.1 小数据时代的随机采样
• 这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?有人提出有目的 地选择最具代表性的样本是最恰当的方法,后来统计学家们证明,问题的关键 是选择样本时的随机性,采样分析的精确性随着采样随机性的增加而大幅提高, 但与样本数量的增加关系不大。
• 在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品 品质变得更容易,花费也更少。本质上来说,随机采样让大数据问题变得更加 切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界, 也将许多人文问题变成了社会科学问题。
3.2.1 小数据时代的随机采样
• 数千年来,政府一直都试图通过收集信息来管理国民,只是到最近,小企业和 个人才有可能拥有大规模收集和分类数据的能力,而此前,大规模的计数则是 政府的事情。
• 以人口普查为例,据说古代埃及就曾进行过人口普查,那次由罗马帝国的开国 君主恺撒主导实施的人口普查,提出了“每个人都必须纳税”。1086年的《末 日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇 家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中 的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像 接受“最后的审判”一样。
3.1 大数据与人工智能
• 当互联网开始进一步向外延伸并与世上的很多物品链接之后,这些物体开始不 停地将实时变化的各类数据传回到互联网并与人开始互动的时候,物联网诞生 了。物联网是个大奇迹,被认为可能是继互联网之后人类最伟大的技术革命。
3.1 大数据与人工智能
• 如今,即便是一件物品被人感知到的几天内的各种动态数据,都足以与古代一 个王国一年所收集的各类数据相匹抵,那物联网上数以万计亿计的物品呢?是 不是数据大得不得了,于是“大数据”产生了。
• 谷歌流感趋势预测不是依赖于随机样本,而是分析了全美国几十亿条互联网检 索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面 分析的准确性,甚至能够推测出某个特定城市的流感状况。
3.2.3 全数据模式:样本=总体
• 通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情 况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据 才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常 交易情况进行对比。而且,因为交易是即时的,所以你的数据分析也应该是即 时的。
• 我们来看一下DNA分析。由于技术成本大幅下跌以及在医学方面的广阔前景, 个人基因排序成为了一门新兴 产业。
图3-5 世界民族基因总图(美国)
3.2.2 大数据与乔布斯的癌症治疗
• 从2007年起,硅谷的新兴科技公司23andMe就开始分析人类基因,这可以揭示 出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏 病。23andMe希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能 获取的新信息。公司对某人的一小部分DNA进行排序,标注出几十个特定的基 因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。 最后,23andMe只能回答其标注过的基因组表现出来的问题。发现新标注时, 该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。只研究 样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考 虑到的问题。
3.1 大数据与人工智能
• 如此浩如云海的数据,如何分类提取和有效处理呢?这个需要强大的技术设计 与运算能力,于是有了“云计算”。其中的“技术设计”属于“算法”。“云 计算”需要从大量数据中挖掘有用的信息,于是“数据挖掘”产生了。这些被 挖掘出来的有用信息去服务城市就叫做“智慧城市”,去服务交通就叫做“智 慧交通”,去服务家庭就叫做“智能家居”,去服务于医院就叫做“智能医 院”,……于是,智能社会产生了。不过,智能社会要有序、有效地运行,中 间必须依托一个“桥梁”和借助于某个工具,那就是“人工智能”。
3.2.1 小数据时代的随机采样
• 美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的 很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总 数据。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的, 必须获得正确且及时的数据,所以就需要有新技术。后来,是美国发明家赫尔 曼•霍尔瑞斯(被称为现代自动计算之父)用他的穿孔卡片制表机成功地在1年 时间内完成了人口普查的数据汇总工作。这简直就 是一个奇迹,它标志着自动处理数据的开端,也为 后来IBM公司的成立奠定了基础。
相关文档
最新文档