大数据与人工智能

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据与人工智能
数据科学已经在决策科学、社会科学、经济学里面扮演越来越重要的角色，所以这种交叉融合，这种碰撞对我们每一个人来讲都是学习的机会，也是一些施展才华的空间。

最近在各个场合有一些分享，今天我尤其要把这个讲座做好。

今天是我儿子第一次坐在下面听我的讲座。

过去我们做的这些工作是跟数据有关系的。

一个大数据、一个人工智能，这两个放在一起，今天很多的企业会这么重视，在这里给大家分享一下我们自己的故事。

百度在过去两年多的时间里面，在人工智能领域有很多技术方面的投入。

今年李彦宏在两会上提出中国大脑，很受关注；麻省理工学院科技评论杂志去年专门发表了一篇评论性文章，介绍百度的人工智能之梦。

在国外主流的科技杂志里面报道一个中国企业的科技研发，还是比较少的。

我自己感到非常的振奋。

百度的背景，和很多的互联网公司都是一样的，从技术的纬度来讲，他本质上是一个基于大数据的人工智能公司。

我们是提供一个搜索引擎，这个搜索引擎下面有一个非常精致的结构，它可以搜索到各种信息、知识，而且服务是完全免费的、给用户带来价值的。

但是我们获得了了大量的搜索行为数据，并实现它的商业价值，就得通过广告、推送服务。

从数据到价值，这中间就需要大量的技术，尤其是基于大数据的人工智能技术，包括机器学习，自然语言处理，语音识别，图像识别。

最近在全社会，无论是在中国还是美国，还是科技媒体，还是研究机构，还是商业公司，都在谈自动驾驶、机器人、物联网、个性化、VR、AR。

其实这些都是AI的各个领域，现在AI已经成为科技创新的主战场，它不光是未来时，而且是
现在进行时。

我们看电影《超能陆战队》，看似是未来的东西，但是今天很多领域正在发生，也在产生价值。

到底什么是人工智能？严肃的科学定义到今天为止，没有一个广泛接受的定义。

比如说，有一种说法叫强人工智能，有一种说法叫弱人工智能，还有基于符号逻辑的、也有基于统计模型的，有不同的观点。

抛开这些不同的观点，通常一个人工智能系统有这样几个方面：
第一，我们希望这个系统具有感知的能力，就像人一样，有五官，可以感知周围的环境是什么样的。

第二，获取这个感知以后，对面临的环境有一个理解。

比如说对于一个机器人来讲，他在感知到这个环境以后，如果想到后面去跟一个同学聊天，他需要寻找最佳路径。

他必须要理解，那条路是走不通的，那条是可以走的。

第三，在理解的基础上做出决策，从而达成目的或完成任务
一个机器要感知，然后理解，然后决策，这是一个过程。

今天在市场上面无处不在充斥着智能产品：智能汤勺、智能水杯等等。

我们把一个老式的收音机和智能设备放在一起比较，他们有什么不同？区别一个系统、一个产品是不是真的具有智能的能力，有一个很重要的纬度，就是这个系统能不能随着用户用它的次数越来越多，它变得越来越聪明，它是不是真的随着经验积累在不断的演化。

如果它是这样的，它就是一个能够自我学习、自我进化、自我演化的、智能的系统。

所
以，学习能力是智能的本质属性之一。

在座有的年纪跟我相仿，在小学的时候有过一篇课文，讲的是一个科学巨匠做小板凳的故事，他做的那个板凳非常的丑陋，但是我们能不能说这个小朋友不聪明？如果你看他过去几天做的每一个小板凳，他一个比一个做的好，他具有不断的从经验里面去学习的能力，使我们发现这个小朋友是非常具有智慧的。

你看一个系统今天的能力不是最重要的，最重要的是它的增长曲线，随着大数据不断增加，不断去使用这个系统，它能变得越来越聪明。

这里面我提到了经验。

经验就是数据，数据就是经验。

我们在机器学习里面有一个词叫经验数据。

随着经验演化，就是随着数据的不断增长，增长你的能力。

为什么我们迎来一个大数据的时代？因为从PC互联网到移动互联网，带来了一个数据的爆增，在我们日常生活里面，每一个人都在贡献着大量的数据。

这样一个场景，是在圣彼得教堂门口的广场上面，很多人来等待教皇选举结果。

在八年以后，在同样一个地方，可能是同样一群人，同样的故事仍在上演。

但从一个纬度来看，移动互联网在改变每个人的生活，每个人的手持设备在跟着你，它无时不刻的在产生数据。

今天，每个人身上连着两到三个移动设备，比如说手机、iPad，这样一个趋势往前演进，人机交互是指在这个环境里面有无数个设备跟你感知、交互。

现在手表也已经是一个智能终端了。

总的来看，具体的趋势是我们将进入一个万物互联的时代。

随之带来的是每个你的设备都会记录你的数据，人跟设备的连接，人跟人的连接，物与物的连接，设备与设备的连接都在产生数据。

所以，这是一个机会，万物互联将形成大量数据无处不在的生态，给我们带来的机会就是智能化时代的来临。

2014年，我们突然看到那么多科幻的电影，那么多人在讨论这样那样的，包括习总书记也在院士大会上谈到机器人。

所以这不是偶然，这有一个时代的背景。

在大数据的时代，智能变得越来越重要。

有一个技术，最近很多研究机构，包括公司都有很大的投入，这个技术就叫深度学习。

深度学习为什么会在这个时代这么受大家的关注？谷歌、微软、Facebook都有专门的研究团队，Facebook2013年9月份第一次成立了研究院。

今天很多中国的互联网公司都成立了这样的研究院。

百度在这方面做了很多的工作，其中一个表现就是百度大脑项目，这个项目是一个有着上千台服务器，包括PC服务器和GPU服务器的大规模数据处理系统。

去年我讲的是百亿级的产品，世界上最大级的深度神经网络，最近我们把它升级到千亿级的系统。

基于这样一个工程的能力，我们能够去开发各种各样深度学习的算法，用在语音、图象、自然语音理解、广告的用户匹配、用户的建模等等。

百度大脑目前最成功、最重要的四个利用的领域：
第一，搜索。

我们用深度学习作用在自然语音、文本、网络的语意上面，去衡量他们语意的相关性。

第二，广告。

因为广告是要智能的匹配，因为如果这个广告不被用户点击，我们挣不到钱。

第三，图象。

包括今天李彦宏讲到了自动驾驶，自动驾驶里面图像技术是非常重要的。

第四，语音识别和理解。

最近这几年业界取得的进展，包括百度做的工作。

语音识别在三十年的时间里面是一个进展非常缓慢的领域。

但是最近三四年时间里有一个突飞猛进的进展，原因的核心就是基于大数据的深度学习技术。

这些应用领域在业务结构里面扮演什么样的角色？它怎么把这些事情串起来为公司的核心业务产生影响。

第一，理解意图。

比如说我们的用户来到百度这个平台，传统上来讲，他用关键词表达他的搜索需求，但是我们看到最近这两年有一个趋势：第一，用户需求表达越来越复杂，以前很多是搜索信息，现在很多是服务的需求，这里面有很多复杂的语意来描述需求。

第二，更多自然的方式表达你的需求。

比如说自然的语音、句子去问问题，比如说在移动终端上面用语音表达。

现在有的APP就是拍个照，小朋友帮助你做题。

这种自然的表达方式是第二个趋势。

你用深度学习理解自然语言、语音识别、理解图象变成是理解用户的意图。

第二，你在理解了意图以后，你需要连接用户跟他需要的信息。

你在信息、文章那一端需要有更好的理解，这个理解需要有更好的匹配。

匹配用户的需求，就是优化搜索结果的智能排序。

第三，精准推送广告和服务。

深度学习在每一个领域都发挥着重要的作用
为什么深度学习在今天受到重视？
第一点，我觉得是一个很浪漫主义的原因，因为我们总是在想我们的机器能不能复制人的智能，复制生物的智能。

所以有一个观点是，深度学习可能跟人脑的机理是有关系的。

确实也是，最早期的去启发做深度学习的研究，确实是受到人脑的启发。

第二点，特别适合大数据。

其实到今天，深度学习为什么重要的第一个原因是最不重要的，因为你去研究鸟类怎么飞行，跟我要造一个飞机是不一样的事情。

但对于我们来讲，尤其对我们工业界来讲，我们希望能够造出智能的机器，他不是去再现人的智能，而是要利用大数据去延伸或者互补人的能力。

第三，端到端的学习。

过去做模式识别或者机器学习通常会分为两步，第一，根据你对问题的理解，人工的、人为的去做一些数据的预处理，这里面对人的要求是很高的，你需要非常精准的对问题进行理解。

但是你一旦换一个问题，你需要重新去理解。

深度学习把学习跟判定是连在一起的，前面不是人工的，它也是学习，但是一个一气呵成的从端到端的学习，这个非常重要。

因为它让你这个学习更加智能，它可以让你从一个领域迁移到另外一个领域，它可以减少人工带来的不必要的麻烦。

第四，提供一套建模语音。

深度学习，你不需要对问题有很好的理解，这是一个错误的观点。

因为深度学习跟我们在机器学习里面的图模型一样，也是一套语言系统，他让你表达你对这个问题的理解，如果你对这个问题不理解，深度学习对你来讲没有用。

在不同的问题里面，我们需要开发不同的深度学习的模型。

回到第一个浪漫主义的观点，深度学习跟人脑的关系。

计算机视觉里面一个很著名的深度学习的模型是卷积神经网络。

他们做这个的时候受到一个模型的启发，
这个模型80年代获得诺贝尔医学生理学奖。

他讲的是视觉神经系统早期在视觉皮层里面怎么样处理视觉信息。

用很多的图像数据训练卷积神经网络，这个网络能够非常接近的体现视觉神经系统的行为。

每一层的神经元是一个特征提取器，一个具体的神经元对什么特征敏感，这里面讲的是他对不同朝向的边界敏感。

更高一层，把下面这一层提取的结果，去组成更复杂的模式匹配。

如果是两条边你结合在一起会形成一个物体的各个部位，比如说鼻子的提取，再往下走，就更具有语意，他可以把下面的东西组成更加丰富的物体结构。

这里面他是一个从信号逐层抽象、逐层变换的过程。

跟我们今天所了解的生物视觉系统是非常相关的。

但基本上我们只是知道这个联系，今天为止，我们做的很多的工作跟这个联系并没有太多的关系，也未受这个联系的束缚。

从另外一个观点来讲，从统计和计算方面来分享。

在机器学习里面，我们关心的是推广误差，他不是看在现有数据集上面效果怎么样，而是在未知的数据上，这个系统在训练的时候没有看到的地方，叫推广误差。

去年夏天，因为我们家小孩是在美国长大，刚刚回来，刚刚从一年级开始学习，中文不太好，他有一次考完试以后跟我讲，考的不好，70几分；第二天他特别高兴的跟我讲，爸爸，我考
了98分，我说这太好了，一天之内进步这么快。

他说因为今天的考题跟昨天是一样的。

这不能真实反应学习者的能力。

推广误差要在你没有见过的数据集上面衡量他的效果怎么样。

一个经典的分析方法是把推广误差分析成两部分，我们来看错误源在什么地方。

第一个叫Approximation error，也就是假设，没有假设就没有学习，你在学习做推广的时候就一定有假设，你从已知推向未知，中间一定有一个结构在里面。

古代我们讲近朱者赤，近墨者黑，这有一个相似性-如果是相似的物体具有相似的
属性。

这里面隐含着函数平滑假设，我们做一个假设，通常反映在你的模型中间，所有的假设可能是错的。

在统计学里面有一个，假设不完美，你在假设空间里面一定能够找到最完美的那个。

第二个推广来源是Estimation error，这是来源于数据的不完美。

你的训练数据
和测试的数据来源分布不一样。

更多的时候是说你的数据是有限样本，如果你在有限样本上面得到的估计量是不准确的。

因为我们的估计量是在无限样本里面去估计他。

光分析这两个东西是不够的。

通常来讲，在统计学的范畴里去分析这两个东西，统计学家关心的点，跟计算机科学不太一样。

计算机科学关心的是，我今天跟老
板申请五百台机器，老板说不行就五台。

你说老板，给我五个机器，我要算两个月搞定，老板说，你今天不搞定不能回家。

所以是有限的资源下面去分析这个问题，在资源的有限性上面，你要去分析这个问题。

这里面一般是求解的不完美，考虑计算的不完美。

这里面给我们最近的机器学习提供了最近的误差，我一开始在机器学习上面右层的集成，最好的一层是20层。

第二，大量的数据，让你在这上面经验性的判断接近你的期望值。

第三，我要设计一个非常精巧的算法，求得一个非常完美的解，这个完美的解算法非常复杂。

一个能用的算法，它得有比较好的性质，让你可以消化大的数据。

把这三点都放在一起，大家可以理解，为什么在大数据的时代深度学习变得这么重要。

我们看这两个纬度，随着数据规模的增长，效果是怎么样的。

传统的人工智能算法可能由于这个模型的空间是有限的，复杂度不够高，数据多了没有用。

或者你的算法本身不能处理大数据，比如说他的算法复杂度是数据量的三次方。

一万个数据点你可以看懂，但是如果是十万个你就搞不定。

但是深度学习算法，由于它的模型足够的好，又能够掌握主大数据，所以他能够不断吸收数据红利，去年百度首席科学家AndrewNg带领团队在语音识别问题上取得了重大进展，把数据加到了几万小时，效果不断的加强。

如果你的商业模式能够拥有这样一个曲线，我要恭喜你，因为大数据真正成为商业壁垒。

第二，深度学习是一个灵活的建模语音。

我们用不同的语音模型表达你的点，比如说图象，因为他是两维的，用卷积神经网络更加适合。

我们去搜索语意相关性，传统的做法是人工抽取很多特征，变成一个学习问题，这里面完全是端到端的。

我关心的是对于一个搜索的Query，我关心的是这两个相关性，但是它绝对的相关程度我不关心。

深度神经网络给你的是一个语言，让你去表达你对问题的理解。

这是最近非常成功的一个神经网络结构。

它叫Long—short term memory，它最近取得很好的进展：即在任何一个地方，时间跟历史的相关性是变化的。

比如说自然语言处理，你如果碰到一个右符号，你只要溯源到左符号那个地方，把中间所有的东西拿出来分析。

根据你当前所处的状态，你是应该去找一个更长
的。

你遇到一个句号，你做语意理解的时候，你把过去历史所有的都要清零。

在时间面前，时间和历史是不一样的。

这个模型比以前的模型更加的rich。

我们在过去做字符识别的时候，一般先把字符分成一个一个单的图片，再识别它是什么东西，但是我们发现对于这样的问题是不可行的。

在这种情况下，你可以做的是把整个字符序列放进去，并希望输出的是一个完整的字符序列。

现在在这些领域应用都是最好的效果。

用另外一个更加不同的神经网络表达我的问题。

我不是识别这个图象里面有什么东西，而是述说图片的故事：下午的阳光照在房间，有蓝色的地毯和白色的沙发…今天我们用理解图象的神经网络，经过很多非线性的变换，生成很多表达。

他从这个词生成一个图象，再生成下一个词，我希望这个句子跟图象是有关的，使整个的语言也跟这个图象有关。

根据你对这个问题的理解，神经网络深度学习给你提供了一个非常丰富的符号语言系统让你去表达你这个问题应该怎么搜索。

还有很多其他的例子，用深度学习提高搜索的先进性，用了深度学习以后，比没有用深度学习有翻倍的提升，包括语音的系统。

最近我们用的语音系统，是一个真正的中文语音识别系统，我们用几万小时的声音来训练它，在识别率上面有很大提升。

大家看新闻可能看到了，我们在英文的识别也是优于我们的竞争对手。

这是另外一个很有意思的例子，很小的一个产品，但是它是人工智能很多技术在一起的综合体系。

这个是我的一个朋友，纽约大学的教授研发的，他到上海来，去餐馆看到这样一个菜单，他拍照识别，有一个OCR，翻译成英文，通过TTS 就可以翻译出来。

在纽约你想找川菜馆，他识别成中文，翻译成英文，通过这个英文随便给一个老外你问他。

这个东西正在成为现实，中间的时延做的越来越好。

这是百度作业帮，小朋友夏天玩的没有时间做作业了，但快要开学了怎么办？如果我小时候有这个玩意儿，我会很开心，因为我有更多的时间玩。

当然这个技术要善加利用，你可以去找到关键的识别点。

这一度让很多朋友玩的很high，每个小人物都有一个成明星的梦想，我们就能满足这样的需求。

我访问谷歌的时候，有个是做深度学习最有名的多伦多大学的教授，现在在谷歌工作。

当时他问我，深度学习还能活五年吗？我说不能，他听了很沉闷。

但是其中的思想是有价值的，比如说分层次的思想，在非神经网络的系统和其他的系统都有作用。

我们用深度学习做了这么好玩的东西，我们可以玩一玩，他说好，来玩玩。

他得到了这个结果非常开心，立刻分享给他的老婆。

最近我们团队有一个挺好的结果，去年Facebook在测试上面，得到世界上最好的结果97.35%，前几天百度深度学习研究院得到了99.85%的成绩，终结了刷榜。

常常我们会听说到某一个团队在一个数据上面做到怎么样的效果，怎么必须要客观的看，那只是证明他在这个数据集上做的最好，不代表他把这个问题给解决了，也不代表他的这个问题就可用了。

人脸识别，今天谁要告诉你，说人脸识别可以用来代替指纹识别，我告诉你，那肯定是忽悠，没有到那个程度，但是终究有一天会做到的。

基于图象的理解，你可以做图片搜索，他不光做视觉相似形的匹配，还有语意的匹配。

这里的结果看起来都不错，有一些细致的区别。

这边下面是倒影，是水，这边看似是水，但是大部分是草坪、陆地，这边的结果全都是倒影、都是水。

很细致的不同。

去年全球最好的物体检测模型，他告诉你有这个头盔，他也告诉你这个头盔在什么地方，用一个框给框出来。

基于大数据的人工智能在过去几年已经发生了变化，我们静态来看、把这几年的进展串在一起看，效果还是很惊人的。

在这个分类中，2010年世界最好结果，错误率接近30%。

每一年不同的团队在这上面努力工作，每一年的错误率非常惊人的在降低，朝着零趋势发展。

2014年最好的结果是百
度取得的--7%。

斯坦福的学者人工做了一下比对，他们发现人的识别率是5%，今年我们听到微软和谷歌的朋友已经做到大概3%、4%了。

当然也有一些误导，比如说他能认识六七种不同的青蛙，谁能认识那么多种不同的青蛙呢？人的能力还是有限的。

过去的搜索引擎包括几个环节，数据信息的感知、处理、理解、学习，到决策、行动、创造，这是三个不同阶段。

过去我们主要是从互联网上获取这些信息，今天因为是移动互联网，我们的服务离人越来越近，所以你需要更多从人的数据里面获取很多内容。

我们跟清华大学的朱勇武（音）老师有973的项目，从人，
还有物理世界，物联网（手机上面有各种各样的传感器，里面有一种重要的传感器是GPS，对物理世界的感知），这些纬度都变得越来越重要。

相反，互联网
上的数据以前是唯一，现在只是其中的一个信息来源。

把这些信息都获取，我们也需要去向更加先进的人机交互的领域发展。

比如说更加先进的传感器，我们现在在做3D建模，它是自动驾驶很重要的一个方面。

因为车在什么地方可以走，什么地方不能走，哪个地方是主道，哪个地方是辅道…要不然这个车不知道怎么走。

以前传统的互联网的信息分析以后，我们通常去做预测、广告、搜索.但是今天，我们不光是在数字世界里面去做一些事情，我们是不是也在物理世界做一些事情。

有一位专家说的很好，清华大学张院士说，机器人是互联网服务的最后一公里。

比如说今天你在网上预定一个比萨，那边有人读到了这个信息，他来给你做这个比萨；某个人辛辛苦苦把这个比萨送过来…这里面有很多环节可以去优化。

比如说这个比萨是不是真的做的非常的个性化，是不是非常符合你的口味？比如说今天我们在移动互联网上对每个用户的画像，可以做几十万个来描述你的兴趣。

将来的这个比萨会做的非常的个性化。

加多少胡椒粉都是针对你的口味，可以做到千人千面，可以让每个人都感觉是VIP。

到底谁能做这件事情？机器人。

因为他把这些数据瞬间读到他的数据库里面。

谁来最高效的把这个服务最后完成，送到你家里来？机器人。

张华院士说机器人是互联网服务的最后一公里，很有道理，很深刻。