人和机器终将合二为一
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
商业领袖
TOP IDEA 人和机器终将合二为一
■ 文 / 王小川 搜狗公司CEO
如果用技术改变人,将人变成超人,
我们会愿意吗?今天就在发生这样
的事情,我们大多数人还是采取这
种拒绝的态度,因为觉得人更渺小,
但是,在未来,人和机器会有一种新
的合体,跟技术在一起,我们会变得
更加强大,形成新的生态,这是人和机器协同进化的未来。
我们一直在寻求人和机器的关系。
然而在讨论这种关系的时候,就要涉及到历史的趋势,尤其是什么事情是必
然会发生的。
只有对趋势的了解,对于必然有认知,我们才能够开始探讨人与机器
的关系,这是哲学的问题。
纵观历史发展,我们经历了从史前文明、农业文明、工业文明到信息文明的各
个阶段的技术突破。
其实,离我们最近一次的信息文明其实并没有结束,是计算机
和互联网发展推动了信息文明的快速发展。
即使到今天,在中国还有大量的场景并没有信息化,比如教育。
但,这时候已
经有一个苗头,就是智能文明的降生。
说到智能文明,人工智能是我们绕不过去的
话题。
AI 带来的启蒙
人工智能有广义和狭义之分。
狭义的人工智能,讲的就是2012年之后的深度学
习,尤其是2016年阿尔法狗的诞生。
可人工智能有更长的历史,最早从上世纪60年
代的专家系统,之后是特征工程,到现在,我们开始使用的更多的监督学习,尤其
是对语音图像的处理能力。
在深度学习和监督学习之后,我们还在做的
工作叫做强化学习,或者叫做推理,但是,它们到现在还没有进入到实用阶段。
我们今天讲到的深度学习,还停留在现有的语音图像处理阶段。
所以,我们对于未来的趋势充满好奇。
我更多是想探讨技术将会带来什么变化。
其实,2016年给我最大的冲击是阿尔法狗,我们称之为一场启蒙运动。
相对以前的文艺复兴,它是在探寻人和人,以及人和神之间的关系。
阿尔法
狗之后,我们关注的是人与机器的关系。
2016年的那场比赛,我参与比较多,我当时在在新浪直播全程见证了李世石被机器打败。
在那场比赛中,和我一起做嘉宾的是中国围棋队总教练余斌。
赛前,他坚定认为,人一定会打败机器,甚至觉得机器能够下围棋是一件不可理喻的事情。
赛后,余斌教练的精神出现了一定的崩溃,我听说是新浪编辑帮忙打车送他回去的,他已经不知道怎么打出租车了。
当一个机器文明诞生时,对于我们来说,特别是专家,被机器取代的那一刻,自己的内心是难以接受的。
之后在医疗、驾驶等各领域都会发生这样的变化。
赛前,我们对阿尔法狗有很多质疑,赛后,我们发现很多年轻朋友把阿尔法狗称为狗狗,对它有很大的接受,围棋九段选手们把它称为“阿老师”。
今天,我们通过拟人化的方式接纳了机器。
这种接纳的速度会更快一些。
语音为AI入口
什么样的工作将会被取代?这是很多媒体人好奇的问题。
我想,这是近期要去解决的回答,还有一个问题是人类是否会被机器取代,这是更加远期的问题。
实际上,2016年到现在的3年时间,我永远被追问的最核心问题也是这两件事情,而不是探讨背后的技术。
关于什么样的工作将被机器取代?我们要理解当下机器本身的强大,以及它目前的局限性。
在一些媒体或影视作品中的解读中,机器很强大,想象它变成人的形状,能跟人对话,甚至比人更加厉害。
实际上,以今天的技术能力、水平,要制造这样的机器人,恐怕还只能处于幻想中。
我用两个观点来阐述现在人工智能本身的局限性。
第一个观点是,今天人工智能已经具有了强大的感知能力。
什么感知呢?就是听觉、视觉,跟外界接触之后进行信息低层次处理的感知。
现在图像识别里面,机器做人脸识别已经可以超越人了。
另一个就是认知领域,机器就会难很多了,尤其是跟语言相关的。
语言是我们对世界的一种抽象认识,就像人类简史里讲到的。
我们在森林里去找仙女,这样的事情是有概念有故事的,这个事情机器没有掌握。
加上人类还有迁移学习能力,机器目前都不具有。
在这种局限性下,我们可以做一种简单的断言,在认知问题里面机器只能辅助人类,比如说写一部小说或者对话的时候,机器并不能独立工作,但在认知问题、感知问题里面,机器可以独立上岗,就像图像和语音的处理。
我们的做法是以语言为核心,去探讨语言相关的感知和认知,感知是处理语音、图像,认知处理的是对话、翻译和问答。
在这个感知中,机器已经可以达到和人相同的水平,但是在认知领域会非常难。
从优先顺序看,最容易做的事情是机器翻译。
即使如此,我们可以看到它跟人相比较,也有一定的差距,尤其是,人觉得特别简单的事情,机器并不一定处理很好,而人觉得复杂的问题,机器可以做得很好。
这与感知不一样。
在感知方面,机器可以比人做的更全面,机器不精准的地方,人也做不好。
而认知世界里,机器和人好像是不同类型的人。
在感知领域,我们已经做了语音识别。
搜狗是中国今天To C领域语音识别量最大的引擎。
因为我们拥有中国最大的输入法,每天有超过6亿次语音识别请求,包括语音修改,目的就是以语言为核心使得人跟人通过感知能进行更好的沟通。
但是,我们觉得这件事不代表技术前沿,我们又做了唇语的识别。
之前是用声音转化为文字,现在,我们可以做到用嘴形变化转化为文字。
除了语音识别,还有语音合成,包括风格迁
商业领袖
TOP IDEA
移。
在互联网上,除了机器能识别用户以外,当用户在表达的时候,机器能够做更多辅助的工作。
我们可以把自己的音色做迁移,变成个性化合成。
我们发布了一款技术,叫做AI的合成主播。
就是把语音、图像和文字的关系完全联动起来。
之前,我们将嘴形识别变成声音、变成文字,现在我们倒过来,也是同样的技术,能把文字变成声音的表情。
我们的AI合成主播,能合成人的声音、嘴形、表情,同时也是我们在全球首个用AI能取代人的分身技术。
AI的合成主播技术已经上线,全球很多媒体都会采购,包括国内最大的一家保险公司在线客服也将采用我们的技术,用机器取代部分人。
在感知视觉里,机器和人沟通机器能做到很大的取代人的作用,独立开展工作。
人机“新合体”
未来,随着AI技术发展,机器越来越准确之后,其辅助能够逐步给出标准答案的结果。
可以看到,从语言处理当中,我们的努力方向就是从搜索走向问答,以后用语音提问就能给除直接的结果。
现在,我们能看到40%的用户提问能给到直接的回答。
从搜索到问答,最终的形态是走向个人助理,让机器和人产生后面的交流,能辅助完成一些任务。
人类是否真得会被机器取代,这是我们需要回答的事情。
有一个悖论,学术上很有名,我们的感知说,人脑太聪明了,我们竟然能造成出一台比自己更聪明的机器,但是另一个人说,人脑太聪明了,我们不能造出一台比人脑更聪明的机器。
这两个说法都成立,人聪明的时候,到底是否机器能超过人自己,这是很难回答的问题。
我的看
法是,未来我们做出的人工智能,和人脑不是进行直接的比较,也不是做出拟人的机器成为人工智能发展的未来,而是走不同的道路。
在人最擅长的领域中,机器的设计原理,从目前可知道的技术是没法到达的;但是倒过来,机器所擅长的这些事情,人也做不到。
就像一个计算器,我们不会跟一个计算器比拼计算速度怎么样,同时,未来的人工智能在特定领域里的使用,也一定远远超过人。
但是,我们通用的智能,我们的生命力,适应环境的能力,在可见的技术里面,机器也是做不到的。
这里我想提到的一个基本观点,首先不要妄自菲薄,我们想机器会把人取代了,因为我们找不着一个方法比人更厉害、能完整替代人的机器。
之前,我们有一种狭隘的理解,我们特别害怕机器在某个领域里面把人给超越了,
就像下围棋
一样。
事实上,我们要去接受机器在很多情况里面能够替代人的部分的功能,或者增强人部分的功能。
比如,有很多人都在戴眼镜,想过没有,我们已经被技术入侵了,因为眼镜使得你视力变得更好,因为手机我们每个人变成千里眼、顺风耳。
未来一样,技术和人会产生新的融合体。
跟一个猴子说,如果改变基因把你变成人你会愿意吗?猴子肯定不愿意,因为它听不懂,也不理解。
同样的,如果用技术改变人,将人变成超
人,我们会愿意吗?今天就在发生这样的事情,我
们大多数人还是采取这种拒绝的态度,因为觉得
人更渺小,但是,在未来,人和机器会有一种新的
合体,跟技术在一起,我们会变得更加强大,形成
新的生态,这是人和机器协同进化的未来。
我们的使命是,在AI中做简单的工作,让表达和
信息变得简单,并在大时代找到自己的位置。
王小川:我们发
布了一款技术,
叫做AI的合成
主播。
在感知视
觉里,机器和人
沟通机器能做
到很大的取代
人的作用,独立
开展工作。