自然语言处理与人工智能
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
也译作“华语房间”。
表现在外部的语言和大脑里的概念到底是不是一一对应的。有人举例说,蒙古语中与“马”相关的词汇有几十种,爱斯基摩人用于表示“雪”的词汇也
有几十种,而不生活在马和雪
的世界的人用于描绘“马”和“雪”的词汇就很少。是语言造就了概念,还是概念造就了语
言?是全人类有共同的概念,还是有一种语言就塑造一套概
念?这确实是一个问题。那么,
语言到底是怎么回事?这是研究自然语言理解和自然语言处理的人必须面对的问题。我们说要善解人意,“人意”在哪里?它藏在语言符号怪阵的背后。
如图1所示,语言最表层可能通过文字或语音的方式表现,也可能通过电子输入的方式表现。再向下有“词法”、“句法”
和“语义”,乃至“语用”,这是
“善解人意”是构筑智能系统的必要条件
说起实现各种各样的智能系统,大家都认为能“善解人意”应该是一个基本条件,而其实现的一个重要桥梁就是语言。著名的对人工智能系统的图灵测试实际上就是要通过对话,也就是通过语言来判断隐藏在那个不可见的位置跟你对话的到底是人还是机器。还有美国哲学家约翰·希尔勒(John Searle)提出的一个思想实验
——“中文屋子(Chinese room)1”:一个屋子里的人都不懂中文,只懂英文,但可以执行特定的规则,把符号搬来搬去,最后的效果是把英文翻译成中文。问题是,到底谁懂中文?
另外,从亚里士多德到布
尔,从莱布尼兹到维特根斯坦,实际上哲学在20世纪初有过一次重要的“语言学转向”,就是从拍脑袋的思辨转变到针对文
本。语言学领域也有人在思考,自然语言处理与人工智能
关键词:自然语言处理 知识 大脑计划
白 硕
上海证券通信有限责任公司
图1 “人意”隐藏在符号怪阵的背后
语言学界标准的层次划分。图中红色的虚线上方通常被认为是“浅层”,涉及到一点点句法,句法的大部分在下方。虚线之下的部分被认为是“深层”。浅层的语言模型的研究见效很快,门槛很低,计算机科学家和工程师基本上可以自己进行研究。然而深层的语言学知识,有一些地方可能说不清楚。例如,上海电台有
一档节目叫“音乐会说话”,不论按照什么分词标准,很多的分词系统都会把它分成“音乐会/说话”,也就是说“音乐会”被当作一个词的分法在这些系统中是应该占优势的。但是这档节目名称的意思实际上是“音乐/会/ 说话”,只有用到了深层的句法和语义,甚至语用,才能确定这是一个隐喻,才能发现正确的分词方案是什么。
现在人们对深度学习充满了期待。但是必须说明,学习的度的“深”和“浅”
,与学习对象
在语言层次上的“深”和“浅”是两个概念。如果语言模型停留在浅层,就是把深度学习用到极致,得到的结果也有局限。但是在语言模型深层的机器学习研究就复杂了。因为浅层的东西大家都看得见,深层的很多东西是看不见的,看不见就会造成各说各话,没有统一的标准。所以,这个方面的研究非常困难。
有一种说法叫:基于规则的系统是“傻子”,基于统计的系统是“疯子”。基于规则的系统在规则不能覆盖的地方表现极其糟糕;基于统计的系统,因为很多模型现在只能做到浅层,深层的不知道怎么做,所以有局限(如图2所示)。基于统计处理的深层语言模型是有的,但深层模型研究需要资源建设积累的支撑,如果没有资源建设,深层语言模型研究无从谈起。统计又要有语
料的积累,这双重的积累是瓶颈,能够打通瓶颈往前走的人不多,但我认为这是正确的路。语言学领域的知识到底是什么?如果不知道知识是什么,或者理解得不透彻,就想学习,效果会差得很远。深层的知识躲在后面,或者说:你可以这样理解,他可以那样理解,似乎没有什么硬标准能够把它们提取出来。但是大家要解决的问题和难点是明确的:一个是递归嵌套的深度;另一个是语言成分远距离相关的宽度。相关成分相距越远、递归嵌套层数越深,浅层模型越难处理。只要这两个难点有所突破,不管把语言模型设计成什么样,肯定都能在某种程度上反映深层的语言学知识。我在自然语言处理领域的研究兴趣主要集中在三个方面:一是关注语言学的知识到底是什么;二是利用递归神经网络实现语言知识的自动获取,比如可以在系统中添加栈和计数器,可以把规则编译成递归神经网络等,这个领域值得特别关注;三是用自然语言作为知识表示,直接进行模式推理和检索。
自然语言处理与
“大脑”
语言研究对人工智能有重要意义:第一,语言是一个自然的交互界面,“善解人意”绕不开这个界面;第二,语言的背后是
一套知识,怎么学习和表示它,与一般知识的学习和表示是有共
性的;第三,语言是一个窗口,通过对人类语言的观察,可以侧
图2 基于规则的系统是“傻子”,基于统计的系统是“疯子”
面了解人类大脑内部发生的推理和表示。
近年来,各种“大脑计划”开始兴起。大脑计划的外显能力
离不开自然语言的处理,但是我们还是可以根据语言处理所用技术的不同,把它们分为几类(见图3)。
按照这个分类,机器人写高考作文属于第三个层面。最后一个类型(分析理解型)最难,其典型就是解应用题。如果真做好了,说明掌握了语言深一层的东西。图3列举的应用题是期权培训教材里的考题。自然语言处理通过什么方式入手处理这道题,是很有讲究的。这里面涉及计算和分析,还有价值取向——要赚
钱。这道题隐含了一个答题目标,
就是如何做才是赚钱的,这是典
型的投资逻辑。
在各种“大脑计划”中,一
般都是非常庞大的团队在进行研
发。他们会对各种数据(包括语
料)进行大规模的标注和训练。
以这种方式对非限定领域的大数
据、大语料进行训练和开发,对
各种智能化技术进行综合集成,
做出来的成果会很震撼、很酷。
但小团队也有优势,可以比较轻
灵,在特定领域研发出出色的应
用,比如“出门问问2”。还有另
一种模式,就是“游侠”,他们
不太可能大规模地开展业务,只
会做一些核心技术,特别是顶层
的建模。在一个自然语言处理系
统里,如何理解语言学知识,决
定了把后续的学习手段加上之后
到底能够走多远。一个项目立项
之时,研发思路就已经确定,后
面难以突破先天局限。而恰恰是
“游侠”模式,可以在这个方面
走得更远。
迄今为止,自然语言处理的
核心问题还没有解决,突破的“钥
匙”掌握在语言学家或者通晓语
言学成果的人手里。关键的试金
石有两个:递归嵌套、远距相
关。如能实现对这两种关系的正
确分析、理解,就说明我们在对
语言的深层处理能力上有了标志
性的进步。我们认为以后会有很
多取得突破的机会,不仅大脑计
划有机会,
“游侠”模式也有机
会。基于统计的系统走不下去的
地方,基于规则的系统进行抄底
的机会也是存在的。■
白 硕
CCF会员。上海证券
通信有限责任公司
董事长。主要研究方
向为轻便高效证券
交易系统和证券行
业云服务等。
sbai@
2 “出门问问”是一款基于语音识别、语义理解技术,面向移动搜索领域的智能手机应用,用户只须通过语音用口语化的提问方式就可以搜索出有关吃穿住行的服务。
图3 自然语言处理与各种“大脑”