同济大学计算机前沿技术概论 第4章_人工智能

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


分析自然语言的方法主要分为两类:

短语结构语言(1)

定义

句子:一个符号串 语言:句子的集合 语法:对一个句集一种有限的形式化描述
识别器:由程序判断读入的符号串是不是一个句子 短语结构语法:一种基于产生式的形式化工具,也称为 产生式语法

描述一般语言的方法:

短语结构语言(2)
自然语言理解的一般问题(6)

语言学的研究-理解的层次

语音分析:找出最小可独立的声音单元----音素 词法分析:找出词汇的各个词素(词根),从中获得语 言学信息 例:我们研究所有东西;把手放在桌上 我们--研究所--有--东西 (交叉歧义) 我们--研究--所有--东西 把--手--放在--桌上 (组合歧义) 把手--放在--桌上
句法受限:句子结构的复杂性方面受到限制 语义受限/领域受限:所表达的事物的数量方面受到限制
自然语言理解的一般问题(14)
60年代以关键词匹配为主流

特点:




没有真正意义上的语法分析,主要依靠关键词匹配技术 来识别输入句子的意义 在系统中事先存放了大量包含某些关键词的模式,每个 模式与一个或多个解释(响应式)相对应。 每当输入一个句子,系统便查找与之匹配的模式,一旦 匹配成功,系统就输出相应的解释,不考虑其他成分对 句子意义的影响 是一种近似匹配技术,输入句子可以不准循语法,但是 也容易导致错误
短语结构语言(3)
在短语结构语法中,基本运算是把一个符号 串重写为另一个符号串,每条语法规则也叫 重写规则 一个句子的产生就是从S符号到词汇串的推 导过程 如果一个程序能够根据一个短语结构语法来 确定一个句子的推导,则它可称为一个句法 分析器(parser)。 语法G所定义的语言记为L(G): L(G)={W | WT*, S*GW}

应用

网络方面:信息检索(Information Retrieval), 提取 (Extraction), 过滤(Filtering), 分类(Classification), 汇总 (Summarization)等 如:网上信息检索,电子图书馆(Digital Library), 电 子商务(E-commerce) 等 例: 和服 | 务 | 于三日后裁制完毕。(kimono must) 这个酒店的设施 | 和 | 服务 | 是一流的。(and service) 未登录词(unknown word processing): 如:高海燕 (storm petrel)
人工智能 Artificial Intelligence
自然语言理解
本章主要内容
自然语言理解的一般问题
词法分析 句法分析 语义分析 大规模真实文本的处理 Web信息抽取

自然语言理解的一般问题(1)

自然语言


自然语言:人类交流的语言,口语、书面语、手语、旗语等 人造语言:机器语言,包括C++, BASIC等 世界语(Esperanto)
“新词出炉”
本章主要内容

自然语言理解的一般问题
词法分析
句法分析 语义分析 大规模真实文本的处理 Web信息抽取

词法分析(1)

词法分析是理解单词的基础,其主要目的是 从句子中切分出单词,找出词汇的各个词素, 从中获得单词的语言学信息并确定单词的词 义。 例如Unchangeable是由Un-change-able构成的, 其词义由这三个部分构成。
自然语言理解的一般问题(9)

研究目标

建立一个足够精确的语言数学模型使计算机通过编程来 完成自然语言的相关任务。如:听、读、写、说,释义, 翻译,回答问题等。通过语言索取信息,有此能力则说 明该系统对语言已理解了 。
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论 模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模 型理论 基于记忆的推理、语言行为 理论、篇章语法 层次结构 语音 词汇 语法 语义 语用 实现技术 模式匹配 词典结构 扩展转移网络 (ATN),CF规则 产生式规则、概 念相依理论、脚本 、框架、语义网络 、逻辑
自然语言理解的一般问题(13)

自然语言理解的研究大体上经历了三个 时期



萌芽时期 发展时期 早期: 60年代以关键词匹配为主流 中期: 70年代以句法-语义分析为主流 近期: 80年代以来开始走向实用化和工程化 大规模真实文本处理时期

比较成功的系统处理都是受限的自然语言子 集

自然语言理解的一般问题(20)
发展快的原因: 计算机的发展:高速、统计处理 需求:机器人能听懂人的话,与人交谈,自动学 但是,因为自然语言是开放集,每天都有新词产生, 用规则描述马上可以找出反例。 所以,很难!
例如:“囧”,“槑”,打酱油,被捐款
微软亚洲研究院英库(ENGKOO) HTTP://WWW.ENGKOO.COM/
到目前为止的人类知识有80%以上使用自然语言文字记载下 来的,而用计算机语言形式记载的知识将会越来越多。 因此说,语言信息处理技术和每年所处理的信息总量已成为 衡量一个国家现代化水平的重要标志之一。 相比较人工智能其它领域,自然语言理解是难度大,进展小 的,至今为止未能达到很高的水平。



自然语言理解的一般问题(2)
自然语言理解的一般问题(19)



基于语料库的处理思想能够在工程上、在宽广的语 言覆盖面上解决大规模真实文本处理这一极其艰巨 的课题,对传统的处理方法的一个强有了的补充。 新型的智能计算机和多媒体计算机均要求设计出更 为友好的人机界面,使自然语言、文字、图像和声 音等信号都能直接输入计算机。 要求计算机能以自然语言与人进行对话交流,就需 要计算机具有自然语言能力,尤其是口语理解和生 成能力。
– 语法分析:将单词之间的线性次序变换成 一个显示单词如何与其它单词相关联的结 构。确定语句是否合乎语法
自然语言理解的一般问题(8)

语言学的研究-理解的层次


语义分析:通过分析找出词义,结构意义及其结合意义, 从而确定语言所表达的真正(实际)含义或概念。在语 言自动理解中,语义越来越成为一个重要的研究内容。 (尤其是对话系统) 你打我 我打你 语用分析:研究语言所在的外界环境对语言使用所产生 的影响。描述语言的环境知识、语言与语言使用者在某 个给定语言环境中的关系。为确定真正含义,对表达的 结构重新加以解释。(故宫、一块)



自然语言在数量上浩瀚无际 在性质上具有不确定性和模糊性
自然语言理解的一般问题(17)
语料库语言学(Corpus Linguistics) 语言学知识的源泉是大规模活生生的语料, 要想让计算机理解自然语言,首先要让计算 机能从库存的大规模语料中自动或半自动地 获取语言理解所需的各种知识,对语言现象 作出客观的、细致的描述。 目前采用的主要手段是建立各种统计模型, 可用于词类的自动标注,以及句法语义的更 高层次的分析。该方法可以和规则方法相互 补充。
自然语言理解的一般问题(3)

自然语言理解


自然语言理解是语言信息处理技术的一个高层次的重要 方向。是人工智能领域关注的核心问题之一。 自然语言理解的困难原因: 目标表示的复杂性 映射类型的多样性 源表示中各元素间交互程度的差异性
自然语言理解的一般问题(4)

语言学的研究

自然语言理解是哲学(Philosophy),语言学(Linguistics), 语言心理学(Psycholinguistics),认知科学(Cognitive science),计算机科学(Computer science),数学 (Mathematics),逻辑学(Logic)及相关学科发展和结合而形 成的一门交叉学科。
自然语言理解的一般问题(7)

语言学的研究-理解的层次


句法分析:对句子和短语的结构进行分析,找出词、短 语等的相互关系以及各自在句子中的作用等。 在语言自动处理的研究中,句法分析的研究是最为集中 的,这与乔姆斯基(Chomsky)的贡献是分不开的。主 要方法有:短语结构语法、格语法、扩充转移网络、功 能语法等。
自然语言理解的一般问题(5)

语言学的研究




语言学家:只关心词组成短语,短语组成句子,句法如 何。(语言理论) 哲学家:词怎么能表示万物万事。如何用词来描述。 心理学家:语言产生的机制,人怎么能理解句子的意思。 (神经网络) 计算语言学家:用数据结构、数学模型把哲学、心理学、 语言学等语言分科的知识进行表示,用恰当的算法识别 句子的结构,完成自然语言相关的各项任务。
自然语言理解的一般问题(15)
70年代句法语义分析为主流
采用句法-语义分析技术 典型例子 LUNAR


允许用普通英语和数据库对话的人机接口 句法分析 语义解释 数据检索
ATN语法
词典
语义规则
数据库
自然语言理解的一般问题(16)
80年代以来的实用化和工程化
主要特点是开始走向实用化和工程化。其重 要标志之一是有一批商品化的自然语言人机 接口系统和机器翻译系统推向了市场。 另一方面,人们已经开始对大规模真实文本 进行理解 句法-语义分析为主的思想来自于规则的方 法,而规则不可能把所有的知识表示出来
ICTCLAS汉语分词系统
本章主要内容
自然语言理解的一般问题 词法分析

句法分析
语义分析 大规模真实文本的处理 Web信息抽取

句法分析(1)

句法分析的主要任务:


确定输入句子的结构:识别句子的各个成分及其之间的 关系 句子结构的规范化:目的是简化后续处理 基于规则的方法:如短语结构语法和Chomsky语法体系 基于统计的方法

自然语言理解的一般问题(18)


在当今计算技术条件下,要想把处理自然语言所需 要的知识都用现有的知识表示技术明确表达出来, 是不可能的。这既是由于这种知识的“数量”巨大, 有时由于它们在“质”的方面高度的不确定性和模 糊性。 最近十几年来新提出的语料库语言学,它顺应了大 规模真实文本处理的需要,提出了以计算机语料库 为基础的语言学研究及自然语言处理的新思想。 ……

定义:短语结构语法定义为:G = (T,N,S,P)

T是终结符集合,即被定义的语言的所有词 汇(或符号) N是非终结符集合,这些符号用于描述语法 成分,并不出 现于句子中。

有:V=TN,TN=(空集),V是属于该语法的全部符号


S是起始符号,它是N中的一个成员。 P是一个产生式规则集。a b (ab,aV+,bV*)

Biblioteka Baidu
什么是“自然语言理解”?


与“智能”一样,存在各种各样的理解和解释。 利用计算机对自然语言进行理解

自然语言“理解”的准则:
给计算机输入一段自然语言文本,如果计算机能 问答(QA)-机器能正确地回答输入 文本中的有关问题; 文摘生成(summarizing)-机器有能力产生输入文本 的摘要; 释义(paraphrase)-机器用不同的词语和语句复述输入文本; 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言 (目标语言)
自然语言理解的一般问题(11)

应用 机器翻译或机器辅助翻译 文本理解:将输入文本转换成某种数据库格式 文本生成:根据用户需要以某种自然语言的方 式输出储存在计算机内的各种信息 自然语言接口:人类直接用自然语言与数据库、 专家系统等进行人机交互 ……
自然语言理解的一般问题(12)

词法分析(2)
语言构成
语言
词汇 词 熟语 词法 语法 句法
词素
构形法
构词法
词组构造法
造句法
词法分析(3)


在英语等语言中,因为单词之间是以空格自 然分开的,切分一个单词很容易,所以找出 句子的一个个词汇就很方便。但是由于英语 单词有词性、数、时态、派生、变形等变化, 要找出各个词素就复杂的多,需要对词尾或 词头进行分析。如Importable,它可以是Import-able或import-able,这是因为im、port、 able这三个都是词素。 汉语中的每个字就是一个词素,所以要找出 各个词素是相当容易的,但要切分出各个词

短语结构语言(4)
刻画语言的形式体系的强和弱 递归可枚举语言:如果有一个程序,它能以 某种顺序逐个地输出(即枚举)一种语言的 句子,这种语言是递归可枚举的 递归语言:如果有一个程序,它在读入一个 符号串后能最终确定这个串是或不是某种语 言的一个句子,这称该语言是递归
相关文档
最新文档