第10章 自然语言理解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IC S I C
Central South University Artificial Intelligence
7
10.1.3 自然语言处理的研究领域和意义
1. 自然语言理解的研究领域和方向
文字识别(Optical character recognition,OCR) 语音识别(Speech recognition) 机器翻译(Machine translation) 自动文摘(Automatic summarization或automatic abstracting) 句法分析(Syntax parsing) 文本分类(Text categorization/document classification)
Ch.10 Natural Language Understanding 第十章 自然语言理解
10.1 10.2 10.3 10.4 10.5 自然语言理解概述 词法分析 句法分析 语义分析 句子的自动理解 10.6 语料库语言学 10.7 文本的自动翻译——机器翻译 10.8 自然语言理解系统的主要模型 10.9 自然语言理解系统应用举例 10.10 小结
verb
qT
q5
adj
noun
图10.2 转移网络(TN)
Central South University Artificial Intelligence
IC S I C
15
10.3.4 Extended Transition Network 扩充转移网络
扩充转移网络ATN是由一组网络构成的,每个网络都有 一个网络名,每条弧上的条件扩展为条件加上操作。 ATN的每个寄存器由两部分构成: 句法特征寄存器: 由特征名、特征值和缺省值表示。 句法功能寄存器:反映句法间的关系与功能。 图10.5所示是一个简单的名词短语(NP,即Noun Phrase)的扩充 转移网络。
20
句法分析: 将单词之间的线性次序变换成一个显 示单词如何与其它单词相关联的结构。 语义分析: 各种意义被赋于由句法分析程序所建 立的结构,即在句法结构和任务领域内对象之 间进行映射。 语用分析: 为确定真正含义,对表达的结构重新 加以解释。
2. 自然语言理解研究的意义
IC S I C
9
Central South University Artificial Intelligence
10.1.4 自然语言理解研究的基本方法和进展 机器翻译是自然语言理解最早的研究领域。 70年代初期,对语言理解对话系统的研究取 得进展。 80年代,自然语言理解的应用研究广泛开 展,机器学习研究又十分活跃。 自然语言理解的研究为专家系统的知识获取 提供了新的途径。 自然语言理解的研究已促进计算机辅助语言 教学(CALI)和计算机语言设计(CLD)等的发 IC 展。 S I C
用LFG语法对句子进行分析的过程如下:
用上下文无关语法分析获得C-structure,不考虑语法中的下 标;该C-structure就是一棵直接成分树; 将各个非叶节点定义为变量,根据词汇规则和语法规则中的 下标,建立功能描述(一组方程式); 对方程式作代数变换,求出各个变量,获得功能结构Fstructure。
IC S I C
17
10.3.5 Syntax of Vocabulary Function 词汇功能语法(LFG)
LFG用一种结构来表达特征、功能、词汇和成分的顺序。 LFG对句子的描述分为两部分:
直接成分结构(Constituent Structure,简称C- Structure); 功能结构(Functional Structure,简称F-structure)。
(PAST S1 KISS-ACTION[AGENT(NAME j1 PERSON“Jack”)][THEM E NAME(NAME j2 PERSON“Jill”)])
IC S I C
19
Central South University Artificial Intelligence
10.5 句子的自动理解 Automatic Understanding of Sentences
IC S I C
Central South University Artificial Intelligence
16
6: prop.
NP
1: det
5: pron. 4: noun
8: send
f
2: jump
g
3: adj
h
7: pp
图10.5 名词短语(NP)的扩充转移网络
Central South University Artificial Intelligence
C
Central South University Artificial Intelligence
10
10.1.5 Levels of Process in Natural Language Understanding 自然语言理解过程的层次
语言的分析和理解过程是 一个层次化的过程,它主 要包括如下四个层次: 语音分析 词法分析 句法分析 语义分析
IC S I C
Central South University Artificial Intelligence
2
语言
词汇
语法
熟语

ቤተ መጻሕፍቲ ባይዱ
词法
句法
词素
构形法
构词法 词组 构造法
造句法
图10.1 语言的构成图
Central South University Artificial Intelligence
IC S I C
IC S I C
Central South University Artificial Intelligence
11
10.2 词法分析 Lexical analysis
一个英语词法分析的算法如下: repeat
look for study in dictionary if not found then modify the study until study is found or not further modification possible
3
从微观上讲,语言理解是指从自然语言到机 器(计算机系统)内部之间的一种映射。 从宏观上看,语言理解是指机器能够执行人 类所期望的某些语言功能。这些功能包括:
回答有关提问; 提取材料摘要; 不同词语叙述; 不同语言翻译。
IC S I C
Central South University Artificial Intelligence
10.1 自然语言理解概述 Introduction
10.1.1 Language and Its Understanding 语言与语言理解
语言是用于传递信息的表示方法、约定和规则的集合, 它由语句组成,每个语句又由单词组成;组成语句 (sentence)和语言时,应遵循一定的语法(syntax)与语 义(semantics)规则。 要研究自然语言理解,必须对自然语言的构成有个基本 认识。 语言的构成框图如图10.1所示
它可以对那些按英语语法规则变化的英语单词进行分析,其中study是一个 变量,初始值就是当前的单词。 例如,对于单词matches、studies可以做到如下的分析:
matches studies matche studie match studi study 词典中查不到 修改1:去掉“-s” 修改2:去掉“-e” 修改3:把i变成y
这样,在修改2的时候,就可以找到match,在修改3的时候就可以找到study
IC S I C
Central South University Artificial Intelligence
12
10.3 句法分析 Analysis of Syntax
10.3.1 短语结构语法
定义10.5 一个短语结构语法G由4个部分组成: T为终结符集合,终结符是指被定义的那个语言的词(或 符号) N为非终结符号集合,这些符号不能出现在最终生成的句 子中,是专门用来描述语法的。显然,T和N不相交,两 者共同组成了符号集V P为产生式规则集 S为起始符,是集合N的一个成员 可以把短语结构语法G描述为如下四元组形式: G = (T,N,S,P) IC S I C 只要给出这4个部分,就可以定义一个具体的形式语言。
IC S I C
Central South University Artificial Intelligence
8
信息检索(Information retrieval) 信息获取(Information extraction) 信息过滤(Information filtering) 自然语言生成(Natural language generation) 中文自动分词(Chinese word segmentation) 语音合成(Speech synthesis) 问答系统(Question answering system)
Central South University Artificial Intelligence
13
10.3.2 乔姆斯基形式语法
无约束短语结构语法 上下文有关语法 上下文无关语法 正则语法
IC S I C
Central South University Artificial Intelligence
IC S I C
5
Central South University Artificial Intelligence
10.1.2 自然语言处理的概念和定义
定义10.1 自然语言处理是研究人类交际和人机通信 的语言问题的一门学科。它要开发表示语言能力和 性能的模型,建立实现这种语言模型过程的计算框 架,提出不断完善这些过程和模型的辨识方法,以 及探究实际系统的评价技术。(Bill Manaris,1999) 定义10.2 自然语言处理是人工智能领域的主要内 容,即利用计算机等工具对人类特有的语言信息 (包括口语信息和文字信息)进行各种加工,并建 立各种类型的人-机-人系统。自然语言理解是其核 心,其中包括语音和语符的自动识别以及语音的自 动合成。(刘涌泉,2002)
14
10.3.3 转移网络 可以用转移网络(TN,transition network)来进行 句法分析,如图10.2所示。 图中,q0, q1,…qT是状态,q0是初态,qT是终态。弧 上给出了状态转移的条件以及转移的方向。
q1 q0 q2
adj noun pron. verb
q4
pron.
q3
Central South University Artificial Intelligence
IC S I C
18
10. 4 语义的分析 Semantic analysis
语义解析的步骤如下:
第一步 确定每个词在句子中所表达的词义; 第二步 根据已有的背景知识来确定语义。
逻辑形式表达是一种框架式的结构,它表达一个 特定形式的事例及其一系列附加的事实,如“Jack kissed Jill”,可以用如下逻辑形式来表达:
10.3.1 Understanding for Simple Sentence 简单句的理解方法 为了理解一个简单句,需要做以下两方 面的工作:
理解语句中的每一个词。 以这些词为基础组成一个可以表达整个语句 意义的结构。其中第二项工作又可分成以下 3个部分来进行:
IC S I C
Central South University Artificial Intelligence
4
怎样才算理解了语言呢? 归纳起来主要有以下几 个方面:
既能够理解句子的正确词序规则和概念,又能理解不 合规则的句子 知道词的确切含义、形式、词类及构词法 了解词的语义分类以及词的多义性和歧义性 指定、不定特性及所有(隶属)特性 问题领域的结构知识和时间概念 语言的语气信息和韵律表现 有关语言表达形式的文学知识 论域的背景知识
IC S I C
6
Central South University Artificial Intelligence
定义10.3 自然语言处理是利用计算机工具对人类特 有的书面形式和口头形式的语言进行各种类型处理 和加工的技术。(冯志伟,1996) 定义10.4 自然语言处理是用计算机对自然语言的音、 形、义等语言信息进行加工和操作,包括对字、词、 短语、句子和篇章的输入、输出、识别、转换、压 缩、存储、检索、分析、理解和生成等的处理技术。 它是在语言学、计算机科学、控制论、人工智能、 认知心理学和数学等相关学科的基础上形成的一门 边缘学科。(蔡自兴,2008)
相关文档
最新文档