第8章 自然语言理解

合集下载

人工智能8自然语言理解共26页

人工智能8自然语言理解共26页
55、 为 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
人工智能8自然语言理解
6、法律的基础有两个,而且只有两个……公平和实用。——伯克 7、有两种和平的暴力,那就是法律和礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯

自然语言理解NLP

自然语言理解NLP

2.语法分析歧义:
“那只狼咬死了猎人的狗” “咬死了猎人的狗失踪了”
3.语义分析歧义:
机器翻译句子 “At last, a computer that understands you like your mother” 可以有多种含义,如下: “计算机会像你的母亲那样很好的理解你(的语言) ” “计算机理解你喜欢你的母亲” “计算机会像很好的理解你的母亲那样理解你”
Party May 27 add

基本解决:词性标注、命名实体识别、Spam识别

取得长足进展:情感分析Sentiment analysis、共指消 解Coreference resolution、词义消歧Word sense disambiguation 、句法分析Parsing、机器翻译Machine translation (MT )、信息抽取Information extraction (IE)

包括查询资料、解答问题、摘录文献、汇编资料以 及一切有关自然语言信息的加工处理。 例如,如果有一台机器既能理解中文又能理解英文 ,那么,这台机器就可以为人类充当翻译;如果电 视能理解中文,那么,用户就可以不用按钮,而是 通过说话来遥控电视


语言究竟是怎样组织起来传输信息的?人又是怎样 从一连串的语言符号中获取信息的?
3.情感分析(Sentiment Analysis,SA):又称倾向 性分析和意见挖掘,它是对带有情感色彩的主观性文 本进行分析、处理、归纳和推理的过程,如从大量网 页文本中分析用户对“数码相机”的“变焦、价格、 大小、重量、闪光、易用性”等属性的情感倾向; 4.机器翻译(Machine Translation,MT):将文本从 一种语言转成另一种语言,如中英机器翻译。

自然语言理解PPT课件

自然语言理解PPT课件

• Perhaps I could learn to get along with my mother. (也许我可以学会如何和 我母亲相处。)
• My mother takes care of me.(我母亲照顾我。)
• My father.(我父亲。) • You are like my father in
层次。
例如:
She read me a story 和 A story was read to me
的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句
也只是表层结构不同,其深层结构则是相同的。
在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实
现的。 句子
句子
名词短语1 动词短语
发展时期
• 20世纪60年代和70年代,对自然语言理解对话系 统的研究取得进展。
• 60年代:拉法勒(B.Raphael)在麻省理工学院完 成的信息检索系统SIR;韦森鲍姆在麻省理工学院 的ELIZA。
• 70年代:伍兹(Woods)的LUNAR系统、威诺甘德 (Winogand)的SHRDLU系统和香克(Schank)的 MARGIE系统等。
book
句法规则的表示方法——上下文无关法
上下文无关文法(Context-free Grammars)是乔姆斯基提出的一种对自 然语言语法知识进行形式化描述的方法。在这种文法中,语法知识是 用重写规则表示的。作为例子,下面给出了一个英语的很小的子集。
语句 → 句子 终标符
句子 → 名词短语 动词短语
动词短语 → 动词 名词短语
名词短语 → 冠词 名词
名词短语 → 专用名词
冠词 → the
名词 → professor

高级人工智能-8自然语言理解

高级人工智能-8自然语言理解

Artificial Intelligence
NLP: 4
自然语言理解的一般问题(2)
• 什么是“自然语言理解”?
–与“智能”一样,存在各种各样的理解和解释。 –利用计算机对自然语言进行理解 • 自然语言“理解”的准则:
给计算机输入一段自然语言文本,如果计算机能 – 问答(question-answering)-机器能正确地回答输入 文本中的有关 问题; – 文摘生成(summarizing)-机器有能力产生输入文本 的摘要; – 释义(paraphrase)-机器用不同的词语和语句复述输入文本; – 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言( 目标语言)
Artificial Intelligence
NLP: 15
自然语言理解的一般问题(13)
• 自然语言理解的研究大体上经历了三个 时期
– 萌芽时期 – 发展时期
• 早期: 60年代以关键词匹配为主流 • 中期: 70年代以句法-语义分析为主流 • 近期: 80年代以来开始走向实用化和工程化
– 大规模真实文本处理时期 • 比较成功的系统处理都是受限的自然语言子集 – 句法受限:句子结构的复杂性方面受到限制 – 语义受限/领域受限:所表达的事物的数量方面受到限制
Artificial Intelligence
NLP: 12
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论
模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论、 篇章语法
层次结构
语音 词汇 语法 语义 语用
实现技术
Artificial Intelligence

自然语言理解

自然语言理解

一分词概述语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。

自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。

汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。

此外,汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。

正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法。

1.1 汉语分词的歧义汉语分词是汉语分析以及计算机处理汉语的一大难点,导致汉语分词精度不高的原因一般有:词语(抑或说汉语分析基本单位)的界定、词典范围、分词中因为算法问题产生的歧义。

分词过程中歧义产生的根源可归结为以下三类:(1)由自然语言的二义性所引起的歧义,称为第一类歧义。

如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。

这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。

(2)由机器自动分词产生的特有歧义,称为第二类歧义。

如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了”也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。

对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。

(3)由于分词词典的大小而引起的歧义,称为第三种歧义。

如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。

由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名),同时,词典中所包括的词越多,就会产生新的歧义。

例如“发展社会主义的新乡村”,新乡是一个地名,若词典中有该词,则“新乡村”是一个歧义字段。

人工智能习题参考答案

人工智能习题参考答案

• 神经网络主要通过指导式(有师)学习算法和非指导式(无师)学习 算法。此外,还存在第三种学习算法,即强化学习算法;可把它看做 有师学习的一种特例。 • (1)有师学习 • 有师学习算法能够根据期望的和实际的网络输出(对应于给定输入) 间的差来调整神经元间连接的强度或权。因此,有师学习需要有个老 师或导师来提供期望或目标输出信号。有师学习算法的例子包括 Delta规则、广义Delta规则或反向传播算法以及LVQ算法等。 • (2)无师学习 • 无师学习算法不需要知道期望输出。在训练过程中,只要向神经网络 提供输入模式,神经网络就能够自动地适应连接权,以便按相似特征 把输入模式分组聚集。无师学习算法的例子包括Kohonen算法和 Carpenter-Grossberg自适应谐振理论(ART)等。 • (3)强化学习 • 强化(增强)学习是有师学习的特例。它不需要老师给出目标输出。 强化学习算法采用一个“评论员”来评价与给定输入相对应的神经网 络输出的优度(质量因数)。强化学习算法的一个例子是遗传算法 (GA)。
• • • • • • • • • •
• 6-2专家系统由哪些部分构成?各部分的作用为何? • 答: •
• 5-7遗传算法、进化策略和进化编程的关系如何?有何区别? • 遗传算法是一种基于空间搜索的算法,它通过自然选择、遗传、变异 等操作以及达尔文适者生存的理论,模拟自然进化过程来寻找所求问 题的解答。 • 进化策略(Evolution Strategies,ES)是一类模仿自然进化原理以求 解参数优化问题的算法。 • 进化编程根据正确预测的符号数来度量适应值。通过变异,为父代群 体中的每个机器状态产生一个子代。父代和子代中最好的部分被选择 生存下来。 • 进化计算的三种算法即遗传算法、进化策略和进化编程都是模拟生物 界自然进化过程而建立的鲁棒性计算机算法。在统一框架下对三种算 法进行比较,可以发现它们有许多相似之处,同时也存在较大的差别。 • 进化策略和进化编程都把变异作为主要搜索算子,而在标准的遗传算 法中,变异只处于次要位置。交叉在遗传算法中起着重要作用,而在 进化编程中却被完全省去,在进化策略中与自适应结合使用,起了很 重要的作用。 • 标准遗传算法和进化编程都强调随机选择机制的重要性,而从进化策 略的角度看,选择(复制)是完全确定的。进化策略和进化编程确定 地把某些个体排除在被选择(复制)之外,而标准遗传算法一般都对 每个个体指定一个非零的选择概率。

第8章自然语言理解

第8章自然语言理解

词 the liow flies
表8-3 句子识别过程
当前状态 a b b b c e

a→detb b→adjb b→adj b b→noun c c→verbe e→noun f
新状态 b b b c e f(识别)
其中,A,BN,tT,即A,B都是单独的非终结符;t 是单独的终结符。
右线性文法。其文法规则必须采用如下形式
A→tB 或
A→t
2. 上下文无关的文法 上下文无关的文法已广泛应用于定义程序设计语言,它 的文法生成能力强于正则文法。其形式为:
A→x 其中,AN,xV*,即每条产生是的左侧必须是一个 单独的非终结符。在这种形式体系中,规则不依赖于 符号A所处的上下文,所以称上下文无关文法。
有合法语句构成遵从该文法的语言。
8.2.2 乔姆斯基体系
乔姆斯基(N. Chomsky)依据文法规则表示形式的受 限程度,将文法(和语言)划分为四个等级,如表8-2所示,
称为乔姆斯基体系。
表8-2 乔姆斯基体系
类型 语种
规则限制
0 无约束短语结构法 无
1
上下文有关文法
左部至少包括一个非终结符,右部符号的个 数不少于左部
表8-1自然语言的层次划分与对应技术
理论 模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论
层次结构 语音 词汇 语法 语义 语用
对应技术 模板匹配 词典结构 扩展转移网络,CF规则 产生式规则,概念相依理论 脚本、框架、语义网络、逻辑
8.2.4 句法模式匹配和转移网络
句法分析最为简单、直观的方法也许就是模式匹配。 1. 用转移网络表示句法模式 由于自然语言就有许多模式。这些模式可用状态转移图来表 示,这种用状态转移图来表示的表达方式称之为转移网络 (TN,Transition Network)。

什么是自然语言理解

什么是自然语言理解

什么是自然语言理解
自然语言理解(NLU)是人工智能的重要研究领域之一,其
目标是模仿人类理解语言的能力。

它旨在使计算机能够通过识别、理解和解释自然语言来获取有用信息或完成特定任务。

自然语言理解可以为人力资源和监督学习提供数据和洞察,使其能够有效地回答问题,发现潜在的意义和关系,并能够预测各种可能的结果。

它可以帮助机器发现新的概念,例如将抽象概念翻译成具体表达。

NLU可以分为三个基本步骤:词汇分析,语法分析和形式语
义分析。

在词汇分析级别,NLU系统会标记文本中的每一个词,以此确定句子的意义。

在语法分析级别,它会通过检测句子中包含的语法结构(例如主语、宾语和定语),来确定句子的类型和意义。

在形式语义分析级别,NLU系统会尝试分析
句子的深层含义,例如分析话语者的目的或整体上下文。

NLU最近被广泛应用于语音识别、机器翻译、聊天机器人等
领域。

它可以帮助机器理解口头语言,有效地回答问题,并与人进行实时交流,从而提高人机交互的效率。

它还可以帮助发现隐藏在文本中的意义。

总之,自然语言理解为机器提供了更好的理解人类话语的能力,它可以更有效地处理语音识别、机器翻译、聊天机器人等任务,并提高人机交互的效率。

高级人工智能-8自然语言理解共81页

高级人工智能-8自然语言理解共81页

39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
高级人工智能-8自然语言理解
1、纪律是管理关系的形式。——阿法 纳西耶 夫 2、改革如果不讲纪律,就难以成功。
3、道德行为训练,不是通过语言影响 ,而是 让儿童 练习良 好道德 行为, 克服懒 惰、轻 率、不 守纪律 、颓废 等不良 行为。 4、学校没有纪律便如磨房里没有水。 ——夸 美纽斯
5、教导儿童服从真理、服从集体,养 成儿童 自觉的 纪律性 ,这是 儿童道 德教育 最重要 的部分 。—— 陈鹤琴
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯

简述自然语言理解的定义和层次

简述自然语言理解的定义和层次

自然语言理解(NLU)是指计算机系统对人类语言进行理解和解释的过程。

它涉及到从语言中提取出意义、逻辑和情感等信息,使得计算机能够像人类一样理解并与之进行交互。

在深入探讨自然语言理解的层次之前,让我们先简要地了解一下自然语言理解的定义。

自然语言理解是指计算机能够解析和理解人类自然语言的能力,包括对语义、语法、逻辑和语用的理解。

它旨在使计算机能够准确地理解并处理人类语言的各种含义和目的,从而能够进行智能的对话和决策。

自然语言理解的层次可以分为几个层次,从简单到复杂逐步深入。

首先是基本的语义理解,计算机需要能够识别出句子中的实体、动作和关系等基本信息。

其次是逻辑推理,计算机需要能够根据语句之间的逻辑关系进行推理和推断。

再次是情感理解,计算机需要能够识别出句子中表达的情感色彩和态度,如正面情感、负面情感或中性情感等。

最后是语境理解,计算机需要能够根据上下文和语境来理解句子的真实含义和目的。

在实际的应用中,自然语言理解的层次可以根据具体的任务和需求进行不同的扩展和深化。

例如在智能客服系统中,自然语言理解需要能够理解用户的问题并给出准确的回答;在智能文本分析系统中,自然语言理解需要能够理解文本中的信息并进行分类和关联分析等。

个人观点来说,自然语言理解是人工智能领域非常核心和关键的一个领域。

随着人工智能技术的不断发展和普及,自然语言理解的能力将极大地改变人机交互的方式,并在各种应用领域发挥着重要作用。

自然语言理解是计算机理解和处理人类语言的重要能力,它涉及到基本的语义理解、逻辑推理、情感理解和语境理解等多个层次,并在实际应用中发挥着重要的作用。

希望通过本文的介绍,你能对自然语言理解有一个更深入和全面的了解。

自然语言理解(NLU)是指计算机系统对人类语言进行理解和解释的过程。

它涉及到从语言中提取出意义、逻辑和情感等信息,使得计算机能够像人类一样理解并与之进行交互。

在深入探讨自然语言理解的层次之前,让我们先简要地了解一下自然语言理解的定义。

自然语言理解 教学大纲

自然语言理解 教学大纲

自然语言理解教学大纲教材:自然语言理解赵海清华大学出版社第1章:自然语言处理概要1.概念和术语包括什么是自然语言、自然语言处理和自然语言理解的关系、以及计算语言学。

2.自然语言处理技术的挑战自然语言处理被迫需要承担两类知识一一常识知识与语言学知识的处理和解析任务。

后者属于自然语言处理这一领域独一无二的需求。

3.机器翻译4.语言处理层次形态分析、句法分析、语义分析、语用分析、篇章分析、世界知识分析5.应用型自然语言处理人机对话系统6.自然语言处理的学术出版体系国际计算语言学会(AC1)等第2章:n元语言模型1.概率论基础首先回顾概率论的基本知识,如联合概率、条件概率、贝叶斯等。

2.语言模型用于语言生成语言生成的过程称为解码。

n元语言模型给出的是n元组出现的概率,因此合理或正确的语言现象必然有更大的概率或似然,这一观察是语言模型能在预测性解码任务之中发挥作用的关键。

3.n元语言模型的工作方式n元机制、马尔可夫假设4.评价指标困惑度5.n元语言模型的平滑方法1aP1aCe平滑、Good-TUring平滑、Je1inek-MerCer平滑、KatZ平滑、KneSer-Ney平滑、Pitman-YOr平滑6.非n元机制的平滑方法缓存、跳词、聚类7.平滑方法的经验结果对比几种平滑技巧的组合效果,以及对比它们在困惑度和语音识别的单词准确率上的差异。

8.n元语言模型的建模工具介绍了一些常用的平滑工具包第3章:语言编码表示1.独热表示用独热码表示语言符号2.特征函数一个文本对象样本基于词一级的独热表示就是展示n元组本身,因此这个部分也称之为n元组特征,它也是自然语言最直接、最基本的特征。

3.通用特征模板在实际机器学习模型建立过程中,会用到成千上万维的特征向量,故而涉及成千上万个特征函数,如果这些函数要一个个定义,建模过程将会变得烦琐不堪。

因此,实际上,特征函数可以按照定义属性进行分组,这样统一定义的一组特征函数(对应于特征向量维度上的一个片段)称之为特征模板。

自然语言理解综述

自然语言理解综述

自然语言理解综述
自然语言理解(Natural Language Understanding)是人工智能
领域中,研究如何使计算机能够理解和处理自然语言的一项重要任务。

它涉及以人类语言为输入,并将其转换为机器可理解的形式,以便进
行进一步的处理和分析。

自然语言理解的目标是使计算机能够理解和解释人类语言的含义,包括语法、词义、语义和上下文等方面。

这种理解能力使计算机能够
根据用户的指令或问题,准确理解其意图并做出相关响应。

自然语言理解涉及各种技术和方法,包括文本分析、句法分析、
语义分析、语义角色标注、语义关系抽取等。

这些技术通过模型训练
和算法优化,使计算机能够根据上下文和语义规则对文本进行解析和
理解。

自然语言理解在许多应用领域中起着重要的作用,例如智能助理、机器翻译、智能客服、信息检索等。

通过自然语言理解,计算机能够
处理人类语言,并从中获取信息,为用户提供更好的服务和支持。

尽管自然语言理解在过去几十年中取得了显著的进展,但其挑战
仍然存在。

由于自然语言的复杂性和多义性,理解自然语言仍然是一
个非常困难的问题。

因此,研究人员一直在努力改进自然语言理解的
精度和效率,并开展更深入的研究,以应对更复杂的语言环境。

总而言之,自然语言理解是一项富有挑战性又具有广泛应用前景
的研究领域。

随着人工智能的发展,我们可以期待自然语言理解在各
个领域中发挥越来越重要的作用。

自然语言理解

自然语言理解

汉语词法分析 特点:找出词素简单,切分出词困难。 例如:优秀人才学人才学 1. 优秀人-才学人才学 2. 优秀人才-学人才学
9
第8章 自然语言理解及其应用
8.1自然语言理解的概念与发展历史 8.2 语音分析 8.3 词法分析
8.4 句法分析
8.5 语义分析 8.6 基于语料库的大规模真实文本的处理 8.7 机器翻译 8.8 语音识别
10
8.4 句法分析
8.4.1 乔姆斯基的形式文法
8.4.2 句法分析树
8.4.3 转移网络
8.4.4 扩充转移网络
11
8.4.1 乔姆斯基的形式文法
1950年提出,表示形式:G = (T,N,S,P) T:终结符集合 N:非终结符集合 S:起始符 P:产生式规则集
例 1 G=(T,N,S,P)
.
→ART + N + VP →The man + V + NP
→The man killed + NP
→The man killed + ART + N
→The man killed a deer.
14
8.4.2 句法分析树
句法分析树举例
15
8.4.3 转移网络
转移网络的一般结构
由结点和带有标记的弧构成,其中结点表示状态,弧对 应于符号,实现从一个状态转移到另一个状态。
词法分析算法举例:
repeat look for word in dictionary if not found then modify the word
例:importable分为 import-able或 im-port-able
Until word is found or no further modification possible

自然语言理解PPT课件

自然语言理解PPT课件

依存关系
词语之间的依赖关系,包括主谓关系、 动宾关系等。
语义分析
语义分析
理解句子所表达的实际意义,涉 及词义消歧、句义理解等方面。
词义消歧
确定多义词在具体语境中的意义。
句义理解
理解整个句子的意义,涉及句子的 主旨、意图等。
语境理解
语境理解
结合上下文信息,理解当前词语 或句子的意义。
上下文信息
当前词语或句子之前的文本信息, 用于推断当前词语或句子的意义。
自然语言理解的重要性
提高人机交互的效率和体验
自然语言理解技术使得人机交互更加自然、便捷,提高了用户体 验。
推动人工智能技术的进步
自然语言理解技术的发展对于人工智能技术的进步具有重要意义, 是人工智能技术发展的重要方向之一。
促进跨语言交流
自然语言理解技术可以帮助不同语言和文化背景的人们进行交流, 促进跨文化交流和理解。
语境效应
上下文信息对当前词语或句子意 义的改变效果。
04 自然语言理解的技术挑战 与解决方案
数据稀疏性问题
总结词
数据稀疏性是指训练数据不足或数据分布不均匀,导致模型难以学习到有用的特征和模式 。
详细描述
在自然语言处理任务中,数据稀疏性是一个常见问题。由于语言本身的复杂性和多样性, 很难收集到足够丰富和多样的训练数据。此外,不同领域和场景的数据分布也可能存在很 大差异,导致模型在某些情况下表现不佳。
语境理解问题
总结词
语境理解问题是指模型需要理解句子或段落之间的逻辑关系和语义联系,以推断出正确的意义。
详细描述
在自然语言处理中,语境理解是非常重要的。一个词或句子的含义往往需要结合上下文才能确定。例如,“他是一名 医生”这句话在不同的语境下可能有不同的含义,可能是指他是医生这个职业,也可能是指他正在扮演医生的角色。

第八章-自然语言处理

第八章-自然语言处理
自动分词: 汉语处理的难题之一
用程序从句子中切分出单词
自动分词
主要分词算法: 1.基于词表的分词-最大匹配 即“长词优先”原则,来进行分词 2.基于统计的分词
分词的难点 歧义字段处理 未登入词处理: 人名识别, 地名识别, 译名 识别, 新词识别
分词歧义
例:南京市长江大桥
南京|市长|江大桥
计算语言学是从计算角度处理语言 将人们对语言的结构规律的认识用精确的、形式化 的、可计算的方式(计算模型)加以表示。
中文信息处理
中文信息处理的研究内容是利用计算机对汉语的音、 形、义等语言文字信息进行的加工和操作,包括:对 字、词、短语、句、篇章的输入、输出、识别、转换、 压缩、存储、检索、分析、理解和生成等各方面的处 理技术。
理解一段文字所需的NLP基本技术
文本预处理:文本格式转换、HTML->TXT 转换、 文件合并噪音信息过滤
句子切分:把段落切分成一个个句子 分词;把句子分成一个个单词 词性标注(Part-of-Speech Tagging):名词、动词、形
容词等 句法分析:句子的句法结构 词义消歧(Word Sense Disambiguation) 语义关系分析; 指代消解(Anaphora Resolution); 篇章理解; 自动摘要生成;
命名实体
时间、地名、人名、组织机构名 商标、公司名、电话号码、电子邮件地址等等
合成词,简称,派生词
三个代表、十六大 牛市、熊市 微博
语法分析/句法分析
目的 : 分析句子结构, 找出词,短语在句中的相互关系 以及各自的作用, 并用层次结构来加以表示
S
NP
VP
V NP
PP
Miss Smith put two books on this dining table.

自然语言理解

自然语言理解
语 名词短语 book
15
自然语言理解的过程—句法分析 句法分析方法 自然语言理解的过程 句法分析—句法分析方法 句法分析
上下文 无关文法
变换 文法
句法分析方法
自顶向下 分析法 自底向上 分析法
16
自然语言理解的过程—句法分析 上下文无关文法 自然语言理解的过程 句法分析—上下文无关文法 句法分析
自然语言理解的过程—句法分析 上下文无关文法 自然语言理解的过程 句法分析—上下文无关文法 句法分析
利用上述上下文无关文法,给出如下语句的分析树。 例 利用上述上下文无关文法,给出如下语句的分析树。 The professor trains Jack.
语句 句子 名词短语 动词短语 终标符
冠词
名词
3
自然语言理解的定义 自然语言理解俗称人机交互, 自然语言理解俗称人机交互,是人工 智能的分支学科, 智能的分支学科,研究用计算机模拟人 的语言交际过程, 的语言交际过程,使计算机能理解和运 用人类社会的自然语言如汉语、英语等, 用人类社会的自然语言如汉语、英语等, 实现人机之间的自然语言通信, 实现人机之间的自然语言通信,以代替 人的部分脑力劳动,包括查询资料、 人的部分脑力劳动,包括查询资料、解 答问题、摘录文献、 答问题、摘录文献、汇编资料以及一切 有关自然语言信息的加工处理。 有关自然语言信息的加工处理。
自然语言理解的过程——句法分析 自然语言理解的过程 句法分析
句法分析是对句子和短语结构进行分析。 句法分析是对句子和短语结构进行分析。 句法分析主要作用有: 句法分析主要作用有: 1)分析句子或短语结构,确定构成句子的各 )分析句子或短语结构, 个词、 个词、短语之间的关系以及各自在句子中的作用 并将这些关系表达为层次关系。 等,并将这些关系表达为层次关系。 2)规范句法结构,在分析句子的过程中,把 )规范句法结构,在分析句子的过程中, 分析句子各成分间关系的推导过程用树图表达, 分析句子各成分间关系的推导过程用树图表达, 使这种图成为句法分析树。 使这种图成为句法分析树。 句法分析是由专门设计的分析器进行的, 句法分析是由专门设计的分析器进行的,其分析 过程就是构造句法树的过程, 过程就是构造句法树的过程,将每个输入的合法 语句转换为一棵句法分析树。 语句转换为一棵句法分析树。 13

人工智能第8章__自然语言理解

人工智能第8章__自然语言理解
7
8.3.1 句法规则的表示方法
变换文法(1/2)
上下文无关文法反映的仅是一个句子本身的层次结构和生成过程,而自然 语言是上下文有关的。为此,乔姆斯基又提出了变换文法(Transformational Grammar)。该文法认为,句子的结构有深层和表层两个层次。例如: She read me a story 和 She read a story to me 的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句 也只是表层结构不同,其深层结构则是相同的。 在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实现 的,如图8.6给出了一条把主动句变换为被动句的变换规则。
8.3.2 自顶向下与自底向上分析
自底向上分析法 自底向上分析,是以输入语句的单词为基础,首先按重写规则的箭头指向, 反方向使用那些最具体的重写规则,把单词归并成较大的结构成分,如短语 等,然后对这些成分继续逆向使用规则,直到分析树的根节点为止。 仍以语句 The professor trains Jack 为例,逆向使用图8.4中的那些具体规则后,可得到图8.9所示的 部分分析树。
6
8.3.1 句法规则的表示方法
上下文无关文法(2/2)
例8.2 利用上述上下文无关文法,给出如下语句的分析树。 The professor trains Jack. 解:如图8.5
句子 名词短语 动词短语 语句 终标符
冠词
名词
动词
名词短语
专用名词 The professor trains Jack .
8.3 句法分析
句法分析是对句子和短语的结构进行分析,其最大单位是一个句子。分析 的目的是要找出词、短语等的相互关系,以及他们在句子中的作用等,并用 一种层次结构加以表达。这种层次结构可以是句子的成分关系、,也可以是 语法功能关系。

第八章 自然语言理解

第八章 自然语言理解

第八章自然语言理解语言理解和处理是人工智能早期的和活跃的研究领域之一。

由于它的难度很大,至今仍未能达到很高的水平。

本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成、机器翻译和语音识别等重要问题;最后举例介绍自然语言理解系统。

8.1 语言及其理解的一般问题什么是语言和语言理解?自然语言理解与人类的哪些智能有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。

这些问题是我们开始研究自然语言理解时感兴趣的。

8.1.1 语言和语言理解语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。

如果没有各种口语和书面语,如英语、华语、法语和德语等,人类之间的充分和有效交流就难以想象。

语言是随着人类社会和人类自身的发展而不断进化的。

现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。

要研究自然语言理解,首先必须对自然语言的构成有个基本认识。

语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。

语言是一个符号体系,但与其他符号体系又有所区别。

语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。

词汇又可分为词和熟语。

熟语就是一些词的固定组合,如汉语中的成语。

词又由词素构成,"教师"是由"教"和"师"这两个词素所构成的。

词素是构成词的最小的有意义的单位。

"教"这个词素本身有教育和指导的意义,"师"则包含了"人"的意义。

语法是语言的组织规律。

语法规则制约着如何把词素构成词,词构成词组和句子。

语言正是在这种严密的制约关系中构成的。

用词素构成词的规则叫构词规则,如教+师-→教师。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

理论上讲,上述→形式的文法规则的定义几乎不受 限制:规则两边可以出现任意多个符号、而且规则可以递 归。 但是,规则形式不受限制会增加句法分析的复杂程度; 如果对规则形式加以限制,可以简化句法分析,但缺点是 会限制语言表达形式和描述能力。
7
2011-12-26
8.2.2 乔姆斯基体系
乔姆斯基(Noam Chomsky)依据文法规则表示形式的 受限程度,将文法(和语言)划分为四个等级,如表8-2所 示,称为乔姆斯基体系。 表8-2 乔姆斯基体系
A→y/x_z
其中,AN,yV+,x,zV*。这条规则的意思是:如果A出现在上下文 “x z”中,即前面紧挨着符号串x,后面紧挨着符号串z,则A可以重写为y。 即有 xAz→xyz。 第二种标记体现了:一个符号的重写依赖于其上下文;这也是“上下 文有关”这个名称的由来。
10
2011-12-26

左线性文法的文法规则必须采用如下形式 A→Bt 或 A→t
其中,A,BN,tT,即:A,B都是单独的非终结符;t 是单独的终结符。

右线性文法的文法规则必须采用如下形式 A→tB 或 A→t
8
2011-12-26
右线性文法例子如: S→aA A→S a A b c B d
B→cA
B→d 图8-5 对应的状态转移图
考虑到上下文无关文法的句法分析远比上下文有关文法 的句法分析有效,因此人们希望能在增强上下文无关文法的 句法分析的基础上,实现机器的自然语言理解。
4. 无约束短语结构法 无约束短语结构法是指对重写规则没有任何限制, 但它很少用来处理自然语言问题。无约束短语结构法对 文法规则的表示形式不作任何限制,从而能使定义的语 言提供充分的描述功能。该文法不保证语言的递归性, 即不能确保语句合法的可判性,所以很少用于定义自然 语言。
4
2011-12-26
4.自然语言理解过程的层次 语言虽然表示为一连串的文字符号,但其内部实际上是 一个层次化的过程。现代语言学家把这一过程分为3个层次: 词法分析、句法分析和语义分析。如果接收到的是语音流, 那么在上述3个层次之前还应当加入一个语音分析层。虽然 这种层次之间并非是完全隔离的,但是这种层次化的划分的 确有助于更好地体现语言本身的构成。 (1) 语音分析 (2) 词法分析 (3) 句法分析 (4) 语义分析 (5) 语用分析
达起始符(句法规则被倒过来用)。
2. 句法分析中的搜索方法
(1) 所有路径法:对逐个输入的单词可能充当的所有角色都 进行分析。由于许多不可能成功的分析路径都被搜索,因此, 会导致搜索效率低下 。 (2) 带回溯的最优路径法:用启发式对搜索路径进行排序; 搜索失败时进行回溯(应减少回溯处理的工作量)。 (3) 带修补的最优路径法:搜索失败时并不进行回溯,而是 改变句子成分对应的语法结构。 (4) 等待观察法:在分析输入的句子时,对于任何句子成分, 如果没有足够信息用于得到确定的分析结果,就暂不要判定, 等待后续输入提供足够的信息。这种方法在很大程度上避免 回溯,但缺点是在分析复杂句子的时候必须暂存许多角色待 定的句子成分。例子系统有PARSIFAL。
11
2011-12-26
8.2.3 句法分析的策略
1. 句法分析方式 依据文法的形式定义,句法分析可分为两大类:
– 自顶向下:从树顶的根节点开始建立句法分析树;从
推导的顺序看,是从起始符开始向句子进行推导(正 向运用句法规则) 。
– 自底向上:从树底的叶节点(即词或词类)开始建立
句法分析树;从推导的顺序看,是从句子开始直至到
例如:S→aSb,S→x。
如果令: S→(S),S→x;则可生成:x, (x), ((x)), … 上下文无关文法正是以这种方式解决了正则文法无法解 决的嵌套结构。
9
2011-12-26
上下文无关文法的语言的句法分析可以采用基于有限状 态自动机的转移网络技术或产生式推导技术。分析的结构可 以表示为句法分析树。 例如:“Mary eats cheese”的分析推导和句法分析树如下:
正则文法的规则形式高度受限,可以用有限状态自 动机程序做高效的句法分析。 在对应的有限状态转移 图(图中状态节点的数量有限)上,每一条从起始节点 到最终节点的路径都对应于正则语言的一个句子。 因 此,正则文法又称有限状态文法。
2. 上下文无关的文法 上下文无关的文法已广泛应用于定义程序设计语言, 它的文法生成能力强于正则文法。其形式为: A→x 其中,AN,xV*,即每条产生是的左侧必须是一个单 独的非终结符。在这种形式体系中,规则不依赖于符号A 所处的上下文,所以称上下文无关文法。
12
2011-12-26
8.2.4 句法模式匹配和转移网络
句法分析最为简单、直观的方法也许就是模式匹配。 如:“bears love honey” 可以用句法模式 noun+verb+noun来匹配。 而“wooly bears”或“ferocious wooly bears” 可以用模式(adj. * noun)来匹配(*表示可以有 零个或多个形容词在名词前面)。
3
2011-12-26
(3) 源表示成分间的语义相关性 自然语言是上下文相关的语言,体现为语言成分之间的 语义相关性。譬如:在语句中处于相同位置的同类词组, 可能因为语义不同而导致语法结构的较大差异。
例8-5 “John saw the boy in the park with a telescope.” 和 “John saw the boy in the park with a dog.”
2011-12-26
第8章 自然语言理解
8.1 自然语言理解的一般问题 8.2 句法分析 8.3 语义分析 8.4 自然语言理解系统应用举例 8.5 机器翻译 8.6 语音识别 8.7 信息检索
8.1 自然语言理解的一般问题
1.自然语言的构成 语言是由音义结合的词汇与语法构成的体系
图8-1 语言的构成
类型 0 1 2 3 语种 无约束短语结构法 无 上下文有关文法 上下文无关文法 正则文法 左部至少包括一个非终结符,右部符号的个 数不少于左部 左部必须是单一非终结符 左部必须是单一非终结符;右部或者是单一 终结符,或者是单一终结符跟单一非终结符 规则限制
1. 正则文法 处于乔姆斯基体系底部的是正则语言,其采用的3型 文法限定(限制最多)的文法规则。其可分为左线性文 法和右线性文法。
图8-6 句法分析树
3. 上下文有关文法
自然语言是上下文有关的文法,上下文有关的语言需要用1型文法加以 定义,文法规则允许其左部有多个符号(至少包括一个非终结符),以指 示上下文相关性;但要求规则右部符号的个数不少于左部,以确保语言的 递归性(即语句合法的可判性)。上下文有关的文法有两种标记方法。 第一种标记为:上下文有关文法满足于 x →y 其中,y的长度大于或等于x,而且y,xV*。例如,AB→CDE 第二种标记为:
词组构造法:词构成词组的规则,如:红+铅笔 红铅笔
造句法:用词或者词组造句的规则。 另外,语言是音义结合。每个词的发音是由一个或多个音节组 合而成,音节又由音素构成,音素是最小的、可独立的声音单 元;有:元音音素如/a:/,辅音因素如/b/。
2.自然语言理解的困难 导致自然语言理解存在困难的主要因素有三个: (1) 目标表示的复杂性 (2) 源-目映射的多样性 (3) 源表示成分间的语义相关性
8.2 句法分析
8.2.1 文法和语言的形式定义 8.2.2 乔姆斯基体系 8.2.3 句法分析的策略 8.2.4 句法模式匹配和转移网络 8.2.5 句法分析的确定性算法 8.2.6 词汇功能语法 8.2.7 基于统计方法的句法分析方法
6
2011-12-26
8.2.1 文法和语言的形式定义
自然语言的文法属于所谓的短语结构文法,它可以形 式地表示为一个4元组: G=(T, N, P, S) 其中,T是终结词汇表(确定了该语言中合法语句可用的单 词符号),N是非终结词汇表(可以是描述文法的词汇), T和N的并构成了V称为总词汇表,而且两者不相交;P是文 法规则的有穷集(约束句子中单词符号的排序),每条文 法规则形如→,V,VNV (指示来自总词汇表 V的符号,可以出现0或任意多次);S称为起始符,SN。 能被以这种方式定义的某种文法接收的(识别的)所 有合法语句构成遵从该文法的语言。
<SENTENCE><SUBJECT><VERB PHRASE> Mary<VERB PHRASE> Mary<VERB> <OBJECT> Mary eats <OBJECT>
Mary eats cheese
SUBJECT
SENTENCE VERB PHRASE VERB Mary eats OBJECT cheese
1
2011-12-26
熟语:一些词的固定组合(词组或句子),如:成语、惯用语、 歇后语、谚语等。 词素:如:合成词“教师”由“教”和“师”两个词素组成、 “teacher”由“teach”和“er”组成。有的词素可以独立构 成单纯词。 构词法:词素构成词的构词规则 构形法:构造词形(单、复数、阴性、阳性、中性)的规则
语音分析:根据音位规则,从语音流中区分出一个个独立的音 素(是最小的、可独立的声音单元。有:元音音素如/a:/,辅 音因素如/b/),再根据音位形态规则找出一个个音节及其对应 的词素或词。 词法分析:从句子中切分出单词、甚至从词汇中找出词素。英 语找词容易,找词素比较难(如importable可能是im-portable或 import-able);汉语找词素容易,但从句子中分出词来比较难。 句法分析:对句子或短语的结构进行分析。方法有:短语结构 语法、格语法、扩充转移网络、功能语法等。分析的目的是找 出词、短语等的相互关系以及各自在句子中的功能等,分析结 果往往用一种层次结构加以表达,这种层次结构可以是:从属 关系、直接成分关系、语法功能关系。
相关文档
最新文档