第十一章 自然语言理解 人工智能课程 北京大学

合集下载

《人工智能》课程教学大纲.doc

《人工智能》课程教学大纲.doc

《人工智能》课程教学大纲课程代码:H0404X课程名称:人工智能适用专业:计算机科学与技术专业及有关专业课程性质:本科生专业基础课﹙学位课﹚主讲教师:中南大学信息科学与工程学院智能系统与智能软件研究所蔡自兴教授总学时:40学时﹙课堂讲授36学时,实验教学4学时﹚课程学分:2学分预修课程:离散数学,数据结构一.教学目的和要求:通过本课程学习,使学生对人工智能的发展概况、基本原理和应用领域有初步了解,对主要技术及应用有一定掌握,启发学生对人工智能的兴趣,培养知识创新和技术创新能力。

人工智能涉及自主智能系统的设计和分析,与软件系统、物理机器、传感器和驱动器有关,常以机器人或自主飞行器作为例子加以介绍。

一个智能系统必须感知它的环境,与其它Agent和人类交互作用,并作用于环境,以完成指定的任务。

人工智能的研究论题包括计算机视觉、规划与行动、多Agent系统、语音识别、自动语言理解、专家系统和机器学习等。

这些研究论题的基础是通用和专用的知识表示和推理机制、问题求解和搜索算法,以及计算智能技术等。

此外,人工智能还提供一套工具以解决那些用其它方法难以解决甚至无法解决的问题。

这些工具包括启发式搜索和规划算法,知识表示和推理形式,机器学习技术,语音和语言理解方法,计算机视觉和机器人学等。

通过学习,学生能够知道什么时候需要某种合适的人工智能方法用于给定的问题,并能够选择适当的实现方法。

二.课程内容简介人工智能的主要讲授内容如下:1.叙述人工智能和智能系统的概况,列举出人工智能的研究与应用领域。

2.研究传统人工智能的知识表示方法和搜索推理技术,包括状态空间法、问题归约法谓词逻辑法、语义网络法、盲目搜索、启发式搜索、规则演绎算法和产生式系统等。

3.讨论高级知识推理,涉及非单调推理、时序推理、和各种不确定推理方法。

4.探讨人工智能的新研究领域,初步阐述计算智能的基本知识,包含神经计算、模糊计算、进化计算和人工生命诸内容。

人工智能导论课件第11章第4-5节

人工智能导论课件第11章第4-5节
进行解释。语法规则决定了解析方式。
11.4 语法类型与语义分析
• 词汇——与语言的词汇、单词或语素(原子)有关。词汇源自词典。 • 语用学——在语境中运用语言的研究。 • 省略——省略了在句法上所需的句子部分,但是,从上下文而言,句子在语义
上是清晰的。
11.4.1 语法类型
• 学习语法是学习语言和教授计算机语言的一种好方法。费根鲍姆等人将语言的 语法定义为“指定在语言中所允许语句的格式,指出将单词组合成形式完整的 短语和子句的句法规则”。
11.5.2 自然语言处理工具
• 许多不同类型的机器学习算法已应用于自然语言处理任务。这些算法的输入是 一大组从输入数据生成的“特征”。一些最早使用的算法,如决策树,产生硬 的if-then规则类似于手写的规则,是再普通的系统体系。然而,越来越多的研 究集中于统计模型,这使得基于附加实数值的权重,每个输入要素柔软,概率 的决策。此类模型具有能够表达许多不同的可能的答案,而不是只有一个相对 的确定性,产生更可靠的结果时,这种模型被包括作为较大系统的一个组成部 分的优点。
11.5.3 自然语言处理技术难点
• 自然语言处理的技术难点一般有: – (1)单词的边界界定。在口语中,词与词之间通常是连贯的,而界定字词 边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的 一种最佳组合。在书写上,汉语也没有词与词之间的边界。 – (2)词义的消歧。许多字词不单只有一个意思,因而我们必须选出使句意 最为通顺的解释。 – (3)句法的模糊性。自然语言的文法通常是模棱两可的,针对一个句子通 常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖 语意及前后文的信息才能在其中选择一棵最为适合的剖析树。
11.4.1 语法类型

第11章 自然语言理解(AI应用3版)

第11章 自然语言理解(AI应用3版)

汉语词法分析 特点:找出词素简单,切分出词困难。 例如:优秀人才学人才学 1. 优秀人-才学人才学 2. 优秀人才-学人才学
10
第11章 自然语言理解及其应用
11.1自然语言理解的概念与发展历史
11.2 语音分析
11.3 词法分析
11.4 句法分析
11.5 语义分析 11.6 基于语料库的大规模文本处理 11.7 机器翻译 11.8 语音识别 11.9基于隐马尔科夫模型的语音识别方法
T =(the,man,killed,a,deer,likes) N =(S,NP,VP,N,ART,V,Prep,PP) S=S P:(1) S→NP+VP (2) NP→N (3) NP→ART+N (4) VP→V (5) VP→V+NP (6) ART→the|a
13
(7)N→man|deer
22第11章自然语言理解及其应用111自然语言理解的概念与发展历史112语言处理过程的层次113词法分析114句法分析115语义分析116基于语料库的大规模文本处理117机器翻译118语音识别119基于隐马尔科夫模型的语音识别方法3第11章自然语言理解及其应用?111自然语言理解的概念与发展历史112语言处理过程的层次113词法分析114句法分析115语义分析116基于语料库的大规模文本处理117机器翻译118语音识别119基于隐马尔科夫模型的语音识别方法41111自然语言理解的概念微观角度
.
→ART + N + VP →The man + V + NP
→The man killed + NP
→The man killed + ART + N
→The man killed a deer.

3、《人工智能通识教程》(第2版)教学大纲20240710

3、《人工智能通识教程》(第2版)教学大纲20240710

《人工智能通识教程》(第2版)教学大纲一、课程基本信息• 课程名称:人工智能导论/ 人工智能概论• 课程代码:• 课程英文名称:AI-Introduction• 学时与学分:理论学时32,课外实践学时16,总学分2• 课程性质:必修课(选修课)• 适用专业:人工智能、大数据、计算机等工科专业(其他各专业)• 先修课程:略• 后续课程:机器学习、深度学习、智能机器人等二、课程目标学习本课程,通常旨在为学生奠定坚实的人工智能基础知识,培养其在人工智能领域的基本技能和理解能力。

以下是主要学习目标,可能会根据不同课程设置有所差异:1. 理解人工智能基础:掌握人工智能的基本概念、发展历程、主要分支领域(如机器学习、深度学习、自然语言处理、计算机视觉等)及其在现代社会中的应用。

2. 理论与技术基础:学习和理解支撑人工智能的核心算法和理论,包括搜索算法、知识表示、推理方法、决策制定、学习理论等。

3. 实践技能培养:通过编程实践和项目作业,掌握至少一种编程语言(如Python)在人工智能领域的应用,以及如何使用常见的AI框架和库((如TensorFlow、PyTorch)。

4. 问题解决能力:培养分析和解决人工智能问题的能力,包括如何定义问题、选择合适的技术路线、设计并实施解决方案。

5. 伦理与社会责任:讨论人工智能技术的伦理和社会影响,理解隐私保护、数据安全、算法偏见等议题,培养负责任的AI开发与应用意识。

6. 创新与批判性思维:鼓励学生批判性地评估现有的AI技术,激发创新思维,探索AI在新领域的应用可能。

7. 沟通与团队合作:通过团队项目,提升与他人合作解决复杂问题的能力,以及有效沟通研究成果和想法的能力。

8. 持续学习能力:鉴于AI领域的快速变化,课程应培养学生自主学习的习惯,跟踪技术进展,适应未来可能出现的新技术、新理论。

这些目标旨在为学生构建一个全面的人工智能知识框架,不仅关注技术细节,也重视理论与实践的结合,以及技术的社会影响和伦理考量,为学生将来在AI 领域的深入研究或职业发展打下坚实的基础。

人工智能原理_北京大学中国大学mooc课后章节答案期末考试题库2023年

人工智能原理_北京大学中国大学mooc课后章节答案期末考试题库2023年

人工智能原理_北京大学中国大学mooc课后章节答案期末考试题库2023年1.Turing Test is designed to provide what kind of satisfactory operationaldefinition?图灵测试旨在给予哪一种令人满意的操作定义?答案:machine intelligence 机器智能2.Thinking the differences between agent functions and agent programs, selectcorrect statements from following ones.考虑智能体函数与智能体程序的差异,从下列陈述中选择正确的答案。

答案:An agent program implements an agent function.一个智能体程序实现一个智能体函数。

3.There are two main kinds of formulation for 8-queens problem. Which of thefollowing one is the formulation that starts with all 8 queens on the boardand moves them around?有两种8皇后问题的形式化方式。

“初始时8个皇后都放在棋盘上,然后再进行移动”属于哪一种形式化方式?答案:Complete-state formulation 全态形式化4.What kind of knowledge will be used to describe how a problem is solved?哪种知识可用于描述如何求解问题?答案:Procedural knowledge 过程性知识5.Which of the following is used to discover general facts from trainingexamples?下列中哪个用于训练样本中发现一般的事实?答案:Inductive learning 归纳学习6.Which statement best describes the task of “classification” in machinelearning?哪一个是机器学习中“分类”任务的正确描述?答案:To assign a category to each item. 为每个项目分配一个类别。

【人工智能】《人工智能》课程习题

【人工智能】《人工智能》课程习题

【⼈⼯智能】《⼈⼯智能》课程习题《⼈⼯智能》课程习题第⼀章绪论1-1. 什么是⼈⼯智能?试从学科和能⼒两⽅⾯加以说明。

1-2. 在⼈⼯智能的发展过程中,有哪些思想和思潮起了重要作⽤?1-3. 为什么能够⽤机器(计算机)模仿⼈的智能?1-4. 现在⼈⼯智能有哪些学派?它们的认知观是什么?1-5. 你认为应从哪些层次对认知⾏为进⾏研究?1-6. ⼈⼯智能的主要研究和应⽤领域是什么?其中,哪些是新的研究热点?第⼆章知识表⽰⽅法2-1状态空间法、问题归约法、谓词逻辑法和语义⽹络法的要点是什么?它们有何本质上的联系及异同点?2-2设有3个传教⼠和3个野⼈来到河边,打算乘⼀只船从右岸渡到左岸去。

该船的负载能⼒为两⼈。

在任何时候,如果野⼈⼈数超过传教⼠⼈数,那么野⼈就会把传教⼠吃掉。

他们怎样才能⽤这条船安全地把所有⼈都渡过河去?再定义描述过河⽅案的谓词:L-R(x, x1, y, y1,S):x1个修道⼠和y1个野⼈渡船从河的左岸到河的右岸条件:Safety(L,x-x1,y-y1,S’)∧Safety(R,3-x+x1,3-y+y1,S’)∧Boat(L,S)动作:Safety(L,x-x1,y-y1,S’)∧Safety(R,3-x+x1,3-y+y1,S’)∧Boat(R,S’)R-L (x, x1, y, y1,S):x2个修道⼠和y2个野⼈渡船从河的左岸到河的右岸条件:Safety(R,3-x-x2,3-y-y2,S’)∧Safety(L,x+x2,y+y2,S’)∧Boat(R,S)动作:Safety(R,3-x-x2,3-y-y2,S’)∧Safety(L,x+x2,y+y2,S’)∧Boat(L,S’)(2) 过河⽅案Safety(L,3,3,S0)∧Safety(R,0,0,S0)∧Boat(L,S0)L-R(3, 1, 3, 1,S0) L-R(3, 0, 3, 2,S0)Safety(L,2,2,S1)∧Safety(R,1,1,S1)∧Boat(R,S1)Safety(L,3,1,S1’)∧Safety(R,0,2,S1’)∧Boat(R,S1’)R-L (2, 1, 2, 0,S1) R-L (3,0, 1, 1,S1’)Safety(L,3,2,S2)∧Safety(R,0,1,S2)∧Boat(L,S2)L-R(3, 0, 2, 2,S2)Safety(L,3,0,S3)∧Safety(R,0,3,S3)∧Boat(R,S3)R-L (3, 0, 0, 1,S3)Safety(L,3,1,S4)∧Safety(R,0,2,S1)∧Boat(L,S4)L-R(3, 2, 1, 0,S4)Safety(L,1,1,S5)∧Safety(R,2,2,S5)∧Boat(R,S5)R-L (1, 1, 1, 1,S5)Safety(L,2,2,S6)∧Safety(R,1,1,S6)∧Boat(L,S6)L-R(2, 2, 2, 0,S6)Safety(L,0,2,S7)∧Safety(R,3,1,S7)∧Boat(R,S7)R-L (0, 0, 2, 1,S7)Safety(L,0,3,S8)∧Safety(R,3,0,S8)∧Boat(L,S8)L-R(0, 0, 3, 2,S8)Safety(L,0,1,S9)∧Safety(R,3,2,S9)∧Boat(R,S9)R-L (0, 1, 1, 0,S9)Safety(L,1,1,S10)∧Safety(R,2,2,S10)∧Boat(L,S10)2-3利⽤图2.3,⽤状态空间法规划⼀个最短的旅⾏路程:此旅程从城市A开始,访问其他城市不多于⼀次,并返回A。

高级人工智能第十一章

高级人工智能第十一章
强化学习分类
根据智能体是否依赖模型(即环境动态性的 先验知识),强化学习可分为基于模型的强 化学习和无模型的强化学习;根据更新策略 的方式,可分为值迭代和策略迭代。
价值迭代与策略迭代算法
价值迭代算法
价值迭代是一种通过不断更新状态值函数来寻找最优策略的方法,其核心思想 是利用贝尔曼方程进行迭代计算。
自然语言处理领域应用
机器翻译
实现不同语言之间的自动翻译,为跨语言交流提供便利。
情感分析与舆情监测
通过对文本的情感倾向进行分析,实现对舆情的自动监测 和预警。
智能问答与对话系统
构建能够自动回答问题和进行对话的智能系统,为用户提 音实时转换为文字,为听力 障碍者提供便利,同时也可用于 会议记录、语音笔记等场景。
策略迭代算法
策略迭代是一种通过交替进行策略评估和策略改进来寻找最优策略的方法,其 中策略评估是计算当前策略下的状态值函数,策略改进是根据状态值函数更新 策略。
深度强化学习算法及应用
深度强化学习算法
深度强化学习是将深度学习与强化学习相结合的方法,通过神经网络来逼近值函数或策略,以解决高维状态空间 或动作空间的问题。常见的深度强化学习算法包括DQN、PPO、A3C等。
梯度消失与梯度爆炸问题
深度神经网络在训练过程中可 能遇到的梯度消失或梯度爆炸 问题,以及相应的解决策略, 如批量归一化、残差结构等。
卷积神经网络应用
计算机视觉任务
卷积神经网络(CNN)在计算机视 觉领域的应用,包括图像分类、目标 检测、语义分割等。
卷积层与池化层
卷积层负责提取图像局部特征,池化 层则对特征进行降维处理,减少计算 量和过拟合风险。
高级人工智能第十一章
contents
目录

人工智能及其应用-第11章 自然语言理解(AI应用3版)

人工智能及其应用-第11章 自然语言理解(AI应用3版)
兼类词 一个词具有两个或者两个以上的词性 英文的Brown语料库中,10.4%的词是兼类词。
例如:
The back door On my back Promise to back the bill 汉语兼类词,例如:
把门锁上, 买了一把锁 他研究..., 研究工作
11.3 词法分析-词性标注方法
语言是音义结合的词汇和语法体系,是实现思维活动的物 质形式。语言是一个符号体系,但与其他符号体系又有所 区别。
语言是以词为基本单位的,词汇又受到语法的支配才可构 成有意义的句子,句子按一定的形式再构成篇章等。词汇 又可分为词和熟语。熟语就是一些词的固定组合,如汉语 中的成语。
词由词素构成,“教师”是由“教”和“师”这两个词素 所构成的。
会议研究通过了贯彻落实“两会”精神的有关决定, 审议通过了中国农工民主党中央1998年工作要点(草 案),并任命了中央副秘书长。
农工民主党中央主席蒋正华主持了会议,他说,农工 民主党有100多名党员作为代表和委员参加了今年的 “两会”,各位党员要认真履行代表和委员的职责,开好 会,在1998年的工作中认真贯彻“两会”精神,加强 农工民主党的自身建设,推动事业进一步发展,为建设有 中国特色社会主义事业作出新的贡献。
构形法和构词法称为词法。
11.2 语言处理过程的层次
句法:词组构造法和造句法。 词组构造法是词搭配成词组的规则,如红+铅笔→红铅 笔。这里“红”是一个修饰铅笔的形容词,它与名词 “铅笔”组合成了一个新的名词。 造句法则是用词或词组造句的规则,“我是计算机专 业的学生”,这是按照汉语造句法构造的句子。
利用计算机自动地从原始文档中提取全面、准 确地反映该文档中心内容的简洁、连贯的短文。
应对信息过载 分为单文档摘要和多文档摘要

人工智能原理 北京大学 11 PartVLearningChapter11Paradigmsi (11.1.

人工智能原理 北京大学 11  PartVLearningChapter11Paradigmsi (11.1.

Artificial IntelligenceSchool of Electronic and Computer EngineeringPeking UniversityWang WenminArtificial IntelligenceContents:☐Part 1. Basics☐Part 2. Searching☐Part 3. Reasoning☐Part 4. Planning☐Part 5. LearningPart 5. Learning Contents:☐9. Perspectives about Machine Learning☐10. Tasks in Machine Learning☐11. Paradigms in Machine Learning☐12. Models in Machine LearningSupervised Learning ParadigmSchool of Electronic and Computer EngineeringPeking UniversityWang WenminObjectives 教学目的In this chapter we will discuss in detail about the paradigms that have been proposed in machine learning.这一章我们详细讨论针对机器学习所提出的一些范式。

What are Learning Paradigms 什么是学习的范式☐The learning paradigms are used to denote the typical scenarios that are happened in machine learning.学习范式用于表示机器学习中发生的典型场景。

Why Study Learning Paradigms 为什么要研究学习的范式☐Designing an algorithm to solve a learning task may take a different paradigm, such as based on its experience or the interaction with its environment.设计一种解决学习任务的算法可能会采用不同的范式,例如基于其经验、或者与其环境的交互。

人工智能 自然语言理解

人工智能  自然语言理解

第十五讲 自然语言理解
2.句法分析 方法有:短语结构语法,扩充转移网络,功能语法等. (1)句法模式匹配和转移网络TN 一个句子可以表示成: (pronoun∨(adj*noun))verb (pronoun∨(adj*noun)) 用状态转移图表示称之TN: pron verb q4 pron q1
初态 q0 q3 q6 终态
det adj
q2
verbq5 noun
noun adj
第十五讲 自然语言理解
(2)扩充转移网络ATN 1970年Woods提出. 1075年Kaplan进行改进. ATN网是由一组网络所构成,每个网络都有一个网 络名,采用寄存器的方法实现.寄存器分为特征寄 存器和功能寄存器.其中: 特征寄存器:存放特征名和特征值,或是缺省值. 功能寄存器:反映句法成分之间的关系和功能.
第十五讲 自然语言理解
句子的扩充转移网络:
1:NP S a b 2:Verb c 5:NP 3:Verb 7:pp
S-1:a-b A:Subject ←*; 当前成分作主语送Subject S-2:b-c A:Main-verb ←*;当前成分作谓语 S-3:c-c C:Main-verb.type=be,do,have,model; A:Auxs<= Main-verb, Main-verb ←*; S-4:c-d D:*.form=past-part and Main-verb.type=be, A:voice ←passive, Auxs<= Main-verb, Main-verb ←*,Directobj ←Subject, Subject ←dump-np; S-7:d-d C:Voice=passtive and Subject=dump-np and *.prep=by A:Subject ←*.prep.object;

自然语言理解PPT课件

自然语言理解PPT课件

依存关系
词语之间的依赖关系,包括主谓关系、 动宾关系等。
语义分析
语义分析
理解句子所表达的实际意义,涉 及词义消歧、句义理解等方面。
词义消歧
确定多义词在具体语境中的意义。
句义理解
理解整个句子的意义,涉及句子的 主旨、意图等。
语境理解
语境理解
结合上下文信息,理解当前词语 或句子的意义。
上下文信息
当前词语或句子之前的文本信息, 用于推断当前词语或句子的意义。
自然语言理解的重要性
提高人机交互的效率和体验
自然语言理解技术使得人机交互更加自然、便捷,提高了用户体 验。
推动人工智能技术的进步
自然语言理解技术的发展对于人工智能技术的进步具有重要意义, 是人工智能技术发展的重要方向之一。
促进跨语言交流
自然语言理解技术可以帮助不同语言和文化背景的人们进行交流, 促进跨文化交流和理解。
语境效应
上下文信息对当前词语或句子意 义的改变效果。
04 自然语言理解的技术挑战 与解决方案
数据稀疏性问题
总结词
数据稀疏性是指训练数据不足或数据分布不均匀,导致模型难以学习到有用的特征和模式 。
详细描述
在自然语言处理任务中,数据稀疏性是一个常见问题。由于语言本身的复杂性和多样性, 很难收集到足够丰富和多样的训练数据。此外,不同领域和场景的数据分布也可能存在很 大差异,导致模型在某些情况下表现不佳。
语境理解问题
总结词
语境理解问题是指模型需要理解句子或段落之间的逻辑关系和语义联系,以推断出正确的意义。
详细描述
在自然语言处理中,语境理解是非常重要的。一个词或句子的含义往往需要结合上下文才能确定。例如,“他是一名 医生”这句话在不同的语境下可能有不同的含义,可能是指他是医生这个职业,也可能是指他正在扮演医生的角色。

人工智能导论课件第11-12章

人工智能导论课件第11-12章

11.2 什么是自然语言处理
• 使用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明 显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使 用计算机,而无需再花大量的时间和精力去学习不很自然和不习惯的各种计算 机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
• 自然语言处理的历史可追溯到以图灵的计算算法模型为基础的计算机科学发展 之初。在奠定了初步基础后,该领域出现了许多子领域,每个子领域都为计算 机进一步的研究提供了沃土。
• 图灵的工作导致了其他计算模型的产生,如McCulloch-Pitts神经元,它是对人 类神经元进行建模,具有多个输入,并且只有组合输入超过阈值时才产生输出。
• 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也 能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者 称为自然语言生成,因此,自然语言处理大体包括了这两个部分。历史上对自 然语言理解研究得较多,而对自然语言生成研究得较少。但这种状况已有所改 变。
11.2 什么是自然语言处理
• 在构建这个领域的过程中,Shannon与Chomsky对自然语言处理的早期工作产 生了另一个重大的影响。特别是Shannon的噪声通道模型,对语言处理中概率 算法的发展至关重要。在噪声通道模型中,假设输入由于噪声变得模糊不清, 则必须从噪声输入中恢复原始词。在概念上,Shannon对待输入就好像输入已 经通过了一个嘈杂的通信通道。基于该模型,Shannon使用概率方法找出输入 和可能词之间的最佳匹配。
11.2 什么是自然语言处理
• 另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生 活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系 统只能建立在有限的词汇、句型和特定的主
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十一章自然语言理解教学内容:自然语言理解的一般概念、句法和语法的自动分析原理、句子的自动理解方法和语言的自动生成等。

教学重点:句法模式匹配、语义的分析、句子的自动理解和语言的自动生成。

教学难点:转移网络、词汇功能语法(LFG)。

教学方法:课堂教学为主。

注意结合学生已学的内容,及时提问、收集学生学习的情况。

并充分利用网络课程中的多媒体素材来表示比较抽象的概念。

教学要求:掌握句法分析方法,掌握句子的自动理解,初步了解语言的自动生成,一般了解自然语言理解系统的应用实例。

11.1 语言及其理解的一般问题教学内容:本小节主要讨论自然语言理解的概念、发展简史以及系统组成与模型等。

教学重点:语言和语言理解的概念、自然语言理解系统的模型。

教学难点:自然语言理解与人类智能的关系、理解自然语言的计算机系统的组成方式。

教学方法:课堂教学为主,结合网络课程中的多媒体素材来讲述。

教学要求:掌握语言和语言理解的概念、自然语言理解过程的四个层次;一般了解自然语言理解研究的国内外进展。

11.1.1 语言与语言理解1、语言的构成语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。

语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。

语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。

语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。

语法是语言的组织规律。

语法规则制约着如何把词素构成词,词构成词组和句子。

语言正是在这种严密的制约关系中构成的。

用词素构成词的规则叫构词规则。

语法中的另一部分就是句法。

句法也可分成两部分:词组构造法和造句法。

词组构造法是词搭配成词组的规则。

造句法则是用词或词组造句的规则。

图11.1就是上述构造的一个完整的图解。

图11.1 语言的构成另一方面,语言是音义结合的,每个词汇有其语音形式。

自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。

由一个发音动作所构成的最小的语音单位就是音素。

提问:构成词的最小的有意义的单位是什么?举例:列举几个由词素构成词的例子,“教师”、“teacher”等。

2、语言的理解从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。

从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。

这些功能包括:(1) 回答有关提问;(2) 提取材料摘要;(3) 不同词语叙述;(4) 不同语言翻译。

对自然语言的理解却是一个十分艰难的任务。

自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。

具体地说,自然语言理解的困难是由下列3个因素引起的:(1) 目标表示的复杂性;(2) 映射类型的多样性;(3) 源表达中各元素间交互程度的差异性。

自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。

语言理解包括下列几个方面的内容:(1) 能够理解句子的正确词序规则和概念,又能理解不含规则的句子。

(2) 知道词的确切含义、形式、词类及构词法。

(3) 了解词的语义分类以及词的多义性和歧义性。

(4) 指定和不定特性及所有(隶属)特性。

(5) 问题领域的结构知识和时间概念。

(6) 语言的语气信息和韵律表现。

(7) 有关语言表达形式的文学知识。

(8) 论域的背景知识。

思考题:什么是语言和语言理解?11.1.2 自然语言理解研究的进展随着计算机技术和人工智能总体技术的发展,自然语言理解不断取得进展。

机器翻译是自然语言理解最早的研究领域。

由于早期研究中理论和技术的局限,所开发的机译系统的技术水平较低,不能满足实际应用的要求。

到了70年代初期,对语言理解对话系统的研究取得进展。

伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典型实例。

进入80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。

这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。

自然语言是表示知识最为直接的方法。

因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。

此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。

11.1.3 自然语言理解过程的层次语言的分析和理解过程是一个层次化的过程。

现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。

如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。

虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。

1、语音分析语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。

2、词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。

3、句法分析句法分析是对句子和短语的结构进行分析。

自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。

句法分析的最大单位就是一个句子。

分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。

4、语义分析语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。

在语言自动理解中,语义愈来愈成为一个重要的研究内容。

思考题:自然语言理解过程有哪些层次,各层次的功能如何?11.2 句法和语义的自动分析教学内容:本小节主要讨论句法和语义的自动分析问题。

它们是理解自然语言的基础。

教学重点:句法分析的方法和语义分析的步骤。

教学难点:转移网络的实现、词汇功能语法(LFG)的理解。

教学方法:课堂教学为主,结合网络课程中的多媒体素材来讲述。

教学要求:重点掌握句法分析的方法和语义分析的步骤,了解转移网络的概念和用LFG语法对句子进行分析的过程。

11.2.1 句法模式匹配和转移网络1、用转移网络表示句法模式句法模式匹配就是采用句法模式来对语言的句子进行匹配从而进行句法分析。

但是自然语言是非常多样化的,因而需要有许多模式。

这些模式可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络(TN,transition network)。

如图11.2所示,图中,q0,q1,…,qT是状态,q是初态,qT是终态。

弧上给出了状态转移的条件以及转移的方向。

该网络可用于分析句子也可用于生成句子。

图11.2 转移网络(TN)用TN来识别句子The little orange ducks swallow flies 的过程如表11.1。

表11.1 句子识别过程orange b bducks b cswallow c eflies e F(识别)这里忽略了词法分析,网络如图11.3所示图11.3 转移网络实例2、网络识别算法识别过程到达f状态(终态),所以该句子被成功地识别了。

分析结果如图11.4所示。

从上述过程中可以看出,这个句子还可以在网络中走其他弧,如词ducks 也可以走弧,但接下来的swallow就找不到合适的弧了。

此时对应于这个路径,该句子就被拒识了。

由此看出,网络识别的过程中应找出各种可能的路径,因此算法要采用并行或回溯机制。

图11.4 TN分析树(1) 并行算法关键是在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。

(2) 回溯算法在所有可以通过的弧中选出一条往下走,并保留其他的可能性,以便必要时可回过来选择之。

思考题:画出下列上下文无关语法所对应的转移网络:S→NP VPNP→Adjective NounNP→Determiner Noun PPNP→Determiner NounVP→Verb Adverb NPVP→VerbVP→Verb AdverbVP→Verb PPPP→Proposition NP11.2.2 扩充转移网络1、扩充转移网络的构成扩充转移网络ATN是由伍兹(Woods)在1970年提出的。

ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。

这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。

ATN的每个寄存器由两部分构成:句法特征寄存器和句法功能寄存器。

在特征寄存器中,每一维特征都有一个特征名和一组特征值,以及一个缺省值来表示。

功能寄存器则反映了句法成分之间的关系和功能。

分析树的每个节点都有一个寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。

图11.5所示是一个简单的名词短语(NP)的扩充转移网络,网络中弧上的条件和操作如下:图11.5 名词短语(NP)的扩充转移网络2、扩充转移网络示例该网络主要是用来检查NP中的数的一致值问题。

图11.6是一个句子的ATN,主要用来识别主、被动态的句子,从中可以看到功能寄存器的应用。

图11.6 句子的扩充转移网络网络描述如下:S-1:A:Subject←?/FONT>*.S-2:A:Main-Verb←?/FONT>*.S-3:C:Main-Verb.Type=Be,Do,Have or ModalA:Auxs<=Main-Verb,Main-Verb←?/FONT>*.S-4:D:*.Form=Past-part and Main-Verb.Type=BeA:Voice←?/FONT>Passive,Auxs<=Main-Verb,Main-Verb←?/FONT>*.Direct-Obj←?/FONT>Subject,Subject←?/FONT>dummy-NP.S-5:A:Direct-Obj←?/FONT>*.S-6:A:Modifiers<=*.S-7:C:Voice=Passive and Subject=dummy-NP and*.Prep=“by”.A:Subject←?/FONT>*.Prep-Object.S-8:No Conditions, actions or initializations.当然作为一完整的ATN是相当复杂的,在实现过程中还必须解决许多问题,如非确定性分析、弧的顺序、非直接支配关系的处理等等。

ATN方法在自然语言理解的研究中得到了广泛的应用。

11.2.3 词汇功能语法1、词汇功能语法的结构词汇功能语法(LFG)是由卡普兰和布鲁斯南(Bresnan)在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。

相关文档
最新文档