哈工大人工智能课件chpt9
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
• 句法分析(Syntactic Analysis):分析 句子的结构。
16
• 词汇转换
Miss Smith put (+ed) two book+s on this dining table. ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ 小姐 史密斯 放 两 书 在…上面 这 餐桌
• 短语转换
小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面
26
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
为什么要说这句话 研究不同语境中的语句的应用, 及语境对语句理解的作用 语言交际目的:主题、述体、焦 点
• 心理语言学:研究人类理解自然语言的机制。
33
第9章 自然语言理解简介
9.2 句法分析与语法
9.2.1 语言的基本原理 9.2.2 句法分析过程
第9章 自然语言理解简介
9.2.1 语言的基本原理
• 形式语言(人造语言)被定义为一个字符串 集合 / 字符串由终结符(词汇)串联而成 / 都有严格的定义 • 自然语言却没有严格定义却被一个说话 者群体所使用
12
为什么要研究自然语言处理?
• 信息时代到了!语言是信息的载体。 • 提高计算机的智能:能理解和处理大量语言信息。
13
机器能够理解人的语言吗?
• 很难,但是没有证据表明不行。 • 什么是理解?
• 结构主义:机器的理解机制与人相同。 • 问题在于谁也说不清自己理解语言的步骤。 • 功能主义:机器的表现与人相同。 • 图灵测试:如果通过自然语言问答,一个人无法 识别和他对话的是人还是机器,那么就应该承认 机器具有智能。
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理 句子边界识别 例如:Mr. Wang likes swimming, dancing and reading.
20
机器如何理解自然语言?
14
一个NLP的例子:英汉翻译
• 输入英文句子:
• Miss Smith put two books on this table.
• 形态分析(Morphological Analysis)
• 词形还原(Lemmatization):将词还原为词典中的原型。 • 词汇符号化(Tokenization):相当于中文分词。 • 分析结果: Miss Smith put two book+s on this table.
• 语法是详细说明一种语言的有限规则集合
• 自然语言没有正式语法 / 语言学家试图通过 科学调查发现语言的特性,并编纂语法 / 还 没有一个完全成功
36
第9章 自然语言理解简介
自然语言的符号系统(2) 自然语言的符号系统(2)
• 语义离不开具体的通讯环境 / 理解一个字 符串的语用很重要
• 语用是在一个特定情境(通讯环境)下表达出 的字符串的实际含义
• • • • • • • 意图—S要把P告诉H 生成—P用W表示,H可判定P 合成—物理实现—语音/文字等 感知—H通过语音/文字识别等获知P 分析—可分为3部分:句法/语义/语用解释 排歧—H推断S的含义P 合并—H决定是否相信P
6
第9章 自然语言理解简介
通讯过程
7
第9章 自然语言理解简介
分析过程
• 询问其他智能体关于世界的信息—提问 • 相互通知关于世界的信息—陈述 • 请求其他智能体行动—指令(包括礼貌的间 接言语行为、命令等) • 应答请求 • 承诺或提出计划
• 宣言式言语行为—对世界有更直接的影 响—诸如“现在我宣布……”
5
第9章 自然语言理解简介
通讯的组成步骤
• 人类语言产生的目的—认知和通讯 / 典型 的通讯情节—说话者S用词语集合W将关于 命题P的信息通知聆听者H,包括7个过程
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
研究构词方法,词的有意义的组 合。 构词的基本单位:词素(词根、 前缀、后缀、词尾) 例如:老虎← 老+ 虎; 图书馆← 图+ 书+ 馆 例如: work + er → worker do + ing →doing
• 其他名称:
• 计算语言学(Computation Linguistics) • 自然语言理解(Natural Language Understanding,NLU) • 人类语言技术(Human Language Technology)
• 相关名称:
• 中文信息处理(Chinese Information Processing) • 网络信息处理(Web Information Processing)
21
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/。
22
机器如何理解自然语言?
• 机器理解自然语言的步骤
• 由于语义相对于语法是深层结构,而语法 作为表层结构其规则经过了很长时间的研 究形成了相对稳定的体系—更多的结构表 示来自语法
• 合乎语法的字符串→子串—短语结构
17
• 生成
• 史密斯小姐放两书在这桌子上面。 • 史密斯小姐(把)两(本)书放在这(张)桌子上 面。
• 最终翻译结果
• 英文: Miss Smith put two books on the table. • 中文:史密斯小姐把两本书放在这张桌子上面。
18
机器如何理解自然语言?
• 机器理解自然语言的步骤
• 考虑用处理形式语言的方式处理自然语言
• 自然语言可以用不同的但是相互联系的 几组符号来表示—包括语法、语义、语 用等 / 尽可能采用形式化表示
35
wenku.baidu.com
第9章 自然语言理解简介
自然语言的符号系统(1) 自然语言的符号系统(1)
• 符号系统的核心是语义表示
• 语义的基础是词汇—自然语言中的终结符号, 由它们依据一定规则构成有效字符串 / 不能 “让人听不明白” • 语义必须保证其表示能够在智能体之间有效 地进行通讯—与有效的字符串结合 / 予以需 要借助于语法进行表示
28
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
信息检索 搜索引擎、数字图书馆 文本分类、聚类 分类检索、聚类检索 话题探测与追踪
29
NLP的研究内容(基础研究)
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理 文本采集 文本格式转换:PDF、Office、 HTML 纯文本 文本编码识别、转换:GB、 Big5、Unicode。
19
机器如何理解自然语言?
语言与通讯
• 通讯是一种通过产生和感知信号带来的 有意图的信息交换 / 信号来自一个由约定 信号组成的共用系统 • 人类区别于其他动物的特征是语言—复 杂的结构化信息系统 • 对智能体而言,产生语言的行动称为言 语行为
• “言语”=“言论自由”中的言论
4
第9章 自然语言理解简介
言语行为的目的
• 通过言语行为达成联合规划:
V
VP
NP
钓鱼岛 是
中国 的 领土
分析句子的组成结构, 句子结构成分之间的相互关系。 判定一个句子的合法性
24
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
研究给句子的词标注正确的词义。 例如:这个人真牛。 //牛:动物|了不起。
25
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
研究如何从一个语句中词的意 义,以及这些词在该语句的句 法结构中的作用来推导出该语 句的意义。 语言和世界的映射关系 施事、受事、工具等
人工智能原理
第9章 自然语言理解简介
第9章 自然语言理解简介
本章内容
9.1 语言与通讯 9.2 句法分析与语法 9.3 概率语言模型 9.4 信息检索 9.5 信息抽取 9.6 统计机器翻译 参考书目
第9章 自然语言理解简介
9.1 概述
9.1.1 语言与通讯 9.1.2 自然语言处理
第9章 自然语言理解简介
8
第9章 自然语言理解简介
9.1.2 自然语言处理
What is NLP?
• 什么是自然语言处理(Natural Language Processing,NLP)
• 是用计算机通过可计算的方法对人类语言进行转换、传输、存贮、 分析等加工处理的理论和方法。 • 构造计算模型,用于自然语言的分析、转换、生成。
27
机器如何理解自然语言?
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
分析篇章的结构、主题、 观点、摘要、有用信息 主题分析 观点分析 自动文摘 信息抽取 信息过滤
32
软件企业
NLP的学科特点(交叉性学科)
• 语言学:语言学基础知识。
• 语言学理论:形式语言文法 • 语言学资源:词典、语料库、知识库
• 数学
• 语料库语言学的数学基础:概率论、统计学、信息论。 • 模型:自动机、Markov模型、HMM等。
• 计算机科学
• 机器学习:机器的学习算法 • 人工智能(问题求解,知识表示,状态空间图搜索算法)
30
NLP的研究内容(应用研究) NLP的研究内容(应用研究) 的研究内容
31
NLP的不同层次
[应用系统] 数字图书馆、电子商务、搜索引擎 电子政务、远程教育、语言学习 [应用技术研究] 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取 NLP研究者 [基础研究] 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等 [资源建设] 语料库资源建设 语言学知识库建设 语言学家
• 分析分为3个子过程(人为划定—是否就 是人类理解语言的过程?)
• 句法分析—为输入字符串建立句法分析树 • 语义解释—表示为某种表达式,如谓词逻辑 / 可能有歧义—此时存在多个表达式 • 语用解释—考虑到同样词语集合在不同情境 下有不同含义 / 语用能为一个语句的最终解 释给出更大贡献
• 有了3个子过程,分析仍然可能给出几个 解释,排歧就是选择其中最好的一个
10
基本概念
• 什么是自然语言
• • • • 自然语言指人类使用的语言,如汉语、英语等。 语言是思维的载体,是人际交流的工具。 语言的两种属性-文字和声音 人类历史上以语言文字形式记载和流传的知识占知 识总量的80%以上。
11
基本概念
• 什么是处理
• 处理是指对信息的接收、存储、转化、传送和发布等 等操作 • 分级:字级处理、概念处理和智能处理 • 智能处理的主要研究领域:自然语言理解、计算机视 觉、机器人学及知识工程 • 智能的未来发展,将会对知识库、专家系统、推理系 统和神经网络等综合应用,达到能够模拟人类比较复 杂的思维和行为
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理
给句子的词标注正确的词性 例如: 钓鱼岛n/是v/中国n/的de/领土n / 。
23
S
机器如何理解自然语言? NP
• 机器理解自然语言的步骤
• • • • • • • • • • • 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理