自然语言处理讲义
合集下载
自然语言处理Natural Language Processing(NL演示课件.ppt
形态还原规则举例
英语“规则动词”还原
*s -> * (SINGULAR3) *es -> * (SINGULAR3) *ies -> *y (SINGULAR3) *ing -> * (VING) *ing -> *e (VING) *ying -> *ie (VING) *??ing -> *? (VING) *ed -> * (PAST)(VEN) *ed -> *e (PAST)(VEN) *ied -> *y (PAST)(VEN) *??ed -> *? (PAST)(VEN)
自动问答(Question Answering,QA)
针对用户提出的问题,给出具体的答案。 Apple理的主要任务(工作)
语言分析:分析语言表达的结构和含义
词法分析:形态还原、词性标注、命名实体识别、分词(汉 语、日语等)等
自然语言处理
Natural Language Processing(NLP)
陈家骏,戴新宇 chenjj@
dxy@
精选课件
主要内容(1)
自然语言处理概述
什么是自然语言处理 自然语言处理技术的应用 自然语言处理的基本策略和实现方法 自然语言处理的难点 自然语言处理所涉及的学科
基于逻辑形式和格语法的句义分析 基于规则的机器翻译
(/chenjiajun/nlp_traditional.ppt)
主要内容(3)
基于语料库的自然语言处理方法(经验方法)
语言模型(N元文法) 分词、词性标注(序列化标注模型) 句法分析(概率上下文无关模型) 文本分类(朴素贝叶斯模型、最大熵模型) 机器翻译 (IBM Model等) ......(基于神经网络的深度学习方法)
第13章理解单元自然语言处理课件
有时候先说这样一个成份,后面说另外一个成份,但是,在另外一种语言中,这些语言 成分的顺序可能是完全相反的。
17
2 机器翻译发展历程
➢ 基于规则的翻译,翻译知识来自人类专家。
➢ 大约到了上世纪九十年代出现了基于统计的方法,我们称之为统计机器翻译。
➢ 神经网络翻译近年来迅速崛起。相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它
11.3 NLP常见任务
1
分词
2
词编码
3
自动文摘
4
实体及实体关系识别
5
文本分类
1 分词
➢ 由于中文不像英文那样词与词之间用空格隔开,计算机无法区分一个文本有哪 些词,所以要进行分词。
➢ 目前分词常用的方法有两种: ① 基于规则:Heuristic(启发式)、关键字表 ② 基于机器学习/统计方法:HMM(隐马尔科夫模型)、CRF(条件随机场)
9
2 词编码
➢ 把词转换成计算机能理解的方式,即词编码。 ➢ 现在普遍是将词表示为词向量,来作为机器学习的输入和表示空间。
One-hot表示
• 一个词用一个维度表示
bago个文档的向量
Bi-gram和N-gram(语言模型) • 考虑了词的顺序,用词组合表示一个词的向量
13.4.4 信息提取
信息提取(IE)的目标是将文本信息转化为结构化信息, 起初用于定位自然语言文档中的特定信息,属于自然语 言处理的一个子领域。 随着网页文本信息的急剧增长,越来越多的人投入到信 息提取(IE)领域的研究。
13.4.5 情感分析
文本情感分析:又称意见挖掘、倾向性分析等。简单 而言,是对带有情感色彩的主观性文本进行分析、处 理、归纳和推理的过程。
5
17
2 机器翻译发展历程
➢ 基于规则的翻译,翻译知识来自人类专家。
➢ 大约到了上世纪九十年代出现了基于统计的方法,我们称之为统计机器翻译。
➢ 神经网络翻译近年来迅速崛起。相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它
11.3 NLP常见任务
1
分词
2
词编码
3
自动文摘
4
实体及实体关系识别
5
文本分类
1 分词
➢ 由于中文不像英文那样词与词之间用空格隔开,计算机无法区分一个文本有哪 些词,所以要进行分词。
➢ 目前分词常用的方法有两种: ① 基于规则:Heuristic(启发式)、关键字表 ② 基于机器学习/统计方法:HMM(隐马尔科夫模型)、CRF(条件随机场)
9
2 词编码
➢ 把词转换成计算机能理解的方式,即词编码。 ➢ 现在普遍是将词表示为词向量,来作为机器学习的输入和表示空间。
One-hot表示
• 一个词用一个维度表示
bago个文档的向量
Bi-gram和N-gram(语言模型) • 考虑了词的顺序,用词组合表示一个词的向量
13.4.4 信息提取
信息提取(IE)的目标是将文本信息转化为结构化信息, 起初用于定位自然语言文档中的特定信息,属于自然语 言处理的一个子领域。 随着网页文本信息的急剧增长,越来越多的人投入到信 息提取(IE)领域的研究。
13.4.5 情感分析
文本情感分析:又称意见挖掘、倾向性分析等。简单 而言,是对带有情感色彩的主观性文本进行分析、处 理、归纳和推理的过程。
5
《自然语言处理》课件
过拟合问题
模型在训练数据上表现良好,但在测试数据上表现不佳,这是因为模型过于复 杂并过度拟合训练数据。为了解决这个问题,可以采用正则化、早停法、集成 学习等技术。
语义理解的深度与广度问题
深度问题
目前自然语言处理模型主要关注词义和 句子的表面结构,难以理解更深入的语 义信息和语境。为了解决这个问题,需 要研究如何让模型更好地理解语境、把 握对话进程、理解比喻和隐喻等。
句法分析可以采用基于规则 的方法或基于统计的方法进 行。
基于规则的方法主要依靠人 工制定的规则进行句法分析 ,而基于统计的方法则通过 训练模型进行句法分析。
语义分析
01
语义分析是指对句子进行语义理解,识别句子中的 概念、实体、关系等语义信息。
02
语义分析是自然语言处理中的高级任务,需要结合 上下文信息和领域知识进行理解。
03
分词算法可以分为基于规则的方法和基于统计的方法两类。
04
基于规则的方法主要依靠人工制定的规则进行分词,而基于统计的方 法则通过训练模型进行分词。
词性标注
01 02 03 04
词性标注是指在分词的基础上,对每个词进行语义分类,确定其词性 。
词性标注是自然语言处理中的重要任务之一,有助于理解句子的结构 和语义。
06
自然语言处理前沿技术
预训练语言模型
预训练语言模型概述
预训练语言模型是一种深度学习模型,通过对大量文本数据的学 习,获得对语言的内在理解和生成能力。
代表性模型
如Transformer、BERT、GPT系列等,这些模型在自然语言处理任 务中表现出色,具有强大的语言生成和理解能力。
预训练语言模型的应用
VS
广度问题
自然语言处理模型在处理不同领域Байду номын сангаас不同 语言的文本时,表现往往不够稳定。为了 提高模型的泛化能力,需要研究如何让模 型更好地适应不同领域和语言的文本。
模型在训练数据上表现良好,但在测试数据上表现不佳,这是因为模型过于复 杂并过度拟合训练数据。为了解决这个问题,可以采用正则化、早停法、集成 学习等技术。
语义理解的深度与广度问题
深度问题
目前自然语言处理模型主要关注词义和 句子的表面结构,难以理解更深入的语 义信息和语境。为了解决这个问题,需 要研究如何让模型更好地理解语境、把 握对话进程、理解比喻和隐喻等。
句法分析可以采用基于规则 的方法或基于统计的方法进 行。
基于规则的方法主要依靠人 工制定的规则进行句法分析 ,而基于统计的方法则通过 训练模型进行句法分析。
语义分析
01
语义分析是指对句子进行语义理解,识别句子中的 概念、实体、关系等语义信息。
02
语义分析是自然语言处理中的高级任务,需要结合 上下文信息和领域知识进行理解。
03
分词算法可以分为基于规则的方法和基于统计的方法两类。
04
基于规则的方法主要依靠人工制定的规则进行分词,而基于统计的方 法则通过训练模型进行分词。
词性标注
01 02 03 04
词性标注是指在分词的基础上,对每个词进行语义分类,确定其词性 。
词性标注是自然语言处理中的重要任务之一,有助于理解句子的结构 和语义。
06
自然语言处理前沿技术
预训练语言模型
预训练语言模型概述
预训练语言模型是一种深度学习模型,通过对大量文本数据的学 习,获得对语言的内在理解和生成能力。
代表性模型
如Transformer、BERT、GPT系列等,这些模型在自然语言处理任 务中表现出色,具有强大的语言生成和理解能力。
预训练语言模型的应用
VS
广度问题
自然语言处理模型在处理不同领域Байду номын сангаас不同 语言的文本时,表现往往不够稳定。为了 提高模型的泛化能力,需要研究如何让模 型更好地适应不同领域和语言的文本。
NLP课件(自然语言处理课件)ppt
自然语言处理是一种人工智能技术 自然语言处理主要研究如何让计算机理解和生成自然语言 自然语言处理技术可以应用于语音识别、文本生成、机器翻译等领域 自然语言处理技术对于人机交互、智能客服等方面有着重要的应用价值
早期:语言学、计算机科学和人 工智能的结合
1990年代:NLP研究开始繁荣, 应用范围扩大
语言文本
自然语言理解:让计算机能 够理解人类语言的含义,实
现人机交互
目的:使计算机能够理解和 处理人类语言
定义:对自然语言文本进行 处理、分析和理解的过程
应用领域:搜索引擎、机器 翻译、情感分析、智能客服
等
中文自然语言处理的特点: 语言文字的复杂性、多义性、
歧义性等
定义:将中文文 本分割成单独的 词语
添加标题
添加标题
添加标题
添加标题
1950年代:出现首批NLP相关研 究
2000年代至今:深度学习引领 NLP发展,取得突破性成果
机器翻译 语音识别 文本分类 信息检索
语言模型:建立语言模型, 对文本进行分类、聚类等操 作
基础理论:语言学、计算机 科学、数学等学科交叉的研 究
自然语言生成:让计算机自 动生成符合语法规则的自然
NLTK库的应用领 域
NLTK库的未来发 展
SpaCy库是什么? SpaCy库在自然语言处理中的优势 SpaCy库的主要功能 SpaCy库的使用场景和案例
介绍StanfordNLP库 展示代码示例 讲解应用场景 演示效果及优势
介绍Hugging Face Transformer s 库 讲解其在自然语言处理中的优势 举例说明其在具体任务中的应用 总结其在实际应用中的重要性
结果展示:将分析结果以图表、报告等形式展示给用户,以便用户能 够直观地了解舆情分析的情况。
自然语言处理-课件1
计算语言学(ComputationalLinguistics) 自然语言理解(NaturalLanguageUnderstanding) 人类语言技术(HumanLanguageTechnology)
6
自然语言处理是什么?
自然语言处理(natural language processing, NLP)
一个小作业 孙栩 一个小作业 中文系詹卫东教授 一个大作业 孙栩
NLP的语言学基础(6-7周)
NLP的具体应用(4-5周)
12
课程规划
1:NLP的概率统计基础(4-5周)
1.1: NLP的总体介绍
简要历史 研究目标,研究内容,难点 大体的方法、具体应用 概率、条件概率、贝叶斯法则 二项分布、期望、方差 最大似然估计、梯度下降方法、信息论基础 Ngram统计语言建模 数据稀疏问题 Zipf定律、平滑基础、回退方法
孙栩 信息学院,研究员 邮箱:xusun@ 电话:62753081-103 主页:/member/sunxu/index.htm
教师2(讲7次课)
詹卫东 中文系,教授 邮箱:zwd@ 主页:/doubtfire
当前目标
研制出具有一定人类语言能力的计算机文本或语音处理系 统 部分解决语言障碍问题 现实的商业和应用价值
31
自然语言处理的难点是什么?
表象原因:自然语言中有大量的歧义现象
无法象处理人工语言那样,写出一个完备的、有限的规则 系统来进行定义和描述。自然语言的规则很少没有例外 此外,还有大量的噪音甚至错误表达
自然语言处理 第一章
• 1950s: Yehoshua Bar-Hillel(MIT): 1952年举办了 1st MT会议,会上, Leon Dostert(Georgetown Univ.)建议开发演示系统,以吸引基金 的投 资.
• 1955年,第一个演示系统在 IBM & Georgetown 开发,包含250 个词 和 6 条句法规则,实现 Russia — English;
29
情感及观点分析
• 为什么要对文本进行情感分析?
– 文本是人写的,必然带有人的感情和观点 – 大量应用需要情感与观点分析:
• 评论性文本:商品评论,服务质量,影评 • 带政治色彩的评论:敌对势力的攻击,法轮功的攻击
• 情感与观点分析要做什么?
– 观点是什么?带有怎样的情感色彩(正面/负面)? – 谁发表的观点或表达的情感? – 针对的问题及对象是什么? – 以上都需要通过文本分析提炼
自然语言处理课程讲义
第一章 绪论
王峰 华东师大计算机系
自然语言处理
Natural Language Processing
• 参考教材
– 俞士汶,常宝宝,詹卫东,《计算语言学概论》,商务印书 馆。
– 宗成庆,《统计自然语言处理》,清华大学出版社。 – Steven Bird, Ewan Klein, and Edward Loper, Natural Language
– 应用:排版、印刷、书籍编撰等。
25
• 语音识别
– 将输入语音信号自动转换成书面文字 – 应用:文字录入、人机通讯、语音翻译等 – 困难:大量存在的同音词、近音词、口音等
• 文语转换/语音合成
– 将书面文本自动转换成对应的语音 – 应用:朗读系统、人机语音接口等
• 1955年,第一个演示系统在 IBM & Georgetown 开发,包含250 个词 和 6 条句法规则,实现 Russia — English;
29
情感及观点分析
• 为什么要对文本进行情感分析?
– 文本是人写的,必然带有人的感情和观点 – 大量应用需要情感与观点分析:
• 评论性文本:商品评论,服务质量,影评 • 带政治色彩的评论:敌对势力的攻击,法轮功的攻击
• 情感与观点分析要做什么?
– 观点是什么?带有怎样的情感色彩(正面/负面)? – 谁发表的观点或表达的情感? – 针对的问题及对象是什么? – 以上都需要通过文本分析提炼
自然语言处理课程讲义
第一章 绪论
王峰 华东师大计算机系
自然语言处理
Natural Language Processing
• 参考教材
– 俞士汶,常宝宝,詹卫东,《计算语言学概论》,商务印书 馆。
– 宗成庆,《统计自然语言处理》,清华大学出版社。 – Steven Bird, Ewan Klein, and Edward Loper, Natural Language
– 应用:排版、印刷、书籍编撰等。
25
• 语音识别
– 将输入语音信号自动转换成书面文字 – 应用:文字录入、人机通讯、语音翻译等 – 困难:大量存在的同音词、近音词、口音等
• 文语转换/语音合成
– 将书面文本自动转换成对应的语音 – 应用:朗读系统、人机语音接口等
第三章自然语言的处理共152张PPT2024新版
常用方法
基于规则的方法、基于词 典的方法、基于机器学习 的方法等。
词汇关系与语义网络
词汇关系
指词汇之间的语义关系, 如上下位关系、同义关系 、反义关系等。
语义网络
一种表达词汇之间复杂语 义关系的网络结构,有助 于理解词汇的深层含义和 语境。
常用方法
基于知识图谱的方法、基 于深度学习的方法、基于 语料库的方法等。
3
基于神经网络的机器翻译
使用深度学习技术,构建神经网络模型实现端到 端的翻译。
文本生成技术及应用
文本生成技术
包括基于模板、基于规则、基于统计 和基于深度学习的方法。
应用领域
自动摘要、对话系统、智能写作、自 动问答等。
多模态自然语言处理
多模态数据
包括文本、图像、音频、视频等多种类型的数据。
多模态自然语言处理技术
上下文感知
利用上下文信息来提高词义消歧和实体链接的准确性。例如,通过考虑句子或段落中的其 他词语和语境信息,可以更准确地确定一个词的含义或链接到正确的实体。
情感分析与观点挖掘
情感分析
识别和分析文本中的情感倾向,如积极、消极或中立。情感分析技术可以应用于产品评论、社交媒体帖子、 新闻报道等各种文本数据。
第三章自然语言的处理共152张 PPT
• 自然语言处理概述 • 词汇处理 • 句法分析 • 语义理解 • 信息抽取与知识图谱 • 机器翻译与文本生成 • 自然语言处理前沿技术
01
自然语言处理概述
自然语言处理定义
01
自然语言处理(NLP)是人工智 能领域的一个分支,旨在让计算 机理解和生成人类语言。
深度学习阶段
采用深度神经网络模型进行自然语 言处理,如循环神经网络、卷积神 经网络、Transformer等。
NLP课件(自然语言处理课件)
智能问答
根据用户提出的问题,自动检 索相关信息并生成简洁明了的 回答。
语音识别和合成
将人类语音转换成文本或将文 本转换成人类语音。
自然语言处理发展历程
早期阶段
以语言学为基础,研究 词语的形态、语法和语 义等。
统计方法阶段
引入统计学方法,利用 大规模语料库进行语言 模型的训练和应用。
深度学习阶段
借助深度学习技术,通 过神经网络模型实现更 复杂的自然语言处理任 务。
未来发展趋势预测
深度学习技术融合
随着深度学习技术的不断发展,未来 自然语言处理将更加注重与深度学习 技术的融合,利用神经网络模型提高 自然语言处理的性能。
知识图谱与语义网
随着知识图谱和语义网技术的不断发 展,未来自然语言处理将更加注重对 文本知识的表示和推理,以及对多源 异构数据的整合和分析。
多模态数据处理
问答系统定义
能自动回答用户提出的问题的系统。
问答系统原理
包括问题分析、信息检索、答案抽取与生成等步 骤。
问答系统实现技术
包括自然语言处理、机器学习、深度学习等技术。
典型案例分析
案例一
基于模板的问答系统,通过预定义模板匹配问题并返回相应答案。
案例二
基于知识图谱的问答系统,利用知识图谱中的实体和关系回答用 户问题。
案例二
基于Transformer的文本生成模型。该模型采用自注意力机 制和位置编码技术,能够生成具有丰富语义和连贯性的长 文本。
案例三
对话生成系统。该系统结合自然语言处理和深度学习技术, 能够根据用户输入的对话内容自动生成符合语境和语义规 则的回复。
08 总结与展望
自然语言处理技术总结
词汇级别处理
自然语言处理教学课件1
2013年开始,基于深度神经网络的表示学习方法开 始兴起,在多个领域取得当时最好的效果
分布式词向量的出现,深度学习开始在自然语言处 理中大范围应用
ELMo、GPT、BERT为代表的上下文相关词向量的 出现缓解了传统上下文无关词向量中静态向量的问 题,得到进一步发展
20
第1章 绪论
1.1 自然语言处理的定义 1.2 自然语言处理的研究内容 1.3 自然语言处理的流派
词法分析 句法分析 语义分析
目标是获得不同语言单位的语义信息 包括:
词义消歧(Word sense disambiguation) 语义角色标注(Semantic role labeling) 语义依存分析(Semantic dependency parsing)
语义角色标注
语义依存分析 13
自然语言处理
第 1 章 绪论
教材:
刘挺等《自然语言处理》 高等教育出版社,2021
1
绪论
自然语言
通常指人类的语言 人类思维和逻辑的载体
对自然语言的研究是人工智能的重要研究内容
2
绪论
自然语言
通常指人类的语言 人类思维和逻辑的载体
对自然语言的研究是人工智能的重要研究内容
被测试者:一个人和一台机器
11
自然语言处理的研究内容
基础研究
词法分析 句法分析
目标是确定句中词的语法功能或词之间的关系 包括:
短语结构分析(Phrase structure parsing):短语结构树 依存关系分析(Dependency parsing):依存树
短语结构树
依存树
12
自然语言处理的研究内容
基础研究
✓ 1.4 自然语言处理的挑战
分布式词向量的出现,深度学习开始在自然语言处 理中大范围应用
ELMo、GPT、BERT为代表的上下文相关词向量的 出现缓解了传统上下文无关词向量中静态向量的问 题,得到进一步发展
20
第1章 绪论
1.1 自然语言处理的定义 1.2 自然语言处理的研究内容 1.3 自然语言处理的流派
词法分析 句法分析 语义分析
目标是获得不同语言单位的语义信息 包括:
词义消歧(Word sense disambiguation) 语义角色标注(Semantic role labeling) 语义依存分析(Semantic dependency parsing)
语义角色标注
语义依存分析 13
自然语言处理
第 1 章 绪论
教材:
刘挺等《自然语言处理》 高等教育出版社,2021
1
绪论
自然语言
通常指人类的语言 人类思维和逻辑的载体
对自然语言的研究是人工智能的重要研究内容
2
绪论
自然语言
通常指人类的语言 人类思维和逻辑的载体
对自然语言的研究是人工智能的重要研究内容
被测试者:一个人和一台机器
11
自然语言处理的研究内容
基础研究
词法分析 句法分析
目标是确定句中词的语法功能或词之间的关系 包括:
短语结构分析(Phrase structure parsing):短语结构树 依存关系分析(Dependency parsing):依存树
短语结构树
依存树
12
自然语言处理的研究内容
基础研究
✓ 1.4 自然语言处理的挑战
第一章 自然语言处理概论ppt课件
– “目前一些试用过的用户表示,改进后的 翻译服务在质量方面令人惊讶。对于那些 从未使用机器翻译的用户来说,他们完全 可以通过翻译后的文本理解原文的意思, 一些细微的错误并不会引起太大的麻烦。 ”
--Franz Josef Och
哈尔滨工业大学计算机学院语言技 术研究中心
几个时间段(续)
• 还需要多少年才能实现计算机与人类无障 碍地沟通?
• 语法分析歧义
– 咬死了猎人的狗
• 那只狼咬死了猎人的狗 • 咬死了猎人的狗失踪了
自然语言处理中的歧义问题(续 )
• 语义分析歧义
– At last, a computer that understands you like your mother.
– 1985 McDonnell-Douglas ad
– 含义1:计算机会象你的母亲那样很好地理解 你(的语言)
– 含义2:计算机理解你喜欢你的母亲 – 含义3:计算机会象很好地理解你的母亲那样
理解你
自然语言处理中的歧义问题(续 )
• 语用分析歧义
– “你真坏”至少有如下三种理解:
• 当人们对干了坏事的成年人说时,是一种严厉的斥 责
• 当妈妈对淘气的儿子说时,实际表达的是对儿子的 一种疼爱
几点感性认识
• 有点繁琐枯燥
– “从繁体词库到简体词库” – 要求同学们一丝不苟的认真精神
• 充满乐趣
– “机器翻译及其应用激起了人们极其浓厚 的兴趣”
– 要求同学们有愚公移山,坚持到底的精神
几点感性认识(续)
• 团队合作
– “128个字节的偏移量” – 要求同学们善于协作,有团队精神
• 独创精神
哈尔滨工业大学计算机学院语言技 术研究中心
--Franz Josef Och
哈尔滨工业大学计算机学院语言技 术研究中心
几个时间段(续)
• 还需要多少年才能实现计算机与人类无障 碍地沟通?
• 语法分析歧义
– 咬死了猎人的狗
• 那只狼咬死了猎人的狗 • 咬死了猎人的狗失踪了
自然语言处理中的歧义问题(续 )
• 语义分析歧义
– At last, a computer that understands you like your mother.
– 1985 McDonnell-Douglas ad
– 含义1:计算机会象你的母亲那样很好地理解 你(的语言)
– 含义2:计算机理解你喜欢你的母亲 – 含义3:计算机会象很好地理解你的母亲那样
理解你
自然语言处理中的歧义问题(续 )
• 语用分析歧义
– “你真坏”至少有如下三种理解:
• 当人们对干了坏事的成年人说时,是一种严厉的斥 责
• 当妈妈对淘气的儿子说时,实际表达的是对儿子的 一种疼爱
几点感性认识
• 有点繁琐枯燥
– “从繁体词库到简体词库” – 要求同学们一丝不苟的认真精神
• 充满乐趣
– “机器翻译及其应用激起了人们极其浓厚 的兴趣”
– 要求同学们有愚公移山,坚持到底的精神
几点感性认识(续)
• 团队合作
– “128个字节的偏移量” – 要求同学们善于协作,有团队精神
• 独创精神
哈尔滨工业大学计算机学院语言技 术研究中心
NLP自然语言处理 ppt课件
C(wn1wn ) C ( wn 1 )
N-gram:
P(wn
|
wn1 nN
1
)
C(wnn1N 1wn C(wnn1N 1)
)
• To have a consistent probabilistic model, append a unique start (<s>) and end (</s>) symbol to every sentence and treat these as additional words.
Stochastically pick the next word based on the conditional probability of each word given the previous N 1 words.
• Relative frequency estimates can be proven to be maximum likelihood estimates (MLE) since they maximize the probability that the model M will generate the training corpus T.
1
P(w1w2...wN )
• Measures the weighted average branching factor in predicting the next word (lower is better).
•PPT课件
13
Sample Perplexity Evaluation
• Models trained on 38 million words from the Wall Street Journal (WSJ) using a 19,979 word vocabulary.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然 语言
研究者
计算机
自然语言 处理程序 语言 知识
自然语言处理系统
1 9
动态视角(流程)
S1: 研究者以特定的方式对自然语言(NL0)的规律进行抽象, 以计算机能够处理的形式来表述关于自然语言的规律——得 到语言 知识K; S2: 针对特定的语言知识表示形式,研制适合的分析和处理算法 ; S3: 根据算法编制计算机可执行的自然语言处理程序P。这样的 程序 加上语言知识,加上计算机硬件系统,共同构成一个 自然语言 处理系统(NLPs); S4: 用这样一个自然语言处理系统对自然语言NL0进行分析处理 ,根据反馈的结果调整原来的设计,改进NLPs。
Eliza: Your father.
Young woman: You are like my father in some ways. Eliza: What resemblance do you see?
6
Searle的“Chinese Room”
1980s
哲学家约翰·西尔勒(John R. Searle)否认可以模拟大脑算法的计算机具有意 识 ,他在上个世纪80年代给出了一个著名的理想实验“西尔勒的中文屋子”来 支持他的论点。 实验(改编版)的要旨是这样的: 一个用中文讲的笑话,中国人听了会哈哈大笑 。如果用一台可以执行复杂 算法的计算机根据这个笑话的词句进行一系列运算,得出的结果正确,也是 “哈哈大笑”,于是计算机用它自己的方式笑了几声,我们是否可以认为这台 计算机“理解”了这个笑话呢? 类似的,用一大群不懂中文的美国人取代计算机,他们拿着铅笔和纸重复 计算机所做的一切,因为算法很复杂,可能要全美不懂中文的美国人算上一年 才得到了结果“哈哈大笑”,他们派一个代表出来笑了几声。虽然反应很慢, 但他们和一个中国人做得一样好,不过,这样仍然无法认定这群美国人“理 解”了这个中文笑话。
—— A. M. Turing, Computing Machinery and Intelligence, Mind Vol.59, 1950.
图灵测试(Turing Test)
一个封闭的小屋里面有两间房A和B,其中一 间 房中是人,一间是机器 · 屋外有一个人H · H向A,B房内的实体提出各种问题 · H根据来自A,B的回答判断A,B中谁是计 算 机,谁是人 · 如 果 H无法判断,则证明计算机具有人的智 能
结/ 合成/ 分子/ 时 结合/ 成/ 分/ 子/ 时
10 结合/ 成/ 分/ 子时 11 结合/ 成/ 分子/ 时 12 结合/ 成分/ 子/ 时 13 结合/ 成分/ 子时
3 计算语言学的应用领域
· · · · · · ·
·
机器翻译(Machine Translation) 文本分类(Text Classification) 信息检索(Information Retrieval) 信息提取(Information Extraction) 语音合成(Speech Synthesis) 语音识别(Speech Recognition) 人机接口(Human-Machine Interface ) ……
数A, B
用A除以B , 保存余 数C C=0 ?Y N A=B , B=C
输出B,结 束
1 7
算法实例(2):求最佳路径
AB=2
DG=3
AC=3
DH=4
BD=9
EG=7
BE=11
EH=5
BF=8
FG=6
CD=7
FH=4
CE=8
GI=2
CF=10
HI=5
从A 到 I 的最佳路径是哪一条?
1 8
2 计算语言学的研究方式
vs. 自然语言
人们以为他对她有“意 思”,于是,建议他对她 “意思意思”。他说,他没 那种“意思”。她则反问, 你们是什么“意思”。大伙 中有的觉得很有“意思”,
有的则认为真没“意思”。
9
封闭性 vs. 开放 性
定义
计算语言学(Computational
Linguistics)指的是这样一门学科, 它通过建立形式化的数学模型,来分 析、处理自然语言,并在计算机上用 程序来实现分析和处理的过程,从而 达到以机器来模拟人的部分乃至全部 语言能力的目的。
Young woman: Well, my boyfriend made me come here.
Eliza: Your boyfriend made you come here? Young woman: He says I'm depressed much of the time. Eliza: I am sorry to hear you are depressed. Young woman: It's true. I'm unhappy. Eliza: Do you think coming here will help you not to be unhappy? Young woman: I need some help, that much seems certain. Eliza: What would it mean to you if you got some help? Young woman: Perhaps I could learn to get along with my mother. Eliza: Tell me more about your family. Young woman: My mother takes care of me. Eliza: Who else in your family takes care of you? Young woman: My father.
Input
Knowledge Base
Rules, Lexicon …
Linguists
2 2
语言知识的获取方式(2)
Text Annotation Tools
Raw Text
Lexicons and ontologies
Structured Text/Knowledge
Knowledge Extraction Tools
4.
关于商品和服务实行明码标价的规定 根据《中华人民共和国价格法》修订的《 关于商品和服务实行明码标价的规定》,……
2 0
静态视角(模块)
·
语言对象 语言知识 处理程序
语音 字 词 词组 句子 篇章
·
音系 形态 句法 语义 语篇
·
stemmer annotator parser translator …
2 1
语言知识的获取方式(1)
人工构 造
·
Computer Scientist Algorithm (Reasoning) Output
2 5
整句输入
·
转换
拼音输入:自动将拼音序列转化为汉字序列; 一个例子: 拼音输入:Ji qi fan yi ji qi ying yong ji qi kun nan 汉字序列:…..? · 语音输入:自动将连续读音转化为汉字序列; · 文语转换:将连续文本转化为语音信号输出;
·
·
校对
· ·
拼 写 校 对 : 我 们 要 京 城 (精诚)合作 文法检查。
·
Eliza问答系统
(by Joseph Weizenbaum, MIT, early 1960s )
Young woman: Men are all alike. Eliza: In what way? Young woman: They're always bugging us about something specific or other. Eliza: Can you think of a specific example?
Searle, John. R. (1980) Minds, brains, and programs. In Behavioral and Brain Sciences 3 (3): 417-457
7
关于语言,我们了解多少?
(1)人用来交际的“语言”具有什么样的性质?这些 性 质又是如何影响交际过程的?
2 6
文本检索( Text Retrieval )
·
在 Internet 或数字图书馆上
· · ·
输入词、短语或句子 检索相应的文档 例子:
和服
Search
• Question
》如何得到想得到的结果?
2 7
未经中文分词处理时的检索结果
1. 电信运营商和服务提供商 采用奥维通的移动WiMAX解决方案,运营商和服务提供 商可以提供各种个人宽带服务 …… 2. 关于做好党员联系和服务群众工作的意见 做好党员联系和服务群众工作,要以马克思列宁主义、毛泽 东思想、邓小平理论和“三个代表”重要…… 3. Guangzhou bomei leather co.,ltd 站长信息和服务中心:斗破苍穹 阴阳冕 九鼎记 凡人修仙传 猎国 九转金身决……
知识挖 掘
·
2 3
“结合成分子时”需要的分词知识
? S ? 结 合 ? ? ? ? 成 分 ? ?
8 9
?
结
合
合 成
成
?
分
?
子
子 时 ? ?
?
时
?
E
分 子
1 2 3 4 5 6 7
结/ 合/ 成/ 分/ 子/ 时 结/ 合/ 成/ 分/ 子时 结/ 合/ 成/ 分子/ 时 结/ 合/ 成分/ 子/ 时 结/ 合/ 成分/ 子时 结/ 合成/ 分/ 子/ 时 结/ 合成/ 分/ 子时
1 4
1.2 将语言作为计算对象
所谓将语言作为计算对象来研究相应 的算法,是研 究如何以机械的、规定了 严格操作步骤的程序来处理语 言对象(主 要是自然语言对象,当然也可以是形式语 言对象),包括一个语言片断(比如词 组、句子或篇章 )中大小语言单位的识 别,该语言片断的结构和意义的 分析(自 然语言理解),以及如何生成一个语言片 断 来表达确定的意思(自然语言生成), • 等等
研究者
计算机
自然语言 处理程序 语言 知识
自然语言处理系统
1 9
动态视角(流程)
S1: 研究者以特定的方式对自然语言(NL0)的规律进行抽象, 以计算机能够处理的形式来表述关于自然语言的规律——得 到语言 知识K; S2: 针对特定的语言知识表示形式,研制适合的分析和处理算法 ; S3: 根据算法编制计算机可执行的自然语言处理程序P。这样的 程序 加上语言知识,加上计算机硬件系统,共同构成一个 自然语言 处理系统(NLPs); S4: 用这样一个自然语言处理系统对自然语言NL0进行分析处理 ,根据反馈的结果调整原来的设计,改进NLPs。
Eliza: Your father.
Young woman: You are like my father in some ways. Eliza: What resemblance do you see?
6
Searle的“Chinese Room”
1980s
哲学家约翰·西尔勒(John R. Searle)否认可以模拟大脑算法的计算机具有意 识 ,他在上个世纪80年代给出了一个著名的理想实验“西尔勒的中文屋子”来 支持他的论点。 实验(改编版)的要旨是这样的: 一个用中文讲的笑话,中国人听了会哈哈大笑 。如果用一台可以执行复杂 算法的计算机根据这个笑话的词句进行一系列运算,得出的结果正确,也是 “哈哈大笑”,于是计算机用它自己的方式笑了几声,我们是否可以认为这台 计算机“理解”了这个笑话呢? 类似的,用一大群不懂中文的美国人取代计算机,他们拿着铅笔和纸重复 计算机所做的一切,因为算法很复杂,可能要全美不懂中文的美国人算上一年 才得到了结果“哈哈大笑”,他们派一个代表出来笑了几声。虽然反应很慢, 但他们和一个中国人做得一样好,不过,这样仍然无法认定这群美国人“理 解”了这个中文笑话。
—— A. M. Turing, Computing Machinery and Intelligence, Mind Vol.59, 1950.
图灵测试(Turing Test)
一个封闭的小屋里面有两间房A和B,其中一 间 房中是人,一间是机器 · 屋外有一个人H · H向A,B房内的实体提出各种问题 · H根据来自A,B的回答判断A,B中谁是计 算 机,谁是人 · 如 果 H无法判断,则证明计算机具有人的智 能
结/ 合成/ 分子/ 时 结合/ 成/ 分/ 子/ 时
10 结合/ 成/ 分/ 子时 11 结合/ 成/ 分子/ 时 12 结合/ 成分/ 子/ 时 13 结合/ 成分/ 子时
3 计算语言学的应用领域
· · · · · · ·
·
机器翻译(Machine Translation) 文本分类(Text Classification) 信息检索(Information Retrieval) 信息提取(Information Extraction) 语音合成(Speech Synthesis) 语音识别(Speech Recognition) 人机接口(Human-Machine Interface ) ……
数A, B
用A除以B , 保存余 数C C=0 ?Y N A=B , B=C
输出B,结 束
1 7
算法实例(2):求最佳路径
AB=2
DG=3
AC=3
DH=4
BD=9
EG=7
BE=11
EH=5
BF=8
FG=6
CD=7
FH=4
CE=8
GI=2
CF=10
HI=5
从A 到 I 的最佳路径是哪一条?
1 8
2 计算语言学的研究方式
vs. 自然语言
人们以为他对她有“意 思”,于是,建议他对她 “意思意思”。他说,他没 那种“意思”。她则反问, 你们是什么“意思”。大伙 中有的觉得很有“意思”,
有的则认为真没“意思”。
9
封闭性 vs. 开放 性
定义
计算语言学(Computational
Linguistics)指的是这样一门学科, 它通过建立形式化的数学模型,来分 析、处理自然语言,并在计算机上用 程序来实现分析和处理的过程,从而 达到以机器来模拟人的部分乃至全部 语言能力的目的。
Young woman: Well, my boyfriend made me come here.
Eliza: Your boyfriend made you come here? Young woman: He says I'm depressed much of the time. Eliza: I am sorry to hear you are depressed. Young woman: It's true. I'm unhappy. Eliza: Do you think coming here will help you not to be unhappy? Young woman: I need some help, that much seems certain. Eliza: What would it mean to you if you got some help? Young woman: Perhaps I could learn to get along with my mother. Eliza: Tell me more about your family. Young woman: My mother takes care of me. Eliza: Who else in your family takes care of you? Young woman: My father.
Input
Knowledge Base
Rules, Lexicon …
Linguists
2 2
语言知识的获取方式(2)
Text Annotation Tools
Raw Text
Lexicons and ontologies
Structured Text/Knowledge
Knowledge Extraction Tools
4.
关于商品和服务实行明码标价的规定 根据《中华人民共和国价格法》修订的《 关于商品和服务实行明码标价的规定》,……
2 0
静态视角(模块)
·
语言对象 语言知识 处理程序
语音 字 词 词组 句子 篇章
·
音系 形态 句法 语义 语篇
·
stemmer annotator parser translator …
2 1
语言知识的获取方式(1)
人工构 造
·
Computer Scientist Algorithm (Reasoning) Output
2 5
整句输入
·
转换
拼音输入:自动将拼音序列转化为汉字序列; 一个例子: 拼音输入:Ji qi fan yi ji qi ying yong ji qi kun nan 汉字序列:…..? · 语音输入:自动将连续读音转化为汉字序列; · 文语转换:将连续文本转化为语音信号输出;
·
·
校对
· ·
拼 写 校 对 : 我 们 要 京 城 (精诚)合作 文法检查。
·
Eliza问答系统
(by Joseph Weizenbaum, MIT, early 1960s )
Young woman: Men are all alike. Eliza: In what way? Young woman: They're always bugging us about something specific or other. Eliza: Can you think of a specific example?
Searle, John. R. (1980) Minds, brains, and programs. In Behavioral and Brain Sciences 3 (3): 417-457
7
关于语言,我们了解多少?
(1)人用来交际的“语言”具有什么样的性质?这些 性 质又是如何影响交际过程的?
2 6
文本检索( Text Retrieval )
·
在 Internet 或数字图书馆上
· · ·
输入词、短语或句子 检索相应的文档 例子:
和服
Search
• Question
》如何得到想得到的结果?
2 7
未经中文分词处理时的检索结果
1. 电信运营商和服务提供商 采用奥维通的移动WiMAX解决方案,运营商和服务提供 商可以提供各种个人宽带服务 …… 2. 关于做好党员联系和服务群众工作的意见 做好党员联系和服务群众工作,要以马克思列宁主义、毛泽 东思想、邓小平理论和“三个代表”重要…… 3. Guangzhou bomei leather co.,ltd 站长信息和服务中心:斗破苍穹 阴阳冕 九鼎记 凡人修仙传 猎国 九转金身决……
知识挖 掘
·
2 3
“结合成分子时”需要的分词知识
? S ? 结 合 ? ? ? ? 成 分 ? ?
8 9
?
结
合
合 成
成
?
分
?
子
子 时 ? ?
?
时
?
E
分 子
1 2 3 4 5 6 7
结/ 合/ 成/ 分/ 子/ 时 结/ 合/ 成/ 分/ 子时 结/ 合/ 成/ 分子/ 时 结/ 合/ 成分/ 子/ 时 结/ 合/ 成分/ 子时 结/ 合成/ 分/ 子/ 时 结/ 合成/ 分/ 子时
1 4
1.2 将语言作为计算对象
所谓将语言作为计算对象来研究相应 的算法,是研 究如何以机械的、规定了 严格操作步骤的程序来处理语 言对象(主 要是自然语言对象,当然也可以是形式语 言对象),包括一个语言片断(比如词 组、句子或篇章 )中大小语言单位的识 别,该语言片断的结构和意义的 分析(自 然语言理解),以及如何生成一个语言片 断 来表达确定的意思(自然语言生成), • 等等