第1讲统计自然语言处理概论

合集下载

01第一章 自然语言处理概论

01第一章 自然语言处理概论

几点感性认识(续)
团队合作
“128个字节的偏移量” 要求同学们善于协作,有团队精神
独创精神
“一只美丽的小花猫” 要求同学们勇于创新
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室 哈工大 雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院的 自然语言处理团队
起源
80年代初
王开铸教授,俄汉机器翻译 李生教授,汉英机器翻译
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室 哈工大 雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 年秋季 Copyrights @ 2007. HIT. All Rights Reserved
自然语言处理中的歧义问题 (续)
语义分析歧义
At last, a computer that understands you like your mother.
– 1985 McDonnell-Douglas ad
含义1:计算机会象你的母亲那样很好地 理解你(的语言) 含义2:计算机理解你喜欢你的母亲 含义3:计算机会象很好地理解你的母亲 那样理解你
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室 哈工大 雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 年秋季 Copyrights @ 2007. HIT. All Rights Reserved
自然语言处理中的歧义问题
在自然语言处理的各个阶段广泛大量地 存在着形形色色的歧义问题,这是自然 语言与人工语言的根本差别之一,也是 自然语言处理的难点所在

宗成庆统计自然语言处理1一书序言

宗成庆统计自然语言处理1一书序言

宗成庆《统计自然语言处理》1一书序言冯志伟我在1996年出版的《自然语言的计算机处理》中,曾经说过:“自然语言处理(Natural Language Processing, NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。

”2这个定义是正确的,它的缺点是比较笼统。

我一直不太满意这个定义。

后来,我在1999年出版的《计算机进展》(Advanced in Computers)第47卷上,看到了美国计算机科学家马纳瑞斯(Bill Manaris)在《从人-机交互的角度看自然语言处理》一文给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。

自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。

”这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.”3马纳瑞斯的这个定义更加完善,把自然语言处理的研究过程也清楚地反映出来了。

自然语言处理 第一章

自然语言处理 第一章
• 1950s: Yehoshua Bar-Hillel(MIT): 1952年举办了 1st MT会议,会上, Leon Dostert(Georgetown Univ.)建议开发演示系统,以吸引基金 的投 资.
• 1955年,第一个演示系统在 IBM & Georgetown 开发,包含250 个词 和 6 条句法规则,实现 Russia — English;
29
情感及观点分析
• 为什么要对文本进行情感分析?
– 文本是人写的,必然带有人的感情和观点 – 大量应用需要情感与观点分析:
• 评论性文本:商品评论,服务质量,影评 • 带政治色彩的评论:敌对势力的攻击,法轮功的攻击
• 情感与观点分析要做什么?
– 观点是什么?带有怎样的情感色彩(正面/负面)? – 谁发表的观点或表达的情感? – 针对的问题及对象是什么? – 以上都需要通过文本分析提炼
自然语言处理课程讲义
第一章 绪论
王峰 华东师大计算机系
自然语言处理
Natural Language Processing
• 参考教材
– 俞士汶,常宝宝,詹卫东,《计算语言学概论》,商务印书 馆。
– 宗成庆,《统计自然语言处理》,清华大学出版社。 – Steven Bird, Ewan Klein, and Edward Loper, Natural Language
– 应用:排版、印刷、书籍编撰等。
25
• 语音识别
– 将输入语音信号自动转换成书面文字 – 应用:文字录入、人机通讯、语音翻译等 – 困难:大量存在的同音词、近音词、口音等
• 文语转换/语音合成
– 将书面文本自动转换成对应的语音 – 应用:朗读系统、人机语音接口等

宗成庆--自然语言处理--第一章-绪论

宗成庆--自然语言处理--第一章-绪论

Company Logo
1.2 自然语言处理研究的内容和面临的困难
1.2.1自然语言处理研究的内容; 语言教学(Language teaching):借助计算机辅助 教学工具,进行语言教学、操练和辅导等。 应用:语言学习等 文字识别(Character recognition):通过计算机 系统对印刷体或手写体等文字进行自动识别,将其转 换成计算机可以处理的电子文本基本概念
1.1.1 语言学和语音学; 语音学(phonetics) 研究人类发音特点,特别是语音发音特点,并提出各种语 音描述、分类和转写方法的科学。 包括: (1)发音语音学(articulatory phonetics),研究 发音器官如何产生语音;(2)声学语音学(acoustic phonetics),研究口耳之间传递语音的物理属性;(3) 听觉语音学(auditory phonetics), 研究人通过耳、听 觉神经和大脑对语音的知觉反应。
Company Logo
1.2 自然语言处理研究的内容和面临的困难
——摘自中国金币网(/)
Company Logo
第一章
绪论
计算机发明以来,人类首先想到的计算机的 应用之一,就是自动翻译。然而时至今日,计 算机处理自然语言的能力在大多数情况下都不 能满足人类社会信息化时代的要求。有关专家 指出,语言障碍已经成为制约21世纪社会全球 化发展的一个重要因素。 因此,如何尽早实现自然语言的有效理解, 打破不同语言之间的固有壁垒,已经成为备受 人们关注的极具挑战力的国际前沿研究课题。
Company Logo
1.2 自然语言处理研究的内容和面临的困难
1.2.1自然语言处理研究的内容; 信息检索(Information retrieval):信息检索也称情报检

统计自然语言处理基础-EM算法

统计自然语言处理基础-EM算法

xc
xx
j
c j ( c j 1) S (c j ) c j 所以, S (c j ) s (c j ) s (c j ) c j c j ( c j 1)
29
相似度函数计算原则

如果两个聚类ci和cj的向量和已知,那么 它们合并形成的聚类的平均相似度计算公 式可以写为:

7
8
聚类概述

用途:

2.概念一般化 以法英翻译为例,Friday前的介词未知,进行推断。 已有的英文数据:on Sunday, on Monday, on Thursday. 按照语法和语义聚类,Sunday, Monday, Thursday就会被聚到一类,因为它们有相同的上下 文模式。
i 1 j 1 n k
log j n j ( x i ; j , j )
i 1 j 1
49
n
k
EM算法举例

描述一个估计高斯混合分布的EM算法:

初始假设:
协方差矩阵:单位矩阵; 先验概率: j 1 / k 均值: i 设为任何值;

50
EM算法举例
34
非层级聚类

综述

下面重点介绍两种非层级聚类的方法:

K平均算法:

简单,虽然有局限性,但因适用面广、效率高而得 到广泛应用。 是一种算法的基本框架 在统计自然语言处理中有很广泛的应用,“向内-向 外”算法和“前向-后向”算法;

EM算法:

35
非层级聚类

K平均算法:

是种“硬”聚类算法; 基本思想:


例外:夏威夷岛火山;

宗成庆统计自然语言处理

宗成庆统计自然语言处理

宗成庆统计自然语言处理自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的一个重要研究方向。

它旨在让计算机能够理解、分析和生成自然语言的能力,使计算机能够更好地与人类进行沟通和交互。

NLP的研究范围非常广泛,涵盖了词法分析、句法分析、语义分析、机器翻译、情感分析等多个子领域。

通过对自然语言的分析和处理,NLP可以帮助计算机理解人类的意图和情感,实现智能化的交互和应用。

在词法分析方面,NLP可以对文本进行分词、词性标注和命名实体识别等处理,从而将一段文本切分成一个个具有意义的词语,并为它们赋予相应的词性和语义信息。

通过这种方式,计算机可以更好地理解文本的语义和结构。

句法分析是NLP的另一个重要研究方向,它的目标是分析句子的结构和语法关系。

通过句法分析,计算机可以理解句子中不同词语之间的依存关系,从而更好地理解句子的含义。

语义分析是NLP的核心任务之一,它的目标是理解文本的语义和逻辑关系。

通过语义分析,计算机可以挖掘出文本中隐藏的含义和逻辑结构,实现更精确的理解和推理。

机器翻译是NLP的一个重要应用领域,它旨在将一种语言的文本自动翻译成另一种语言。

通过机器翻译,人们可以更方便地进行跨语言交流和理解。

情感分析是NLP的一个新兴研究方向,它的目标是分析文本中的情感和情绪。

通过情感分析,计算机可以识别文本中的情感倾向和情绪状态,从而更好地理解人类的情感需求。

总的来说,自然语言处理是一门充满挑战和机遇的研究领域。

通过不断地深入研究和创新,NLP将会在人工智能和社会应用中发挥越来越重要的作用。

希望今后能有更多的科学家和工程师致力于NLP 的研究和应用,为人类创造更智能、更便捷的交互方式。

自然语言处理的基础概念和原理

自然语言处理的基础概念和原理

自然语言处理的基础概念和原理自然语言处理(Natural Language Processing,简称NLP)是一门研究人类语言与计算机之间交互的学科,旨在使计算机能够理解、处理和生成自然语言。

它涉及多个领域,包括计算机科学、人工智能、语言学等,是人机交互的重要组成部分。

一、语言模型语言模型是自然语言处理的基础概念之一。

它是对语言的统计建模,通过计算一句话或一段文本的概率来评估其合理性。

语言模型可以分为基于规则的模型和基于统计的模型。

基于规则的模型依赖于人工编写的语法规则,而基于统计的模型则利用大量的语料库进行训练,通过统计分析来得出概率分布。

二、词法分析词法分析是自然语言处理中的一个重要步骤,它将输入的文本分解成一个个单词或词组,称为词法单元。

词法分析器通过识别单词的形态和语法规则来划分词法单元,常用的方法有正则表达式、有限状态自动机等。

词法分析的结果将作为后续处理的基础。

三、句法分析句法分析是自然语言处理的核心环节之一,它研究的是句子的结构和语法关系。

句法分析的目标是将输入的句子进行分析和解析,得出句子的语法结构树或依存关系图。

常用的句法分析方法有基于规则的句法分析和基于统计的句法分析。

基于规则的方法依赖于人工编写的语法规则,而基于统计的方法则利用大量的语料库进行训练,通过统计分析来得出句子的结构。

四、语义分析语义分析是自然语言处理的重要环节,它研究的是句子的意义和语义关系。

语义分析的目标是将句子的表面结构转化为语义表示,从而实现对句子的深层理解。

常用的语义分析方法有基于规则的语义分析和基于统计的语义分析。

基于规则的方法依赖于人工编写的语义规则,而基于统计的方法则利用大量的语料库进行训练,通过统计分析来得出句子的语义表示。

五、机器翻译机器翻译是自然语言处理的一个重要应用领域,它旨在将一种自然语言的文本转化为另一种自然语言的等价文本。

机器翻译的核心问题是解决不同语言之间的词汇、语法和语义等差异。

第一讲统计自然语言处理概论2

第一讲统计自然语言处理概论2

• 知识处理
– 功能: • 对于已进入电子世界中的语言信息进行加工处理获得知识 – 主要研究内容 • 媒体的加工和管理、语言信息处理 – 知识处理的时代已经到来!
机器能够理解人的语言吗? 机器能够理解人的语言吗?
很难,但是没有证据表明不行 什么是“理解 理解” 理解
– 结构主义:机器的理解机制与人相同
• 短语转换
小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面
• 生成– 模拟人类写作的过程,生成符合逻辑的连 贯的文本
– 史密斯小姐放两书在这餐桌上面 – 史密斯小姐(把)两(本)书放在这 (张)餐桌上面
• 最终翻译结果
– 英文:Miss Smith put two books on this dining table. – 中文:史密斯小姐把两本书放在这张餐桌上面
统计自然语言处理 与信息检索
孙越恒 天津大学网络智能信息计算研究所
E-mail: yhs@
目录
一、 概述--NLP的概念、历史与现状 二、 NLP的研究内容 三、 NLP研究的困难 四、 NLP方法论之争 五、 统计方法示例 六、 本课的主要内容 七、 抛砖引玉
一、 NLP的概念 的概念
3. 基础研究 (1)词法分析
词法分析的主要目的是找出词汇的各个 词素,从中获得语言学信息。词法分析是 很多中文信息处理任务的必要步骤。 • 自动分词(中文分词 中文分词) 中文分词 • 词性标注 • 短语识别
• 分词:中文词与词之间没有明显的分隔符,使得计 分词:
算机对于词的准确识别变得非常困难。因此,分词 就成了中文处理中所要解决的最基本的问题,分词 的性能对后续的语言处理如机器翻译、信息检索等 有着至关重要的影响。随着对中文处理关注程度的 增加,国际计算语言联合会 (ACL) 下设的汉语特别 兴趣 (SIGHAN) 研究组每年举办国际汉语分词评测 大赛。

第一章 自然语言处理概论ppt课件

第一章 自然语言处理概论ppt课件
– “目前一些试用过的用户表示,改进后的 翻译服务在质量方面令人惊讶。对于那些 从未使用机器翻译的用户来说,他们完全 可以通过翻译后的文本理解原文的意思, 一些细微的错误并不会引起太大的麻烦。 ”
--Franz Josef Och
哈尔滨工业大学计算机学院语言技 术研究中心
几个时间段(续)
• 还需要多少年才能实现计算机与人类无障 碍地沟通?
• 语法分析歧义
– 咬死了猎人的狗
• 那只狼咬死了猎人的狗 • 咬死了猎人的狗失踪了
自然语言处理中的歧义问题(续 )
• 语义分析歧义
– At last, a computer that understands you like your mother.
– 1985 McDonnell-Douglas ad
– 含义1:计算机会象你的母亲那样很好地理解 你(的语言)
– 含义2:计算机理解你喜欢你的母亲 – 含义3:计算机会象很好地理解你的母亲那样
理解你
自然语言处理中的歧义问题(续 )
• 语用分析歧义
– “你真坏”至少有如下三种理解:
• 当人们对干了坏事的成年人说时,是一种严厉的斥 责
• 当妈妈对淘气的儿子说时,实际表达的是对儿子的 一种疼爱
几点感性认识
• 有点繁琐枯燥
– “从繁体词库到简体词库” – 要求同学们一丝不苟的认真精神
• 充满乐趣
– “机器翻译及其应用激起了人们极其浓厚 的兴趣”
– 要求同学们有愚公移山,坚持到底的精神
几点感性认识(续)
• 团队合作
– “128个字节的偏移量” – 要求同学们善于协作,有团队精神
• 独创精神
哈尔滨工业大学计算机学院语言技 术研究中心

自然语言处理

自然语言处理

自然语言处理自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,致力于使计算机能够理解、处理和生成人类自然语言的能力。

它涉及语言学、计算机科学、统计学等多个学科的知识,旨在构建一套系统化的方法和技术,以便计算机能够有效地与人类进行自然语言的交互。

一、概述自然语言处理是对人类语言进行处理和分析的技术,主要目标是实现语言的自动理解和生成。

它可以应用于各种领域,如机器翻译、自动问答、情感分析、文本分类等。

自然语言处理的主要任务包括分词、词性标注、句法分析、语义理解等。

二、分词分词是自然语言处理的基础任务之一,它将一段连续的文本分割成一个个独立的词语。

中文分词是相对复杂的,因为中文中没有像英文那样用空格分隔单词。

常见的分词方法有基于规则的分词和基于统计的分词。

三、词性标注词性标注是为文本中的每个词语赋予其应有的词性,如动词、名词、形容词等。

词性标注对于进一步的句法分析和语义理解非常重要。

四、句法分析句法分析是自然语言处理中的重要任务,它用于分析句子的结构和成分之间的关系。

常见的句法分析方法有依存句法分析和成分句法分析。

依存句法分析强调词与词之间的依存关系,成分句法分析则将句子结构划分为短语或子句。

五、语义理解语义理解是自然语言处理的核心任务之一,它用于理解句子的意思和语义关系。

语义理解常用于问答系统、机器翻译等场景。

常见的语义理解方法有词向量表示、语义角色标注等。

六、文本生成文本生成是自然语言处理的重要应用之一,它用于生成符合语法规则和语义要求的文本。

文本生成常用于机器翻译、自动摘要、智能问答等场景。

七、应用领域自然语言处理技术在各个领域有着广泛的应用。

在机器翻译领域,自然语言处理技术可以实现跨语言的翻译;在情感分析领域,可以根据用户的情感倾向分析其评论;在智能问答系统中,可以根据用户提出的问题生成准确的回答。

八、发展前景随着人工智能技术的不断发展,自然语言处理技术将会得到进一步的提升和应用。

统计自然语言处理基本概念PPT课件

统计自然语言处理基本概念PPT课件
– 例如
• 连掷两次硬币
• 样本空间
– 是一个试验的全部可能出现的结果的集合 – 举例
• 连掷两次硬币
– ={HH, HT, TH, TT}, H:面朝上; T:面朝下
8
事件(Event)
• 事件
– 一个试验的一些可能结果的集合,是样本 空间的一个子集
– 举例:连掷两次硬币
• A: 至少一次面朝上 • B: 第二次面朝下 • A={HT, TH, HH}, B={HT, TT}
– Naïve Baiysian:假定各特征之间条件独立
• P(A1,A2,…,An|B)=i=1,…,nP(Ai|B)
– 避免一个错误:P(A|B,C)=P(A|B) P(A|C)
17
独立和条件独立
• 独立不意味着条件独立
– 举例:色盲和血缘关系
• A:甲是色盲 • B:乙是色盲 • C:甲和乙有血缘关系 • P(A,B)=P(A)P(B) • P(A,B|C) P(A|C)P(B|C)
统计自然语言处理基本概念
1
第一部分
整体概述
THE FIRST PART OF THE OVERALL OVERVIEW, PLEASE SUMMARIZE THE CONT Output 的系统
Output1 模型1
Output2 模型2
如果Output1总是和Ouput接近,Output2总是
• 在事件B发生的条件下事件A发生的概率
– P(A|B)=P(A,B)/P(B) – P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)
• c(A)代表事件A出现的次数,c(B)同理 • T是试验总次数
– 举例:两次掷硬币问题

自然语言处理课件PPT课件

自然语言处理课件PPT课件

自然语言处理课件PPT课件•自然语言处理概述•基础知识与技术•词法分析与词性标注•句法分析与句子理解•语义理解与表示学习•信息抽取与问答系统•情感分析与观点挖掘•机器翻译与自动摘要•自然语言处理前沿技术01自然语言处理概述自然语言处理定义NLP旨在让计算机能够理解和生成人类的语言,从而实现更自然、更智能的人机交互。

统计语言模型阶段早期阶段基于大规模语料库的统计方法成为主流,实现了更准确的词性标注、句法分析和机器翻译等任务。

深度学习阶段语音识别与合成将人类语音转换为文本或将文本转换为人类语音,实现语音交互和语音合成。

根据特定主题或要求,自动生成结构合理、语义通顺的文本。

智能问答根据用户提出的问题,自动检索相关信息并生成简洁明了的回答。

机器翻译将一种自然语言文本自动翻译成另一种自然语言文本,实现情感分析02基础知识与技术研究词汇的起源、发展、变化和词汇的分类、构成、意义等方面的知识。

研究句子中词语的排列组合规律,以及句子成分之间的关系和层次结构。

研究语言符号与所指对象之间的关系,以及语言符号之间的意义联系和逻辑关系。

研究语言在特定语境中的使用和理解,涉及说话人、听话人、语境等多个因素。

词汇学句法学语义学语用学计算机体系结构了解计算机硬件系统的组成和工作原理,包括中央处理器、存储器、输入输出设备等。

操作系统掌握操作系统的基本概念、功能、分类和常用命令,以及进程管理、内存管理、文件管理等方面的知识。

编程语言与算法熟悉至少一门编程语言,掌握基本的数据结构、算法和设计模式,以及编程规范和调试技巧。

常用算法与模型分词算法词向量模型语言模型命名实体识别03词法分析与词性标注词法分析原理及方法基于规则的方法基于统计的方法深度学习方法词性标注方法及实现基于规则的方法01基于统计的方法02深度学习方法03典型案例分析案例一案例二案例三04句法分析与句子理解短语结构树依存关系图深层语义表示030201句法结构表示方法基于统计的方法利用大规模语料库学习句法结构概率模型,如基于PCFG 、RNN 、Transformer 等的句法分析模型。

自然语言处理导论1-数学基础

自然语言处理导论1-数学基础
A0BC'DEF • GHI-A0J5K@ • GHI-L0J5KM@ NO0PQF • RSTULVAW'HXYAZ*[\]^@ • _`/aJbT.//aJcd8^@Biblioteka H (X|Y)=?t
例:假如一个字符发射器,随机发出0和1两种字符, 真实发出概率分布为A,但实际不知道A的具体分布。 现在通过观察,得到概率分布B与C。各个分布的具 体情况如下:
贝叶!斯"#在$拼%写&'纠(正)*的+一,个-.例/子
问题:计算机看到用户输入了一个不在字典中的单词thew, 计算机需要去猜测:“这个家伙到底真正想输入的单词是什 么呢?”
用刚才我们形式化的语言来叙述就是,我们需要求概率: P(我们猜测他想输入的单词 | 他实际输入的单词) 并找出那个使得这个概率最大的猜测单词。
!"
#$%&'()*
+,%-(./()0'*
!"#$
12!"
3!"45
贝叶6斯7方8+法9的:由;来<
“所谓的贝叶斯方法源于他生前为解决一个“逆概”问题 写的一篇文章,而这篇文章是在他死后才由他的一位朋友发 表出来的。在贝叶斯写这篇文章之前,人们已经能够计算 “正向概率”,如“假设袋子里面有N个白球,M个黑球, 你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然 而然的问题是反过来:“如果我们事先并不知道袋子里面黑 白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察 这些取出来的球的颜色之后,那么我们可以就此对袋子里面 的黑白球的比例作出什么样的推测”。这个问题,就是所谓 的逆概问题。”
P(Girl|Pants) =
P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]

统计自然语言处理

统计自然语言处理

统计自然语言处理
《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。

统计自然语言处理

统计自然语言处理

统计自然语言处理隐马尔科夫模型和词性标注刘挺哈工大信息检索研究室2004年春大纲隐马尔科夫模型C 隐马尔科夫模型概述C 任务1:计算观察序列的概率C 任务2:计算能够解释观察序列的最大可能的状态序列 C 任务3:根据观察序列寻找最佳参数模型词性标注隐马尔科夫模型概述马尔科夫链状态序列: X1, X2, X3, 。

C 常常是“时序”的从Xt-1到Xt的转换只依赖于Xt-1X1 X2 X3 X4转移概率Transition Probabilities 假设一个状态Xt有N个可能的值C Xt=s1, Xt=s2,。

.., Xt=sN. 转移概率的数量为:N2C P(Xt=si|Xt-1=sj), 1≤ i, j ≤N 转移概率可以表示为N×N的矩阵或者有向图MM Bigram MM(一阶MM)MM Trigram MM(二阶MM)有限状态自动机状态:输入输出字母表中的符号弧:状态的转移仍然是VMM (Visible MM)HMM HMM,从状态产生输出HMM HMM,不同状态可能产生相同输出HMM HMM,从弧产生输出HMM HMM,输出带有概率HMM HMM,两个状态间有多条弧,具有不同的概率隐马尔可夫模型Hidden Markov Model 估算隐藏于表面事件背后的事件的概率 C 观察到一个人每天带雨伞的情况,反过来推测天气情况Hidden Markov Model HMM是一个五元组(S, S0,Y, Ps, PY ).C C C C S : {s1。

sT }是状态集,S0是初始状态Y : {y1。

yV }是输出字母表PS(sj|si):转移(transition)概率的分布,也表示为aij PY(yk|si,sj): 发射(emission)概率的分布,也表示为bijk 给定一个HMM和一个输出序列Y={y1,y2,。

,yk)C 任务1:计算观察序列的概率C 任务2:计算能够解释观察序列的最大可能的状态序列C 任务3:根据观察序列寻找最佳参数模型任务1:计算观察序列的概率计算观察序列的概率前提:HMM模型的参数已经训练完毕想知道:根据该模型输出某一个观察序列的概率是多少应用:基于类的语言模型,将词进行归类,变计算词与词之间的转移概率为类与类之间的转移概率,由于类的数量比词少得多,因此一定程度避免了数据稀疏问题Trellis or Lattice(栅格)发射概率为1的情况Y=“toe”P(Y)=0.6×0.88×1+0.4×0.1×1=0.568算法描述从初始状态开始扩展在时间点t扩展得到的状态必须能够产生于观察序列在t时刻相同的输出C 比如在t=1时,观察序列输出‘t’,因此只有状态A 和C得到了扩展在t+1时刻,只能对在t时刻保留下来的状态节点进行扩展C 比如在t=2时,只能对t=1时刻的A和C两个状态进行扩展每条路径上的概率做累乘,不同路径的概率做累加直到观察序列全部考察完毕,算法结束发射概率不为1的情况0.*****就是在上述模型下“toe”出现的概率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

三、NLP研究的困难
歧义 (ambiguity) 病构 (ill-formedness) 复述 (paraphrasing)
1.歧义
(1)注音歧义
– 快乐(le4)的单身汉 – 火红的第五乐(yue4)章
(2)分词歧义
– 交集型歧义 • 研究/ 生命/ 的/ 起源 • 研究生/ 命/ 的/ 起源 – 组合型歧义 • 他/ 从/ 马/ 上/ 下来 • 他/ 从/ 马上/ 下来
• 例1:有两组不同背景的人在一起开会。其中 一组人正在讨论社会上流感问题,有人在说话 中提到了“病毒”,他们是在医学的语境下指 称“生物性病毒”。 另一组人正在讨论计算机安全问题,有人 在说话中提到了“病毒”,他们是在计算机安 全这一话题的语境下指称“计算机病毒”。 • 评论:这是同一词语在不同的“语境”中具有 不同“语义”的典型例子。
• 乔姆斯基 • 先天语言能力
• 对于语法的描述 – 形成基于规则的传统语言处理技术 • 句法规则的确抓住了语言的主要模式 • 什么是语言中最普遍的模式呢,是否需要量化?
• 短语转换
小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面
• 生成– 模拟人类写作的过程,生成符合逻辑的连 贯的文本
– 史密斯小姐放两书在这餐桌上面 – 史密斯小姐(把)两(本)书放在这 (张)餐桌上面
• 最终翻译结果
– 英文:Miss Smith put two books on this dining table. – 中文:史密斯小姐把两本书放在这张餐桌上面
3. NLP的历史
• 20世纪50年代起步 – 机器翻译 • 50-60年代采用模式匹配的方法
– 60年代衰落
• 70-80年代采用面向受限域的深入理解的方法 • 90年代至今统计方法占主流
– 随着互联网的发展而复苏 – 互联网为NLP提供了市场需求和试验数据
4. NLP现状
• 仍然缺乏理论基础 • 词汇句法方面的问题尚未解决,已开始挑战语义、 知识等深层课题 • 语音识别中采用的统计语言模型推动了NLP的发 展,目前的统计模型在向语言深层发展 • Ontology受到普遍重视 • 开放域处理时起时落 • 一切才刚刚开始……
• 图灵测试:如果通过自然语言的问答,一个人 无法识别和他对话的是人还是机器,那么就应 该承认机器具有智能
有用否?能用否?
• NLP有用吗?
– 据统计,日常工作中80%的信息来源于语言 – 文本是人类知识最大的存储源,并且文本的数量 在不停地增长
• 电子邮件、新闻、网页、科技论文 • NLP能用吗?
• 例2:设想例1中正在讨论“计算机病毒”和“生物病毒” 的这两组人正在一起开会,目的是为领导机关拟定某某年 度科研项目申报提纲中的最后一个项目的名称。由于主管 机关所掌握的经费的限制,允许申报的只剩下最后一项, 而且必须在中午12点以前将申请书上报,过期作废。 可以想象,这两组人将互相争执不下,达不成共识。 但是为了避免因为上报时机延误而使双方都落空,最后决 定先写出一个“表述一致,但是各持自己理解”的申请书: 《关于建立“病毒”检测与预防机制的研究》。至于是那 种病毒,留待今后进一步申述。 • 评论:这是一个假想的例子,但是他显示了许多外交文件 的实质。自然语言的含糊性在此显示出它伟大的功能。
• 知识控制策略 – 知识的冲突
• 知识集成 – 从多个知识源获取的不同层面,不 同性质的知识如何融合在一起 • 知识获取
– 机器学习
5. 一个NLP的例子:英汉机器翻译
• 输入英文句子: ---- Miss Smith putted two books on this dining table. • 形态分析(Morphological Analysis)
词法分析的主要目的是找出词汇的各 个词素,从中获得语言学信息。词法分析 是很多中文信息处理任务的必要步骤。 • 自动分词(中文分词) • 词性标注
• 短语识别
• 分词:中文词与词之间没有明显的分隔符,使得计
算机对于词的准确识别变得非常困难。因此,分词 就成了中文处理中所要解决的最基本的问题,分词 的性能对后续的语言处理如机器翻译、信息检索等 有着至关重要的影响。随着对中文处理关注程度的 增加,国际计算语言联合会 (ACL) 下设的汉语特别 兴趣 (SIGHAN) 研究组每年举办国际汉语分词评测 大赛。
统计自然语言处理 与信息检索
孙越恒 天津大学网络智能信息计算研究所 E-mail: yhs@
目录
• • • • • • • 概述--NLP的概念、历史与现状 NLP的研究内容 NLP研究的困难 NLP方法论之争 统计方法示例 本课的主要内容 抛砖引玉
一、NLP的概念
1. 什么是自然语言 以语音为物质外壳,由词汇和语法两部分组成 的符号系统。《新华词典》 语言是人类交际的工具,是人类思维的载体 是约定俗成的,有别于人工语言(程序设计语 言)
词典: 小王:N 小李:N 和:C 妹妹:N 结婚:V 了:le 的:de
两种分析结果:
(3)语义分析
• 语义分析的研究,如词义排歧和语义归纳、推理 等,尚处于萌芽期并将逐步走向前台,成为下一 阶段计算语言学研究的一个亮点。 • 计算机本身没有智能,自然语言的语义分析和内 容信息的理解,离不开相应的语义知识库的支持, 它是帮助计算机“了解”人类语言的一个媒介和 桥梁,也是让计算机逐渐“聪明”起来的一个物 质前提。 • 语义分析主要研究基于语义知识库的语义相似度 的计算方法、语义知识库的自动构建等内容。
– 和未登录词绞在一起 • 刘挺/ 拔/ 出/ 宝剑 • 刘/ 挺拔/ 出/ 宝剑 – 多交集字段的歧义 • [ 结合] [ 成分] [ 子时] – 有的歧义无法在句子内部解决 • 乒乓球拍卖完了
(3)短语歧义
– [咬死猎人]的狗 – 咬死[猎人的狗]
(4)句法歧义
Our company is training workers.
(5)语义歧义--词义歧义
– – – – 打[玩]乒乓球 打[编织]毛衣 打[通讯]电话 ……
(6)语用歧义 – “你真讨厌!”
2. 病构
• 真实文本的语言现象非常复杂,不规范,不干净 – 未登录词(Unknown Words) – 已知词的新用法 • 例子:Please xerox a copy to me. – 不合乎语法的句子 • 例子:他非常男人。(名词不能受程度副词修饰) – 不合乎语义约束的搭配 • 例子:My car drinks gasoline like water. – 由于作者疏忽造成的错误 – 真实的语言是非常脏的
6. 语言处理的步骤
• • • • • • • • • • 文本预处理 句子切分 形态分析(Morphological Analysis) 分词 词性标注(Part-of-Speech Tagging) 句法分析 词义消歧(Word Sense Disambiguation) 语义关系分析 指代消解(Anaphora Resolution) 逻辑形式(Logic Form)
二、NLP的研究内容
1. 自然语言处理的科学内容
• 语言学的任务 – 刻画和解释语言现象
• 人类是如何获取和理解语言的 • 理解语言和世界的关系 • 理解语言在通讯时的结构和内在含义
• 人们在说些什么 – 覆盖语言结构的各个方面 • 人们说的事情和世界怎样联系在一起
2. NLP的不同层次
3. 基础研究 (1)词法分析
Miss Smith put (+ed) two book+s on this dining table.
• 句法分析(Syntactic Analysis)

• 词汇转换
Miss ⇒ Smith ⇒ put (+ed) ⇒ Two ⇒ book+s ⇒ on ⇒ this ⇒ dining table.⇒ 小姐 史密斯 放 两 书 在…上面 这 餐桌
3. 复述
• 举例
– – – – – – 毛泽东出生于1893年 毛泽东出生在1893年 毛泽东诞生于1893年 毛泽东同志是1893年出生的 毛主席生于1893年 毛泽东生于光绪6年(虚拟的)
四、NLP方法论之争 — 理性主义和经验主义
• 理性主义者(Rationalist)
– 1960-1985: 理性主义是主流 – 他们的信念
(5)统计语言模型
统计语言模型是自然语言处理的主流技术之一。 研究的主要内容包括各种语言模型的构建、改 进以及应用 • N-gram模型 • 隐马尔科夫(HMM)模型 • 最大熵模型 • 依存语言模型 • 朴素贝叶斯模型 • 条件随机场
4. NLP系统的主要任务
• 知识表示
– – – – 产生式 谓词逻辑 语义网络 概念从属理论(CD理论)
• 知识处理
– 功能: • 对于已进入电子世界中的语言信息进行加工处理获得知识 – 主要研究内容 • 媒体的加工和管理、语言信息处理
机器能够理解人的语言吗?


很难,但是没有证据表明不行 什么是“理解”
– 结构主义:机器的理解机制与人相同
• 问题在于谁也说不清自己理解语言的步骤
– 功能主义:机器的表现与人相同
• 语义:语言和世界的映射关系,符号之间的 变换关系
• “语义”就是一个单词或者一个语言成分的 含义的解释。而其解释通常不止一种。
• 在自然语言中,一个词语的新语义往往是 通过流行的新的用法而产生的。 一个词语或单词在句子中有多种解释,取 哪一个呢?
(4)语用分析
• 语用:符号或者语言成分和它们的使用者之间的关系 • 通俗解释:说话双方按照该单词或者语言成分所在的 “语境”,来确定应该选择其中哪一种释义或含义。 • “语境”的范围可以变化很大:从一个句子,一段话, 到整篇文章,乃至文章作者的身份和处境,所在的时 代的文化背景。
相关文档
最新文档