人工智能基础 第六章 自然语言处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
YOURcompany
自然语言处理概述
自然语言处理是使用自然语言同计 算机进行通讯的技术,也称为计算 语言学。
目录
自然语言处理的 应用
将自然语言处理与实际相结合 解决现实中存在的问题,可以 在很大程度上解放人力,节省 物力
自然语言处理过程的层次 任务
语言的分析和理解过程是一个层次化的过程。 按照处理对象的颗粒度,自然语言处理大致可 以分为几大层次
自然语言处理过程的 层次任务
自然语言处理过程的层次任务
1. 数据输入源 自然语言处理系统的输入源一共有3种,即语音、图像与文本。其中,语音 和图像虽然正引起越来越大的关注,但受制于存储容量和传输速度,它们的信 息总量还是没有文本多。 2. 词法分析 中文分词、词性标注和命名实体识别这3个任务都是围绕词语进行的分析, 所以统称词法分析。词法分析的主要任务是将文本分隔为有意义的词语(中文 分词),确定每个词语的类别和浅层的歧义消除(词性标注),并且识别出一 些较长的专有名词(命名实体识别)。 3.信息抽取 根据这些单词与标签,我们可以抽取出一部分有用的信息,从简单的高频词 到高级算法提取出的关键词,从公司名称到专业术语,其中词语级别的信息已 经可以抽取不少。我们还可以根据词语之间的统计学信息抽取出关键短语乃至 句子,更大颗粒度的文本对用户更加友好。 4.语法分析 句法分析分为句法结构分析和依存关系分析两种。以获取整个句子的句法 结构为目的的来自百度文库为完全句法分析,而以获得局部成分为目的的语法分析称为局 部分析,依存关系分析简称依存分析。
大多数语言现象比英文词干复杂得多,我们已经在上文了解了不少。这些语言现象没有必然遵循的 规则,也在时刻变化,使得规则系统显得僵硬、死板与不稳定。
基于统计学习的方法
为了降低对专家的依赖,自适应灵活的语言问题,人们使用统计方法让计算机自动学习语言。所谓 “统计”,指的是在语料库上进行的统计。
由于自然语言灵活多变,即便是语言学专家,也无法总结出完整的规则。哪怕真的存在完美的规则 集,也难以随着语言的不停发展而逐步升级。由于无法用程序语言描述自然语言,所以聪明的人们决定 以举例子的方式让机器自动学习这些规律。然后机器将这些规律应用到新的、未知的例子上去。在自然 语言处理的语境下,“举例子”就是“制作语料库”。
自然语言处理过程的 不同方法
自然语言处理过程中的不同方法
基于规则的专家系统:
规则,指的是由专家手工制定的确定性流程。小到程序员日常使用的正则表达式,大到飞机的自动 驾驶仪,都是固定的规则系统。
专家系统要求设计者对所处理的问题具备深入的理解,并且尽量以人力全面考虑所有可能的情况。 它最大的弱点是难以拓展。当规则数量增加或者多个专家维护同一个系统时,就容易出现冲突。
自然语言处理的基本概念
• 自 然 语 言 处 理 ( NLP , Natural Language Understanding)是使用自然语言同计算机进行通 讯的技术,也称为计算语言学(Computational Ling uistics)。
• 自然语言处理是计算机科学领域与人工智能领 域中的一个重要方向。它研究能实现人与计算机 之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一门融语言学、计算机科学、数 学于一体的科学。因此,这一领域的研究将涉及 自然语言,即人们日常使用的语言,所以它与语 言学的研究有着密切的联系,但又有重要的区别。
自然语言中的不同处 理方法
中文语料库
语料库作为自然语言处理领域 中的数据集,是我们教机器理 解语言不可或缺的习题集
自然语言理解概述
自然语言处理概述
• 自然语言是指我们日常生活中使用的语言,如 汉语、英语等,它是相对于人造语言而言的,如 C语言、JAVA语言等计算机语言。语言是思维的 载体,是人际交流的工具,人类历史上以语言文 字形式记载和流传的知识占到知识总量的80%以 上。自然语言处理旨在设计算法使计算机像人一 样理解和处理自然语言,是互联网和大数据时代 的必然。自然语言处理涉及许多领域,包括词汇、 句法、语义和语用分析,文本分类、情感分析、 自动摘要、机器翻译和社会计算等。随着通信和 计算机相关技术的发展,自然语言处理的应用需 求也越来越大。
自然语言处理的基本概念
自然语言处理经历了从逻辑规则到统计模型的发展之路 • 20 世纪 50 年代是人工智能与自然语言处理的萌芽期,出现了许多奠基性的工作。 • 20 世纪 80 年代之前的主流方法都是基于规则的形式语言理论,根据数学中的公理化方法研究
自然语言,采用代数和集合论把形式语言定义为符号序列,由专家手工编写领域相关的规则集。 • 20 世纪 80 年代之后,统计模型给人工智能和自然语言处理领域带来了革命性的进展,人们开始
标注语料库用于开发和测试NLP模块:1988年隐马尔可夫模型被用于词性标注,1990年IBM公布 了第一个统计机器翻译系统,1995年出现第一个健壮的句法分析器(基于统计)。 • 2010年之后语料库规模、硬件计算力都得到了很大提升,为神经网络的复兴创造了条件。但随 着标注数据的增加,传统模型的准确率提升越来越不明显,人们需要更复杂的模型,于是深层 的神经网络重新回归研究者的视野。
自然语言处理的难点
自然语言处理的困难关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在 的歧义问题,简称为消歧。而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、 上下文等)和世界知识(与语言无关)。由于歧义的存在给自然语言处理带来两个主要困难。
首先,当语言中充满了大量的歧义,分词难度很大,同一种语言形式可能具有多种含义。特别 是在处理中文单词的过程中,由于中文词与词之间缺少天然的分隔符,因此文字处理比英文等西方 语言多一步确定词边界的工序,即“中文自动分词”任务。通俗地说就是要由计算机在词与词之间自 动加上分隔符,从而将中文文本切分为独立的单词。例如 “昨天有沙尘暴”这句话带有分隔符的切分 文本是“昨天|有|沙尘暴”。自动分词处于中文自然语言处理的底层,意味着它是理解语言的第一道 工序,但正确的单词切分又需要取决于对文本语义的正确理解。这形成了一个“鸡生蛋、蛋生鸡”的 问题,成为自然语言处理的第一条拦路虎。
相关文档
最新文档