自然语言理解-语料库..共52页文档
自然语言理解
语料库
研究语言知识所用的真实文本称为语料, 研究语言知识所用的真实文本称为语料, 大量的真实文本即构成语料库。 大量的真实文本即构成语料库。 WordNet、MindNet、FrameNet 、 、 知网(How-Net)是一个以英汉双语所代 知网 表的概念以及概念的特征为基础的,以 揭示概念与概念之间以及概念所具有的 特性之间的关系为基本内容的常识知识 库。
概述
理解并回答人们用自然语言提出的有关问题。 理解并回答人们用自然语言提出的有关问题。 生成文本摘要和对文本进行释义。 生成文本摘要和对文本进行释义。 把一种自然语言表示的信息自动地翻译为另一 种自然语言。 种自然语言。
语言的概念
语言是人类进行通讯的自然媒介, 语言是人类进行通讯的自然媒介,它包 括口语、书面语以及动作语等。 括口语、书面语以及动作语等。 语言是用于传递信息的表示方法、 语言是用于传递信息的表示方法、约定 和规则的集合。 和规则的集合。 由语句组成,每个语句又有单词组成。 由语句组成,每个语句又有单词组成。 组成语句时, 组成语句时,应遵循一定的语法和语义 规则。 规则。
自然语言理解
概述
自然语言处理就是研究如何能让计算机理解并 自然语言处理就是研究如何能让计算机理解并 生成人们日常所使用的 如汉语、英语)语言 人们日常所使用的(如汉语 语言, 生成人们日常所使用的 如汉语、英语 语言, 使得计算机懂得自然语言的含义,并对人给计 使得计算机懂得自然语言的含义, 算机提出的问题,通过对话的方式, 算机提出的问题,通过对话的方式,用自然语 言进行回答。 言进行回答。目的在于建立起一种人与机器之 间的密切而友好的关系, 间的密切而友好的关系,使之能进行高度的信 息传递与认知活动。 息传递与认知活动。自然语言理解系统可以用 作专家系统、知识工程、情报检索、 作专家系统、知识工程、情报检索、办公室自 动化的自然语言人机接口,有很大的实用价值。 动化的自然语言人机接口,有很大的实用价值。
自然语言理解-语料库..
语料库的收集、整理和应用
语料的选取
Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman
–精品原则 –有影响力原则 –随机挑选原则 –高流通度原则 –典型性原则 –易于获得原则 –具有统计样本意义原则 –符合语言规范原则
基于词(word-based)的对齐方法
《人民日报》语料库1
北京大学、富士通公司、人民日报社共 同开发 含《人民日报》 1998 年上半年全部文本 (约1千7百万字) 完整的词语切分和词性标注信息 高准确率
《人民日报》语料库2
样例
历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1 /m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月 /t 10日/t 11时/t 50分/t 。/w …… [中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w
平衡性:主观性强
语料库的加工
语料库标注(Annotation)
1)词性标记(Part-of-speech tagging) 2) 句 法 层 次 和 范 畴 标 记 ( Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation)
自然语言理解
NLPR, CAS-IA
2004-2-3
22
NLPR
1.5 自然语言处理研究的基本方法
理性主义与经验主义:计算语言学研究方法 的哲学分野
理性主义:研究人的语言知识结构(语言能力, language competence)实际的语言数据(语言行为, language performance)只提供了这种内在知识的间接证 据。 经验主义:研究对象直接是这些实际的语言数 据。
NLPR, CAS-IA
2004-2-3
30
NLPR
1.7 参考文献
专著
[11] James Allen, Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc. 1995. [12] Christopher D. Manning, Hinrich Schute, Foundations of Statistical Natural Language Processing. The MIT Press. 1999. [13] Rens Bod, Jennifer Hay et al. Probabilistic Linguistics. The MIT Press. 2003.
NLPR, CAS-IA 2004-2-3
21
NLPR
1.5 自然语言处理研究的基本方法
理性主义与经验主义:计算语言学研究方法 的哲学分野
经验主义:人的语言知识是通过感观输入,经过 一些简单的联想(association)与通用化(generalization)的 操作而得到的。 大量的语言数据中获得语言的知识结构。 1920s – 1950s,1980s中期-
自然语言理解
一分词概述语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。
自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。
汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。
此外,汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。
正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法。
1.1 汉语分词的歧义汉语分词是汉语分析以及计算机处理汉语的一大难点,导致汉语分词精度不高的原因一般有:词语(抑或说汉语分析基本单位)的界定、词典范围、分词中因为算法问题产生的歧义。
分词过程中歧义产生的根源可归结为以下三类:(1)由自然语言的二义性所引起的歧义,称为第一类歧义。
如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。
这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。
(2)由机器自动分词产生的特有歧义,称为第二类歧义。
如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了”也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。
对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。
(3)由于分词词典的大小而引起的歧义,称为第三种歧义。
如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。
由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名),同时,词典中所包括的词越多,就会产生新的歧义。
例如“发展社会主义的新乡村”,新乡是一个地名,若词典中有该词,则“新乡村”是一个歧义字段。
第8章 自然语言理解【人工智能 精品讲义】
8.3 句法分析
8.3.1 句法模式匹配和转移网络
• 模式匹配 • 句法转移网络(Transition Network)
pron. verb
q1
q4 pron.
q0
q3
qT
q2 noun verb
adj.
q5 noun
adj.
图8.2 转移网络(TN)
ducks flies little orange swallow the
8.6 语料库语言学
• 语料库的类型
• 按语种分:单语种语料库和多语种语料库 • 按记载媒体分:单媒体语料库和多媒体语料库 • 按地域区别分:国家语料库和国际语料库 • 按使用领域分:通用语料库和专用语料库 • 按分布性分:平衡语料库和平行语料库 • 按语料时间段分:共时语料库和历时语料库 • 按语料加工与否分:生语料库和标注语料库
26
8.8.2 语音识别的基本原理
• 预处理 • 特征提取 • 训练 • 模式匹配
图8.10 语音识别系统基本原理框图
27
8.8.3 语音识别中的难点
• 语音识别系统的适应性差 • 高噪声环境下语音识别进展困难 • 如何把知识量化、建模用于语音识别 • 对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控
• 句法分析 • 语义分析 • 语用分析
17
8.5.1 简单句的理解方法
• 关键字匹配法
• 在程序中规定匹配和动作两种类型的样本。然后建立一种由匹配样本 到动作样本的映射。
• 句法分析树法
• 确保语句含义的细节不被忽略,必须确定其语句结构上的细节,即要 进行文法分析。
18
8.5.2 复合句的理解方法
24
8.7 机器翻译
语料库——精选推荐
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
第七讲——自然语言理解
什么是语言相信大多数同学都有过和计算机对话的经历,我们这个苹果手机上搭载了SIRI,我们的微信上也有一些公众号,它们能够在一定程度上跟我们进行文字交流。
可见计算机能够理解自然语言,也就是我们人类的语言,使得我们觉得人工智能更加的平易近人了。
今天我们就来详细的聊一聊自然语言理解这门技术,语言是人类区别其他动物的本质特性之一。
在所有生物中,只有人类才具有语言能力。
当然,我们话不能说的这么绝对。
语言:语言是人类区别其他动物的本质特性。
在所有生物中,只有人类才具有语言能力。
人类的多种智能都与语言有着密切的关系。
人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。
因而,它也是人工智能的一个重要,甚至核心部分有些报道说猩猩也会一定的语言,2004年的报道中,美国有只猩猩啊,说是会1000个单词的手语,可以和人类通过手语交流,这个猩猩发音好像由于构造原因不能发那么多复杂的音节,但人家不傻,可以用手语交流,不禁让老师感叹也许这个人猿星球中的未来,还真说不准什么时候就会到来。
但不管怎么说,这个语言是高级智能的一种最直观的反应。
人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。
因此,它是人工智能的一个重要,甚至是核心的一个部分。
当然,这门技术不光光是用在人机交互这个功能上。
我们用机器翻译的时候就需要用到自然语言理解的技术,未来如果这门技术发展到非常成熟了,我们就不需要学四六级了,不管去什么国家,带个电脑做翻译,你说一句中文,它说一句英语。
这种工具在很多的科幻片里面都出现过。
非常的方便,但是现在大家还是要好好学英语,因为这个技术现在还不够成熟,大家可以期待我们的后代能够免去学习外语的痛苦。
但是话说回来,我们这节课还真要用到一些英文,因为传统的自然语言理解的就是建立在英文的基础上的。
大家似乎没法回忆自己是如何掌握第一门语言了吧?也就是中文的学习过程,但英文的学习过程大家应该都还记得比较清楚,很多同学可能从小学就开始学英文。
自然语言理解
自然语言理解自然语言理解自然语言也就是我们是日常使用的语言,像各国语言汉语,英语等只要能完成人们之间相互交流的语言就成为自然语言,自然语言是人类学习环境和互相通讯的工具。
在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。
就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。
所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
根据可计算性理论,任一计算机的运算都是按一定程序,分步骤相继作用在离散对象之上所完成的,而这些对象又都以线性序列相邻接地排列组合所构成。
而自然语言具有的离散性、序列性和邻接性三个特征其具备了“可计算性”,为自然语言处理奠定了物质基础。
语法是语言的组织规律。
语法规则制约着如何把词素构成词,把词构成词组和句子。
语言正是在这种严格的制约关系中构成的。
用词素构成词的规则称为构词规则,如“学”+“生”构成“学生”。
一个词又有不同的词形、单数、复数、阴性、阳性等等。
这种构造词形的规则称为构形法,如“学生”+“们”构成“学生们”。
这里,只是在原来的词的后面加上了一个具有复数意义的词素,所构成的并不是一个新词,而是同一个词的复数形式。
构形法和构词法称为词法。
语法中的另一部分是句法。
句法可分为词组构造法和造句法两部分。
词组构造法是把词搭配成词组的规则,例如,把“新”+“朋友”构成“新朋友”。
这里,“新”是一个修饰“朋友”的形容词,它们的组合构成了一个新的名词。
造句法则是用词和词组构造句子的规则,如“我们是计算机系的学生”就是按照汉语造句法构造的句子。
对于自然语言德理解,能够更好的处理计算机语言与人类语言的交互。
他也就是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
自然语言理解讲义
语言分析的主要困难(1)
困难之一:大量歧义(ambiguity)现象 词法歧义
语义学—Semantics,研究符号与其所指事物 间的(深层)关系。
语用学—Pragmatics,研究交际中如何选用 符号来表达意义。
语言学基本知识:现代语法学
受符号学的影响与推动,现代语法学(表示 为Grammar2)形成三个分支:
句法学—Syntax = Grammar1(含词法与句 法)。
哲学
什么是意义?词与句子如何 获得意义?词如何识别现实 世界的对象?
计算语言学 如何识别句子结构?怎样对 知识和推理进行建模?语言 如何被用以完成特定任务?
运用关于反例的直觉知识进行 自然语言论证; 数学模型 (例如, 逻辑与模型理论)
数据结构和算法;表示与推理 的形式理论;AI技术(搜索和 知识表示方法)
语义学—Semantics,研究词意、句子的语义 结构、概念与概念结构等。
语用学—Pragmatics。
为什么要研究计算语言学?
信息时代的需要!语言是信息的载体。 提高计算机的智能:能理解和处理大量语言信息。
自然语言理解的应用
基于文本的应用 在一文本数据库中查找关于某些主题的合适文档(例如在图书 馆找相关书籍) 从关于某些主题的消息或文章中抽取信息 将文本从一种语言翻译成另一种语言 根据某种目标进行自动文摘
语言与自然语言(2)
语言的第一系统和第二系统
第一系统:语音系统—Sound System。 第二系统:文字系统(书写系统)—Writing
第10讲自然语言理解.
6
– 以句法-语义分析为主流的中期历史(1970-1980年代) • 句法分析 – 识别构成句子的各个成分以及它们之间的相互关系, 例如确定每个动词的主语和宾语,以及每个修饰性的 词或短语所修饰的成分。 – 分析结果一般是句子的一棵分析树。 • 语义分析 – 根据输入句子的句法结构和句中每个实词的词义推导 出能反映这个句子意义的某种形式化表示。 – 结果可以是逻辑表达式、语义网络或其它一些复杂的 数据结构。
– 等等…
20
指代和省略中的歧义
– 指代歧义:指代词(如我、你、他等)和代词词组(如“这 一点”,“那件事”等)所指的事件可能存在歧义。 • 例:老师给大家讲了一个动人的故事,这使大家很激动。 – 省略歧义:自然语言中,经常有省略,该省略的不省略反而 显得罗嗦,但有时也会由此产生歧义。 • 例:他说(得/他)不清楚。
13
第三节 汉语的特点 及汉语理解面临的困难
汉语不利于机器理解的几个特点
– 汉语在构词方法上主要是词根复合法,而不是词缀派生法, 缺乏形态标记,主要以虚词和语序表示各种语法关系。 – 词类与句法成分之间不存在一一对应的关系,如谓语可由名 词、动词或形容词充当,而形容词又可作谓语、定语和状语 等。 – 汉语语法有重“意合”,轻形式,以意驭形的特点,使得句 法分析和语义分析往往不能相对独立,只有二者同时或交叉 进行才能取得好的效果。
7
– 以走向实用化和工程化为特征的近期历史(1980-以后) • 一批商品化的自然语言人-机接口和机器翻译系统出现在市 场上。 • 1990年8月,13届国际计算语言学大会,首次提出了处理 大规模真实文本的战略目标。 • 语料库语言学兴起,它顺应了大规模真实文本处理的需求, 提出了以计算机语料库为基础的语言学研究及自然语言处 理新思路。
第十章 自然语言理解
(linguistics), 语言心理学 (psycholinguistics), 认知科学(cognitive science), 计算机科学(computer science), 数学(mathematics),逻辑学(logic)及相关学 科发展和结合而形成的一门交叉学科。
自然语言理解的一般问题(7)
怎样才算理解了语言呢? 归纳起来主要有以下几个方 面:
– 能够理解句子的正确词序规则和概念,又能理解不含规则
的句子 – 知道词的确切含义、形式、词类及构词法 – 了解词的语义分类以及词的多义性和歧义性 – 指定和不定特性及所有(隶属)特性 – 问题领域的结构知识和时间概念 – 语言的语气信息和韵律表现 – 有关语言表达形式的文学知识 – 论域的背景知识
10.1.3 自然语言理解研究的进展
机器翻译是自然语言理解最早的研究领域。 自然语言理解的研究大体上经历了三个时期 – 萌芽时期 – 发展时期 早期: 60年代以关键词匹配为主流 中期: 70年代以句法-语义分析为主流,对语言理解 对话系统的研究取得进展。 近期: 80年代以来开始走向实用化和工程化,自然语 言理解的应用研究广泛开展,机器学习研究又十分活 跃。 – 大规模真实文本处理时期 自然语言理解的研究为专家系统的知识获取提供了新的途 径。自然语言理解的研究已促进计算机辅助语言教学(CALI) 和计算机语言设计(CLD)等的发展。 比较成功的系统处理都是受限的自然语言子集 – 句法受限:句子结构的复杂性方面受到限制 – 语义受限/领域受限:所表达的事物的数量方面受到限 制
自然语言理解的一般问题(10)
语言学的研究-理解的层次
– 语义分析:通过分析找出词义,结构意义及其结合意义,
ch6_自然语言理解
概述——自然语言理解的发展
四个时期: 60年代以关键词匹配为主流的早期 70年代以句法-语义分析为主流的中期 80年代开始的基于知识的新一代自然语言处理 系统 目前,新提出的基于大规模语料库的自然语言 处理思想正在蓬勃发展。 发展迅速的原因:
传统语言学缺乏有利的研究工具 社会发展的需求
概述——语言的构成
语言是音义结合的词汇和语法体系,是实现 思维活动的物质形式。
概述——语言构成
语言的基本单位是词 词素是构成词的最小的有意义的单位。 词汇又可分为词和熟语。 词汇受到语法的支配才可构成有意义的和可理 解的句子,句子按一定的形式再构成篇章等。 熟语就是一些词的固定组合,如汉语中的成语。 词由词素构成,词素是构成词的最小的有意义 的单位。 “教师”是由“教”和“师”这两 个词素所构成的。
句法:包括词组构造法和造句法。
概述——语言构成
语言是音义结合的,每个词汇有其语音形 式。 音素是指一个发音动作所构成的最小的语 音单位。 一个词的发音由一个或多个音节组合而成。 音节又由音素构成。 音素分为元音音素和辅音音素。
概述——自然语言理解
自然语言理解就是如何让计算机能正确处理人类语言, 并据此作出人们期待的各种正确响应。 从微观上讲,语言理解是指从自然语言到机器(计算机 系统)内部之间的一种映射。 从宏观上看,语言理解是指机器能够执行人类所期望的 某些语言功能。
概述——自然语言理解的基本模型
词法分析
句词法分析是找出词汇的各个词素,从中获得语言学信 息。 如:work works worked working worker workings workable workability等,只放词根work。 词法分析算法:
自然语言理解讲义
I saw a woman in a car with a red telescope. (a red telescope修饰saw或woman)
发现敌人的哨兵、修理自行车的师傅、修理自行车的轮胎
语言分析的不同层次(5)
语用的选择作用:同一意义,可以用多种句法形
式来表达。言语者根据要达到的语言交际效果选择所 需的句法形式,这种选择就是语用。 句子的语用成分选择
基本研究方法(2)
理性主义与经验主义方法的哲学分野之二:研 究对象的差异
理性主义方法:研究人的语言知识结构(语言能 力,language competence),实际的语言数 据(语言行为,language performance)只提 供了这种内在知识的间接证据。
经验主义方法:直接研究这些实际的语言数据。
马文才害死了梁山伯 梁山伯被马文才害死了 A *B ,欺骗了祝英台。 句子的省略、指代和照应 张三i把他j出卖了。 张三i把他i,j的朋友出卖了。
基本研究方法(1)
目前自然语言处理与自然语言理解的研究从大的角度可分为两类 方法:理性主义与经验主义方法,下面对这两种方法作一些介绍 和对比分析。
自然语言理解
1.2 语法分析 要进行语法分析, 必须首先给出该语言的文法规则, 以便为语法分析提供一个准则和依据。 对于自然语言人们已提出了许多种文法, 例如, 乔姆斯基(Chomsky)提出的上下文无关文法就是一种常用的文法。 一个语言的文法一般用一组文法规则(称为产生式或重写规则)以及非终结符与终结符来定义和描述。例如, 下面就是一个英语子集的上下文无关文法:
第 11 章 自然语言理解
单击此处添加副标题
单击此处添加正文,文字是您思想的提炼,请尽量言简意赅的阐述观点。
11.1.1 理解的实现过程
1.1 理解的实现过程 要理解一个语句,需建立起一个和该简单句相对应的机内表达。而要建立机内表达,需要做以下两方面的工作: 理解语句中的每一个词。 以这些词为基础组成一个可以表达整个语句意义的结构。
图 11-1 文法树
单击此处添加大标题内容
例11.1 下面是一个基于上述文法的语法分析程序。 它采用自顶向下搜索。
sentence(X):append(Y, Z, X), noun_phrase(Y), verb_phrase(Z). noun_phrase(X):append(Y, Z, X), determiner(Y), noun(Z). verb_phrase(X):append(Y, Z, X), verb(Y), noun_phrase(Z). verb_phrase(X):verb(X). determiner([the]). noun([H|_]): member(H, [man, student, apple, banana, computer]). verb([H|_]):member(H, [eats, study, programming, operats]). append([], L, L). append([H|T], L, [H|L2]): append(T, L, L2). member(X, [X|_]). member(X, [_|T]): member(X, T).
第10章 自然语言理解
IC S I C
Central South University Artificial Intelligence
7
10.1.3 自然语言处理的研究领域和意义
1. 自然语言理解的研究领域和方向
文字识别(Optical character recognition,OCR) 语音识别(Speech recognition) 机器翻译(Machine translation) 自动文摘(Automatic summarization或automatic abstracting) 句法分析(Syntax parsing) 文本分类(Text categorization/document classification)
Ch.10 Natural Language Understanding 第十章 自然语言理解
10.1 10.2 10.3 10.4 10.5 自然语言理解概述 词法分析 句法分析 语义分析 句子的自动理解 10.6 语料库语言学 10.7 文本的自动翻译——机器翻译 10.8 自然语言理解系统的主要模型 10.9 自然语言理解系统应用举例 10.10 小结
verb
qT
q5
adj
noun
图10.2 转移网络(TN)
Central South University Artificial Intelligence
IC S I C
15
10.3.4 Extended Transition Network 扩充转移网络
扩充转移网络ATN是由一组网络构成的,每个网络都有 一个网络名,每条弧上的条件扩展为条件加上操作。 ATN的每个寄存器由两部分构成: 句法特征寄存器: 由特征名、特征值和缺省值表示。 句法功能寄存器:反映句法间的关系与功能。 图10.5所示是一个简单的名词短语(NP,即Noun Phrase)的扩充 转移网络。
第4章:自然语言语料库与词汇知识库
No.95, Zhongguancun Beijing 100080, ChinaNLPR4.1 基本概念NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念输入输出处理模块大规模语言数据:•模型参数训练•知识获取NLP中知识库包括:•词汇语义库语言数据库或知识库•词法、句法规则库•常识库等等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库(corpus)¾语料库(corpus)就是存放语言材料的仓库(语言数据库)。
基于语料库进行语言学研究-语料库语言学(corpus linguistics)NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学根据篇章材料对语言的研究称为语料库语言学。
-[Aijmer, 1991]基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
-[McEnery, 1996]以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
-[Crystal, 1991] NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念两种解释:不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识。
是新术语:对现行语言学理论进行批评,提出新的理论。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念“语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
”-J. Thomas等人为祝贺语料库语言学的主要奠基人和倡导者G. Leech六十岁生日而出版的语料库语言学研究论文集的开场白[丁信善,1998]。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学研究的内容:语料库的建设与编纂语料库的加工和管理技术语料库的使用NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR4.2 语料库技术的发展NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展三个阶段20世纪50年代中期之前:早期¾语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展1957~20世纪80年代初期:沉寂时期¾1957年Chomsky的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。