自然语言处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言处理
定义:采用计算机技术来研究和处理自然语 言。 计算机对自然语言研究和处理,一般应经过 三个过程: 1,把需要研究的问题在语言学上加以形式化, 使之能以一定的数学形式,严密而规整地 表示出来。
2,把这种严密而规整的数学形式表示为算法, 使之在计算上形式化。 3。根据算法编写计算机程序,使之在计算机 上加以实现。 自然语言学是介乎语言学、数学、计算机 科学之间的边缘性的交叉学科。
• 这种观点的理论依据:人类并不通过做深层的语 言学分析来进行翻译,而是首先把输入的句子正 确地分解为一些更小单位的短语,接着把这些短 语翻译成其他语言的短语,最后再把这些较小单 位的短语构成完整的句子。在短语的翻译中是通 过“类比”的原则来实现的。 • 机器翻译要做的事就是在机器中存储一些实例, 并建立由给定的句子找寻类似例句的机制。这就 是基于实例的机器翻译方法。
• 这时的机器翻译都是“基于规则”的机器 翻译。 • 近年来出现了“基于经验”的机器翻译。 所谓基于经验,就是指基于统计,基于实 例。它是在大型语料库的基础上形成的。 • 演示sxd软件与sms软件。
• 一种语言中的任何一个句子都有可能是另 外一种语言中的某几个句子的译文,只是 这些句子的可能性各不相同,机器翻译就 是要找出其中可能性最大的句子,也就是 对所有可能的目标S计算出概率最大的一个 作为源语言T的译文。 • “选优式”的做法。
数理语言学的理论来源
一是数学理论:如集合论、数理逻辑、离 散数学理论等,或概率、数理统计、信息 论等; 二是理论语言学的各种原理:如对音位、 词位、句法的各种理论学说。
三、研究内容:
• 数理语言学主要包括统计语言学、代数语言学和 应用数理语言学等三个分支学科。 • 1、统计语言学 运用概率论、数理统计等数学的方法来作语 言成分的定量分析和动态描写,目的是要建立语 言统计模型,来解决传统语言学研究的定性和静 态研究的不足。 统计语言学又分为统计语音学、计算语言风 格学和年代统计学。统计语音学研究音素音位, 计算语言风格学通过统计研究某人、某一时代和 某一民族的言语风格。年代统计学根据时代的变 化,对词汇特征和句型等进行分析。
• 1933 年,美国语言学家布龙菲尔德提出了一个著名 的论点:“数学不过是语言所能达到的最高境界”。
定义:
1、数理语言学是用数学方法来研究语言现象的语言学科。 2、数理语言学是用数学思想和数学方法来研究语言现象的 一门新兴的语言学科。 3 、依据所使用的数学方法的不同,一般分为统计语言学 ( statistical linguistics ) 和 代 数 语 言 学 (algebraic linguistics)两个分支,统计语言学 所使用的方法主要是概率论、数理统计以及信息论方法; 代数语言学使用的方法主要是集合论、数理逻辑和算法 理论等离散数学方法。
• 日常生活中随时都可接触到情报索引(信 息检索)
学校查成绩; 银行信用卡存取款; 电话卡查询: 网络搜索软件: 网上通辑逃犯: 电子商务:
• • • • •
计算机辅助语言教学; 语音自动识别与合成系统; 文字自动识别系统; 言语统计; 语料库语言学;
数理语言学
• 1894 年,瑞士语言学家索绪尔指出,“在基 本性质方面,语言中的量和量之间的关系可以 用数学公式有规律的表达出来。”
(三)情Βιβλιοθήκη Baidu自动检索
• 情报自动检索包括的内容; 1,文献情报的采集; 2,文献情报的加工处理: 3,文献情报的编排和存储: 4,检索服务:
• 情报检索系统的评测标准: 1,查询效率:查全率;查准率: 2,运行效率:机时;存储空间;费用
• 运用范围: 1,自动生成文摘; 2,自动编制索引; 3,自动抽取情报资料的主题词;
(一)机器翻译系统
自然语言处理系统的研究首先是从机器翻译系统 做起的。 1,草创期(20世纪40-60年代) 1946年,美国宾夕法尼亚大学埃克特 (.P.Eckert)和莫希莱(J.W.Mauchly)首创世 界上第一台计算机,1949年美国洛克菲勒基金 会副总裁韦弗(W.Weaver)首创机器翻译。 工作原理:A语言与B语言之间经过一种“中 介语言”,又叫“通用语言”、“中间语言” 来实现。 机器翻译相当于读码解码,实现上是以查询词 典的方式来实现词对词的机器翻译。
2,复苏期(20世纪70年代) 美国学者英格维(V.Yingve)提出机器翻译的过程: 1. 用代码化的结构标志来表示原语文句的结构; 2. 把原语的结构标志转换为译语的结构标志; 3. 构成译语的输出文句。 4. 句法分析成为机器翻译工作的中心。
• 复苏期的代表产品是法国格勒诺布尔理科 医科大学自动翻译中心的机器翻译系统。 • 这时研究者还认识到,机器翻译中必须保 持原语和译语在语义上的一致。从而语义 分析比句法分析日益引起人们的重视。
• 基于实例的机器翻译要研究的主要问题: • 1,正确地进行双语自动对齐:在实例库中要难准 确地由源语言例句找到相应的目标语言例句,并 实现对应。 • 2,建立有效的实例匹配检索机制:语言单位不能 太小,愈小歧义愈多。因此,它非常强调尽量多 地储存短语实例。 • 3,根据检索到的实例生成与源语言句子相对应的 译文。
统计语言学又称计量语言学,它主要是应用 统计程序来处理语言资料,如统计语言单位出 现的频率。研究作者的文体风格,在比较语言 学中采用数学公式衡量多种语言的相关程度, 在历史语言学中确定不同时期语言的发展特征, 以及从信息的角度分析语言信息的传输过程等 等。 美国人齐夫把词的频率分布和“消耗最小准 则”这一基本生物学理论联系起来,总结出了 著名的齐夫公式。(所谓齐夫公式就是描述某 种语言中词的顺序号与出现的频率关系的经验 公式。)
• • • • • •
自然语言处理的原理 机器翻译的原理与发展阶段 术语数据库的作用与工作原则 数理语言学的研究对象 统计语言学的统计 自然语言处理运用到的语言理论主要有哪 些? • 语料库的类型与作用
美国著名语言学家乔姆斯基,创立了转换生成语 法,其核心就是语言能从有限的要素和规则演 变出无限的句子;语言分深层与表层,深层结 构靠规则向表层结构有规律地生成: “我们这里要考虑的是各种生成句子的装置, 它们又以各种各样的方式,同自然语言的语法 和各种人造语言的语法二者都有着密切的联系。 我们将把语言直接地看成在符号的某一有限集 合V中的符号串的集合,而V就叫做该语言的词 汇……我们把语法看成是对程序设计语言的详 细说明,而把符号串看成是程序。”
国内成就——我国从50年代起逐步开展了对 数理语言学的研究,在50年代初期,我国 著名数理逻辑专家胡世华先生就主意到数 理语言学的问题,1959年,刘涌泉先生在 《中国语文》发表了《谈数理语言学》一 文,首次在国内介绍这一学科。
1985年上海知识出版社出版了冯志伟编著的 《数理语言学》,较为系统的阐述了数理语 言学的理论知识,包括该学科的重要定律和 术语,1997年北京语言文化大学出版社,出 版了方立编著的英文版的《数理语言学》这 两本书成为我国目前研究数理语言学的集大 成者,此外在数理语言学领域研究取得较大 成绩的还有白世云、张世武、孙锐欣、盛金 标等学者
• 使用频率原理 • 分布原理(离散原理) • 使用度原理
《现代汉语频率词典》 频率排序: “提纲”,序号 6942 ;频率级次 745 ,词次 13 ;使用度 9 。 “哨棒”,序号 7170 ;频率级次 745 ,词次 13 ;使用度 7 。 “听”,序号 118 ;频率级次 116 ;词次 1415 ;使用度 1130。 “党”,序号119;频率级次117;词次1412;使用度829。
3,繁荣期(20世纪70年代——) 产品的实用化、商品化。 工作原理: 1,直译式:词对词;句法直译式、语义直译式。 2,转换式:在原语和译语之间设定能在一定程 序上表现语义关系的中间表达式,再通过中间 表达式来完成句法和语义的进一步转换。 3。枢轴式:把语言规则普遍化,成为不依赖任 何具体语言的普遍意义,形成“枢轴”,由 “枢轴”来承担“中介语”的作用。
• 例子: • 金山词霸:词库、释义库、音库
(二)自然语言理解
人机对话:
• 中国社科院语言研究所“RJD-80型汉语人机对 话系统” • 中国科学院心理研究所“机器理解汉语-实验I: CLUS系统” • 中国社科院语言研究所“TK-84型汉语人机对话 系统” • 东北工学院建立“中文句子及文本理解系统 CTUS” • ……
分布排序: “各”,序号209;分布篇数123;分布类数4,词次1344, 使用度931。 “门”,序号 210 ;分布篇数 123 ;分布类数 4 ,词次 863 , 使用度642。
2,代数语言学
运用集合论、数理逻辑、算法理论、模糊数学、 图论、格论等离散数学方法来作语言理论分析和 形式特征的描写。目的是建立起语言的代数模型, 把语言学的某些方面改造成数学那样的演绎系统, 建立语言模型理论,从而为自然语言的信息处理 提供理论基础。 语言模型是一个单纯的、统一的、抽象的形式 系统。语言客观事实经过语言模型的描述之后, 就比较适合于电子计算机对其进行自动加工。所 以,语言模型的研究,对于自然语言的信息处理 具有十分重要的意义。
数理语言学的特点
数理语言学从数学领域得到的主要是思考问 题的思路和方法,而不是某种专门的结果,它 把数学模型和数学程序运用于语言学的研究, 采用定量化和形式化的描述方法,使得语言学 和数学一样精密,以便于计算机的操作,为计 算机模拟人脑和进行人工智能的研究开山辟道。
数理语言学的目标是希望把一切语言所共 有的某些结构性质分离出来,而这些性质 是形式上能够用数学方法描述的。
• 算法语言学是把语言的研究归结为建立 “表层结构”和“底层结构”的关系。它 认为语言是由一系列层次组成,各层次本 身都有一定的结构形式,各层次之间都有 一定的对应关系。
对于算法语言学来说,很难在人工语言和自然语 言之间划一道鸿沟,而这两者在底层结构的算法描述 中统一起来了。当然,算法语言学的产生绝不是对统 计语言学的代数语言学的否定,相反,只有在弄清语 言的统计规律和形式规律的基础上,算法语言学才能 发展起来。 在算法语言学中,信息与概率的概念,转换与生成 的概念,集合论与数理逻辑的概念等等,不是被抛弃 了,而是更加精确和系统化了。只有这样,才可能摸 透表层和底层的关系。
数理语言学分支学科介绍
1、统计语言学 运用概率论、数理统计等数学的方法来作语 言成分的定量分析和动态描写,目的是要建立语 言统计模型,来解决传统语言学研究的定性和静 态研究的不足。 统计语言学根据不同的研究对象,又可分出 许多具体领域,如统计语音学、计算语言风格学 和年代统计学。统计语音学研究音素音位,计算 语言风格学通过统计研究某人、某一时代和某一 民族的言语风格。年代统计学根据时代的变化, 对词汇特征和句型等进行分析。
二、任务和理论依据
• 任务:
A、数理语言学从数学领域得到的主要是思考问题的 思路和方法,而不是某种专门的结果,它把数学 模型和数学程序运用于语言学的研究,采用定量 化和形式化的描述方法,使得语言学和数学一样 精密,以便于计算机的操作,为计算机模拟人脑 和进行人工智能的研究开山辟道。 B、从语言的内部结构和语言的交际活动两方面进 行,也就是说把数理语言学的研究首先分为作为 符号 系统的语言的数学性质的研究和对作为交际 活动的过程及结果的言谈的数学性质的研究两个 部分。
代数语言学的最突出成就首推乔姆斯基的转换 生成语法理论,他运用数学中的递归函数理论和 自动机理论,建立起了一个形式的演绎系统。他 把语言视为有限规则的无限应用,把语言模型看 作数学上的某种运算过程,即由一套给定的初始 元素,根据一定的语法规则,生成这些元素的序 列——词和句子。
但是一涉及语义问题,各种语言模型都遭到了挫折 ,以至于所有的理论一改再改,引起了激烈的学 术争论。不过其中一点是越来越清楚了:只从形 式上去研究语言是非常不够的。为了解决语言构 造问题,必须寻求新的途径以深入语言的内部即 语义学领域。这样,数理语言学走向了它的第3个 发展阶段——算法语言学。
定义:采用计算机技术来研究和处理自然语 言。 计算机对自然语言研究和处理,一般应经过 三个过程: 1,把需要研究的问题在语言学上加以形式化, 使之能以一定的数学形式,严密而规整地 表示出来。
2,把这种严密而规整的数学形式表示为算法, 使之在计算上形式化。 3。根据算法编写计算机程序,使之在计算机 上加以实现。 自然语言学是介乎语言学、数学、计算机 科学之间的边缘性的交叉学科。
• 这种观点的理论依据:人类并不通过做深层的语 言学分析来进行翻译,而是首先把输入的句子正 确地分解为一些更小单位的短语,接着把这些短 语翻译成其他语言的短语,最后再把这些较小单 位的短语构成完整的句子。在短语的翻译中是通 过“类比”的原则来实现的。 • 机器翻译要做的事就是在机器中存储一些实例, 并建立由给定的句子找寻类似例句的机制。这就 是基于实例的机器翻译方法。
• 这时的机器翻译都是“基于规则”的机器 翻译。 • 近年来出现了“基于经验”的机器翻译。 所谓基于经验,就是指基于统计,基于实 例。它是在大型语料库的基础上形成的。 • 演示sxd软件与sms软件。
• 一种语言中的任何一个句子都有可能是另 外一种语言中的某几个句子的译文,只是 这些句子的可能性各不相同,机器翻译就 是要找出其中可能性最大的句子,也就是 对所有可能的目标S计算出概率最大的一个 作为源语言T的译文。 • “选优式”的做法。
数理语言学的理论来源
一是数学理论:如集合论、数理逻辑、离 散数学理论等,或概率、数理统计、信息 论等; 二是理论语言学的各种原理:如对音位、 词位、句法的各种理论学说。
三、研究内容:
• 数理语言学主要包括统计语言学、代数语言学和 应用数理语言学等三个分支学科。 • 1、统计语言学 运用概率论、数理统计等数学的方法来作语 言成分的定量分析和动态描写,目的是要建立语 言统计模型,来解决传统语言学研究的定性和静 态研究的不足。 统计语言学又分为统计语音学、计算语言风 格学和年代统计学。统计语音学研究音素音位, 计算语言风格学通过统计研究某人、某一时代和 某一民族的言语风格。年代统计学根据时代的变 化,对词汇特征和句型等进行分析。
• 1933 年,美国语言学家布龙菲尔德提出了一个著名 的论点:“数学不过是语言所能达到的最高境界”。
定义:
1、数理语言学是用数学方法来研究语言现象的语言学科。 2、数理语言学是用数学思想和数学方法来研究语言现象的 一门新兴的语言学科。 3 、依据所使用的数学方法的不同,一般分为统计语言学 ( statistical linguistics ) 和 代 数 语 言 学 (algebraic linguistics)两个分支,统计语言学 所使用的方法主要是概率论、数理统计以及信息论方法; 代数语言学使用的方法主要是集合论、数理逻辑和算法 理论等离散数学方法。
• 日常生活中随时都可接触到情报索引(信 息检索)
学校查成绩; 银行信用卡存取款; 电话卡查询: 网络搜索软件: 网上通辑逃犯: 电子商务:
• • • • •
计算机辅助语言教学; 语音自动识别与合成系统; 文字自动识别系统; 言语统计; 语料库语言学;
数理语言学
• 1894 年,瑞士语言学家索绪尔指出,“在基 本性质方面,语言中的量和量之间的关系可以 用数学公式有规律的表达出来。”
(三)情Βιβλιοθήκη Baidu自动检索
• 情报自动检索包括的内容; 1,文献情报的采集; 2,文献情报的加工处理: 3,文献情报的编排和存储: 4,检索服务:
• 情报检索系统的评测标准: 1,查询效率:查全率;查准率: 2,运行效率:机时;存储空间;费用
• 运用范围: 1,自动生成文摘; 2,自动编制索引; 3,自动抽取情报资料的主题词;
(一)机器翻译系统
自然语言处理系统的研究首先是从机器翻译系统 做起的。 1,草创期(20世纪40-60年代) 1946年,美国宾夕法尼亚大学埃克特 (.P.Eckert)和莫希莱(J.W.Mauchly)首创世 界上第一台计算机,1949年美国洛克菲勒基金 会副总裁韦弗(W.Weaver)首创机器翻译。 工作原理:A语言与B语言之间经过一种“中 介语言”,又叫“通用语言”、“中间语言” 来实现。 机器翻译相当于读码解码,实现上是以查询词 典的方式来实现词对词的机器翻译。
2,复苏期(20世纪70年代) 美国学者英格维(V.Yingve)提出机器翻译的过程: 1. 用代码化的结构标志来表示原语文句的结构; 2. 把原语的结构标志转换为译语的结构标志; 3. 构成译语的输出文句。 4. 句法分析成为机器翻译工作的中心。
• 复苏期的代表产品是法国格勒诺布尔理科 医科大学自动翻译中心的机器翻译系统。 • 这时研究者还认识到,机器翻译中必须保 持原语和译语在语义上的一致。从而语义 分析比句法分析日益引起人们的重视。
• 基于实例的机器翻译要研究的主要问题: • 1,正确地进行双语自动对齐:在实例库中要难准 确地由源语言例句找到相应的目标语言例句,并 实现对应。 • 2,建立有效的实例匹配检索机制:语言单位不能 太小,愈小歧义愈多。因此,它非常强调尽量多 地储存短语实例。 • 3,根据检索到的实例生成与源语言句子相对应的 译文。
统计语言学又称计量语言学,它主要是应用 统计程序来处理语言资料,如统计语言单位出 现的频率。研究作者的文体风格,在比较语言 学中采用数学公式衡量多种语言的相关程度, 在历史语言学中确定不同时期语言的发展特征, 以及从信息的角度分析语言信息的传输过程等 等。 美国人齐夫把词的频率分布和“消耗最小准 则”这一基本生物学理论联系起来,总结出了 著名的齐夫公式。(所谓齐夫公式就是描述某 种语言中词的顺序号与出现的频率关系的经验 公式。)
• • • • • •
自然语言处理的原理 机器翻译的原理与发展阶段 术语数据库的作用与工作原则 数理语言学的研究对象 统计语言学的统计 自然语言处理运用到的语言理论主要有哪 些? • 语料库的类型与作用
美国著名语言学家乔姆斯基,创立了转换生成语 法,其核心就是语言能从有限的要素和规则演 变出无限的句子;语言分深层与表层,深层结 构靠规则向表层结构有规律地生成: “我们这里要考虑的是各种生成句子的装置, 它们又以各种各样的方式,同自然语言的语法 和各种人造语言的语法二者都有着密切的联系。 我们将把语言直接地看成在符号的某一有限集 合V中的符号串的集合,而V就叫做该语言的词 汇……我们把语法看成是对程序设计语言的详 细说明,而把符号串看成是程序。”
国内成就——我国从50年代起逐步开展了对 数理语言学的研究,在50年代初期,我国 著名数理逻辑专家胡世华先生就主意到数 理语言学的问题,1959年,刘涌泉先生在 《中国语文》发表了《谈数理语言学》一 文,首次在国内介绍这一学科。
1985年上海知识出版社出版了冯志伟编著的 《数理语言学》,较为系统的阐述了数理语 言学的理论知识,包括该学科的重要定律和 术语,1997年北京语言文化大学出版社,出 版了方立编著的英文版的《数理语言学》这 两本书成为我国目前研究数理语言学的集大 成者,此外在数理语言学领域研究取得较大 成绩的还有白世云、张世武、孙锐欣、盛金 标等学者
• 使用频率原理 • 分布原理(离散原理) • 使用度原理
《现代汉语频率词典》 频率排序: “提纲”,序号 6942 ;频率级次 745 ,词次 13 ;使用度 9 。 “哨棒”,序号 7170 ;频率级次 745 ,词次 13 ;使用度 7 。 “听”,序号 118 ;频率级次 116 ;词次 1415 ;使用度 1130。 “党”,序号119;频率级次117;词次1412;使用度829。
3,繁荣期(20世纪70年代——) 产品的实用化、商品化。 工作原理: 1,直译式:词对词;句法直译式、语义直译式。 2,转换式:在原语和译语之间设定能在一定程 序上表现语义关系的中间表达式,再通过中间 表达式来完成句法和语义的进一步转换。 3。枢轴式:把语言规则普遍化,成为不依赖任 何具体语言的普遍意义,形成“枢轴”,由 “枢轴”来承担“中介语”的作用。
• 例子: • 金山词霸:词库、释义库、音库
(二)自然语言理解
人机对话:
• 中国社科院语言研究所“RJD-80型汉语人机对 话系统” • 中国科学院心理研究所“机器理解汉语-实验I: CLUS系统” • 中国社科院语言研究所“TK-84型汉语人机对话 系统” • 东北工学院建立“中文句子及文本理解系统 CTUS” • ……
分布排序: “各”,序号209;分布篇数123;分布类数4,词次1344, 使用度931。 “门”,序号 210 ;分布篇数 123 ;分布类数 4 ,词次 863 , 使用度642。
2,代数语言学
运用集合论、数理逻辑、算法理论、模糊数学、 图论、格论等离散数学方法来作语言理论分析和 形式特征的描写。目的是建立起语言的代数模型, 把语言学的某些方面改造成数学那样的演绎系统, 建立语言模型理论,从而为自然语言的信息处理 提供理论基础。 语言模型是一个单纯的、统一的、抽象的形式 系统。语言客观事实经过语言模型的描述之后, 就比较适合于电子计算机对其进行自动加工。所 以,语言模型的研究,对于自然语言的信息处理 具有十分重要的意义。
数理语言学的特点
数理语言学从数学领域得到的主要是思考问 题的思路和方法,而不是某种专门的结果,它 把数学模型和数学程序运用于语言学的研究, 采用定量化和形式化的描述方法,使得语言学 和数学一样精密,以便于计算机的操作,为计 算机模拟人脑和进行人工智能的研究开山辟道。
数理语言学的目标是希望把一切语言所共 有的某些结构性质分离出来,而这些性质 是形式上能够用数学方法描述的。
• 算法语言学是把语言的研究归结为建立 “表层结构”和“底层结构”的关系。它 认为语言是由一系列层次组成,各层次本 身都有一定的结构形式,各层次之间都有 一定的对应关系。
对于算法语言学来说,很难在人工语言和自然语 言之间划一道鸿沟,而这两者在底层结构的算法描述 中统一起来了。当然,算法语言学的产生绝不是对统 计语言学的代数语言学的否定,相反,只有在弄清语 言的统计规律和形式规律的基础上,算法语言学才能 发展起来。 在算法语言学中,信息与概率的概念,转换与生成 的概念,集合论与数理逻辑的概念等等,不是被抛弃 了,而是更加精确和系统化了。只有这样,才可能摸 透表层和底层的关系。
数理语言学分支学科介绍
1、统计语言学 运用概率论、数理统计等数学的方法来作语 言成分的定量分析和动态描写,目的是要建立语 言统计模型,来解决传统语言学研究的定性和静 态研究的不足。 统计语言学根据不同的研究对象,又可分出 许多具体领域,如统计语音学、计算语言风格学 和年代统计学。统计语音学研究音素音位,计算 语言风格学通过统计研究某人、某一时代和某一 民族的言语风格。年代统计学根据时代的变化, 对词汇特征和句型等进行分析。
二、任务和理论依据
• 任务:
A、数理语言学从数学领域得到的主要是思考问题的 思路和方法,而不是某种专门的结果,它把数学 模型和数学程序运用于语言学的研究,采用定量 化和形式化的描述方法,使得语言学和数学一样 精密,以便于计算机的操作,为计算机模拟人脑 和进行人工智能的研究开山辟道。 B、从语言的内部结构和语言的交际活动两方面进 行,也就是说把数理语言学的研究首先分为作为 符号 系统的语言的数学性质的研究和对作为交际 活动的过程及结果的言谈的数学性质的研究两个 部分。
代数语言学的最突出成就首推乔姆斯基的转换 生成语法理论,他运用数学中的递归函数理论和 自动机理论,建立起了一个形式的演绎系统。他 把语言视为有限规则的无限应用,把语言模型看 作数学上的某种运算过程,即由一套给定的初始 元素,根据一定的语法规则,生成这些元素的序 列——词和句子。
但是一涉及语义问题,各种语言模型都遭到了挫折 ,以至于所有的理论一改再改,引起了激烈的学 术争论。不过其中一点是越来越清楚了:只从形 式上去研究语言是非常不够的。为了解决语言构 造问题,必须寻求新的途径以深入语言的内部即 语义学领域。这样,数理语言学走向了它的第3个 发展阶段——算法语言学。