自然语言处理中理性主义与经验主义的差异

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自然语言处理中理性主义与经验主义的差异

综述

自然语言处理的发展过程中,经历了种种的曲折。源于哲学的经验主义与理性主义对自然语言处理有着深远的影响。这两种方法可以说是各有千秋。

理性主义认为语言的能力与生俱来,运用简单明确的规则来确定复杂的语言现象,表达复杂的语言模型。而经验主义,虽然也承认语言的能力一部分来自先天,但是却不承认这种能力的起着决定性的作用,而是强调学习的过程,认为人不可能不通过学习而懂得一门语言。

这样使得理性主义与经验主义在某种程度上相似而又不同,也就导致了两者各不相同的优缺点。

什么是自然语言处理中的理性主义方法

这种方法基于一种强烈的认识,即人类的重要的知识并不是由学习而得到的而是由基因提前决定的,比如人类的语言能力。而语言学中,占有重要地位的Chomsky正是这一主义的支持者。Chomsky范式正是希望通过简单的规则,来描述复杂的语言。他的这一想法也得到了广泛的认同。

而自然语言处理中的理性主义,正是利用语言学中的简单、清晰的规则,来分析自然语言处理中的问题。由于这些规则拥有很强的表达能力、生成能力,同时还能拥有相当高的效率。因此,这种方法得到了广泛的支持。

什么是自然语言处理中的经验主义方法

从哲学的观点上看,经验主义与理性主义并没有太大的区别,以至于在这两种哲学思想刚刚出现的时候,人们并没有对他们进行区分。直到后来人们才认识到这两者的不同。同样自然语言处理中的经验主义仍然在许多地方和理性主义有着相似之处。

经验主义也承认人类对于语言有着先天的认知能力,因此经验主义与理性主义并没有绝对的不同,但是经验主义认为人类不可能不通过学习而获得一门语言能力。因而在自然语言处理中的经验主义,模仿一种学习过程,在实际的情境中使用基于统计的经验主义方法来训练语言数据,从训练的语言数据中自动地或半自动地获取语言的统计知识,可以有效地建立语言的统计模型。

这样的特性使得经验主义的方法在文字和语音的自动处理中效果良好,尤其善于解决二义性问题。

二者的优劣与差异

从哲学的角度而言,两者的差异十分微妙。而到了具体的自然语言处理这样的实践中,差异则比较明显。

理性主义强烈的关注语言本身,认为语言本身足以表达一切,并且通过试通过简单的规则来描述复杂的语言。

而经验主义不同的是,他们不认为语言本身就可以表述其所有的含义,他必须依靠实际的语言环境,最好的佐证就是语言的二义性。因此经验主义,更关注于真实环境下的语言,更擅长使用统计的方法,模拟学习的过程、记录真实的语言情景。

因此导致了二者各有所长:

我认为理性主义方法的优点有:

*理性主义方法中的规则主要是语言学规则,其拥有很强的形式描述能力和形式生成能力,有很好的应用价值。

* 基于规则的理性主义方法通常都是简单清晰的,很多语言事实都可以使用语言模型的结构和组成成分直接地、明显地表示出来。

* 基于规则的理性主义方法,往往具有高效的算法。

理性主义方法的缺点是:

* 使用基于规则的理性主义方法设计的自然语言处理系统的针对性都比较强,并不具有广泛的适应性,很难逐步完善。

* 基于规则的理性主义方法在实际应用方面往往不如基于统计的经验主义方法那样好。因为基于统计的经验主义方法可以根据实际训练数据的情况不断地优化,而基于规则的理性主义方法很难根据实际的数据进行调整。

我认为经验主义方法的优点有:

* 基于统计的经验主义方法的效果在很大的程度上依赖于训练语言数据的规模,训练的语言数据越多,基于统计的经验主义方法的效果就越好。因此,可以通过扩大语料库规模的办法来不断提高自然语言处理系统的性能。

* 基于统计的经验主义方法很容易与基于规则的理性主义方法结合起来,从而处理语言中形形色色的约束条件问题,使自然语言处理系统的效果不断地得到改善。

* 基于统计的经验主义方法很适合用来模拟那些有细微差别的、不精确的、模糊的概念,而这些概念,在传统语言学中需要使用模糊逻辑才能处理。

经验主义方法的缺点是:

* 无法高效的处理语言问题,随着语料库的增大,处理系统也随之线性增大。无法灵活的处理个别问题。因此随着语言的资料库的增加,处理系统效率明显降低。

* 在当前语料库技术的条件下,要使用基于统计的经验主义方法为某个特殊的应用领域获取训练数据,还是一件费时费力的工作,而且很难避免出错。可以说,用来训练数据的语料库的质量决定了经验主义方法的效果。

参考文献

《统计自然语言处理基础》

《自然语言处理计算模型》序言

相关文档
最新文档