数学在语言学中的应用

合集下载

相关主题

数学在语言学中的应用

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数学在语言学中的应用
语言学，顾名思义，是研究语言的科学，它的基本任务是要弄清楚语言的结构规律和演
变规律；而数学是关于空间形式和数量关系的科学。

这两门学科似乎并没有什么联系。

但是随着现代数学和语言学的发展，一些数学家和语言学家逐步提出用数学来研究语言的想法，而且这种语言和数学结合的研究慢慢变成现实。

语言学的发展，要求运用数学的方法客观地、精确地分析语言；在系统整理、测定计算和总结概括语言材料时，运用数学的方法，并结合其他研究手段，能使语言学家更加深入探索语言的结构和话语构成的秘密；在机器翻译、语言信息处理、人工智能、情报自动检索系统和人机对话管理系统里，自然语言的一切信息必须转换成计算机的数学语言。

这就要求语言学的数学化，而正是在语言学的数学化的过程中诞生了数理语言学。

一般而言，数理语言学可分为四个分支学科：统计语言学，代数语言学，计算语言学，模糊语言学。

但事实上，代数语言学、计算语言学、模糊语言学都是侧重于信息处理，着眼于自然语言向机器的数学语言的转化，只是所用的数学方法不同。

随着现代信息科学技术的发展，这三者的研究逐渐趋于统一。

因此笔者认为，可以把数理语言学分为统计语言学和信息处理语言学。

统计语言学主要运用概率论、数理统计和信息论方法来统计、处理语言资料，如对语言成分出现的概率和频率进行统计以选定基本词汇。

美国的语言学家齐普夫(G ．K ．Zipf)把词的效率分布和“消耗最小”(最经济)这一基本原则联系起来，提出了齐普夫规律：r K P r /=，它表示词表上词的效率及其排列序号之间的数量关系，其中r 表示词表中的序号，r P 表示序号为r 的词的效率，K 是常数，根据测定，K 值约为1.0。

由这个规律我们可知，如果词表包含数十万个词，那么，其中头1000个常用的词占该语言的文章中全部出现词的80％，因为：
%808.0)1000131211(1.011.01.010001100011000
110001==++++====∑∑∑∑==== r r r r r r r r K P 这说明，只要掌握一种语言中的1000个最常用词，就有可能读懂该语言文章的80％，这个事实对于语言教学及自然语言信息处理都是十分重要的。

语言学家有时需要统计某个作家的词汇总量，如果我们简单地直接计算，那将会是一项很庞大的工作。

于是有语言学家运用数学知识，得出了由某部作品来推定词汇总量的公式：
a
v v n L ⎪⎪⎭
⎫ ⎝⎛=122，v 为该作品中不同的词数，1v 为n 个词中只用一次的词数，a 为由n 决定的指数。

由这个公式我们可以算出雨果的词汇总量为60000。

不同作者、不同年代有不同的用词、用句特点。

对其进行统计处理，可探求作家文体特点，也可推定作者不详的文献作者和年代不详的文献的写作年代。

此外，统计语言学下的语言年代学，可通过语言的词汇统计，来测定语言存在的年代或推测分化的年代。

信息处理语言学主要运用离散数学、数理逻辑、模糊数学对语言进行研究，把自然语言转化为数学语言，在数学语言与自然语言之间架起一道桥梁。

信息处理语言学的发展是与数学的发展联系最紧密的。

20世纪50年代机器翻译的发展，电子计算机的信息处理，要求人们对于传统语言学概念进行严格的逻辑分析，提出精确的语言模型。

自然语言经过语言模型
的抽象数学描述之后，就比较适于计算机处理了。

其中主要应用的就是离散数学的集合论、数理逻辑和算法理论。

但这种研究只是从句法机构的角度研究语言，很难解决自然语言的歧义问题。

从70年代起，为了解决自然语言的构造问题，数理语言学必须寻找新的途径以深入到语言的内部，即语义学领域。

人们开始运用数理逻辑、计算机科学，以计算机为手段来研究自然语言。

把深层结构作为形式语言的符号系统来处理，一般采用图论中的数形图作为分析表达的工具，探讨形式语言与表层结构的关系，以便有效解决自然语言中的歧义现象。

随着模糊数学的发展，数理语言学的发展又进入了一个新的时期。

语言的不确定性和模糊性，是模糊数学进入语言学领域的客观基础。

在这一基础上，利用模糊数学来探索语言的模糊性和精确性的辩证关系。

模糊数学的创始人扎德提出“隶属度”(又译为“一致性”)的概念，作为模糊语义的度量方法，用“1”表示属于这个集合，而“0”表示不属于这个集合，0与1之间的小数表示接近该集合的不同程度，并可由此推出模糊集合的隶属函数关系。

根据模糊语义和模糊逻辑的数学方法，对于某些语言变量给出适当的隶属度的函数，就可以利用计算机对于复杂的信息系统进行处理，使计算机接受一部分自然语言的模糊表述，从而大大提高人们编制程序的效率。

随着当代信息科学技术的飞速发展，特别是计算机及互联网技术的发展，对数字化的语言文字的要求不断提高，这就给数理语言学的发展提出了新的要求，但这也正是其发展的动力，现代语言学也必将由此而产生一场新的革命，数理语言学必将有一个光辉的前景。

而其中数学的发展将起着至关重要的作用，数学的发展必将带动语言学的发展。

（作者系北京大学外语系二年级学生王悦）
小瞰美术中的数学个性
无论是绘画、雕塑，还是音乐、舞蹈，每件艺术晶都有其独立于其他作品的个性。

这些令人难以捉摸的个性犹如闪烁的繁星散满了艺术的天空。

如果，我们可以找到一种表现它们个性的规律性的东西，通过它去了解艺术，那么艺术虽然广博也就不那么神秘
了，而这个工具就是数学。

数学，在一定程度上表现了不同作品的个性。

一、古代，不同地区的文明创作的美术作品是不同的
在古埃及的壁画中，人物造型是以侧面的头部、正面的身体和侧面的腿脚为构图特征出现的。

正如侧面的形象比正面的形象更具有“鸟”的本质特征，这样的人物造型也是画家们选择的表现“人”的最好的、最有力的、最真实的形象。

然而，更深一步思考，我们便可以看出，古希腊的艺术家们已经注意到如何在一个平面中表现立体的物体，从而使它更具
真实性和运动感。

实际上，他们正是借助于角度的变换来解决这个问题的。

借助角度的变换用平面表示立体，这正是古希腊壁画中的数学个性。

而澳洲人则找到了一种比变换角度更有效的立体表示法：“X”光透视画法。

这种方法可以将动物的骨骼内脏都全盘画出。

瞧，我们的艺术大师们又向立体几何迈进了一步，谁敢说数学家没有从绘画中得到过灵感呢?
同时代的非洲木雕，却展示了另一种艺术风格，那里的许多作品充分利用方、圆、柱、三角、楔形等几何体的无穷组合方式，饶有趣味地寻找脸和五官、身体和四肢的结构，来传递某种艺术和仪式的象征意义。

正是这种造型的几何味道，使非洲人的艺术品显得简洁而夸张，这与数学的概括性不谋而合。

几何造型法的使用和夸张的概括性正是此时非洲木雕的数学个性。

在美洲，圆柱则得到了特别的宠爱，“图腾柱”是艺术家们最有力的造型和最过瘾的创作。

事实上，这体现了美洲人对空间强烈的欲望。

因为，柱体是最具有空间征服力的。

这种欲望一直延伸到现在，激励我们对高维空间的不懈探索。

另一方面，美洲艺术与中国美术又有着极为相似的地方。

他们都善于利用线条的生长、穿插、交叠和排列等产生无穷无尽的组合，而这一过程遵循严格的规律，如中国商周青铜器上的铭纹和汉代漆器上的图案。

古希腊，不愧是数学的摇篮，也是数学地震的震中地带，在他们的艺术作品中所体现出
的数学个性是最丰富，也是最有深度的。

希腊众神的雕像是古希腊艺术中璀璨的明珠。

但无论是信使赫尔基斯，海神波赛冬，还是美神阿芙洛荻特，他们的作品都普遍具有“三段式”的姿态。

重心偏于一腿，身体微侧，使人体肩胸、腰腹，腿脚处于一个轻松又不松弛的状态，身体两侧形成松紧对应的优美“S”型曲线。

头、胸、腹、腿微妙地朝向三个不同的方向。

这构成一种灵活、舒适的美，而完全不同于古埃及的正面、古板的雕塑。

看来，古希腊的雕塑家一定对重心很有研究。

他们做到了“运动中的平衡”。

正由于希腊人对人体美的追求，他们比其他人更重视比例的应用。

在雕塑家留西坡西眼中，1：8的头身比是身体最美的比例。

而黄金分割更是将数学推理与感官感受结合成最迷人的比例：l：1．618。

在希腊人的人体雕塑中，线条的长短、粗细、身体的高低及四肢、五官的比例都能进行精确的测量。

我们惊讶地发现，闻名世界的希腊人体雕像的两大特征恰恰是数学个性的体现：巧妙地安排重心，精确地计算比例。

二、在现代，不同时期的不同派别，也在他们的作品中诠释了他们对数学的理解
如果说印象主义画派是在描摹自然，那么表现主义画派就是在创造自然，而抽象主义则纯粹是在压缩自然。

例如：莫奈、雷诺阿的大自然真实、生动，又丰富、美丽。

而凡·高、高更、蒙克，他们崇高的社会感或不幸的遭遇使他们在画中增添了明显的主观情感因素：一切事物都发生了强有力的扭曲和变形。

而到了康定斯基，自然彻底变成了一些基本的元素。

抽象艺术使用的是经过抽象的最典型、最本质的人人都能看懂的符号。

从具体到抽象，从表面到本质，从有形到符号，这一过程与数学的发展何其相似，艺术与数学越走越近了。

画派并不能代表每个画家，不同的画家将个性推向了顶峰，而数学依旧蕴涵于每一种个性之中。

毕加索的《亚威农少女》开创了立体主义的先河，他通过主观的理性筛选，将对物体前后左右的不同知觉按主观构想拼凑在一起，很多符号被毕加索概念化了，实际上，这是将立体表现为平面的过程，也是将对象打碎再重组的过程。

这个过程有些像微积分，但又不完全是，或许它可被数学家借鉴解决一些面积和体积的问题。

而雷诺阿则对中轴线情有独钟，他的画总是那么左右对称，如果他的画面上有两个人，那么，你总能发现那最明显的接触点一定在整个画面的中轴线上。

克劳德·莫奈永远是一个谜，这个印象主义大师的画就像莫扎特的音乐一样为世人视为神晶。

因为从不变中体现出变化的只有两个：一个在牛顿与莱布尼茨的微积分中，另一个在莫奈的画中。

他想画出光的振颤，水的波动，空气的透明，树叶的闪烁。

他做到了，其他人没有。

至于莫奈是否在他着色时运用了微积分的什么技巧，我们不敢说。

但是，起码，我们可以把莫奈的这种精神同数学建立某种联系，而这个谜就让它成为一种永恒的美吧。

这就是美术与数学，我们用数学区分不同艺术作品的个性，或许有些简单，但谁又知道它不是本质的呢?只要有一件合适的媒体，人类可以走近任何领域，不是吗？（作者系北京大学法律系二年级学生王睿）
语言学与数学
语言学和数学有什么关系？看到这个题目，很多人都会觉得奇怪。

因为在大家的印象中，语言学应该是一门典型的人文学科。

它和数学好像实在扯不上关系。

如果我们光看传统的语言学研究，也确实看不到什么数学的东西来。

但是现代语言学已经不再是一般人印象中的那个样子了。

不但数学方法大量引入语言研究，有一些分支领域甚至可以说完全数学化了。

社会语言学研究是使用数学工具比较早的一个领域。

语言学研究有一个基本假设，认为语言是一个同质的，内部规则严整的系统。

但是在进行社会调查后得到的样本却远非那么简单。

从发音人自身来说，他会有口误，或者受到表达或情绪等因素影响。

很难采集到像书面语那样整齐规范的材料。

而如果让他念文章的话，那么采集到铲又不是真正活生生的口语材料。

同一语言集团内部对语言的使用也是有歧义的，这无论在语言、句法还是词汇层面都有体现。

比如拼音方案中的W，到底是个双唇的半元音还是别的东西。

从语音规范角度当然认为这是个半元音。

但实际情况是北京人有的把它发半元音，有的发成上齿咬下嘴唇的[v]，而且在不同的音节中还表现不一样。

上世纪二三十年代已经有人注意到了这一点，但没能做
出很好的解释。

因为这样的现象只有通过大规模的社会调查才能解决。

而社会调查就需要使用数理统计。

一方面用诸如标准偏差等指标来排除显然有问题的样本，使我们的研究不会因为发音人的口误而得到错误结论。

再用相关分析等方法，把不同的发音差异与调查对象的年龄、文化、性别、地域、职业等非语言因素相联系，以获知这种语言歧异在社会的分布情况。

我们在社会调查后发现发成唇齿音的人集中在年龄为中年以下，文化程度较高的人群中，该音主要出现在韵腹非圆唇元音的零声母音节。

通过这一调查，我们还可以进一步预测，北京话将来很可能要出一个V声母，如“晚间新闻”应该念成Vanjian Xiven。

实验语音学也是使用数学比较多的语言学分支学科。

从一开始它就主要研究语音的生理、声学参数。

傅里叶变换、线性预测是计算元音共振峰必不可少的数学工具。

各种统计方法更是大量使用。

近年来，随着语音合成技术的发展，建构一套合理的语调变化的数学模型，已经成为一项重要课题。

因为语音合成界一开始构筑的所谓“中性语调”概念，是一种不带任何强调、任何感情，最最平淡的语气。

到现在，合成简单句基本问题不大了。

但合成连续语篇就出问题了。

人们在念文章时，总是会随着新旧信息的交替，强调的中心不断转移。

即使是新闻报道中，也很难找出一句完全用“中性语调”说出的句子。

“中性语调”的句子连成语篇，没有重点，没有强调，人们很难听懂，甚至会听得昏昏欲睡，所以我们必须在这种“中性语调”基础上，再加上一定的参数，使之成为现实的句子。

这很像是一个自变量，经过一定函数关系转换成因变量。

但是这只是简而言之的说法。

人耳并不是声学仪器，虽然它也分析音高、音长、音强和音质等要素，但最终得到的是一个囫囵的印象。

相同音高条件下音强更大的音会感觉音高更高一些。

所以声音四要素在语言中关系比较复杂。

语调的数学模型还必须搞清各要素之间制约关系。

我国学者提出的语言演变有阶无界理论，方言相似度计量研究也是数学方法在历史语言学、方言学等很多领域中的应用。

此外还有词频研究、文章风格学研究都会涉及到数学。

不过，这些只能说是数学方法在语言学中的应用。

方法、技巧说到底不过是数学浅层次的部分。

数学还有更深层次的精神值得语言学参考。

很多数学问题都是来源于现实世界中一些具体的问题。

数学家在研究这些问题时却把对象的具体属性统统抽离，而仅仅研究它的数和形的关系。

正因为如此，一个数学问题的解决，往往具有很大的普适性，这一点语言研究就应该借鉴。

很多语言研究者，视野比较窄，只注目于自己研究的那种语言。

在汉语学界尤为明显，动不动就爱说“这是汉语的特点”而不去想想这种研究对别的语言的作用，就更不用说对其他学科的方法论意义了。

人类生理结构都是一样的，面对着的世界也是同一个世界，那么是不是很有可能表面看来有差异，背后隐藏着某一种一致呢？这并非是凭空瞎想，对儿童语言习惯的研究就发现，世界儿童语言学习过程是非常相似的，在相同的生活阶段会犯相似的语言错误，再加上儿童语言习得的速度是惊人的，短短两三年就可以学会一种语言，而成人学习外语远远要吃力得多，而且不久就忘了。

成人学外语一般是系统学习，而儿童却只是面对杂乱无章的语言世界，所以有人推测，人脑中先天就有某种语言机制。

儿童语言获得过程，与其说是习惯，不如说是调整。

这也就意味着如果我们的语言研究能站得更高一点，抽象去具体语言中很多琐碎的规则，就有可能找到潜藏在我们大脑中的语言机制。

我们也完全可以设想，人类语言的差异可能仅仅在于具体的参数不同。

就好像只要平行公理的参数不同，我们就可以得出欧氏几何、双曲几何、椭圆几何这样完全不同的几何体系。

人类语言不过是涉及到的参数更多一些而已。

西方语言学界正在兴起的原则参数语法正是基于这一思想提出的。

如果我们真的找到这样一个隐藏在人类纷繁复杂语言现象背后的原则系统，一个直接的好处就是可以大大提高我们外语学习的效率。

另一个重要的意义则是世界一体化进程中，强势文化的语言正在威胁到很多弱势语言的存在。

很多语言已经灭绝，还有很多语言则处于濒危状态。

为保护我们的生态环境，我们要保护濒危动物。

语言同样也需要保护。

每一种语言都是人类与世界交流的独特方法。

一套高度形式化的语言体系，有助于我们对那些语
言的调查，因为一定程度上只要找那些参数的具体取值，而不必重复像以前调查那样的繁琐手续。

数学的一个重要特点是它从少数公理出发，通过逻辑手段建立起一系列定理、公式，最后建构成庞大的理论体系。

这大概也是数学最迷人、最震撼人心的地方。

公理化使它的基础牢固、简明、自洽；逻辑化使它更加严密；而定理、公式的建立使数学可操作性极强。

我感觉前两者人们谈得比较多，而对定理、公式的意义却似乎谈得不多，所以在此多写两句。

从理论上，可以说一切几何命题都可以直接从那几个公理推出，但这样作的艰辛是不言而喻的。

而定理、公式就相当于一个个预制件使处理可以跳跃前进。

这事实上和人类语言的发展过程是相似的。

人类语言的基础大概来自于对事物的命名。

由于命名，使事物从混沌的世界中剥离出来，进入人类的认识世界，而后人就可以直接通过名称来认识世界，而不必重复前人的剥离过程。

这一点非常重要，在日常生活中我们可能体会不深，因为已经习惯了。

如果我们看一些专业文献，会发现其中充满了多种术语，外行人根本看不懂。

术语是什么，就是对本行业相关的一定事物、现象的命名，以后的讨论就能以它们为基础而不必再对其内涵作繁琐的描述。

文明的进步，科学的发展也正是这样层层叠积起来的，所以，数学体系中定理、公式的意义也很大。

公理、逻辑推理、定理构筑起如此宏伟的理论体系，这也成为很多学科努力的方向。

语言学家们也正在为此做出努力。

但是语言是一个非常复杂的体系，它所涉及的对象包括了整个世界，要把“语言公理化”分外困难。

记得开学初老师就举出了几个例子来说明人文学者在严密性方面的欠缺，这几个例子都与语言学有关。

确实它们跟一些学者不够谨慎有关，但语言学家自有他的苦衷。

比如“左”和“右”，似乎是很好解释的词。

但只要作个小实验就会发现远非那么简单。

大家可以试着指着自己的右脸对另一个人说“你这边脸上粘了点脏东西”。

对方十有八九会摸自己的左脸。

又如“前”“后”。

在课堂里，请问A、B两个位置，哪个是在讲台前面?这里就涉及到语言中很多词意义是相对的，有相当的模糊性。

这种模糊性和人们熟悉的“高”和“矮”界线的那种模糊很不一样，我们在这里无法作过深的讨论。

但需要指出，至少有一个元语言的问题。

在数学中定理可以由公理证明，但公理却无法证明。

语言中则存在了太多的类似公理的基本元素，用它们来解释其他词语可以，词典编纂时不能把它们丢下，因为它们大多是日常使用频率极高的词，但要解释它们实在相当困难，往往会出现循环解释。

如果作科学概念的解释，虽然可能符合很多专业学者的胃口，但不符合语言实际。

因为一个小孩子和一个老人对“生活”的理解，显然大相径庭，但没人会认为他们俩说“生活”这个词的时候是说的两个不同的词。

所以词典在这个问题上很难解决。

一个可行的努力是编一部只用固定数量(如1000个)词解释其他所有词，而对这些词本身只说明其用法的词典。

虽然将语言学公理化是件非常艰辛的工作，但这确实是一个值得努力的方向。

西方一些学者已经在这方面做了大量的工作，但中国学界似乎还没有很好的研究。

词汇系统由于过分庞杂，公理化非常困难，但句法系统显然要规则得多。

数学能够做到高度抽象，一个很重要手段是形式化、符号化。

这使很多语言学家得到启示。

能不能把语言看作一个按某种规则构成的符号串的无限集合呢?基于这样的思想，语言学家把自然语言和计算机程序语言等人工语言放到了同一个平面来考察。

用形式的办法统一作了描写，提出语言可以分为上下文有关语言、上下文无关语言和有限状态语言。

当时计算机科学家设计了一种叫ALGOL60的程序语言，发布后不久就发现语法里存在歧义。

科学家们绞尽脑汁试图找到机械的方法来判断程序语言是否存在歧义。

语言学家用形式语言理论证明程序语言属于上下文无关语言，这样的语言是无法用机械的办法判断是否有歧义的，从而回答了计算机科学一个重要理论问题。

也引起当时计算机学界的巨大反响。

一些计算机科学家和语言学家深入合作，从而创立一个全新的学科：计算语言学。

这门学科的特点是采用集合论、数理逻辑、算法理论等方法研究语言，用计算机模拟自然语言的词法、句法和语义结构，研究句法结构。