聚类分析在方言分区上的应用——以江淮官话洪巢片为例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析在方言分区上的应用——以江淮官话洪巢片为例
聚类分析在方言分区上的应用
——以江淮官话洪巢片为例
王荣波贾桂云*
(北京大学中国语言文学系中国北京 100871;
兰州交通大学土木工程学院中国兰州 730000)
摘要:传统方言分区多采用同言线束的方法,但是这样的办法具有一定的主观性和一条标准难以贯彻到底的问题。聚类分析可以在多条标准的基础上,尽量按照方言或语言的客观事实分类,能较大程度地排除人的主观经验的干扰。在对江淮官话洪巢片进行聚类分析分区工作之后,得到的结果较为符合地理分块和历史传统,也较为符合语言事实和民间认同。因此本文认为聚类分析可以在方言分区问题上得到一定的推广,并可以确认现有方言分区的合理之处,以及纠正有所偏颇的地方。
关键词:聚类分析方言分区江淮官话洪巢片
DOI: 10.14095/ki.jics.2017.01.003
一、传统方言分类方法
语言学上关于方言分类的传统办法,通常采用所谓的同言线法。同言线法就是选取特定的语言标准,然后将这些标准的符合与否或者不同类型在地图上标示出来,从而形成一个个不同的区域。这些区域之间的界限,就是同言线,同言线密集的地方,称之为同言线束,再根据这些同言线束,划分不同的方言或者语言。
这样的做法在19世纪已经奠定,德国青年语法学派的学者们提出“音变规律无例外”的假说,语言地理学者则根据这一假说,在地图上绘制一条条的同言线,从而成为划分语言或者方言的基础。但是早在19世纪八九十年代,德国学者温克(G. Wenker)就发现了著名的“莱茵扇”现象,也就是说语音演变的规律不是绝对的,他在不同的地
* 王荣波,北京大学中国语言文学系博士研究生,研究方向为心理语言学、方言学。邮箱:bohemond@。
贾桂云,兰州交通大学土木工程学院副教授,北京大学地球与空间学院博士,研究方向为地理信息系统。邮箱:44073400@。
国际汉语学报第8卷第1辑
区可能有不同的呈现程度。也就是说,有些地方的语言演变规律可能进行的比较彻底,而有些地方则不那么彻底。这就发现了语言或者方言之间的过渡区问题。过渡区的语言或者方言,经常呈现出相邻的两种或者多种语言、方言的特征,同言线在这样的地区呈现扇形分布,并没有汇聚成同言线束。如何处理过渡区问题,时至今日,语言学界并没有很好地解决这一问题。有些学者主张采用单一标准法。所谓单一标准法,就是只采取一个被认定为“主要”或者“首要”标准的标准,作为划分语言或者方言的依据。只要符合这一特征,就属于某种语言或者方言,而对于其他标准不予采纳。例如《中国语言地图集》就采用古全浊声母字的今读,作为划分汉语方言的标准。如果全浊声母字,在今天依然保存浊音的读法或者读不送气清音,就是吴语或湘语;而如果读送气清音,就是赣语和客家话;而如果根据声调,平声的全浊声母字读送气清音、仄声的全浊声母字读不送气清音,就是官话方言。而后又根据中古入声声调的字,在今天方言里的归派,将官话方言分为北京、中原、西南、江淮等次方言。
单一标准法操作较为简单,能快速将众多方言区分开,不失为一个简洁的办法,但是与此同时,也带来一些不可忽视的问题:
首先,采用什么样的标准,是一个主观选定的问题。虽然多数学者在采用这一办法时,多选用那些能显著将不同方言区分开的标准(比如全浊声母和中古入声的今读)。但是至于为何选取这些标准本身,并没有很强的理据性。也就是说,大多数是先有一个不同方言的主观印象,再根据这个主观印象,选用认为合适的方言。这样的做法,显然陷入了主观性强的境地。
其次,一条标准的操作看似简单易行,但是在较为细致的方言点或者方言小片的操作上,经常遇到问题。例如,通常认为,西南官话的最主要的语音特征,是中古入声声调字今读阳平,当时灌赤片方言今天中国入声声调字依然读入声,这就违反了西南官话的划分标准。又如划入江淮官话的通泰片方言,今天无论平声还是仄声,中古的全浊声母字,几乎都读送气清音,与赣语和客家话相同。单一标准法在这些地方都难以贯彻到底,形成了双重标准难以自圆其说的局面。
再次,单一标准法依然难以解决过渡区问题。按照单一标准法的理想状态,方言和方言之间应当不存在过渡,只有有和无、是和否的选择,而不存在可有可无可是可否的情况。但是在实际情况中,经常出现该标准并没有完全符合或者只符合一部分的情况。例如晋语从官话方言独立的重要理由是他保存了中古独立的入声声调。但是晋语的大多数方言点,都存在中古至少是部分入声声调字,今天被读成其他声调,而其他声调的字,今天又被读成入声的情况。又如老湘语的公认标准是保存了中古的全浊声母字,但是在老湘语的很多方言点,大量的全浊声母字都趋于清化,所谓的全浊音只保存在一些常用字而已。单一标准法针对以上情况,也难以处理。
鉴于这些问题,部分学者提出了综合标准法。所谓综合标准法,就是采用多条标准,甚至不但包括语音,还包括词汇、句法等标准,来划分方言。比如李如龙(2001)提出:“其实,现有多项标准在手,才能有单一特征的选择。定性是定量的结果。如果说单一特征是从多项特征中提取出来的,是画龙之后的点睛,为了在地图上划出一条较为明白的线条来,当然也是可行的。但这一条是代表了许多条而不能用
聚类分析在方言分区上的应用——以江淮官话洪巢片为例
这一条去代替那许多条,更不能认为只有这条管用,那许多条是羡余的,没用的。”王福堂(2005)也提出:“也就是说,区分方言常常不能只靠单一标准,而要使用多条标准,例如吴方言古全浊声母保持浊音音值,根据这一特点可以毫无困难地把它和周围的江淮官话、赣方言、闽方言等区别开来。但是这一标准却无法使吴方言和湘方言中的老湘方言相区别,因为老湘语的古全浊声母也保持了浊音的音值,和吴方言相同。这是两个方言在古全浊声母演变方面平行发展的结果。则就需要同时再使用其他语音标准。”但综合标准法,在实际操作中,经常遇到现实的问题。例如多条标准中,以哪一条为准,以及不同标准的权重是否相同,还有具体选择哪些多条标准,等等,这些均制约着综合标准法的实施。此外,采纳综合标准法的学者,通常并没有提出一个明确的如何根据多条标准从而得到最后结论的操作原则,因此综合标准法目前还仅仅在部分学者中试用,尚没有普及整个语言学界。
本文认为,针对综合标准法存在的这些问题,传统的定性研究方法已经无法妥善加以解决。因为人的主观印象毕竟是存在偏见和不客观的地方,难以将不同量级的事物客观地加以比较分析。因此如果要让综合标准法进入可供实施的阶段,应用数学等量化的方法加以比较分析,已经是必不可少的一步。本文在此思路上,提出了聚类分析的方法,并且以江淮官话洪巢片为例,旨在对传统方言分区方法的改进起一个抛砖引玉的作用。
二、聚类分析简介
所谓聚类分析,是将物理或者抽象对象的集合分成相似的对象类的过程。簇是数据对象的集合,这些对象与同一个簇中的对象彼此相似,而与其他族中的对象相异(Han 等,2007)。作为统计学的一个分支,聚类分析已经被广泛研究了许多年,主要集中在基于距离的聚类分析研究上。从机器学习领域的角度看,聚类属于无监督学习。它与分类不同,聚类分析不依赖于预先定义的类和类标号的训练实例。因此,聚类分析是观察式学习,而不是示例式学习。它依赖于数据,聚类结果具有客观性,被广泛应用于数据挖掘、统计学、机器学习、空间数据库技术、生物学、经济学、地理学等多个领域。目前文献中存在大量的聚类算法,大体上可以划分为五种:(1)划分方法;(2)层次方法;(3)基于密度的方法;(4)基于网格的方法;(5)基于模型的方法。
下边主要以方言分区为例,说明聚类分析方法在语言学上的应用。
三、江淮官话洪巢片的聚类分析
将聚类分析运用在汉语方言研究上,并不是一个很新鲜的事。郑锦全在1982年就运用汉语方言词汇材料,针对18个汉语方言点,计算了彼此之间的皮尔逊相关系数,并得出了他们之间的词汇接近程度(陆致极,1986)。陆致极(1987)在郑锦全工作的基础上,使用了语音标准,也以相关系数为计算基础,对18个汉语方言点进行了聚