一个面向藏族学生双语教学的汉藏语料库建设
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第37卷第6期2023年11月
兰州文理学院学报(自然科学版)
J o u r n a l o fL a n z h o uU n i v e r s i t y o
fA r t s a n dS c i e n c e (N a t u r a l S c i e n c e s )V o l .37N o .6
N o v .2023
收稿日期:2023G02G20基金项目:兰州文理学院杰出青年科研人才培育计划项目(2018J C Q N 010);甘肃省高校教师创新基金项目(2023B G258
)作者简介:梁青青(1983G),女,河北涞源人,讲师,硕士,研究方向为语音信号处理.E Gm a i l :281930976@q q
.c o m.㊀㊀文章编号:2095G6991(2023)06G0036G05
一个面向藏族学生双语教学的
汉藏语料库建设
梁青青,周小燕,赵春艳
(兰州文理学院传媒工程学院,甘肃兰州730000
)摘要:为了使用计算机辅助语言学习系统(C o m p u t e rA i d e dL a n g u a g eL e a r n i n g ,C A L L )帮助藏族学生在学习普通话时及时发现和纠正错误发音,构建了一个适用于藏族学生普通话发音评估的语料库.从声母㊁韵母及声调的概念来比较分析藏语学生的普通话语音特征,归纳出藏族学生易混淆的声㊁韵㊁调,并进行文本语料的设计和语音语料的录制.对录制的音频文件用国际通用标注软件P R A A T 进行分层标注,对标注好的语料进行分类编号.实验结果证明,该语料库可以及时纠正藏族学生学习普通话时的错误发音.关键词:计算机辅助语言学习系统;文本语料;藏汉语料库;标注中图分类号:T P 391㊀㊀㊀文献标志码:A
C o n s t r u c t i o no f aC h i n e s e GT i b e t a nC o r p
u s f o r B i l i n g u a l T e a c h i n g o
fT i b e t a nS t u d e n t s L I A N GQ i n g Gq i n g ,Z H O U X i a o Gy a n ,Z HA OC h u n Gy
a n (S c h o o l o fM e d i aE n g i n e e r i n g ,L a n z h o uU n i v e r s i t y o
fA r t s a n dS c i e n c e ,L a n z h o u730000,C h i n a )A b s t r a c t :I n o r d e rt o u s e C o m p u t e r A i d e d L a n g u a g e L e a r n i n g (C A L L )t o h e l p T
i b e t a n s t u d e n t s t i m e l y d e t e c t a n dc o r r e c tw r o n gp r o n u n c i a t i o n w h e nl e a r n i n g P u t o n g h u a ,ac o r p
u s s u i t a b l e f o rP u t o n g
h u a p r o n u n c i a t i o na s s e s s m e n t o fT i b e t a ns t u d e n t sw a s c o n s t r u c t e d .F r o m t h e c o n c e p t o f i n i t i a l c o n s o n a n t ,f i n a l c o n s o n a n t a n d t o n e ,t h i s p a p e r c o m p a r e da n da n a l y
z e d t h e p h o n e t i c f e a t u r e s o fT i b e t a ns t u d e n t s i nP u t o n g h u a ,s u mm e du p t h e s o u n d s ,r h y
m e s a n d t o n e s e a s i l y c o n f u s e db y T i b e t a ns t u d e n t s ,a n dc a r r i e do u t t h ed e s i g no f t e x t c o r p u s a n d t h e r e c o r d i n g o f p h o n e t i c c o r p u s .T h e r e c o r d e d a u d i o f i l e sw e r e l a b e l e d b y t h e i n t e r n a t i o n a l g
e n e r Ga l l a b e l i n g s o
f t w a r eP R A A T ,a n dt h em a r k e dc o r p u sw a s c l a s s i f i e da n dn u m b e r e d .T h ee x Gp e r i m e n t a l r e s u l t ss h o w e dt h a tt h ec o r p u sc a nc o r r e c tt h e w r o n gp
r o n u n c i a t i o no fT i b e t a n s t u d e n t s i n l e a r n i n g P u t o n g
h u a i n t i m e .K e y w
o r d s :C A L L ;t e x t c o r p u s ;C h i n e s e GT i b e t a n s p e e c hc o r p u s ;l a b e l ㊀㊀我国是多民族国家,除汉族外,藏族是人口众多的少数民族之一,在我国约有七百万人口
(2016)
,主要分布在西藏自治区㊁青海省㊁四川省西部㊁云南迪庆和甘肃甘南等地区.生活在这些少
数民族地区的人们,藏语是他们的主要语言[1].
国家为了民族统一和共同发展,目前正在积极推广普通话.«国家中长期教育改革和发展规划纲要
(2010-2020年)
»中第九章民族教育的第二十七条指出:大力推进双语教学,全面开设汉语言文学
课程,全面推广国家通用语言文字[2
].
因此,面向藏族学生的双语教学对于提高他们的普通话水平尤为重要.然而,藏族人的普通话发音容易受到其母语发音习惯的影响,总会带有一些固定类型的错误发音,这就需要有专业教师对其普通话发音进行针对性的纠正.这种方式费时费力,效率也不高.随着语音信号处理技术的不断成熟以及智能
语音技术的快速发展,计算机辅助语言学习系统(C o m p u t e rA i d e dL a n g u a g eL e a r n i n g,C A L L)[3]用于藏族学生的普通话发音评估越来越受到人们的青睐.构建一个适用于藏族学生普通话发音评估的语料库是其应用的基础.关于藏语信息技术方面的研究起步较晚,资源也相对缺乏.根据知网查询发现,已有的成果有:西北民族大学藏文信息处理研究所设计的安多藏语语音合成语料库;中国社会科学院民族学与人类学研究所㊁西藏语委㊁新疆大学和西南民族大学共同完成的 藏㊁维㊁彝民语语音参数数据库 ;西藏大学藏文信息技术研究中心的 面向藏语声纹识别的语料库 [4].这些数据库主要用于语音合成和语音识别,大部分还处于语料收集和研究阶段,而且现有的语料库也未涉及普通话声韵调发音特征和藏语声韵调发音特征的差异.因此,本文以甘肃地区藏族学生在双语教学中学习普通话发音为研究内容,先从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征,在此基础上进行文本设计和语音录制,构建合适的语料库.进一步对录制的音频文件进行分层标注:短语层用汉字标注;音节层用汉语拼音标注;利用计算机可读音标(S p e e c h A s s e s s m e n t M e t h o d sP h oGn e t i cA l p h a b e t,S AM P A)来标注音素层;用调值来标注声调信息,最后,将所有标注信息写入.T e x t G r i d文件中.
1㊀语料库设计
在设计文本语料库的过程中,需要科学地设计语料内容,用尽量少的语料覆盖语言的所有发音现象.藏族人在说普通话时容易受到母语的影响,说出的普通话具有明显藏腔藏调.由于藏语和汉语在结构上具有相似性,所以采用汉语中拼音的构成,即声母㊁韵母以及声调的概念来比较分析藏语语者的普通话语音特征.本文结合藏族小学的课本,从声母㊁韵母以及声调上对比藏族学生的普通话与标准普通话的差异,归纳出藏族学生易混淆的声韵调,进行文本语料的设计.
1.1㊀汉藏双语的发音特点
汉语是音节型语言.汉语拼音有23个声母,24个韵母,每个汉字的拼音都有声母(零声母)㊁韵母和声调.声母起辅音作用.韵母由单元音或者元音与辅音构成,可以分为单韵母㊁复韵母和鼻韵母.声调分为阴平㊁阳平㊁上声和去声.
藏语和汉语属于同一个语系,并且藏语也是音节型语言.目前藏语方言主要分为3类:卫藏方言(拉萨话)㊁康方言(德格话㊁昌多话)和安多方言,本文以卫藏方言中的拉萨藏语为研究对象.藏语和汉语不同,藏语是由字母组合形成的文字,每个字母都有自己的发音,字母的组合实际上就是音与音之间的拼合,所以称之为拼音文字[5].1.2㊀藏语和汉语的主要区别1.2.1㊀声母发音特征的区别
根据拉萨藏语声母系统来进行分析,藏语和普通话共享20个声母,如表1所列.除此之外,藏语和普通话还有其特有的声母,如表2所列.通过对比发现藏语相对普通话多出4个声母,但藏语声母系统缺少清擦音f[f]和h[x],藏族人通过借用其他音来发这两个音[6].例如,有时会将f[f]音发成[p h],有时会用藏语声母中的[h]来匹配普通话中的h[x],或者用浊擦音[ ]来发h[x].赵金灿[7]在调查中发现,藏语中的送气声母在双音节词中的后位会变成不送气,这个习惯导致他们学习普通话时声母被替换.因此,藏族人在学习 c z s c h z h s h 时会遇到较大困难,在普通话声母中还容易混淆p[p h]-b[p]㊁t[t h]-d
表1㊀藏语和普通话共享的声母
藏语汉语国际音标S AM P A藏语汉语国际音标S AM P A g g[k]g z z[t s]d z k k[k h]k c c[t s h]c j j[ ]d z`w w[w]w q q[ h]t s`x x[]s` d d[t]d s s[s]s t t[t h]t y y[j]y n n[n]n l l[l]l b b[p]b z h z h[ ]z h p p[p h]p c h c h[ h]c h m m[m]m s h s h[ ]s h 73
第6期梁青青等:一个面向藏族学生双语教学的汉藏语料库建设
表2㊀藏语和普通话各自特有的声母
藏语国际音标S AM P A汉语国际音标S AM P A n g[ ]n g f[f]f n y[ɲ]n y h[x]x r[ᶎ]r r[ɻ]v h[h]h
g y[c]k l
k y[c h]k h
l h[ɟ]l h [t]㊁k[k h]-g[k]㊁c[ʦh]-z[ʦ]㊁c h[ʦh]-z h[ʦ].1.2.2㊀韵母发音特征的区别
藏语和普通话共享11个韵母,具体情况如表3所列,藏语34个特有韵母如表4所列.从表中可以发现,藏语和普通话的韵母差异比声母系统大.藏语中特有的鼻化元音是普通话中没有的,但是藏语中缺少了普通话中的复元音.另外,丰富的辅音韵尾是藏语韵母区别于普通话的另一个主要特征.
表3㊀藏语和普通话共享的韵母
藏语汉语国际音标S AM P A藏语汉语国际音标S AM P A a a[a]a a u a u[a u]a u o o[o]o a n g a n g[a ]a n i i[i]i e n g e n g[ə ]e n u u[u]u u n g o n g[u ]o n üü[y]y i n g i n g[i ]i n i e i e[iɛ]i e
表4㊀藏语特有的韵母
韵母国际音标韵母国际音标韵母国际音标韵母国际音标a a[a a]i m[i m]u u[u u]e n[e n] a g[a k]i n[i]u n[u n]o g[o k] a b[a p]i b[i p]e[e]o b[o p] a m[a m]i g[i k]e g[e k]o m[o m] a r[a r]i r[iɹ]e u[e u]o r[o r] a i l[ɛ]u g[u k]e b[e p]o i[⌀] a i n[ɛn]u b[u p]e m[e m]o o[o o] i i[i i]u m[u m]e r[e r]o i n[oõ] i u[i u]u r[u r]
㊀㊀根据赵金灿等人的调查显示,藏族人在学习普通话时,容易发生偏误的韵母有:①把o[o]发音成u[u];②普通话中的e[ə],在藏族人中容易发成[ɛ],藏族人容易出现舌位的错误;③藏语中没有儿化音,因此,藏族人在在带儿化音的词中儿化音常常发音为零声母;④藏语中因缺乏普通化的o u[o u],常常与[u]混淆;⑤藏族人在学习a n [a n]㊁a n g[ɒ ]时容易将两者混淆;⑥藏族人在学习e n[ən]㊁i n[i n]时也极易出错.1.2.3㊀声调发音特征的区别
藏语和普通话一样都是声调语言,不同的声调可以表达不同的语义,也可以表达不同的语法功能.对于声调的研究通常会用 五度值记调法 来表示不同的调音[8],藏语和普通话的调型调值如表5所列.
表5㊀藏语和普通话的调型调值
普通话声调普通话调值藏语声调普通话调值
阴平55高平调44
阳平35低升调13
上声214低升降调132
去声51高降调51
通过对比发现,普通话的阴平调值高于藏语的高平调,二者的调值略有差异;普通话的去声和藏语的高降调在调型和调值上都一样.这两种语言的差别在升调和曲降调,普通话的阳平是中升调,而藏语是低升调,藏语调值整体比普通话要低.普通话的上声调值是214,属于中降升调,而与其对应的藏语调值是132,属于是低升降调.从
83㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第37卷
调值可以发现,普通话的上声是先降后升,而藏语的是先升后降,二者差异较大.因此,藏族人学习普通话声调的难点主要在于阳平和上声.1.3㊀文本语料设计
本文主要从藏语和普通话在声母㊁韵母和声调上的主要差别出发来设计文本语料库.由于双语教学语料库既能对小学生普通话发音进行纠正,也能用来研究藏语的语音分析㊁韵律建模㊁语音转换和语音合成等,因此,该语料库应满足以下条件:
(1
)应尽可能覆盖汉语普通话中所有由声母㊁韵母和声调组合而成的音节;
(2
)藏语音节中的浊辅音和辅音韵尾在日常发音中经常被简化,进而会给藏族学生学习普通话发音造成一定影响.因此,在构建文本语料库中需要重点考虑对这种情况的覆盖;
(3)
需要考虑声调发生变化的情况,例如:由两个三声的字组成词时,第1个字通常会变为二
声;一些词语及句子中存在声调变成轻声的情况.
基于以上条件,结合小学阶段的科学课教材,通过对比普通话和藏语在声韵母㊁声调㊁语调㊁节律㊁语速等方面的异同,设计面向藏族学生学习普通话的双语教学文本语料[9]
,语料库要包含单字㊁
词组和连续语句.单字要包含藏语和普通话里面所有的声韵母组合以及不同声调组合;词组需要包含所有不同声调组合的词语;连续语句要包含陈述句㊁祈使句㊁疑问句等不同句型.最后,我们构建单字500字㊁双字词1000词㊁三字词400词和语句800句4种藏语的文本语料.
以下为设计的4种藏语的文本语料实例.
单字:(我)(叶)(大);双字词:(科学)(今天)
;三字词:
(大自然)
;(温度计)
;语句:(水都到哪儿去了?)
;(校园里的植物);
(今天天气怎么样?).
2㊀语音语料录制
选择甘南州以普通话为主要教学语言的合作
第一小学的藏族学生录制藏语,录制藏语的学生既会说藏语,也会说普通话,录制普通话的汉族学生只会说普通话.最后,从一到六年级,每个年级
挑选10名学生,5名藏族学生和5名汉族学生,共60名学生,其中男生28名,女生32名,录制全部文本语料.
所有的语音语料都是在专门的录音环境中通过专业的录音设备录制的.录音设备采用高保真话筒和外置声卡,保证音频采集质量,利用笔记本电脑安装的C o o l E d i t 软件进行音频录制.录音过程中C o o l E d i t 软件可以实时显示语音波形,根据波形幅值大小的变化来保证录音人最佳音量和语速,这样可以最大限度避免反复录制,保证录音质量.最后录制好的语音语料以单声道㊁16位采样精度㊁44.1k H z 采样频率保存为WA V 格式的文
件.从录制的具体内容来看,首先录制了单字,单字简单,录制时不易出错;然后录制了双字和三字,词语在朗读的时候会有变调的情况,需要录音人仔细斟酌;最后录制了语句,语句较长,需要把控好语速和语调.
录音的音频总时长大约为8h ,为了使用方
便,后期通过专门的音频软件C o o l E d i t 对所有的音频文件进行编辑切分,并保存为对应的文件.对于单字㊁二字词和三字词,根据字数分类,分别保存为对应文件;一个语句保存为一个文件,并按照类别进行编号.
3㊀数据集标注
普通话和藏语都是音节作为最小发音单位,
阅读㊁分析也都以音节为单位,因此要将双字词㊁三字词和句子切分成单个音节,标注出每个音节的起止位置,得到每个音节的时长.普通话和藏语每个音节的基本发音都由声母㊁韵母和声调决定,
根据这些语音特征,本文采用国际上通用语音标注软件P r a a t ,对语料库进行标注[10]
.
其标注分为5个层级:第1层为l i n e
,表示汉字标注;第2层是p i n y i n ,是语音针对汉语拼音的标注;第3层为P h o n e 层,
利用国际上通用的机读音标方案S AM P A 来标注音素;第4层为m i s t a k e 层,标注可能的发音偏误信息;第5层为t o n e 层,标注声调信息.
汉语具体标注的实例如图3所示,具体标注说明如表6所列.
对标注过的语料编写脚本程序,将标注好的
内容按照和语音文件一一对应的关系写入.T e x G
G r i d 文件,
里面包含了标注的所有层级信息.最后通过P r a a t 软件自动提取基频值和共振峰,
以9
3第6期
梁青青等:一个面向藏族学生双语教学的汉藏语料库建设
供后续分析使用
.
图3㊀汉语标注实例
表6㊀标注符号说明示例
标注层级标注符号举例说明L i n e
汉字北风p i n y
i n 汉语拼音s h u o p h o n e S AM P A 转写声母s h 转写m i s t a k e 声母㊁韵母㊁声调e n g
t o n e
调值(轻声不标注)
51表示去声
4㊀结语
本文主要介绍了如何构建一个面向藏族学生
在双语教学中学习普通话发音评估研究的语料库.从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征.基于此设计文本语料,录制语音语料.用P r a a t 软件对录制好的语音语料进行5层标注,并将其独立保存为.T e x t G r i d 格式文件,获得该语音信息的相关特征.所构建的语料库既可以用来研究藏语计算机辅助发音系统设计,也可以用来进行藏语的实验语音学研究.今后将会从覆盖性㊁全面性㊁质量和可重复使用性等指标,对该语料库进行评估.参考文献:
[1]李荣.中国语言地图集[M ].香港:朗文出版社,1987.
[2]国家中长期教育改革和发展规划纲要(2010G2020年)
[E B /O L ].(2010G07G29).h t t p ://w w w.g o v .c n /j r z g /2010G07/29/c o n t e n t _1667143.h t m .
[3]张劲松,高迎明,解焱陆.基于D N N 的发音偏误趋势
检测[J ].清华大学学报(自然科学版),2016,56(11)
:1220G1225.
[4
]周雁,西绕多吉.面向藏语声纹识别的语料库建设[J ].计算机工程与科学,2008,40(11):2080G2084.
[5]根呷翁姆.藏语的方言分类及其特点[J ].中国语言学研究,2022(2):247G261.
[6
]珠杰,欧珠,格桑多吉,等.藏文音节规则库的建立与应用分析[J ].中文信息学报,2013,27(2):103G111.[7
]赵金灿.卫藏方言区藏族汉语普通话语音特征分析[D ].昆明:云南师范大学,2007.
[8]G U O W T ,Y A N G H W ,P E ID.P r o s o d y c
o n v e r s i o n o f c h i n e s en o r t h w e s t m a n d a r i nd i a l e c tb a s e do nf i v e d e g r e e t o n em o d e l [J ].I n t e r n a t i o n a l J o u r n a l o fD i g
i t a l C o n t e n t T e c h n o l o g y a n d I t s A p p l i c a t i o n s ,2012,6(17):323G332.
[9]HU W ,Q I A N Y ,S O O N GFK.An e wn e u r a l n e t w o r k
b a s e d l o g i s t i
c r e g r e s s i o n c l a s s i f i e r f o r i m p r o v i n g m i s Gp r o n u n c i a t i o n
d
e t e c t i o no fL 2l a n g u a g
e l e a r n e r s [C ]//C h i n e s eS p o k e nL a n g u a g eP r o c e s s i n g (
I S C S L P ),S i n Gg a p o r e ,S e p
t o m b e r 12G14,2014.N e w Y o r k :I E E E ,2014:245G249.
[10
]徐世鹏,杨鸿武,王海燕.面向藏语语音合成的语音基元自动标注方法[J ].计算机工程与应用,2015,51
(6):199G203.
[责任编辑:李㊀岚]
0
4㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第37卷。