藏语口语语音语料库的设计与研究

合集下载

藏语安多方言语音增强和识别

藏语安多方言语音增强和识别
该算法利用声学模型和语言模型对语音信号 进行建模,通过计算语音和模型之间的概率 值进行识别。
基于深度学习的语音识别算 法
该算法利用神经网络对语音信号进行自动编码、特 征提取和分类,具有较高的识别准确率和鲁棒性。
基于传统信号处理技术的 语音识别算法
该算法利用数字信号处理技术对语音信号进 行预处理、特征提取和分类,具有较低的计 算复杂度和较好的实时性。
基于传统信号处理技术的语音识别算法
短时傅里叶变换(STFT)算法
该算法利用傅里叶变换对语音信号进行频谱分析,具有较好的频率特征表达能力。
线性预测编码(LPC)算法
该算法利用线性预测技术对语音信号进行建模,具有较好的语音压缩和去噪能力。
小波变换(Wavelet Transform)算法
该算法利用小波变换对语音信号进行时频分析,具有较好的时域和频域特征表达能力。
,提高与外界的沟通效率。
藏语安多方言语音识别在智能语音助手中的应用
智能语音助手
通过藏语安多方言语音识别技术,开发适用于藏区的智能 语音助手,帮助用户更加方便地完成各种任务。
01
语音输入
利用藏语安多方言语音识别技术,实现 藏语的语音输入,提高文字输入效率和 准确性。
02
03
智能客服
在藏区等特定领域,利用藏语安多方 言语音识别技术,开发智能客服系统 ,提高客户服务质量。
通过数据扩充和标准化技术,解决藏语安 多方言语音数据稀缺的问题,为模型训练 提供更充足的数据支持。
THANKS
谢谢您的观看
藏语安多方言语音增强和识 别
汇报人: 日期:
目录
• 引言 • 藏语安多方言语音增强技术 • 藏语安多方言语音识别技术 • 藏语安多方言语音增强和识别

藏语动词语法信息库构建研究

藏语动词语法信息库构建研究

[ 作者简介】 羊本才让(94 , 藏族)青海贵德人, 18一)男( , 硕士研究生, 主要从事藏文信息处理方面的研究 .
一3 7 ຫໍສະໝຸດ 设计的 . 藏语知识库的构建就像是为计算机如何处理藏文的问题而提供必要的、 可靠的数据库一样, 计
算机最终从所提供的语言知识库的结构 、 特征与符号、 语法信息等相关信息处理藏文 . 语言 知识库 , 根据 各类语 言语 法特 征的 不 同而 可 以构 建 口语 知识 库 、 面语 知 识 库 、 书 语音 知 识库 和
参考 数据 . 另外 , 统的 编纂词 典 的方法是 要从 每本 书里 收集各 类字 词条 , 传 然后 把它整 理成 词典 . 而运
用这些语言知识库编纂词典非常方便, 我们再也不用像传统的做法一样毕生的精力都用在词条 的整理 上, 而根据计算机提供的语言信息直接梳理条 目即可 . 因此, 笔者认为构建语言知识库有以下五点意 义 : 能够 满足为 计算机 处理 藏文 提供 语言 信 息 的 需求 . ① ②可 以从 计算 机 的 角度 对 语 料进 行词 汇 和 词 频统计, 从而考察和分析藏语文 . ③能为研制机器词典和编纂字词典提供一个详实的参考数据 . ④能为
建. 藏语语法信息库的建设更是 目 前藏文信息处理领域最为薄弱的环节之一 . 实际上, 语言知识库的构 建是 自然语言处理系统的一个重要组成部分, 其规模与质量是藏文信息处理成败的关键所在 . 藏文信
息处理是计算语言学、 语料库语言学等各种学科的综合知识汇集在一起的新学科, 它在理论和方法上对 我们提出的要求也是具有挑战性的 . 要想把藏文信息处理推 向一个新的高度、 新的水平, 那么语言知识
第3 2卷 总 第 8 3期
2 011 年 9月

语料库和知识库的研究现状及医学专业研究生毕业自我鉴定

语料库和知识库的研究现状及医学专业研究生毕业自我鉴定

语料库和知识库研究现状摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。

知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。

由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。

本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。

关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。

而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。

语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。

对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。

语音语料库的设计与实现

语音语料库的设计与实现

语音语料库的设计与实现一、引言语音语料库是指包含大量语音样本的数据库,其中包含了各种类型的语音数据,用于语音识别、语音合成、语音情感识别等领域的研究和应用。

语音语料库的设计与实现是建立一个高质量、丰富多样的语音资源库的关键步骤。

本文将从语料库的构建、数据采集、数据标注等方面,探讨语音语料库的设计与实现。

二、语料库的构建1. 语料库的构建目标语料库的构建目标决定了语料库的规模、内容和用途。

根据具体需求,可以构建面向特定领域的语料库,如医学领域的语料库、法律领域的语料库等;也可以构建通用领域的语料库,用于各种语音相关领域的研究和应用。

2. 数据来源语料库的数据来源可以包括实验室内部采集、公开数据集收集、众包数据采集等方式。

实验室内部采集可以保证数据质量和隐私安全,但成本较高;公开数据集收集可以节省成本,但数据质量和内容受限;众包数据采集可以快速获得大量数据,但需要注意数据的质量和标注准确性。

三、数据采集1. 采集设备语音数据采集需要使用高品质的麦克风和录音设备,以确保采集到的语音信号质量良好。

同时,应选择适当的采样率和位深度,以满足后续处理和分析的需求。

2. 采集环境语音数据的质量受到采集环境的影响,应选择安静的环境,并注意消除噪声和回声对语音质量的影响。

此外,还可以考虑采集多种环境下的语音数据,以提高语料库的多样性。

四、数据标注1. 标注内容语音数据的标注是为了提供与语音相关的丰富信息,如语音文本、语音发音、语音情感等。

标注内容需要根据语料库的使用场景和目标任务来确定,如语音识别需要标注准确的文本内容,语音情感识别需要标注准确的情感类别等。

2. 标注准则为了提高标注准确性和一致性,应制定详细的标注准则,并对标注人员进行培训和监督。

标注准则应包括对各种情况下的处理方式和标注规则,以避免标注歧义和错误。

五、语料库的管理与维护1. 数据存储与管理语料库的数据应存储在可靠的存储介质中,同时建立合理的数据管理系统,包括数据索引、备份、权限控制等。

新中国70年藏语方言语音研究

新中国70年藏语方言语音研究

藏语是藏族人民最主要的交际工具,其地域分布广阔,在国内主要分布于西藏、青海、甘肃、四川和云南等五省区,在国外则主要分布于毗邻中国西藏自治区的巴基斯坦、印度、尼泊尔、不丹等国的部分地区。

藏语有丰富多彩的方言,境内外藏语方言可分为中部方言(或卫藏方言)、东部方言(或康方言)、北部方言(或安多方言)、西部方言和南部方言。

早在20世纪三四十年代,部分学者就已开始运用现代语言学的理论和方法对藏语方言进行调查研究。

不过,这一时期从事藏语方言调查研究的学者还很少,成果寥寥。

新中国成立以后,运用现代语言学理论、方法来调查研究藏语方言的论著日益增多。

文章对新中国成立70年来在国内发表的关于藏语方言语音调查研究的汉文论著进行综述。

1藏语方言声母研究1.1声母的整体研究《藏语的复辅音》详细分析藏语复辅音的性质、特点、与声韵母和声调发展变化的关系及其在方言中的分布情况和发展趋势;王双成的《藏语鼻冠音声母的特点及其来源》考察鼻冠音在藏语方言分布以及鼻冠音声母在声学、演变上的特点,并分析其来源,认为基本辅音为浊音的鼻冠音声母来自不同前置辅音的“整化”或鼻音,而基本辅音为清音的鼻冠音声母一部分是从其他前置辅音“整化”来的,还有一部分是从前一类鼻冠音声母分化出来的,单纯的鼻音同时也能演变为鼻冠音声母[1]。

1.2各方言区的声母研究在对各方言区声母的研究中,讨论藏语安多方言声母的文章较多,主要有:华侃的《安多藏语声母中的清浊音——兼谈它与古藏语中强弱音字母的关系》[2]《安多方言复辅音声母和辅音韵尾的演变情况》[3]《安多藏语声母的几种特殊变化》[4]和《甘南夏河、玛曲藏语中复辅音声母比较》[5]、王荣德的《天峻藏语复辅音的特殊现象》[6]、王双成的《安多藏语轻重唇音的分化趋势》[7]及吕士良和于洪志的《藏语夏河话复辅音特点》[8]等。

其中,王双成的《安多藏语轻重唇音的分化趋势》详细讨论了久治、阿坝、红原等地口语和书面语中轻唇音f的来源,并将这一规律同汉语某些方言(如湘、粤、闽、赣等)进行比较,探究其历史演变模式。

藏语连续语音语料库设计与实现

藏语连续语音语料库设计与实现

Ke r s T b tn; p o e;p e h c r u ; e d lo t m y wo d : i ea t h n s e c o p s Gr e ag r h i r i

要: 以藏语夏 河话 为研 究对 象, 建立 了基于三音子的藏语 连续语音语料 库。首先收集 了 1 0万句藏语 文本毋料 库 , 并根据夏 河
பைடு நூலகம்
话的 实际发音 , 进行 了国际音标 转写 ; 然后 总结 了夏河话的三音子音联 结构形式 , 并用藏语 文本处理平 台对其组合 类型和在原始
文本 语 料 库 中的 频 度 进 行 了详 细 的 统 计 分 析 ; 最后 在 语 音 库 的 语 料 设 计 中 综合 考 虑 了三 音 子 以及 类三 音 子 的覆 盖 率 和 稀 疏 度 , 设
LI Yo g h n YU n - h , n - o g, Ho g z i KONG in - igDe in a d mp e n a in f Tiea o tn o s s e c c r u . m— Ja g pn . sg n i lme tto o b t n c n iu u p e h o p sCo
1 . 民族大学 中国民族语言文字信 息技术 重点实验 室 , 西北 兰州 7 0 3 300 2 . 北京大学 中文系汉语语 言学研 究中心 , 北京 10 7 08 1
1K y L b o h n S Nai n i g it no mai n T c n lg No we t Un v r i o t n l i s L n h u 7 0 3 Ch n . e a f C ia’ t a L n u si I f r t e h oo y,  ̄h s ie st fr Nai ai e , a z o 3 0 0, i a ol c o y o t

藏语语音合成系统的关键技术研究

藏语语音合成系统的关键技术研究

收稿 日期: 2 0 1 6 - 0 6 - 2 8
基金项 目: 2 0 1 5 年度 西藏 自 治 区 自然科学基金项 目“ 基于统计 声学建模 的藏语语 音合 成技术研 究” 阶段性成果 , 项 目号 :
2 0 1 5 Z R -1 4 - 1 2
作者简介: 刘芳 , 女, 汉族 , 四川南充 人, 西藏大学藏文信 息技术研 究中心讲师 , 主要研 究方 向为藏文信息处理技术 。
图 2 语料 库 建 设流 程 图
对 于语 料库 的建设 , 语料 库 的规 模应 该 是越 大越 好 , 设计 也 应该 是动 态 的 , 可 以不 断扩 充 。语料 选择 的好 坏 是语 料 库 优 劣 的关 键 , 对 整 个 系 统 的性 能起 着 重 要 的作 用 。藏语 作 为 一 种 具有 特 殊 性 声 调 的语 言, 在 对语 料 的选择 上 , 主 要考 虑语 句 的持续 时间 、 清 浊 搭配 、 音 段 的音联 现 象及 声调 的组合 等 方面 , 选 出
1 藏 语语 音合成 概述
藏语 语音 合 成系 统 的最 终实现 主 要靠 语 音 的训练 及 合成 。在 具 体 的训 练 当中 , 运用 H MM对 频谱 参 数、 时长 及基频 实施 建模 操作 ; 在具 体 的合 成 当 中, 分析 所输 入 的文本 内容 , 将训 练后 的模 型给 与利用 , 预
引 言
计 算机 语音 合成 是 依据 语音 处 理规 则 , 将计 算机 自身产 生 或通 过外 部 输入 所形 成 的文 字信 息 , 转换 成 相应 的语音 信 号并 向外输 出 的一种技 术 , 是信 息处 理领域 的重要研 究 内容之 一 。藏 民族是 中华 民族大 家 庭 中历 史悠 久 、 文化 发达 的民族 之一 , 藏 语 言作 为藏 文化 传承 的工具 , 对 于 新思想 、 新技 术 的传播 起着 巨大 的作 用 。 由于藏文 特 有 的拼写 规 则 , 藏 语 音独 有 的发 音方 式和 韵律 , 藏 语 语音 合 成技 术研 究在 国 内 起 步 较 晚 。 目前 国 内很多 研究 机构 都在 对 藏语 语音 合 成 系统 中 的词性 标注 、 韵律 分析 、 模 型构 建等 关键 技术进 行 了研 究 , 一些藏 语语音 合成 系统 的产 品也 陆续推 向了市场 。 藏 语语 音 合成 系统 关键 技 术 的研 究 , 将 为 藏语 语音 合 成产 品的实 用化 提供 一 定 的技术 支撑 , 对 藏 文 化 的传 播和促 进 西藏社 会稳 定发展 具有 重要意 义 。

浅谈中国少数民族濒危语言语音语料库的设计

浅谈中国少数民族濒危语言语音语料库的设计

浅谈中国少数民族濒危语言语音语料库的设计【关键词】:中国少数民族语音;濒危语言;语言语料库;设计策略分析一、引言语音语料库与传统的纯文本语料库具有很大区别,语音语料库的表达形式有三种,它对文本、语音以及声学参数进行了融合。

我们构建中国少数民族濒危语言语音语料库,不仅是为了系统而永久地保存那些濒临消失的少数民族语言的声音,也是为了给相关学者的研究提供便利。

当前,构建大型语料库并基于它来开展相关研究,已然成为了国内外语言学研究工作的一个重要趋势。

二、濒危语言语音语料库建设的实际价值分析计算机技术的应用使得语言学的研究机械工作量大大降低,那么相应的研究效率也就得到了很大的提升。

近年来,我国在语音语料库建设工作方面取得了长足的进步,建立并完善了许多新的语音语料库。

它们为语言研究及技术处理工作提供了许多重要的语料与技术参数,使得相关研究所取得的成功更加客观可靠,也更具实际应用价值。

我们建立濒危语言语音语料库不仅仅是为了给相关研究提供便捷条件,这同时也是对人类非物质文化遗产的必要保护。

随着经济的发展,全球化、城镇化等进程的不断深入,世界范围内使用非主体语言的人数锐减,逐渐地走到濒临消失的境地。

近年来,无论是政府相关部门还是一些民间团体,都开始为这些语言的保护工作付诸努力。

可以看到,许多的少数民族语言其实并没有具体的文字与书面语,对于这些语言的保护困难重重。

在意识到语言濒危的严重性,对语言多样性保护的重要性后,我国语言学界达成了共识,必须尽快采取更加多样化、系统化的形式与手段来帮助记录、保存那些濒临消失的语言。

因此,建立濒危语言语音语料库成为了一项刻不容缓的重要任务。

国家也建立相应的项目,即“中国少数民族濒危语言语音语料库”,该项目就是为了对中国境内那些濒危语言,通过语言、国际音标、录像等多样化的形式进行可能是最后一次的抢救性记录工作。

三、濒危语言语音语料库的具体设计策略语言语音语料库的构建工作不仅具有复杂性,还具有艰巨性,需要耗费大量的人力物力,在进行具体操作前要做好充分的准备工作,进行良好的整体规划,明确策略,规范步骤,从而有效减少返工与浪费问题的次数,提高工作效率。

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望1. 引言1.1 研究背景藏语是一种属于藏缅语族的语言,在中国西藏自治区及周边地区被广泛使用。

随着社会发展和文化交流的深入,对藏语语言模型的研究需求日益增加。

藏语语言模型的研究不仅可以帮助人们更好地理解和使用藏语,还可以促进藏语信息处理技术的发展,为藏语文化的传承和发展提供坚实支撑。

深入研究藏语语言模型具有重要的现实意义和广泛的应用前景。

在过去的研究中,关于藏语语言模型的研究成果主要集中在语音识别、机器翻译、信息检索等领域。

研究者们通过构建大规模的语料库,利用统计方法和机器学习技术,不断提升藏语语言模型的性能和准确度。

当前的藏语语言模型研究还存在一些问题和挑战,如数据稀缺、语言风格变化等,限制了其在实际应用中的效果。

面对这些挑战,未来的发展方向应当着重在完善藏语语料库、提高语言模型的适应能力和准确性。

可以借鉴其他语言模型研究的经验,不断探索新的方法和技术,推动藏语语言模型研究向更深层次、更广泛领域发展。

通过不懈的努力和创新,相信藏语语言模型的研究将取得更加显著的成果,为藏语文化的传承和发展贡献力量。

1.2 研究意义藏语是世界上少数民族语言之一,拥有悠久的历史和丰富的文化内涵。

随着社会的发展和科技的进步,对藏语语言模型的研究意义日益凸显。

藏语语言模型的研究可以帮助我们更好地了解藏族文化和传统,促进文化的传承和发展。

随着藏区经济的蓬勃发展,对藏语语言模型的需求也越来越大,研究藏语语言模型可以为藏区的经济发展和信息化建设提供有力支撑。

藏语作为中国的少数民族语言之一,对于维护国家的语言文化多样性具有重要意义,研究藏语语言模型也是维护国家语言文化多样性的重要举措。

深入研究藏语语言模型的研究意义重大,不仅可以促进藏族文化的传承和发展,也可以为藏区的经济发展和国家语言文化多样性的维护做出积极贡献。

2. 正文2.1 现有研究成果目前关于藏语语言模型的研究已经取得了一些成果。

在语言模型的建模方面,研究者已经采用了深度学习技术来构建针对藏语的语言模型,使得在自然语言处理任务中能够更好地处理藏语文本。

基于语料库的藏语TTS技术研究

基于语料库的藏语TTS技术研究
项 前沿技 术.
国内外对 T TS技 术 的研 究 已有二 百多年 的历史 , 真正 有实 用 意 义 的 TT 但 S技术 是 随着 计算 机 技 术 和数字 信号处 理技术 的发展 而发 展 起 来 的. TT 在 S技术 的发 展 中 , 期 主要 采用 参 数合 成 方 法 , 早 如 Home l s的并联振 峰合成 器 (9 3 和 Kl t 串/ 联振峰合 成器 (9 0 . 十年代末 期 , S技术有 了 1 7) a 的 t 并 18)八 TT 新 的进展 , 特别 是基音 同步叠 加 ( S A) 法 的提 出 ( 9 0 , 基 于 时域 波 形拼 接方 法合 成 的语 音 音 P OL 方 19 )使 色 和 自然 度更上一 层楼 . 九十 年代初 , 于 P 0L 基 S A技术 的法 语 、 语 、 语 、 德 英 日语 等语种 的 T Ts系统 都 研 制成 功 , 些 系 统 的 自然度 比基 于 L C 方 法或 振 峰 合 成 器 的 T 这 P TS系统 的 自然度 更 高 , 且 基 于 并
第2 期
才让 卓玛 , 才智杰 : 于语 料库 的藏语 TT 基 S技术研 究
6 7
文 本输 入

文本分 析部分

:语音合成部分 :
图 1 藏 语 TTS基 本 结 构 图
2 2 文 本 分 析 模 块 .
文本分 析 的主要 功能是 使计算 机对输 入 的文本进 行 分析 理解 , 为语 音合成模 块 提供必 要 的信息. 对 于 藏语 来说 , 文本 分析 不但 要将藏 文音节 、 符号 、 数字 等转 换成 适 当的标音 符号 , 还要 分析 发音音 节 的长
2 藏语 T TS系 统 的设 计

藏语孤立词语音识别技术研究

藏语孤立词语音识别技术研究

藏语孤立词语音识别技术研究赵尔平;王聪华;党红恩;雒伟群【摘要】针对藏语读音首先看后加字,然后根据元音的位置关系决定读音,而且元音比辅音携带更多听觉感知信息的特点,提出了一种改进的 HTK系统藏语孤立词语音识别技术.在识别特征参数中,增加更能表征元音特征的共振峰参数提高语音识别的正确性,通过循环迭代方法提高语音训练速度,利用藏文字母拉丁转写方法解决藏文和语音识别系统编码不一致的问题.在二次开发的H T K平台进行实验,正确率达到92.83%,实验结果表明元音特征在藏语音识别中起到重要作用.%Aiming at Tibetan pronunciation firstly look after hong jia zi , then its pronunciation is determined by the position of vowel , and a vowel carry more auditory perception information than a consonant in speech ,a Tibetan isolated word speech recognition technology of improved HTK system is proposed in this paper . The accuracy of speech recognition is improved by increasing a formant parameter in the recognition characteristic parameters , the formant parameter can characterize vowel features very well , the speech training speed is raised by cycle iteration , Tibetan letters transformation Latin alphabet solves inconsistent problem that Tibetan and speech recognition system code . The test is executed on the secondary developing HTK platform , the correct rate reaches 92.83% . Experimental result indicates that vowel features play an important role in Tibetan speech recognition .【期刊名称】《西北师范大学学报(自然科学版)》【年(卷),期】2015(000)005【总页数】5页(P50-54)【关键词】藏语孤立词;共振峰;M el倒谱特征;循环迭代;隐马尔可夫模型;语音识别【作者】赵尔平;王聪华;党红恩;雒伟群【作者单位】西藏民族大学信息工程学院,陕西咸阳 712082;西藏民族大学信息工程学院,陕西咸阳 712082;西藏民族大学信息工程学院,陕西咸阳 712082;西藏民族大学信息工程学院,陕西咸阳 712082【正文语种】中文【中图分类】TP912.34E-mail:*************Key words:Tibetan isolated word;formant;Mel cepstrum features;loop iteration;HMM;speech recognition语音识别是应用多学科交叉知识将语音信号转换为对应文字的技术,目的在于用声音实现人机交互.汉语、英语等主流语言的语音识别已取得很多成果,实验室环境下的识别效果可以满足人机交互系统的需要,在一些领域被广范应用.但是藏语语音识别还处在孤立词阶段,刚刚起步.1.1 隐马尔可夫模型隐马尔可夫模型(Hidden Markov model,HMM)是一种具有双重随机过程的统计分析模型,定义为五元组[1]67:其中,1)S为隐含状态,S={s1,s2,…,sN},N为隐含状态数目;2)O为可观察状态,O={o1,o2,…,oM},M为可观察状态数目,M=N或M≠N;3)Π为初始状态概率矩阵,Π={π1,π2,…,πN},πi=P(x0=si)(1≤i≤N)为初始时刻t=0模型各状态的概率;4)A为隐含状态转移概率矩阵,为t时刻状态si的条件概率下,在(t+1)时刻状态是sj的概率;5)B为观测状态概率矩阵,为t时刻隐含状态为sj条件下,观察状态是oi的概率.1.2HTK工具HTK(HiddenMarkovmodeltoolkit)是英国剑桥大学开发的一套构建隐马尔可夫模型( HMM)的工具箱,主要用于语音合成与识别、故障诊断和 DNA排序等领域[2],其核心功能包括数据准备、模型训练、语音识别.HTK具有允许用户根据实际需要进行二次开发的开源代码.1.3 藏语简介藏语是一种拼音文字,有30个辅音、4个单元音和1个无符号元音.国内学术界将藏语主要分为卫藏、安多和康三大方言[3].三大方言文字相同,发音有较大差异,文中选用使用人数最多、最具有代表性的卫藏方言(拉萨话)作为研究对象.2.1 卫藏语音卫藏方言作为现代藏语的标准,在长期应用发展中形成自己的规律与特点.研究表明[4],现代拉萨话的声母系统已经基本没有复辅音.声母系统主要指单辅音声母,共28个;韵母有45个(由单元音韵母、复合元音韵母和辅音韵尾的韵母三部分组成),韵母中有/a/,/i/,/u/,/e/,//,/ε/,/y/,/ø/ 8个基本元音、/iu/,/au/ 2个复合元音和7个辅音韵尾.现代拉萨话中单元音增多,尤其是鼻化元音,元音发音长短与声调有互补关系.藏语字母有一套严格排列规则,元音符号不能作为基字丁,只能固定地叠加在基字的上方或下方表示不同元音.元音的主要作用是做音节的韵母,每个音节中必须包含元音,元音在字母中的位置不同发音也不同.藏语先看后加字,然后根据元音的位置关系决定读音[5].2.2 元音特征Cole等提出元音比辅音对语音听觉感知更为重要[6].文献[7]采用噪声替换实验方法分别替换掉语音中的元音和辅音,实验结论是替换掉辅音的语音比替换掉元音的语音具有更高的识别率(比率约为2∶1),证明了元音比辅音携带了更多的信息.Kewley-Port等采用同样方法研究孤立词语音,发现元音比辅音携带了更多对语句可懂度有用的信息[8-9].由此可见,在语音识别中应用和识别元音特征至关重要.元音激励进入说话人声道引起共振,产生一组共振频率——共振峰,声学界学者研究表明[10],共振峰是区别不同元音的重要声学特征.由于藏语发音与元音位置有关,元音又比辅音携带了更多听觉感知信息,且卫藏韵母中包含8个基本元音和2个复合元音,所以提取共振峰参数(主要是前3个共振峰f1,f2,f3)对识别带有不同元音的藏语音增加了可靠的声学特征.因此文中在蔵语孤立词语音识别中,除了使用Mel倒谱参数外,增加共振峰参数来提高识别正确率.HTK平台利用12维MFCC系数和1维数能量经过一阶、二阶差分变后的39维MFCC特征向量进行语音识别,没有使用共振峰参数,文中对HTK平台进行改进,增加共振峰声学特征,与MFCC参数结合进行藏语音识别.3.1 提取共振峰特征共振峰信息包含在语音频率包络之中,因此共振峰参数信息提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰[11].提取共振峰参数的方法主要有倒谱法和线性预测法(LPC),倒谱法可以较好地分离出语音信号频谱包络结构.文中特别采用倒谱法,利用把语音频谱进行z变换、取对数和傅里叶变换变换等得到语音频谱的包络曲线.下面是倒谱法原理:选用最普遍的极零模型来描述表征声道响应x(n),其z 变换公式为[12]58经傅立叶、取对数和逆傅立叶变换得到复倒谱公式为倒谱算法将基音谐波和声道的频谱包络分离开,再对频谱包络曲线进行离散傅里叶变换得到离散谱曲线.按照离散频谱包络曲线各峰值能量的大小确定出1~4共振峰参数[11],而前3个共振峰参数就足以确定语音信号中的不同元音.提取中采用同态解卷技术消除基频谐波的影响,获得更精确的共振峰参数.3.2 共振峰与MFCC结合人耳对低频(<1 000 Hz)感知灵敏,感知力与频率大致呈线性关系;而对高频(>1 000 Hz)感知比较模糊,感知力与频率呈对数关系[13].Mel频率描述了人耳的这一听觉特性,将频谱转换为基于Mel频标的非线性频谱,再转换到频谱域中,Mel频标与频率f的关系可用下式近似表示[13]1333:Mel(f)= 2595lg(1+f/700).(4)MFCC参数提取步骤包括:①预加重;②分帧加汉明窗;③快速傅利叶转换;④三角带通滤波;⑤离散余弦变换得到12维MFCC系数;⑥对数能量;⑦差分变换.在差分变换之前,将3.1节中提取的f1,f2,f3共振峰参数增加到HTK系统,使得每帧语音基本特征为16维(1维对数能量、12维MFCC系数和3维共振峰参数),然后将16维基本特征进行一阶、二阶差分变换得到48维特征向量,即语音的差量倒频谱参数,它可以增加语音的动态特征.文中用48维差分倒谱参数对拉萨话语音进行训练与识别.3.3 循环迭代训练改进HTK训练过程(hmm0→hmm1→hmm2→hmm3→hmm4…),采用循环迭代训练过程(图1).采用循环迭代有两点益处:①多次修正HMM模型参数的初始值(hmm3→hmm0迭代),使训练算法快速收敛;②有利于统一搭建语音识别系统环境.由于每个单词发音不同,训练时的观察值个数不同,训练模型重估迭代次数存在不同,结果输出需要的文件目录就不一样多,不利于环境搭建.改进的循环迭代训练给每个单词统一搭建3个观察值目录,如果hmm2到hmm3迭代还未收敛,则继续hmm3到hmm0迭代,直到hmm2到hmm3迭代收敛时停止训练.训练是不断估计模型参数λ的最佳值,即模型的一个最大似然估计λ),每次迭代后都通过change度量收敛性,一旦change绝对值不再从一个HRest 迭代到下一个迭代减少,训练就停止.当change=0时,下次迭代时change的绝对值一定不会减少,此时表示已经收敛.基于Baum-Welch算法[14]的训练本质上是一种梯度下降方法,在训练过程中可能存在局部极小问题,所以训练开始用HCompv 工具对模型平坦初始化,用可变基底宏(varFloor1)的值在后续训练过程中作为估计的变化向量的基底,当后续训练某状态的估计变化值很小时,就用基底宏的值来代替,以避免局部极小问题,使得训练算法快速准确收敛.实践表明,循环迭代不会影响藏语音识别正确率,反而会加快训练速度,并使藏语音识别系统环境配置统一起来.3.4 藏文拉丁转写HTK工具箱是用来识别英语语音的,程序和配置文件(语法、任务字典、语音标注等)编码格式都是ANSI编码,文献[15]所述藏语字库国际标准编码是Unicode编码,如果配置文件中直接输入藏文就会成乱码,所以此系统不能直接识别藏语音.藏语研究者通常将藏文字母转写为拉丁字符来表示藏语的发音,所以文中采用国际通用的藏文字母拉丁转写来表示藏语单词,按文献[16]中规则转写.藏文拉丁转写方法解决了藏文与HTK系统编码不一致问题,方便改进的HTK系统实现藏语音识别.对HTK系统进行二次开发,增加共振峰参数提取、统计和分析功能,把原来的HTK平台系统与改进后的HTK平台系统进行比较实验测试.实验中,用于声学模型训练和测试的孤立词语音集采用16K采样频率,用16bit量化精度,双声道麦克风连接PC机在实验室环境下录制.选择拉萨地区发音标准的10位藏族学生(5男、5女)作为训练语料库发音对象,训练语料库包含10个学生对60个藏语词汇的一次朗读语音数据.测试语音库是30 个说话人(15 男、15 女)分别对60个训练词3次朗读语音数据,频谱特征观察矢量为每帧48 维向量.图2是改进后的HTK平台上进行的某一次测试结果,图2中单词识别率是93.55%,N=62表示被识别的孤立词总数(60个词和1个开始标志与1个结束标志),H=58表示正确识别词的数量,参考副本ref.mlf是训练时的整个语音标注文件,识别副本reco.mlf是测试时整个语音标注文件.通过比较语音在参考副本和识别副本中每项数据,进行识别性能测评.HTK与改进后的HTK系统30次平均测试结果如表1所示.由表1可知,共振峰与MFCC参数结合的方法(改进后的HTK)明显提高了拉萨话非特定人孤立词语音识别正确率,再次证明元音特征为孤立词识别提供了有用信息,元音在藏语发音中具有重要作用.实验过程中发现影响识别率的因素有:①语音信号正确标注,每个孤立词语音信号标注3个区域:开始停顿区、单词语音区、结束区,3个区域不能重叠,要有很小的间隙.②训练的语音必须有3个以上观察序列,否则不能训练,所以不能把一个人的连续几次发音数据作为语料库.③虚假共振峰影响识别率,尽量完全消除.④实验过程证明HMM模型选6个状态最佳,状态数增加或减少不会增加识别正确率.⑤循环迭代训练法不影响识别结果.文中对藏语拉萨话孤立词语音进行了分析,提出语音共振峰与MFCC参数为特征的藏语孤立词识别技术.在二次开发的HTK平台上进行测试,证明该方法明显提高藏语孤立词语音识别率,并指出影响识别率的几个干扰因素和解决方法.拉萨话是有声调的,长短声调与韵母发音有严格对应关系,今后研究方向是如何提取声调特征参与识别.而基字丁拆分技术可以实现藏语音中声母和韵母分离,声母、韵母声学特征也是今后研究的重要方向.[1] 王川,段德全,王晓东.基于改进的POS和HMM的Web信息抽取算法[J].河南师范大学学报(自然科学版),2010,38(5):65.[2] 魏巍,张海涛.一种基于HTK 的数字语音识别系统[J].计算机系统应用,2011,20(9):17.[3] 李冠宇,孟猛.藏语拉萨话大词表连续语音识别声学模型研究[J].计算机工程,2012,38(5):189.[4] 于洪志,高璐,李永宏,等.藏语机读音标SAMPA_ST的设计[J].中文信息学报,2012,26(4):67.[5] 刘博,杨鸿武,甘振业,等.利用SAMPA实现藏语的字音转换[J].计算机工程与应用,2011,47(35):117.[6] COLE R A,YANG Hong-yan,MAK B,et al.The contribution of consonants versus vowels to word rec ognition in fluent speech[C]//ProcICASSP 1996.Atlanta:IEEE,1996:853.[7] KEWLEY-PORT K,BURKLE Z,LEE Jae Hee.Contribution of consonant versus vowel information to sentenceintelligibility for young normal-hearing and elderly hearing-impairedlisteners[J].AcousticalSocietyofAmerica,2007,122(4):2365.[8] LEWICHI M S.A signal take on speech[J].Nature,2010,466(12):821.[9] 颜永红,李军锋,应冬文.语音中元音和辅音的听觉感知研究[J].应用声学,2013,32(3):231.[10] 赵力.语音信号处理[M].北京:机械工业出版社,2003:5-9.[11] 王坤赤,蒋华.基于语音频谱的共振峰声码器实现[J].现代电子技术,2007(21):168.[12] 王晓亚.倒谱在语音的基音和共振峰中提取的应用[J].无线电工程,2004,34(1):57.[13] 王宏志,徐玉超,李美静.基于Mel频率倒谱参数相似度的语音端点检测算法[J].吉林大学学报(工学版),2012,42(5):1331.[14] 张增银,元昌安,胡建军,等.基于GEP和Baum-Welch算法训练HMM模型的研究[J].计算机工程与设计,2013,31(9):2027.[15] 黄鹤鸣,赵晨星.藏文信息处理的Windows支持环境[J].计算机应用与软件,2009,26(12):188.[16] 李用宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报(自然科学版),2008,48(S1):622.。

藏语语料库管理系统中读写数据粒度问题的研究

藏语语料库管理系统中读写数据粒度问题的研究

作时 , 服务 器将 用户所 需数 据封 装成值 对 象 , 次传 给用 户 . 一 基于 E B中间件 技术 的 we 用体 系 中应 用值 J b应
对象 可显著 降低 网络 调用 的次 数. 对 象 可 以通 过 实 体 E B直接 映 射 过来 . 用 户需 要 的 数据 会 存在 于多 值 J 但
关键词 : 据粒度; 数 值对 象 ; 语 语 料 库 ( D MS 藏 TL B )
标 识码 : A 文 章 编 号 :0 1 5 2 2 1 ) 2 0 2 - 0 1 0 —7 4 ( 0 2 0 - 0 6 4
1 藏语 语 料 库 管 理 系 统 的 开 发 环境
需 要. 两种 值对 象虽然 有些 区别 , 这 但可 以共存 于任 何基 于 J E 2 E的 W e 用 中. b应
1 域值 对象 )
域 值对 象模式 是值 对象 模式 的一种 , 它将 服务 器端 的域对 象 复制一 份 , 用户端 进行 本地访 问 . 供 这样 , 域 跖 值对象 和 服 务 器 端 的域 对 象 之 间就 存 在 一对 一 的关 系. 用 域值 对 象 可 以实现 : 建 实 体 E B 修 改 实 体 应 创 J、 E B 显示 多个 实体 E B中的数据 . J、 J 2 用 户值对 象 : ) .
2 2血 O1
青海师 范大 学学 报 ( 自然科 学版 )
J u n l fQi g a No ma ie st ( t r lS in e o r a n h i r lUn v riy Na u a ce c ) o
2 2 O1
第 2期
NO 2 .
藏 语 语 料 库管 理 系统 中读 写数 据 粒 度 问题 的研 究

临近最优主动学习的藏语语音识别方法研究

临近最优主动学习的藏语语音识别方法研究

Computer Engineering and Applications 计算机工程与应用2018,54(22)1引言藏语是一种非常重要的中国少数民族语种,在我国使用藏语的人数500多万,其中主要分布在我国的西藏自治区以及青海、甘肃、四川和云南等藏族聚集区。

藏语语音识别技术的发展,不仅可以有效地解决藏族地区和我国其他区域之间的语言障碍问题,促进民族间的相互交流,而且可以推动藏区经济、科技、文化等领域的发展,促进民族团结统一,增强民族凝聚力。

在语音识别领域,语音识别算法(如隐马尔科夫模型和深度神经网络等)采用监督式学习方式建立语音识别模型[1]。

为了建立高准确的语音识别模型,这种学习方式需要大量的带标注的语音语料,而标注语音语料是一件非常费时费力的工作。

通常以词为语音识别单位的标注工作所花费的时间是实际音频语句时间的10倍,以音素为识别单位的语音标注工作将会达到语音语句时间长度的400倍[2]。

藏语作为小语种,其语音标注专临近最优主动学习的藏语语音识别方法研究赵悦,李要嫱,徐晓娜,吴立成ZHAO Yue,LI Yaoqiang,XU Xiaona,WU Licheng中央民族大学信息工程学院,北京100081School of Information Engineering,Minzu University of China,Beijing 100081,ChinaZHAO Yue,LI Yaoqiang,XU Xiaona,et al.Near-optimal active learning for Tibetan speech puter Engineering and Applications,2018,54(22):156-159.Abstract :A large number of annotated speech corpus is needed to train speech recognition models.Tibetan language is one of Chinese ethnic minority languages,it lacks the annotator.So it is very time-consuming and costly for labeling Tibetan speech data.However,the active learning method can select a number of informative samples from unlabeled data according to the target of speech recognition to the user for annotation,in order to use a small amount of high quality training sam-ple to build the accurate recognition models.This paper studies the method of speech data selection for Lhasa-Tibetan speech recognition based on active learning,and proposes a near-optimal batch mode objective function,and proves this objective function is submodular function.The experimental results show that the presented method can use less training data to ensure the accuracy of speech recognition model,and can reduce the workload of manual annotation.Key words :near-optimal batch mode active learning;submodular function;speech corpus selection;Lhasa-Tibetan speech recognition摘要:语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望
目前,对于藏语的研究主要集中在词汇、语法和语音乃至文化等方面。

在词汇研究方面,学者们通过分析藏语词汇的词根和字词之间的关系,揭示了藏语词汇的起源和演变规律。

他们也深入研究了藏语的丰富的词汇分类体系,如名词的性、动词的时态和代词的格等,并根据这些分类体系建立了相应的语法规则。

在语法研究方面,学者们对藏语的句子结构和语法规则进行了深入研究。

他们发现藏语句子中动词的位置相对固定,名词修饰语在句子中通常位于后面,同时还有丰富的语法变位规则等。

还有很多学者对藏语的语法、形态和句法进行了深入的研究,并提出了一些具体的理论框架,如生成语法和范畴语法等。

语音方面的研究也是藏语研究的重要组成部分。

由于藏语的语音系统较为复杂,存在多音节、多调、浊辅音等特点,学者们对藏语的发音、声调等进行了深入研究,并利用现代语音学的方法建立起相应的语音学框架。

但是需要指出的是,目前对于藏语的研究还存在着一些不足。

现有研究主要集中在对藏语词汇、语法和语音等方面的描写和分析,对于藏语的认知和认知过程的研究较少。

研究方法和理论框架方面还有待进一步完善。

当前,研究中常用的方法主要是基于语料库和民间数据的分析,但存在样本量不足、数据质量不高等问题;应用现代认知语言学和计算语言学等方法进行深入研究的学者较少,对于现代计算技术在藏语语言研究中的应用也有较大的发展空间。

语音合成技术在藏语TTS中的应用研究

语音合成技术在藏语TTS中的应用研究

局基调, 而个性 、 情绪都会对韵律产生影响 . T T S只有充分表现 出语言本身的韵律特征, 才能得到 自然
度 和可懂 度都 比较 高 的合成 语音 . 1 语 音 合成技 术 中的基 元选 取 和韵律 调整
韵律包含了系统的感知信息和说话人的意图信息, 在帮助听者理解语言及意图时十分有用 . 从听 觉的角度出发, 常常利用音长、 音强、 音高和音色四个语音听觉特征来描述韵律, 此外, 语音中适 当的停
维普资讯
第 2 卷 总第 6 7 1期
2 006 年 3 月
西 北 民 族 大 学 学 报( 自然科 学版 )
V0 . 7 No 1 12 .源自. Junl f o h e n e i r aoatsNaua S i c) orao r ws U i rt f tnli ( trl c n e N t t v sy o N i i e e
顿也是韵律的一个很重要成分 . 从声学角度 出发, 它们对应的语音特征有时长、 幅度、 基频和频谱等 . 基频是韵律特征 中最主要的声学特征, 说话过程中, 声音基频的变化反映了说话人的情绪, 或是语 句内 容 的不 同重要性 .
1 T S中合 成 基元 的选 取 1 T
由于语 音 的音联 现 象 , 音节 内部 , 母 和韵 母在 时 间上连 接 紧 密 , 特 性 上相 互 影 响 . 在相 邻 在 声 在 而
理解语言及意 图时十分有用 . 于韵律 的研究是语音 舍成技术 中的重要研 究课题 . 对 通过介 绍语音韵律控制技 术及其 在 1r v S中应 用的一些 情况 , 内容 包括语音 韵律研 究的基本情况及今 后 的工作重点 。 音合成技 术 中韵律 调 整的方法 。 语 以及

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望【摘要】藏语是一种少数民族语言,在语言模型研究中占据重要地位。

本文旨在探讨藏语语言模型的现状及展望。

在介绍了研究背景和研究意义。

在分析了现有研究现状、主要挑战、未来发展方向、技术创新和数据集建设。

藏语语言模型面临词汇量少、语法结构复杂等挑战,未来发展应注重数据集建设和技术创新。

在结论部分对本文进行总结,展望未来研究方向并指出研究的重要价值。

藏语语言模型的研究为藏语信息处理和文化传承提供重要支持,对推动藏语语言技术发展及民族文化保护具有重要意义。

【关键词】藏语、语言模型、研究现状、展望、数据集、技术创新、挑战、研究背景、研究意义、未来发展方向、总结、研究价值1. 引言1.1 研究背景蒙古藏语族是世界上现存语言家族之一,包含多种语言,如藏语、藏语、珞巴语等。

这些语言主要分布在中国西南地区、印度、尼泊尔、不丹等地。

藏语作为蒙古藏语族中的一种重要语言,具有悠久的历史和丰富的文化内涵,被广泛应用于宗教、文学、历史等领域。

随着信息技术的快速发展,自然语言处理领域的研究也取得了长足的进步。

由于藏语语言的特殊性和少见性,相关研究较少,特别是在语言模型的应用方面存在不足。

对藏语语言模型的研究具有重要意义,可以促进藏语技术的发展,提升藏语在现代社会的应用和传承。

在这样的背景下,本文将探讨藏语语言模型的研究现状及展望,旨在推动藏语技术的发展,为藏语文化的传承和保护做出贡献。

通过对现有研究进行总结和分析,揭示主要挑战并提出未来发展方向,为藏语语言模型的技术创新和数据集建设提供参考和指导,为藏语语言的现代化和数字化发展提供支持。

1.2 研究意义由于藏语是一种阿尔泰语系语言,具有独特的语音、语法体系,其语言模型的研究可以为跨文化交流和语言学比较研究提供重要的数据支持。

通过对藏语语言模型的深入研究,可以探讨不同语言之间的相似性和差异性,丰富语言学理论,促进语言技术的跨文化应用。

研究藏语语言模型不仅有助于推动西藏地区的数字化发展和文化传承,也对语言学研究和跨文化交流具有重要的意义。

藏语语音合成语料库的韵律标注规则设计

藏语语音合成语料库的韵律标注规则设计

藏语语音合成语料库的韵律标注规则设计陈晨;陈琪;李永宏;于洪志【摘要】韵律标注是藏语语音合成语料库建设的重要环节.文章参考汉语韵律标注的研究成果,结合藏语自身的语音特点以及韵律特征,进行了面向藏语语音合成语料库的韵律标注研究,并设计一套包含拉丁转写、声调类型、音节结构、重音类型以及停顿指数的标注规则,为藏语语音韵律特征的研究提供了直观的、科学的方法.【期刊名称】《西北民族大学学报(自然科学版)》【年(卷),期】2010(031)001【总页数】5页(P24-28)【关键词】藏语;韵律标注规则;语音合成【作者】陈晨;陈琪;李永宏;于洪志【作者单位】西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030;西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030;西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030;西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030【正文语种】中文【中图分类】TP391;H214目前,自然度和可懂度是评价合成语音质量的主要指标,因此,在语言研究和言语工程中,韵律标注已成为非常重要的研究内容和手段.目前国际上较为流行的韵律标注标准是ToBI(Tones and Break Indices)(Silverm an et al.1992).通过它,初学者可以很快地对语音数据进行韵律的描述.研究人员不仅从语音库中可以直接得到带有韵律描述的数据,并且还可以使用本标准的超集或子集来适应不同的需求.该系统发布后,在其基础上结合各自语言自身的特点,相继成型了汉语普通话的C-ToBI、德语的GToBI、日语的J-ToBI、韩语的K-ToBI等韵律标注系统,标志着语音韵律标注走向成熟.目前我国藏语的研究,主要集中于声学研究,如胡坦的“藏语(拉萨话)声调研究”[1],孔江平的“藏语(拉萨话)声调感知研究”[2],谭克让、孔江平的“藏语元音长短与声调关系的实验研究”[3]等.韵律方面的研究则涉及较少,如谭克让的“藏语拉萨话声调分类和标法刍议”[4]一文,主要对现有的拉萨话声调的分类作了简要介绍,并对调号的统一标法提出了宝贵的建议.这些研究均为藏语的韵律研究奠定了一个科学的基础.本文在借鉴汉语韵律研究成果的基础上,结合藏语自身的语音特点及韵律特征,制订了面向藏语语音合成语料库的韵律标注规则.这一规则的建立,不仅有利于提高语音合成的自然度、流畅度和语音识别的准确率,而且对于藏语语言教学与研究也具有非常重要的指导意义.1)藏语的韵律标注规则应具有开放性,对于没有把握的标注项目允许不确定性存在.此外,随着人们对藏语韵律特征认识的不断提高,还可以不断地增加新的标注符号或修订不适用的标注符号.2)藏语的韵律标注规则还应具有如下一些特点,即:全面性,标注符号尽可能覆盖藏语中最重要的韵律现象;易学性,标注的方法和规则要能在短时间内学会;可操作性,标注符号要尽量简单,要与语音的表层形式尽量接近;标注符号的机器可读性等.3)藏语的韵律标注规则应与声音转写文本的词性、句法、语义标注相协调.例如,一般情况下,韵律结构是连续语音中的一个重要的语音现象,一个话语包含着不同的韵律结构,它们与句法、语法结构有着一定的对应关系,但又不是完全一一对应,这就要求在进行韵律结构的切分上要充分考虑到句法、语法结构划分的相应情况.不少学者经过考察注意到,不同民族的语言,如果其语音系统的特征有某些共同点,这些共同点就有可能成为不同民族语言语音修辞所共同采用的手段依据[5].藏语和汉语同属于汉藏语系,语音上必然存在着许多共同的特点和规律:①除个别方言外,都有声调.②词或词根多数是单音节的.③音节结构都可分析为声母、韵母和声调三部分.因此,本文参考汉语韵律标注的研究成果,同时结合藏语自身的特点设计了一套面向藏语语音合成语料库的韵律标注规则.本标注符号系统包括平行的五个层级(见表1). 该层以藏语音节为最基本的单元,标记每句话的起始、结束位置、静音段、杂音段以及每个藏语音节对应的拉丁转写符号.其中,杂音段包括各种副语言和非语言学现象(咳嗽、吞咽、不连贯等现象).拉丁转写[6]采用基本的26个英文字母,通过程序实现,步骤如下:1)利用“字丁分解法”确定藏文基字部分.2)对拟要转写的单音节藏文进行声韵母的分离.3)对分离的声、韵母分别进行拉丁文转写.4)对声韵母对应的拉丁字母串进行合并.5)编写praat软件脚本,将拉丁文转写自动导入标注文件中.藏语最初字音高低的变化,只是一种伴随特征,并不具备音位功能.随着藏语一千多年的发展,逐渐发展出声调系统.现代藏语三大方言中安多方言属于无声调方言,卫藏方言和康方言属于有声调方言.本文以拉萨话为例,对其声调类型的分类及标注规则进行说明.由于学者们对声调的发展和声调与韵母之间的关系认识不同,先后产生了二分法、三分法、四分法、六分法等不同的分类.本文综合比较各家分类的长短,归纳了拉萨话的调类标注符号规则.根据声调实验的结果证明,拉萨话有六个调值:43,44,53,12,113,132.拉萨话的声调有高低之分,与古声母辅音的清浊有关,即“清高浊低”.因此,43,44和53调为高调;12,113和132调为低调.拉萨话的声调也有长短之分,如44调和113调只出现在长元音韵母里;43调和12调只出现在短元音韵母里,53调和132调只出现在短元音带促声韵尾的韵母里,因此可分为长调、短调和促声调.另外,由于促声韵尾在拉萨口语中有逐渐消失的趋势,且对声调的影响比较小,因此把促声调与短调合并(调值调类及名称关系见表2).因此,按照声、韵母的搭配,可将拉萨话的声调最终分为:清声长韵(55)、浊声长韵(13)、清声短韵(53)和浊声短韵(11),分别用“1、2、3、4”来标注.藏语按照语音系统中有无声调、有无清浊声母对立、辅音韵尾的多寡可分卫藏、康、安多三大方言[7].卫藏方言(拉萨话)语音系统中,声母共28个,没有复辅音和全浊音(b,d,g等);元音共8个,比古代多了3个,即ε,y,ø;韵尾共7个.康方言语音系统中,声母共44个,复辅音声母仅存一套带鼻冠音的二合声母,如mba53‘巴塘’,ŋgo53‘头’等;元音共8个;韵尾只有一个喉塞音.安多方言语音系统中,声母共39个,此外还存在复辅音现象,可分为NC型和hc/ɦc型两类;元音共6个;韵尾共7个.表3中对藏语三大方言的语音系统做了详尽的举例.本文根据藏语三大方言的音系对比,将藏语的音节结构类型分为以下四种:元音(V),辅音+元音(C+V),元音+辅音(V+C),辅音+元音+辅音(C+V+C),分别用“1、2、3、4”标注.目前对于语音语料库的重音标注基本上是基于“音高重音(pitch ac cent)”的理论.该理论创始人之一Bolinger认为,语流中重音首要的声学征兆是高音的突显.ToBI标注体系就是利用音高曲线的各种变化形式对不同层次的韵律边界和不同类型的重音进行标注.但是这种标注方法并不完全适用于藏语.藏语拉萨话的音高曲线上同时还负载了声调、重音和语调等信息,不能仅以音高曲线的变化模式对重音进行分类.因此,本文在进行重音标注时,主要依据藏语的发音方法发音规则、重音感知的相关因素.藏语的语音按照发音方法可分为阴性、中性和阳性,即弱、中、强的特点[8].藏语辅音字母共分为7.5组,每一组字母之间的字音强弱完全不同.重音感知的相关因素包括音长、音高、音强等参数.其中,音高和音长是重音感知的首要因素,音强属于伴随特征,虽然不具有音系学意义,但对于言语工程中的自然度来说则是不可或缺的.此外,语言知识也对重音感知有显著影响.在这一层级中,分别用“1、2、3”来标注藏语重音类型中的轻、中、重三种类型. 韵律层级标注是语音合成技术的重点和难点.关于韵律结构的研究,Selkirk提出了一种严格的韵律分层理论,她认为韵律结构从低到高的分层依次是音步(Foot)、音节(Syllable)、音系词(Phonology Word)或韵律词(Prosodic Word)、音系短语(Phonology Phrase)或韵律短语(Prosodic Phrase)和语调短语(Intona—tional Phrase),句子的韵律结构和句法结构之间存在系统的映射关系[9].汉语普通话C-To-BI标注系统的停顿指数层将汉语的韵律层级分为音节、韵律词(prosodic word)、次要韵律短语(minor prosodic phrase)、主要韵律短语(major prosodic phrase)、语调短语(prosodic group)等5个级别.台湾郑秋豫教授还提出了一种M-TOBI标注体系,停顿指数分为6级:退化的音节边界、正常的音节边界、较小的短语停顿边界、较大的短语停顿边界、呼吸群边界、韵律组边界[10].本文结合了藏语韵律自身的特点,将其韵律结构从低到高依次归纳为:音节、韵律词和韵律短语三个韵律层级单元.由于音节层在拉丁文转写层已标注完毕,因此这里重点介绍韵律词和韵律短语两个层级.2.4.1 韵律词层该层标记藏语语音中的韵律词边界,分别用“0、1、2”表示其在韵律短语中的位置.由于藏语韵律词之间的界限是不明确的,因此标记时可参考一定的特征规则:韵律词大多为语法词,以及前后带一些虚词的词(可能对应几个语法词,也可能小于一个语法词);停顿边界前音节时长普遍长于停顿后音节的时长;停顿前、后音节基频(F0)发生程度不同的重置;韵律词之间多存在有声波间断,是由间断前音节的时长拉长所致;停顿前音节的音强总是高于后音节的音强.2.4.2 韵律短语层该层标记句子中较大的停顿间隔出的韵律单位,分别用“0、1、2”表示其在语句中的位置.韵律短语即音系短语,是韵律层级结构中假想的一个介于韵律词和语调短语之间的层次.韵律短语的界定不仅与语法、词法有关,而且与语句的长短、结构有关,甚至还与语义、情感和意向有关,因此韵律短语的界定是个相当困难的课题[11].韵律短语间的划分也可遵循一定的特征规则:具有相对稳定的短语语调模式,即音阶的下倾及重置;具有相对稳定的短语重音配置模式,即与句法结构相关的常规重音模式;韵律短语之间多存在无声波间断,即听感上能明显感知的无声段.总体而言,在韵律标注规则的设计上,我们采用了分层级标注的方法.标注的内容除拉丁文转写、音节类型等音段标注信息外,还包含了基频类型、重音类型、停顿指数等韵律信息.同时,用Praat软件进行标注,为标注内容的可扩展性提供了保证,系统可以根据需要添加必要的标注信息,而不用重新设计整个标注体系.图1为本系统的一个标注示例.在语音工程领域,专家们正致力于提高连续语音识别的准确率以及语音合成中的自然度问题.因此研究自然语音的韵律规则,并在TTS系统中加以模拟,已提到了日程上.藏语语音韵律模型的建立及语音合成的实现,亟需韵律标注作为前提.目前,我们只是对藏语语音韵律标注规则做了初步的研究和设计,进行了简单的理论分析和实践尝试.还需要进一步研究如何提高分析的精度,减少标注的工作量等问题,为藏语语音合成的进一步研究奠定基础.另外,还需要建立一种评价的方法,以便于对不同的系统进行比较.【相关文献】[1]胡坦.藏语(拉萨话)声调研究[J].民族语文,1980,(1).[2]孔江平.藏语(拉萨话)声调感知研究[J].民族语文,1995,(3).[3]谭克让,孔江平.藏语元音长短与声调关系的实验研究[J].民族语文,1991,(3).[4]谭克让.藏语拉萨话声调分类和标法刍议[J].民族语文,1982,(3).[5]戴庆厦.刘菊黄.藏缅语族某些语言的音节搭配律[J].民族语文,1988,(5).[6]李永宏,孔江平,于洪志.藏语文—音自动规则转换及其实现[J].第九届全国人机语音通讯学术会议论文,清华大学学报(EI),2008,(4).[7]胡坦.藏语研究文论[M].北京:中国藏学出版社,2002.[8]马进武.藏语声韵学创新概要[J].西北民族大学学报(哲学社会科学版),2003,(3).[9]Selkirk,E.Phonology and syntax:the relation be—tween sound andstructure[M].Cambridge,MA:MIT Press,1984.[10]赵永贞,刘挺.汉语文语转换系统中停顿指数的自动标注[J].中文信息学报,2004,(5).[11]应宏,蔡莲红.结构助词在韵律短语界定中的作用[J].第四届全国现代语音学学术会议论文集,金城出版社,1999.。

藏语语料库词类描述方法研究

藏语语料库词类描述方法研究
Ab t a t T b tn c r u li a e p o e s s a e n d s r t n f t e a i t iu e o h T b tn e io a c r i g sr c : i ea o p s mu t t g r c s i s b s d o e c i i o h b s a t b ts f t e i ea lx c n, c o d n p o c r t e cu l n e f t e Tie a o p s mu t t g r c s ,h o g e y tx n e n i s o i ea n o mai n d srp o t a t a e d o b t n c r u h h l sa e p o e s t r u h t s n a a d s ma t f T b tn i f r t e c i - i h c o t n a d T b tn wo d fe e a a y i ,t c n p o ie a f a i l t o o e o u e o p o e s a t mai al te T — i n i e a r s a t r t n l ss i a r v d e sb e me h d f r t c mp tr t r c s u o tc l h i o h h y b tn c l c t n s u t r g a e o l ai s t c u e, r mm ai a n o mai n,e n i n o ma i n a d P —a g n . a o o r t lifr t c o s ma t i f r t n OS t g i g c o Ke r s n t r l ln u g ; b t n; OS tg i g; rmma ia n o ma i n y wo d : au a a g a e Ti ea P — g n g a a t lifr t c o
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

藏语口语语音语料库的设计与研究黄晓辉;李京;马睿【摘要】Based on the research and analysis of the construction method of traditional phonological corpus, combined with the related needs of natural spoken speech recognition and the characteristics of Tibetan natural spoken language, the construction scheme and annotation standard of spoken language corpus suitable for Tibetan speech recognition is designed. A 50-hour Tibetan Lhasa spoken corpus with five layers of annotation including phonemes, semitone, syllables, Tibetanword and sentences is also constructed. The statistic characteristics show that this corpus retains the natural properties of spoken language, andalso has a balanced coverage of commonly used modeling units such as phonemes, semitone, so it is able to provide reliable data support for speech recognition technology based on Tibetan spoken speech data.%基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库.统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑.【期刊名称】《计算机工程与应用》【年(卷),期】2018(054)013【总页数】5页(P231-235)【关键词】语音语料库;口语语音;语音识别;标注规范;藏语拉萨话【作者】黄晓辉;李京;马睿【作者单位】中国科学技术大学计算机科学与技术学院,合肥 230026;解放军外国语学院工程系,河南洛阳 471003 ;中国科学技术大学计算机科学与技术学院,合肥230026;解放军外国语学院工程系,河南洛阳 471003 ;中央民族大学藏学研究院,北京 100081【正文语种】中文【中图分类】TP3911 引言语音语料库在语音处理技术的研究和发展过程中起着基础性的数据支撑作用,基于语音语料库的语音识别技术已经在汉语、英语等大语种语音研究领域取得了巨大成功,是目前发展最快,成果最多,最具实用前景的语音处理技术。

藏语是藏族人民普遍使用的地方语言,藏语语音处理技术的发展,可以有效地促进藏区与其他地区之间的语言沟通,增进民族间交流,从而支援藏区经济、科技、文化等领域的发展。

相比汉语、英语等大语种而言,由于使用人数少,地区经济基础薄弱,科教水平落后,面向藏语的语音识别不仅起步较晚,相关研究也滞后很多[1]。

尽管基于隐含马尔可夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Network,DNN)的语音识别方法在汉语、英语等大语种语音识别中已经取得了显著成效[2],但在藏语口语语音识别上并没有同样出色的表现,即便采用深度神经网络进行特征提取[3],或是在大语种语料库上进行预训练,再迁移到藏语语料库上进行学习,其效果相较汉、英等大语种语言而言仍有很大差距[4],其原因就在于这些模型需要大量的语音数据进行训练才能发挥出潜能,而现实中面向藏语口语的可用语音数据极其稀缺,目前还无法满足这些模型的训练需求。

因此,构建适用于藏语口语语音识别的高质量语音语料库,对藏语口语语音识别技术的发展和应用具有重要意义,也是目前亟待解决的现实问题。

藏语语音语料库的构建通常以汉语、英语等大语种语音料库构建方法为基础,再依据藏语不同方言的语音学、语言学特点进行相应的改进,目前也取得了一定的成果,如杨阳蕊、李永宏等借鉴汉语连续语音语料库的构建方法,分别建立了基于半音节和三音素模型的藏语连续语音语料库[5-6]。

鲁茸江才等以藏语卫藏话为研究对象,建立了藏汉双语多模态生理语音数据库,并对其中的音频文件进行了文本标注[7]。

青海民族大学的德吉研究设计了语音识别语料库构建过程中音素选取的平衡算法,同时设计了安多藏语的机读音标[8]。

西藏大学的拉龙东智,采用自动与人工挑选相结合的方法来选取规整的文本语料,然后无噪声环境下以朗读方式录制语音,并在词和音节层面进行了语音的标注,同时建立了对应的发音字典[9]。

在语音合成领域,陈晨等参考汉语韵律标注的研究成果,结合藏语自身的语音特点,研究设计了面向藏语语音合成的语料库韵律标注规则[10]。

曲珍等则设计了包含音素、语调、音节、韵律4个层级的语料数据标注规则[11]。

在语音自动标注方面,李冠宇等以藏语拉萨方言为研究对象,基于迁移学习的思想,首先在英语音素集上充分训练GMM-HMM模型,再将其用于藏语语音的音素切分,有效提升了语音语料库的构建效率[12]。

张金溪等研究了基于单音素HMM和三音素HMM的语音自动切分算法,并将其应用于语音合成语料库的构建,提高了语音语料库标注信息的精确度和一致性[13]。

然而以上这些研究都是基于朗读语音的研究成果,并且面向不同的研究领域,在语料选取、语音特征等方面都与真实的藏语口语语音有较大差别,因此并不适用于藏语口语语音识别研究。

口语语音是最普遍、最常见的自然语言现象,具有丰富的语言现象和语义特征[14]。

基于口语语音可以进行说话人识别、内容识别、情感识别等多种语音处理技术的研究,因此具有很高的研究价值和应用前景。

面向语音识别的语料库要求其中的语音数据要覆盖尽可能多的语言现象,同时还要对不同语音现象有均衡的覆盖率,以避免因训练数据缺失或稀疏引起模型泛化性能较差的问题。

基于以上原因,本文对藏语口语语音数据库的构建方法进行了研究与实践,探索适用于语音识别的藏语口语语音数据库构建方案和标注规范,建立完备可靠的藏语拉萨话口语语音语料库,为藏语语音识别技术的发展提供可靠的基础数据支撑。

2 构建语音语料库的基本方法语音语料库的构建主要涉及声学、语音学和语言学3个领域,通常包括语料库设计和实现两个环节。

其中设计环节作为总的指导方向,重点针对说话者、说话内容、录音、存储、标注以及评估设计相应的规范和标准,实现环节则依据设计规范进行语料的采集、语音的录制和标注。

一个完整的语音库通常还包括一些必要的发音字典、统计特征等辅助信息,作为进一步完善或补充语音库的参考依据。

总体来讲,语音语料库的构建流程可以用图1来概括表示。

图1 语音语料库的构建过程根据语音数据的来源可将其分为朗读语音和口语语音两种类型,与之对应的语料库构建方法也有所区别。

朗读语音通常在录音房等安静环境下录制,由说话者依据正规书面语料朗读产生,如电视报道、新闻广播等,其典型特点是语调平缓、语速稳定、发音准确,所对应的文本语料语法规整、用词标准。

朗读语音语料库的一个优点就是语料是在录音之前就已经确定的,因此在录音完成之后,相应的标注文本也就自然形成。

基于朗读语音的语料库,语料资源丰富,构建效率高,语法规整,能够覆盖较多的语言现象,是目前常用的语料库构建方法。

但由于朗读语音的语料相对规整,说话者角色单一,因此与自然口语语音存在较大差别,导致基于朗读语音训练出的语音识别模型泛化性能较差,在真实口语环境下的识别性能并不理想。

口语语音是说话人在自然状态下表达观点时所发出的声音,是一种典型的自然语言现象。

口语的方言属性、用词习惯、语速语调以及不同说话场景下的背景噪音等特征都具有较大的随意性,因此带有鲜明的个性特点。

口语语音语料库的显著特点就是其语音数据的自然属性,能够鲜明地体现不同说话者以及说话内容的特征,因此具有较高的研究价值和应用前景。

由于口语语音能够准确反映真实的语音和语言现象,基于口语语音训练出的模型对真实的应用场景也具有更强的适应能力,这也是口语语音语料库的重要价值体现。

相比朗读语音而言,口语语音数据的获取和标注都要困难得多,主要有两方面因素:一是由于口语交谈内容可能涉及个人隐私问题,难以获得说话人的授权,尽管可以为说话人提供对话剧本,但这又不可避免的引入了朗读语音的特点,难以达到真正的自然口语效果;二是由于口语语音多发生于有背景噪声的自然场景中,通常有多人参与交谈,需要先进行录音以及必要的预处理操作之后,再由标注人员根据录音进行场景、说话者、说话内容等信息的文本标注,并且该过程是串行进行的,因此在人力、物力以及时间上都需要较大的成本投入。

3 藏语口语语音语料库的构建3.1 藏语口语语音学特点从语音学角度来看,藏语属于音素拼音型语言,即由音素组合构成声母以及韵母作为半音节,再由声母和韵母组合加上声调构成一个音节[15]。

因此,音素是藏语语音学上的最小发音基元。

标准的藏语拉萨话口语共计包含41种音素,其中辅音音素有28个,元音音素有13个,所有音素的拉丁转写及国际音标表示如表1所示。

表1 藏语拉萨话音素单元集音素类型辅音音素(28个)元音音素(13个)拉丁转写及国际音标b[p],d[t],gy[c],g[k],p[p'],t[t'],ky[c'],k[k'],z[ts],zh[tʂ],j[tc],c[ts'],ch[tʂ'],q[tɕ'],m[m],n[n],ny[ȵ],ng[ŋ],l[l],s[s],lh[ɬ],sh[ʂ],x[ɕ],hy[ç],h[h],r[ʐ],w[w],y[j]i[i],ii[i:],e[e],ee[e:],ue[y],oe[ø],ae[ɛ],a[a],aa[a:],u[u],uu[u:],o[o],oo[o:]音节是藏语发音的基本单元,音节由声母、韵母以及声调构成。

相关文档
最新文档