基于语料库的藏语TTS技术研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高 清晰 、 自然 的语 句. 高
藏语 中词 由音节构 成 , 音节 的拼写 有完整 而严格 的排列 规则 , 而 是可 以穷尽 的. 因此 , 采用基 于语 料
库 的藏语 TT S方法 比较 可行 . 本文拟 参 照藏文 书面语 、 藏语 的发音 特点 和藏语 的发音机理 , 研究 文本分 析、 语音合 成等藏语 T TS的关 键技术 .
1 引言
文语 转换技 术( x oS e c , Te t p eh 简称 TT T S技术 ) 是实 现人 机 语 音通 信 , 立有 听 、 能 力 的 口语 , 建 讲
系统所必 需 的关 键技术 , 其转 换 的过程 是 先 将 文字 序列 转 换 成 音韵 序 列 , 根据 音 韵序 列 生成 语 音 波 再 形 . TS技 术涉及声 学 、 言学 、 T 语 数字 信号处 理技术 、 多媒体 技术 等 多个 学科 技术 , 信 息处 理领 域 的一 是
2 藏语 T TS系 统 的设 计
2 1 藏 语 TT . S系 统 基 本 结 构
T TS系统 是一个 人工智 能系 统. 了合 成 出 高质 量 的语音 , 了依 赖于 语 义学 规则 、 汇 规 则 、 为 除 词 语 音学 规则外 , 还必 须对 文字 的内容有很 好 的理解 . 文语转 换 过程 是 先将 文 字序 列转 换成 音 韵序 列 , 由 再
2 0血 01
青 海师范 大学 学报 ( 自然科 学版 )
J u n l fQig a r a ie s y Na u a ce c ) o r a n h i o No m lUnv r i ( t r lS in e t
2 1 O0
NO 2 .
第 2期
基 于语 料库 的藏 语 TTS技术研 究
P OL S A方法 的合成器 结构 简单 且易 于实现 . 最近几 年 , 种新 的文语 转换 方 法—— 基 于语 料库 的 TT 一 S 技术 引起 学者们 的关注 . 基于 语料库 的 T TS方 法 中, 音单元 都是 来 自源于 自然的原始发 音 , 被存 储 语 并
在 预先 录制 的语 音数据 库 中 , 只要语 音语 料库包 括各种 语境下 的语 音单元 并且 足够丰 富 , 就可 以拼接 出
项 前沿技 术.
国内外对 T TS技 术 的研 究 已有二 百多年 的历史 , 真正 有实 用 意 义 的 TT 但 S技术 是 随着 计算 机 技 术 和数字 信号处 理技术 的发展 而发 展 起 来 的. TT 在 S技术 的发 展 中 , 期 主要 采用 参 数合 成 方 法 , 早 如 Home l s的并联振 峰合成 器 (9 3 和 Kl t 串/ 联振峰合 成器 (9 0 . 十年代末 期 , S技术有 了 1 7) a 的 t 并 18)八 TT 新 的进展 , 特别 是基音 同步叠 加 ( S A) 法 的提 出 ( 9 0 , 基 于 时域 波 形拼 接方 法合 成 的语 音 音 P OL 方 19 )使 色 和 自然 度更上一 层楼 . 九十 年代初 , 于 P 0L 基 S A技术 的法 语 、 语 、 语 、 德 英 日语 等语种 的 T Ts系统 都 研 制成 功 , 些 系 统 的 自然度 比基 于 L C 方 法或 振 峰 合 成 器 的 T 这 P TS系统 的 自然度 更 高 , 且 基 于 并
才让 卓玛 , 才智 杰
( 海师 范大 学 藏 文 信息 研 究 中心 , 海 西 宁 青 青 摘 800) 10 8
要 : 章通 过 比较 分 析 国 内外 TTS技 术 的 发 展 , 出基 于 语 料库 的藏 语 T 文 提 TS技 术 的 可 行性 . 究 了 藏语 T 研 TS的 文本 分
第2 期
才让 卓玛 , 才智杰 : 于语 料库 的藏语 TT 基 S技术研 究
6 7
文 本输 入
:
文本分 析部分
:
:语音合成部分 :
图 1ห้องสมุดไป่ตู้藏 语 TTS基 本 结 构 图
2 2 文 本 分 析 模 块 .
文本分 析 的主要 功能是 使计算 机对输 入 的文本进 行 分析 理解 , 为语 音合成模 块 提供必 要 的信息. 对 于 藏语 来说 , 文本 分析 不但 要将藏 文音节 、 符号 、 数字 等转 换成 适 当的标音 符号 , 还要 分析 发音音 节 的长
短 、 重和 高低和 停顿 位置 和停顿 的长短 . 轻 在文本 分 析模 块 中对 文 本 中的 文字 进 行处 理 , 输入 的文字 将 串加 工为带 有属性 标记 的词 , 并进行 注音 , 同时还 为 每个 词 、 个音 节确定 重音等 级 和基频 、 长 、 每 时 语调 、
析 模 块 、 音合 成 模 块 及语 音数 据 库 的 关 键 技 术 , 设 计 了 一 个完 整 的基 于 语 料 库 的 藏语 TTS系统 . 语 并 关 键 词 : 料 库 ; 语 转换 ; 词 ; 接 单元 语 文 分 拼 中圈 分 类 号 : 31 TP 9 文献 标 识码 : A 文 章编 号 :0 1 52 2 1 )2 0 6 —0 1 0 —7 4 (0 0 O — 0 6 4
系统 根据音 韵序 列生成语 音波 形. 中第 一步涉 及语言 学处理 , 如文本 的规范 化 、 其 例 分词 、 语音单 元 的划 分及 有效 的韵律控 制规则 ; 二步需要 先进 的语音 合成 技 术 , 按 要求 实 时合 成 出高质 量 的语 音 流. 第 能 如
图 1所 示 .
收稿 日期 :0 9 9 9 2 0 —0 —0 基金项目: 国家 社 科基 金 项 目( 目编 号 :g Y0 4 青 海 师 范 大学 科 研 基 金 资 助 项 目 项 o XY 2 ) 作者 简 介 : 让 卓玛 (9 O ) 女 ( 才 17 一 , 藏族 )青 海 乐 都 人 , , 副教 授 , 士 , 要 研 究方 向 ; 文 处 理 信息 . 硕 主 藏
藏语 中词 由音节构 成 , 音节 的拼写 有完整 而严格 的排列 规则 , 而 是可 以穷尽 的. 因此 , 采用基 于语 料
库 的藏语 TT S方法 比较 可行 . 本文拟 参 照藏文 书面语 、 藏语 的发音 特点 和藏语 的发音机理 , 研究 文本分 析、 语音合 成等藏语 T TS的关 键技术 .
1 引言
文语 转换技 术( x oS e c , Te t p eh 简称 TT T S技术 ) 是实 现人 机 语 音通 信 , 立有 听 、 能 力 的 口语 , 建 讲
系统所必 需 的关 键技术 , 其转 换 的过程 是 先 将 文字 序列 转 换 成 音韵 序 列 , 根据 音 韵序 列 生成 语 音 波 再 形 . TS技 术涉及声 学 、 言学 、 T 语 数字 信号处 理技术 、 多媒体 技术 等 多个 学科 技术 , 信 息处 理领 域 的一 是
2 藏语 T TS系 统 的设 计
2 1 藏 语 TT . S系 统 基 本 结 构
T TS系统 是一个 人工智 能系 统. 了合 成 出 高质 量 的语音 , 了依 赖于 语 义学 规则 、 汇 规 则 、 为 除 词 语 音学 规则外 , 还必 须对 文字 的内容有很 好 的理解 . 文语转 换 过程 是 先将 文 字序 列转 换成 音 韵序 列 , 由 再
2 0血 01
青 海师范 大学 学报 ( 自然科 学版 )
J u n l fQig a r a ie s y Na u a ce c ) o r a n h i o No m lUnv r i ( t r lS in e t
2 1 O0
NO 2 .
第 2期
基 于语 料库 的藏 语 TTS技术研 究
P OL S A方法 的合成器 结构 简单 且易 于实现 . 最近几 年 , 种新 的文语 转换 方 法—— 基 于语 料库 的 TT 一 S 技术 引起 学者们 的关注 . 基于 语料库 的 T TS方 法 中, 音单元 都是 来 自源于 自然的原始发 音 , 被存 储 语 并
在 预先 录制 的语 音数据 库 中 , 只要语 音语 料库包 括各种 语境下 的语 音单元 并且 足够丰 富 , 就可 以拼接 出
项 前沿技 术.
国内外对 T TS技 术 的研 究 已有二 百多年 的历史 , 真正 有实 用 意 义 的 TT 但 S技术 是 随着 计算 机 技 术 和数字 信号处 理技术 的发展 而发 展 起 来 的. TT 在 S技术 的发 展 中 , 期 主要 采用 参 数合 成 方 法 , 早 如 Home l s的并联振 峰合成 器 (9 3 和 Kl t 串/ 联振峰合 成器 (9 0 . 十年代末 期 , S技术有 了 1 7) a 的 t 并 18)八 TT 新 的进展 , 特别 是基音 同步叠 加 ( S A) 法 的提 出 ( 9 0 , 基 于 时域 波 形拼 接方 法合 成 的语 音 音 P OL 方 19 )使 色 和 自然 度更上一 层楼 . 九十 年代初 , 于 P 0L 基 S A技术 的法 语 、 语 、 语 、 德 英 日语 等语种 的 T Ts系统 都 研 制成 功 , 些 系 统 的 自然度 比基 于 L C 方 法或 振 峰 合 成 器 的 T 这 P TS系统 的 自然度 更 高 , 且 基 于 并
才让 卓玛 , 才智 杰
( 海师 范大 学 藏 文 信息 研 究 中心 , 海 西 宁 青 青 摘 800) 10 8
要 : 章通 过 比较 分 析 国 内外 TTS技 术 的 发 展 , 出基 于 语 料库 的藏 语 T 文 提 TS技 术 的 可 行性 . 究 了 藏语 T 研 TS的 文本 分
第2 期
才让 卓玛 , 才智杰 : 于语 料库 的藏语 TT 基 S技术研 究
6 7
文 本输 入
:
文本分 析部分
:
:语音合成部分 :
图 1ห้องสมุดไป่ตู้藏 语 TTS基 本 结 构 图
2 2 文 本 分 析 模 块 .
文本分 析 的主要 功能是 使计算 机对输 入 的文本进 行 分析 理解 , 为语 音合成模 块 提供必 要 的信息. 对 于 藏语 来说 , 文本 分析 不但 要将藏 文音节 、 符号 、 数字 等转 换成 适 当的标音 符号 , 还要 分析 发音音 节 的长
短 、 重和 高低和 停顿 位置 和停顿 的长短 . 轻 在文本 分 析模 块 中对 文 本 中的 文字 进 行处 理 , 输入 的文字 将 串加 工为带 有属性 标记 的词 , 并进行 注音 , 同时还 为 每个 词 、 个音 节确定 重音等 级 和基频 、 长 、 每 时 语调 、
析 模 块 、 音合 成 模 块 及语 音数 据 库 的 关 键 技 术 , 设 计 了 一 个完 整 的基 于 语 料 库 的 藏语 TTS系统 . 语 并 关 键 词 : 料 库 ; 语 转换 ; 词 ; 接 单元 语 文 分 拼 中圈 分 类 号 : 31 TP 9 文献 标 识码 : A 文 章编 号 :0 1 52 2 1 )2 0 6 —0 1 0 —7 4 (0 0 O — 0 6 4
系统 根据音 韵序 列生成语 音波 形. 中第 一步涉 及语言 学处理 , 如文本 的规范 化 、 其 例 分词 、 语音单 元 的划 分及 有效 的韵律控 制规则 ; 二步需要 先进 的语音 合成 技 术 , 按 要求 实 时合 成 出高质 量 的语 音 流. 第 能 如
图 1所 示 .
收稿 日期 :0 9 9 9 2 0 —0 —0 基金项目: 国家 社 科基 金 项 目( 目编 号 :g Y0 4 青 海 师 范 大学 科 研 基 金 资 助 项 目 项 o XY 2 ) 作者 简 介 : 让 卓玛 (9 O ) 女 ( 才 17 一 , 藏族 )青 海 乐 都 人 , , 副教 授 , 士 , 要 研 究方 向 ; 文 处 理 信息 . 硕 主 藏