基于状态空间模型的子频带语音转换算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期: ; 修回日期: 2 0 0 8 0 9 2 4 2 0 0 9 0 1 1 4 基金项目: 国家 8 重点项目( ) ; 国家自然科学基金( , ) ; 江苏省普通高校研究生科研创新计划( ) 6 3 N o . 2 0 0 6 A A 0 1 0 1 0 2 N o . 6 0 8 7 2 1 0 5 6 0 9 7 1 1 2 9 N o . C X 0 8 B 0 7 9 Z -
1 引言
语音转换是一种通过改变源说话人语音的个性特 征, 同时保留说话者语义信息, 并将其转换为具有目标 说话人个性特征的语音的技术 . 在过去的若干年中, 一 些语音学工作者在这方面做了许多的工作, 初步形成了 一些 体 系, 其 中 主 要 包 括: 码本矢量量化法( V e c t o r [ , ] 1 2 , ) 、 人工神经网络法( Q u a n t i z a t i o n V Q A r t i f i c i a l N e u r a l [ , ] 3 4 , ) 、 统计映射法( , A N N S t a t i s t i c a l T r a n s f o r m a t i o n N e t w o r k [ ] 5 8 ) 等 码本矢量量化法在语音转换领域的早期被 S T . 广泛采用 . 这种算法的特点在于算法复杂度比较低, 但 由于码书的大小有所限制, 即码字的总数是有限的, 所 以最后转换出来的语音特征参数缺乏多样性, 本应该连 续变 化 的 语 音 参 数 之 间 常 常 呈 现 出 离 散 的 过 渡 特 , ] 9 1 0 ; 人工神经网络凭借其优异的学习能力, 也被引 性[ 入进语音转换领域 . 但是 A N N也存在着一个很大的缺
( 南京邮电大学信号处理与传输研究院, 江苏南京 2 ; 南京邮电大学通信与信息工程学院, 江苏南京 2 ) 1 1 0 0 0 3 2 1 0 0音特征的技术, 该领域主流方法— — —基于高斯混合模型的全频带参数映
本文针对以上问题提出了改进方案: 首先引入状态空间模型来模拟 射, 会导致转换后的语音频谱产生帧间不连续性 . 语音动态变化特性, 其次利用离散小波变换对语音低频和高频部分的参数分为子频带处理 . 文章最后用主观和客观实 验对提出的算法进行的实验仿真和验证 . 关键词: 语音转换;高斯混合模型;状态空间模型;全频带转换;子频带转换 T N 9 2 5 文献标识码: A 文章编号: )0 0 3 7 2 2 1 1 2( 2 0 1 0 3 0 6 4 6 0 8 中图分类号:
] 1 1 点— — —“ 泛化性能” 差[ , 即它能比较准确地模拟已经 被训练过的数据之间的映射关系, 但对于从未“ 见过” 的 新的测试数据, 它常常无能为力; 近年来, 统计映射算法 等人将高斯混合模型( 受到很大的关注 . S t y l i a n o u G a u s , ) 用于特征参数的映射, 取得了 s i a nM i x t u r eM o d e l G M M ] 5 很大的成功[ 然而基于 G . M M 的转换算法也存在着自 身的缺点— — —转换后的特征参数“ 过于平滑” 和相邻语 [ , ] 1 2 1 3 究其根源, 主要有以下两点原 音帧间参数“ 跳变” . 因: ( )理论上, 如果要对语音信号进行准确的描述, 需 1 要高维的特征参数来表征( 同时描述低频信息和高频信 息) 而高维的参数获取时往往由于训练数据不足带来 . 矩阵奇异、 矩阵的逆求解困难以及方程组无法求解等一 系列数学问题, 因此实际操作时, 常常利用低维参数来 近似地表征语音信号, 即“ 丢弃” 一些细节信息, “ 保留” 轮廓包络信息, 而这最终导致了语音转换后特征参数 )G “ 过于平滑” 的现象; ( 2 M M 转换算法成立的前提是
更多技术文章,论文请登录
第3 期 年3 月 2 0 1 0
电 子 学 报 A C T AE L E C T R O N I C AS I N I C A
V o l . 3 8 N o . 3 M a r .2 0 1 0
基于状态空间模型的子频带语音转换算法
徐 宁1 , 杨 震1 , 张玲华2
特性, 基本解决了参数“ 跳变” 的问题 .
2 语音转换系统框架
图1 是本文 提出的基于状态空间模型的子频带语 整个系统分为训练阶段和转换阶段 音转换系统框图 . 在 训 练 阶 段,首 先 将 语 音 信 号 通 过 两个 部 分. ] 2 1 模型[ 分析, 提取源和目标的语音参数, 包 S T R A I G H T 括语谱参数和相对应的基频轨迹, 然后对语谱参数进 行小波分析, 并提取低频系数 . 当源和目标小波系数经 ] 2 2 过动态时间规整( , 算法[ D y n a m i cT i m eWr a p p i n g D T W) 对齐后, 就可以用于训练 S 在转换阶段, 待转换 S M了 . 的源语音同样经过 S 分析和小波分析, 并提取 T R A I G H T 小波低频系数用 S 而同时保留小波高频 S M 进行转换, 系数不变, 用于和转换后的小波低频系数重构语谱参 最终修改后的基频轨迹和转换后的语谱参数通过 数. 模型合成语音 . S T R A I G H T
( , , , ; 1 I n s t i t u t e o f S i g n a l P r o c e s s i n ga n dT r a n s m i s s i o no f N a n j i n gU n i v e r s i t y o f P o s t s a n dT e l e c o m m u n i c a t i o n s N a n j i n g J i a n g s u2 1 0 0 0 3 C h i n a , , , ) 2 . C o l l e g e o f T e l e c o m m u n i c a t i o n&I n f o r m a t i o nE n g i n e e r i n go f N a n j i n gU n i v e r s i t y o f P o s t s a n dT e l e c o m m u n i c a t i o n s N a n j i n g J i a n g s u2 1 0 0 0 3 C h i n a
内容版权归作者所有
更多技术文章,论文请登录
第 3 期 徐 宁: 基于状态空间模型的子频带语音转换算法 6 4 7
假设各个语音参数帧之间是统计独立的, 因此必然忽 视了语音相邻帧之间存在着很强的相关性这样一个事 实, 从而产生了转换后的语音相邻帧的特征参数出现 “ 跳变” , 而不是平滑过渡的现象 . 现在也有一些学者针 对这两方面的问题展开了研究并提出了不同的改进方 等人通过引入动态频率规整和计算全局标准 法: T o d a ] 1 4 差的技术来避免过平滑问题[ 等人提出 . C h u n g H s i e n 了采用隐马尔科夫模型( , ) 来 H i d d e nM a r k o vM o d e l H M M ] 1 5 跟踪语音相邻帧之间参数的变化特性[ . 本文针对以上两方面的问题, 提出了一套全新的 解决方 案: 一方面利用小波分析呈现多分辨率的特 , ] 1 6 1 7 点[ , 对语音信号进行“ 分带” 处理( 即低频部分用较 少的系数表示, 高频部分用较多的系数表示) , 用这种 既保留了低频包络信息, 又不丢失高频细节信息的方 法来克服转换后参数“ 过于平滑” 的问题; 另一方面, 首 [ ] 1 8 2 0 , ) 用 次提出将状态空间模型( S t a t e S p a c e M o d e l S S M 于语音转换领域, 用来模拟语音帧间参数连续变化的
S u b B a n dV o i c eMo r p h i n gA l g o r i t h mB a s e do nS t a t e S p a c eMo d e l
1 1 2 , , X UN i n g Y A N GZ h e n Z H A N GL i n g h u a
: V ’ A b s t r a c t o i c e m o r p h i n gi s a t e c h n i q u e t om o d i f ya s o u r c e s p e a k e r s s p e e c ht os o u n da s i f i t w a s s p o k e nb ys o m e d e s i g ( ) n a t e dt a r g e t s p e a k e r . T h e G a u s s i a n m i x t u r e m o d e lG MM b a s e d t r a n s f o r m a t i o n s c o m b i n e d w i t h f u l l b a n d e x t r a c t e d f e a t u r e p a r a m e , t e r s h a v e b e e nc o m m o n l ys t u d i e d . H o w e v e r t h e s e m e t h o d s o f t e ni n t r o d u c e p r o b l e m s s u c ha s a r t i f a c t s a n dd i s c o n t i n u i t i e s . I no r d e r t o , ( s t a t e s p a c e m o d e l S S M)i s f i r s t u s e dt od e s c r i b e t h e r e l a t i o n s h i pb e t w e e nt h e s o u r c e s p e e c h r e s o l v e t h e p r o b l e mm e n t i o n e da b o v e ( ) WT i s a p p l i e d t o d e c o m p o s e s p e e c h s i g n a l s i n t o a n dt h e t a r g e t s p e e c hi n t h e s p e c t r a l d o m a i n . T h e n D i s c r e t e Wa v e l e t T r a n s f o r m D , s u b b a n d s i no r d e r t o i m p r o v e t h e q u a l i t y o f t h e c o n v e r t e d s p e e c h . F i n a l l y e x p e r i m e n t s u s i n g b o t h o b j e c t i v e a n d s u b j e c t i v e m e a s u r e m e n t s a r e c o n d u c t e dt ov a l i d a t e t h e e f f e c t i v e n e s s o f t h e p r o p o s e dm e t h o d . : v ; ; ; ; K e yw o r d s o i c e m o r p h i n g G a u s s i a nm i x t u r e m o d e l s t a t e s p a c e m o d e l f u l l b a n dc o n v e r s i o n s u b b a n dc o n v e r s i o n .