MELP_CELP混合语音编码方法研究
超低速率MELP语音编码算法研究
摘 要 :在 语 音 编 码 算 法 中 , 和 激 励 线 性 预 测 ( L ) 法 因 为 能更 好 的模 拟 自然 语 言 特 征 , 混 ME P 算 在低 速率 上 能 合 成 较 高 质 量 的语 音 , 成 为现 代 低 速 率 语音 编 码 中 最 有潜 力 的算 法 之 一 。但 在 无 线 通 信 、 星 通 信 以及 军 用 和 保 密 通 信 而 卫 中 。 道 带 宽 成 为一 个 突 出的 问 题 , 此 对更 低 速 率 语 音 压缩 编码 技 术 乃 至 超 低 速 率 的语 音 压 缩 编 码 技 术 的 研 究 是 信 因 非 常有 必 要 的 。针 对 语 音通 信 中关 于 极低 速 率 的要 求 , 入 分 析 了 现 今 的几 种 基 于 ME P的 低速 率 语 音 编 码 算 法 . 深 L 对 其原 理 以及 关 键 技 术进 行 了归 纳 总 结 , 对语 音 质 量 进 行 了 比较 。 并
关 键词 :语 音 编 码 ; 性 预 测 ; 帧 联 合量 化 ; 线 多 混合 激 励 ; 谱 对 频 率 线 中 图分 类 号 :T 9 23 N 1. 2 文 献标 识 码 :A 文章 编 号 :1 0 -6 0 2 0 ) 61 9 -5 0 0 3 (0 7 - 。16 3 0 0
rt a e, S t b c m e n f t e mo t p t n a g rt m s n e mo e o b t r t p e h c d n . I O i e o s o e o h s o e t l a o i i l h i t h d m l w i a s e c o i g n e
MELP_新的2400bit_s美国联邦声码器标准
最终的基音估算后, 我们计算傅里叶级数和增益。傅里叶级数
们对 LPC 逆滤波得到的残差信号进行傅立叶变换, 取其前 10 次 谐 是对残差信号加了窗长 200 点 的汉明窗后进行 512 点的 FFT 得到
波的值, 量化后传 到对端, 用 以合成周 期脉冲。这样有 助于提高 合 的。增益是信号加窗后求得的 RMS, 窗长是随基音的改变而自适应
LPC 估
算
逆滤波 最终基音P3
计算 尖峰值
是 P3E 0. 06
否 倍频检测 是
P3E 0. 55 基音决定
输出 量化
闭, 这样, 除了 主要的 声门 脉冲以 外, 还有 许多的 次要 脉冲。鉴 于 此, 算法使用一个固定的脉冲整形滤波器( 65FIR 滤波器) 对合成 语 音进行后处理。它能让激励信号的能量散布于整个基音周期之内。
500Hz, 500~ 1 000Hz, 1 000~2 000Hz, 2 000~3 000Hz, 3 000~4 会用非周期脉冲作为激励 来合成话音; 否则, 非周 期标志位被置 0,
000Hz, 在 每 个 子 带 上 分 别 对 话 音 进 行 分 析, 依 据 其 话 音 强 度 在合成端会用周期脉冲作为激励来合成话音 。
基本的 LPC 模型认为产生声音的声道可以用一个全极点的 线 性系统来 模拟, 并且 人的语音由周期 性成分和 非周期性成 分组成,
周期性 成分中的周期就是基 音周期。依据 某一段语音 是否具有周 期性 把它分 成浊音 或清音, 对于 浊音或 清音分 别采用 以基 音为周 期 的周 期脉 冲序 列或 白噪 声作 为激 励信 号, 在进 行 清、浊音 判决 后, 分别以相应的激励信号通过这个全极点的系统来合成语音。这 种基 本的 LPC 模型 能够在很 低的 速率上 合成 出可懂 度较 好的语 音。然而, 由于模型过于简单, 合成语音的自然度不好, 并常伴有蜂 鸣声( buzzy) 。为此, 人们已提出 多种对基本的 LPC 模型进行改进 的方法。1978 年, J. Makhoul 提出了语 音压缩的混合激励 源模型, 以周期脉冲和噪声的混合作为激励源来合成 语音[ 1] 。进一步的研究 表明, 在低 通滤波 后的周 期脉冲 中混入 高通滤 波后的 噪声 可以改 善合成语音中的蜂鸣声。Itakura and Saito[ 2] 和 Fujimura[ 3] 提出了 一种多带混合激励的声道声码器。此外, 在 LPC-10e 中也引入了这 种思想。
混合激励语音编码算法的研究与实现
混合激励语音编码算法的研究与实现
语音编码技术在数字通信系统中起着重要的的意义。
在目前的低码率语音编码研究中,混合激励线形预测编码(MELP)是一种比较好的方法,2.4kb/s的MELP编码方法已经被确定为美国新的联邦语音编码标准。本论文通过研究MELP的语音编解码算法的原理,对它的编解码过程作了比较深入的研究。
提出了将相似度函数用于基音提取和连续帧的声道滤波器的相关性分析中去,得到了一种有效且简便的基音提取方法并且降低了码率。本论文第一章简要叙述了语音编解码技术发展状况、评价语音编码性能的方法和本文的组织结构;第二章简要介绍了MELP语音压缩编码算法的概况和MELP算法新增的五大特点;第三章介绍了相似度函数在基音提取和连续帧的声道滤波器的相关性分析中的应用;第四章详细介绍了MELP算法的编解码过程。
混合激励线性预测(MELP)编码方法研究及在商业规范化服务中的应用
形 内插等编码方法的思想发展起来的 使得编码方法更好的利用
语音 的发音机制 可 以在低 速率下得到较高质量的语音 。
二.LC方法的缺点及 M L 方法概述 P EP
,
3 0 Hz 4 0 H 在每个子 0 0 ~ 0 0z
,
混合激励模型主要是在 二元 激励 的基 础上 针对二元激励模 带上分 别对语音进 行浊音强度 (o es eg ) V i t nt 的计算 , c r h 依据其浊 型存在的一些问题做了相应的改进。 由于二元激 励模 型中浊音 采 音强度和基音搜 索的结 果来 判断该子 带语 音是 清音、 浊音还 是抖 用周期脉冲作 为激励 , 清音采用 白噪声作为激励 所 以它具 有很 动浊 音。 合成 时 , 根据各子 带的属性和浊音强度对通过该子带 滤 多的缺点 : 波器 的噪声 周期 脉冲和 非周期 脉冲进 行加权求和 . 为激励 。 作
用中最重要 最基本的组成部分之一。 也正 因为信息 化社会 的高
鉴 于上面 L C模 型中存在的一些缺陷 ,在后来的 ME 型中 P 模
速发展 , 媒介资源 .存储资源也就显得更加宝贵 。因此 , 压缩 语 有针 对性的进 行了改进 。 对于 LC中对语音的分类和激励过 于简 P 音 信号 的传 输带 宽~ 直是 人 们追 求的 目标 。 在 贝尔 实验 室的 单的问题, E M 模型采用了周期脉冲和白噪声的混合激励 ;对于 H me D de o r ul y于 13 年发 明了第一个 声码 器之后 ,语音压缩 编 帧内基音 周期 的时变特性 把语 音分为浊音 清音 和抖 动浊音 . 9 9 码技术进入 了一个新 的时代 。 CT 已经制订 了几个 国际化的语 对于抖动 浊音 采用了非周期 的脉冲激励 : 对二元激励 L C忽略 C IT 针 P 音编码标准 , 这些标 准规范并推动 了语音编码的研究 但是也 可 了激 励信 号的形状信息 ,在 ME 模型 中编码 了激励信号 的傅 立叶 以看 出这些标准的编码速率 都比较高;而美 国联邦标准 LC 谱 的幅度 。而且 M 模型还加入 了脉 冲散 布滤波器和 自适应谱 P -1 0 E 以及 L C O P -1e尽管能够 在 2.kp 合成 出清晰 可懂 的语 音 合 增强 滤波 器来提 高语 音质量 , 4bs 但 下面我们就来看 一下 M 模型 中的 E 成语音在 自然度等方面并不令人 满意 。ME P A a L 是 l V.Mc re 几个新特 征。 n Ce 等人提出 的, 是在原来 L C基础上 , P 吸收了多带激励 以及原型波
混合激励线性预测语音编码的算法研究的开题报告
混合激励线性预测语音编码的算法研究的开题报告一、研究背景及意义随着语音通信及多媒体技术的飞速发展,语音编码已成为通信、多媒体通信领域的一个重要研究方向。
目前,语音编码算法主要分为基于模型的编码方法和基于变换的编码方法两大类。
其中,线性预测编码(LPC) 是一种基于模型的语音编码方法,它通过多项式拟合的方式,实现在时域上对语音信号的预测和编码。
然而,传统的 LPC 编码方法具有计算量大、效果差等缺点,不利于语音数据的传输和存储。
针对上述问题,混合激励线性预测 (Mixed Excitation Linear Predictive, MELP) 语音编码算法应运而生。
MELP 采用了多种激励信号,如基于脉冲编码调制 (PCM) 的激励信号和基于长序列的激励信号等,通过对不同激励信号的组合,实现对语音信号的高效编码和压缩,其编码效率比传统的 LPC 算法高出一倍左右,并且在低比特率下仍能保持良好的语音质量。
本文旨在对 MELP 语音编码算法进行深入研究和探讨,探究其在语音通信和多媒体通信领域的应用前景,从而提高通信和语音系统的性能和质量。
二、研究内容(1)MELP 语音编码原理的深入研究,包括多种激励信号的生成、基于线性预测模型的语音信号预测、声道模型的建立等。
(2)基于 MELP 编码算法的语音信号编码过程进行研究,包括语音信号的预处理、分帧处理、激励信号的选取和量化、LPC 系数的计算和量化等。
(3)通过对比其他语音编码算法和实验,验证 MELP 编码算法在低比特率下的优越性,探究其在多媒体通信和语音通信领域的应用前景。
三、研究方法(1)文献调研:通过阅读相关文献和专利,了解 MELP 算法的发展历程和现状,掌握其原理和应用范围。
(2)算法设计:基于 MELP 编码原理进行算法设计和实现。
(3)性能分析:通过实验和仿真等方式,对比 MELP 算法和其他语音编码算法的性能,并分析其在不同情况下的优缺点。
语音增强技术在MELP声码器中的应用
语音增强技术在MELP声码器中的应用作者:张俏杨骁汤炜来源:《数字技术与应用》2013年第12期摘要:为了使得MELP声码器在高噪声环境下仍然获得较好的语音效果,需对含噪声语音进行语音增强。
本文采用谱减法和独立分量分析相结合方法,对语音进行增强。
该方法可以在不增加语音采样硬件的条件下,满足独立分量分析中观测信号的数目不少于源信号数目的约束条件。
结果表明,该方法能较好的分离出噪声和语音信号,增强输入到 MELP声码器中的语音信号,提高MELP声码器在高噪声环境下应用的语音效果。
关键词:独立分量分析谱减法语音增强混合激励线性预测声码器中图分类号:TP301.6 文献标识码:A 文章编号:1007-9416(2013)12-0052-041 引言数字对讲机的系统框架主要分为模拟和数字两部分,不同制式标准的差别主要在数字部分。
声码器是数字对讲机的一个关键模块,在基于dPMR协议数字对讲机系统中要求声码器具有低的语音编码速率。
MELP声码器在低语音编码速率下仍能得到较好的语音效果,在数字对讲机中已得到了广泛的应用[1,2]。
数字对讲机在高环境噪声下应用时,为了得到较好的语音效果,需要对数字对讲机采集得到的含噪声语音进行语音增强。
周围环境将影响现实生活中语音的质量,对于数字对讲机的应用环境的多样性,如保安、工地、装卸、火车等;背景噪声更是多样性,如其他说话人的噪声、工地上的机器噪声、其他的机械噪声以及传输系统自身的噪声,因此,对讲机的接收端信号为带噪声的语音信号,为了实现更好的语音输出,在接收端对语音进行去噪声非常必要。
语音增强算法有谱减法、维纳滤波法、小波变换法和独立成分分析法等[3,4]。
谱减法适合加性噪声单路语音的增强,首先对带噪声语音进行噪声估计,用带噪声语音减去噪声估计值,从而达到语音增强目的。
但是若噪声估计不准确,会严重影响语音增强效果。
独立成分分析对于两路或者多路语音增强有较好的效果,是最近语音增强研究热点。
2.4 kbps MELP标准编码的量化性能优化
2.4 kbps MELP标准编码的量化性能优化黄蕊;赵晓群【摘要】现如今通信信道环境日益复杂,因此对低速率语音编码的要求逐步提高,在保证合成语音质量的前提下降低编码速率有着重大的意义.在2.4 kbps MELP标准编码的比特分配中,LSF参数占据了很大的比重.本文将自适应多速率语音编码中的LSF参数量化技术应用在MELP编码中,并且提出了一种基于高斯自扰动的码书训练方法,对已有性能较好的量化码书添加适当的高斯自扰动作为训练数据,通过训练获得尺寸缩小的较好码书.通过实验验证,改进的MELP在1.84 kbps上效果良好.【期刊名称】《燕山大学学报》【年(卷),期】2019(043)001【总页数】7页(P34-40)【关键词】混合激励线性预测:自适应多速率语音编码;码书训练;高斯自扰动【作者】黄蕊;赵晓群【作者单位】同济大学电子与信息工程学院,上海201804;同济大学电子与信息工程学院,上海201804【正文语种】中文【中图分类】TN912.320 引言在保证语音质量的前提下降低编码速率一直是提高低速率语音编码性能的一个重要研究方向。
在声学模型中,由于线谱频率(Line Spectral Frequency,LSF)有更为优良的抗干扰性和量化性,所以在低速率语音编码中,通常选取10维LSF参数来表征语音的声道特性,并采用高效率的矢量量化技术对其进行量化[1-2]。
2.4 kbps的混合激励线性预测编码(Mixed Excitation Linear Prediction,MELP)一直是低速率语音编码的一个重要研究方向,它可以通过改善量化性能来优化编码性能,其中包括了改进矢量量化器和提高量化码书质量两方面。
语音编码技术经过几十年的发展,为了满足3G移动通信的需求,在1999年8月3GPP公布了基于码激励线性预测(Code Excited Linear Prediction,CELP)的自适应多速率窄带编码(Adaptive Multi Rate-Narrow Band,AMR-NB),其具有4.75~12.2 kbps的8种编码速率,能够更加智能地解决信源和信道编码的速率分配问题,应用至今[3]。
基于CELP的语音编码解读
码激励线性预测语音编码(CELP)算法
事实上,几乎全部的CELP语音编码器都是基于这种两级 码书结构模型而实现的。
四、语编码的发展方向
语音编码的发展方向
随着通信领域发展的多样化,语音编码的发 展也应是多元化、多分支的。目前,语音编码主 要有以下几个发展方向:宽带语音编码、语音/音 频联合编码、多讲话者的语音编码、甚低速率的 语音编码、嵌入式语音编码等。 目前的多数语音编码标准都能适应一般通信 时的信道状况。然而,当信道状况恶化,只允许 极少的比特通过信道时,比如矿井救援时,就需 要甚低比特语音编码了。
三、码激励线性预测语音编码(CELP) 算法
码激励线性预测语音编码(CELP)算法
•
码激励线性预测CELP(Code Exited linear prediction)编码技术是一种有效的中低速率语 音压缩编码技术,它以码本作为激励源,具有速 率低、合成语音质量高、抗噪性强及多次音频转 接性能良好等优点。在4.8~16Kb/s速率上得到广 泛的应用。 • 采用CELP算法的低速率语音压缩编码很多, 如北美的IS-95、IS-96,日本的JDC半速率标准, ITU的G.723、G.728和G.729采用的都是CELP算 法。
码激励线性预测语音编码(CELP)算法
调整后在搜索前仅对输入语音信号进行加权一次,并有短 时合成滤波器与加权滤波器相组合的全极点感知加权合成 滤波器。
码激励线性预测语音编码(CELP)算法
2、激励参数的码书结构
根据刚才的模型分析得,可以将合成激励看作两个激励的 叠加,一个来自于u (n),用固定码书表示。结合图1和图3可 知,这里的u (n)在理论上具有白噪声的特性。另一个激励信 号 来自于过去的合成激励d (n-M)(M为基音延迟)。这里,d (n-M)由自适应码书表示。自适应码书利用移位寄存器来存储 码矢量,码矢量具有叠接性,若基音延迟M的最大值为 Mmax,则自适应码书的大小为Mmax。自适应码书记录着语 音信号的周期信息,并且每子帧更新一次。两级码书结构的 CELP语音编码模型的原理可用图4来表示。
一种基于MELP的1_2kb_s语音编码算法
一种基于M EL P的1.2kb s语音编码算法辽宁工程技术大学电子与信息工程学院 王 鹏 李本喜[摘 要]混合激励线性预测M EL P编码方法结合混合激励、多带激励以及原型波形内插等编码方法的优点,成为低码率语音编码的研究热点,该方法可以很好的模拟自然语言,在低速率上合成出较高质量的语音,本文以该算法作为基本模型,对参数的内插、高效的矢量量化、多帧联合几项关键技术进行了详细的分析,给出了实现1.2kbp s语音编码的算法,并对算法进行了仿真,从仿真结果可以得出该算法具有可行性。
[关键词]多级矢量量化 联合帧 参数内插 混合激励——12—301—(上接第101页)地说:热量和水量在本质上是不同的。
必须指出的是:水泵自低位水源吸取的水量等于压送到高度水位的水量;而制冷机向高温物体排送的热量却等于它向低温物体吸取的热量加上输入机械功所相当的热量之和。
2.5类比法在《医学影像设备学》教学中的应用大千世界之万物,无不由分子组成。
组成分子的原子,则由原子核和围绕原子核旋转的电子组成。
在磁场中旋转振荡的原子核有一个特点,即可以吸收与其旋转振荡频率相同的电磁波,使原子核的能量增加,当原子核恢复原状时,就会把多余的能量以电磁波的形式放出来。
简而言之:所谓的核磁共振,就是指具有磁矩的原子核在恒定磁场中由电磁波引起共振跃迁的现象。
在讲述时学生很难理解,总不明白,此时如果把这一现象比作拉小提琴时弦弓与琴弦的共振一样,学生就容易理解和掌握。
3、类比在学习新知识中的迁移作用3.1定义式具有相同形式的物理量间的类比例如:电流I =Q t 、电场强度E =F q 、功率P =W t 等诸如此类的物理量是用比值法定义的。
在讲授时运用类比,既有利于新概念的引入,又可以加深学生对旧概念的认识;既有利于教学难点的突破,又能总结出这一类物理量的共性。
3.2相似的物理过程的类比《模拟电子线路》中的L C 振荡电路和《医用物理学》中的弹簧振子是两个相似的物理过程,两者的类比可使学生在已有的简谐振动表象基础上学习电磁振荡知识,而且通过类比建立起两类不同性质的过程间的联系,即力学过程,电磁过程间的联系,从而加深学生对物理统一性的认识。
低码率语音编码MELP的SOPC实现
此 可 进 行 具 体 的 硬 件 设 计 。 同 时 给 出 了 ME P编 解 码 框 图 , 用 于 进 一 步 的 软 件 编 制 。 L 可
b t a e n we k p a e ’ i d vd a o a c a a tr S ME P s s e il f fr h o c so wh c n e we k p a e ’ i r t a d a s e k r S n iiu l r l h r ce . o L i e p c al i o t e c a in y t ih e d a s e k r S i d vd a o a c a a tr T e P r aiain u l e s p o o e . Ac od n t t i o t n , t e eal d h r wae a b n i iu l rl h r ce . h F GA e l t o t n i z o i rp sd c r i g o h s ul e i h d t i a d r c n e e c n t c e .T e ME P c d n e o ig o t n s a s r v d d t r g a t e s f a e o sr t d h u L o i g d c d n ul e i lo p o ie o p o r m h ot r . i w
关 键 词 :ME P; I S I S P L N O I ; O C
中 图 分 类 号 :T 9 23 N 1 .4 文 献 标 识 码 :A
使用MELP方法改进语音音色变换系统
使用MELP方法改进语音音色变换系统倪素萍 张建平 颜永红(中科院声学所中科信利语音实验室 100080)Improved V oice Conversion System Using MELP MethodSuping Ni, Jianping Zhang, Yonghong Yan(Xinli Speech Lab, Institute of Acoustic, CAS 100080)摘要:本文介绍了使用MELP(Mixed Excitation LPC)方法改进的语音音色变换系统,在原本比较单一的基本系统的基础上,增加了MELP方法的多带分析和傅立叶幅度模型,引入新的特征,介绍了新特征的变换方法;在合成部分加入了MELP的自适应谱增强和脉冲扩散,来进一步改善变换得到的语音质量。
并比较、分析了基本系统和MELP改进系统的结果。
1 介绍这里介绍的语音音色变换技术是指将一个特定说话人(源说话人)的语音变换成另一个特定说话人(目标说话人)说出的话的一门技术。
该技术需要两个过程:一是训练过程,一是变换过程。
训练过程是对源和目标说话人的同一句话的训练数据分别提取每帧特征,然后建立对所有帧的源和目标特征的变换函数;变换的过程就是将源说话人的任意一句话按帧提取特征,用训练出来的变换函数计算出变换后的特征,使用该变换后的特征合成出语音。
本文分五部分进行叙述,第2部分,简要介绍了本文所采用的基本系统;第3部分,介绍MELP方法改进的系统;第4部分比较基本系统和MELP方法改进系统的结果比较;第5部分给出结论和未来的工作。
2 基本系统本文描述的基本系统采用了源和目标说话人的线谱频率LSF、基音频率F0和能量增益E 三方面作为特征,采用混合高斯模型,用线性回归的方法建立其对应的变换函数[1-2]。
利用变换函数对源说话人的语音进行变换,使变换后的语音听上去像目标说话人说出的话。
这里,LSF描述了声道特性,E是线性预测合成滤波器的增益,F0则用于合成时的激励模型。
混合激励线性预测语音编码标准中线谱频率量化的研究
混合激励线性预测语音编码标准中线谱频率量化的研究肖东;莫福源;陈庚;马力【摘要】线谱频率(Line Spectral Frequency,LSF)是线性预测频谱系数(Linear Predication Coefficient,LPC)有效的编码形式.语音线性预测模型中,LPC反映了声道调制的模型,是影响语音听觉感知重要的参数之一.在混合激励线性预测语音编码(Mixed Excitation Linear Prediction,MELP)标准中,对LSF采用4级码本进行分级式矢量量化.首先,为减少其量化冗余度以降低编码速率,本文提出了一种改进的选择算法,生成了一个2级码本替换之.其次,为提高合成语音质量,依据LSF矢量量化的精度与合成语音质量的关系的实验结果,提出根据人耳听觉感知特性进行LSF量化和评价的方法,并予以实验证明.【期刊名称】《应用声学》【年(卷),期】2012(031)002【总页数】9页(P109-117)【关键词】混合激励线性预测语音编码;线谱频率;码本;矢量量化【作者】肖东;莫福源;陈庚;马力【作者单位】中国科学院水声环境特性重点实验室北京 100190;中国科学院声学研究所北京 100190;中国科学院研究生院北京 100190;中国科学院声学研究所北京 100190;中国科学院水声环境特性重点实验室北京 100190;中国科学院声学研究所北京 100190;中国科学院水声环境特性重点实验室北京 100190;中国科学院声学研究所北京 100190【正文语种】中文【中图分类】TN912.32;O4221 引言在某些通信环境下,如水声通信和短波通信中,因带宽限制,语音通信只能采用低速率的参数编码方案。
目前,众多的低速率参数语音编码标准中,混合激励线性预测语音编码(Mixed Excitation Linear Prediction,MELP)是最成功的,被美国国防部选作联邦语音声码器标准。
MELP_CELP混合语音编码方法研究
H ASE ( Z −1 ) =
1 ⋅ A(0.5q ⋅ Z −1 ) A(0.8q ⋅ Z −1 )
1.5 散布脉冲 为了改善在非共振峰频率处合成语音与原始 语音的匹配,MELP 引入了散布脉冲滤波器。在浊 音中,每个基音周期并不只是一个主脉冲,声门关 闭不完全会产生很多的次要脉冲,引入这个滤波器 的目的就是要对合成语音作时域扩展处理,将集中 的脉冲激励能量散布开, 增加语音的平滑性。 MELP 中采用的散布脉冲滤波器的系数可以通过对三角 脉冲作 DFT 变换,然后去除掉低频部分,进行归 20
李建磊 等:MELP/CELP混合语音编码方法研究
基音周期 浊音强度 语音 预处理 基音周期和浊 音强度计算 基音周期 浊音强度 是否为 强浊音 否 基音周期 是 MELP 编码 量化
LP分析
LP 系数
CELP编码
图 1 MELP/CELP 混合编码器
2.2 相位对齐 对齐相位 φ A 是为了保持合成信号和原始信号 的时间同步, 它是使得 MELP 激励信号的与线性预 测余量信号相关性最大的线性相位。 φ Ak 是第 k 帧 的对齐相位, ωk = 2 π/Pk 是第 k 帧的基频。每一点 的相位和角频率要通过插值获得,一般采用三次的 多项式插值[5]:
算法采用多带混合激励模型。 语音被分为 5 个固 定的频带 0~500 Hz, 500~1000 Hz, 1000~2000 Hz, 2000~3000 Hz,3000~4000 Hz,在每个子带上分别 对语音进行浊音强度(Voice strength)的计算,依据其 浊音强度和基音搜索的结果来判断该子带语音帧是 清音、浊音还是抖动浊音。合成时,根据各子带的属 性和浊音强度对通过该子带滤波器的噪声、 周期脉冲 和非周期脉冲进行加权求和作为激励。采用混合激 励,可以减少合成语音中的蜂鸣声。 1.2 非周期脉冲 混合脉冲和噪声激励可以消除 LPC 声码器的 嗡嗡声,但是无法消除一些孤立的,短暂的音调, 会产生一些类似电流声的单音噪声。这是由于在清 /浊的过渡段声门脉冲不是很稳定, 从而导致激励没 有严格的周期性。 在过去的 LPC 方法中, 这些都是 当作浊音来处理,从而会引进一些很奇怪又很刺耳 的音调。在 MELP 中,针对这个问题,对基音周期 进行抖动,抖动的幅度服从以基音幅度的±25%为 上下限的均匀分布。这样就打破了激励信号的严格 的周期性,很好的描述了在声门激励不稳定的时候 产生的脉冲的特性。 但是这种抖动如果加在强浊音帧的激励中的 话,就会破坏语音的周期性,也就是破坏了该帧激 励的唯一的参数-基音周期, 会使得语音质量急剧变 坏。所以要准确的判断,是否可以加抖动,这可以 通过计算语音帧的自相关和下面的多峰度来决定。
基于DSP芯片的MELP声码器的算法实现
基于DSP芯片的MELP声码器的算法实现摘要:论文对MELP编解码算法的原理进行了简要分析,讨论了如何在定点DSP芯片TMS320VC5416上实现该算法,并研究了其关键技术,最后对测试结果进行了分析。
关键词:MELP;语音编码;定点DSP芯片TMS320VC54161 引言1996年3月,美国政府数字语音处理协会(DDVPC)选择了2.4kbps混合鼓舞线性推测(MELP)语音编码器作为窄带保密语音编码的产品以及各种应用的新标准由于MELP具有良好的音质、极低的码率,以及良好的抗误码特性,能够应用在IP PHONE、移动通信、卫星通信等领域,专门在需要大量储备话音的场合和保密通信等方面,具有专门好的进展前景。
编码算法有硬件实现和软件实现两种方式,软件实现灵活性强,但处理速度较慢,一样不能满足实时处理的要求。
硬件实现分为专用法和通用法两种。
通用法是基于通用数字信号处理器芯片实现编码算法的,它具有体积小、功耗低、运算速度快等优点,其灵活性要紧表现在软件易于更换以及对各种算法的处理和复杂算法的实现上,专门适用于语音信号、视频信号等压缩处理。
MELP算法复杂度较高,因此实时实现必须借助于高性能的数字信号处理芯片。
目前国内还没有用于研究声码器算法的专用芯片。
因此,从功耗和性能多方面考虑,本文采纳通用法实现MELP声码器算法,选择TI公司的TMS320VC5416 DSP芯片作为主处理器,完成声码器的要紧功能。
2 MELP编解码算法2.1 编码部分编码器基于线性推测分析合成技术,采样率为8kHz,以180采样值(22.5ms)为一帧进行编码,总体框图见图1。
输入的原始语音信号通过隔直滤波(即高通滤波),得到目标信号S(n)。
再对目标信号作以下处理:①低通滤波后用归一化互相关法进行基音粗估,然后依照[0Hz,500Hz]子带信号围绕粗估基音估算分数基音;②带通分析,在5个子带运算话音强度,以决定各子带的清/浊音判决,其中[0Hz,500Hz]子带强度用于确定非周期标志位;③运算LPC和尖峰值,用L-D算法提取10个LP系数,然后乘以带宽扩展系数,使用得到的系数运算残差信号,对残差信号的160个抽样运算尖峰值;④使用截止频率为1kHz的6阶巴特沃兹滤波器低通滤波残差信号,结合上一子帧的基音和当前子帧的分数基因,搜索出最终基音周期;⑤使用一个基音自适应窗采纳一帧两次的方法对增益进行量化;⑥LPC分析,并转换成线谱对LSP参数量化;⑦将量化后的LSP参数转换为LPC参数并进行逆滤波操作,残差信号补0至512点,对其进行512点FFT,利用频谱峰点检测算法找到前10次谐波对应的傅立叶系数输出。
MELP算法的研究及其嵌入式平台的实现
MELP算法的研究及其嵌入式平台的实现语音是一种最基本的人类交流方式,为了满足现代语音通信领域中节省带宽和降低编码速率的需求,低速率的语音编码技术成为了一个热门的研究课题,其在卫星通信、军事应用和安全通信等方面都有着比较广泛的应用和发展前景。
低速率语音编码技术虽然有着较高的复杂度和较大的运算量,但是其具有非常重要的实际价值。
MELP算法属于现有的低速率语音编码算法中比较优秀的算法,其通过采用多带混合激励、脉冲整形滤波、自适应谱增强、非周期脉冲和残差谐波谱处理这五大技术,改进了 LPC-10声码器的不足,从而提高了合成语音的质量。
本论文首先深入地探讨了标准MELP算法的基础知识和编解码原理,并进行了相应的公式推导。
然后在该算法的基础上,采用四帧联合量化和帧内参数插值的技术来设计并实现了 0.6Kb/s MELP算法,并通过合成语音波形图、合成语音质量和算法的复杂度来对该算法进行评估。
最终,在Linux操作系统下用C语言实现了一个基于MELP算法的实时语音通信系统,并将该系统成功移植到香橙派平板(ARM开发板)上。
MELP低比特率数字语音编码技术研究
MELP低比特率数字语音编码技术研究
刘宽海;葛万成
【期刊名称】《信息技术》
【年(卷),期】2003(027)008
【摘要】主要介绍了一种新的低比特率MELP(Mixed Excitation Linear Prediction)混合激励线性预测语音编码技术,其中着重分析了该编码算法所采用的几项关键技术.给出了采用MELP压缩编码算法后的输出比特流在各个参数上的比特分配表,并通过计算机仿真,对MELP合成语音与原始语音的质量做了比较,最后就MELP语音编码技术与现今其它几种不同的低速率语音编码技术的合成语音质量在DRT、DAM及MOS得分三个方面做了比较.
【总页数】3页(P52-54)
【作者】刘宽海;葛万成
【作者单位】同济大学电子与信息工程学院,上海,200029;同济大学电子与信息工程学院,上海,200029
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.一种变比特率MELP语音压缩编码的研究与实现 [J], 马欣;李文元;刘常澍;张毓忠
2.低比特率远程监控视频压缩编码方法 [J], 王晓日;慕晓冬;柯冰;许夙辉
3.基于人眼视觉特性的低比特率图像压缩编码 [J], 王力;王向阳
4.低比特率Bandelet域图像压缩编码算法研究 [J], 王向阳;金海波
5.一种新的用于低比特率视频编码的全零块预先判别方法 [J], 仇晶
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
李建磊 等:MELP/CELP混合语音编码方法研究
基音周期 浊音强度 语音 预处理 基音周期和浊 音强度计算 基音周期 浊音强度 是否为 强浊音 否 基音周期 是 MELP 编码 量化
LP分析
LP 系数
CELP编码
图 1 MELP/CELP 混合编码器
2.2 相位对齐 对齐相位 φ A 是为了保持合成信号和原始信号 的时间同步, 它是使得 MELP 激励信号的与线性预 测余量信号相关性最大的线性相位。 φ Ak 是第 k 帧 的对齐相位, ωk = 2 π/Pk 是第 k 帧的基频。每一点 的相位和角频率要通过插值获得,一般采用三次的 多项式插值[5]:
1 MELP 算法模型和关键技术
语音编码可分为参数编码和波形编码两个大 类。波形编码在速率较高时可得到很好的合成语音 质量, 但当码率降到 16 kbit/s 以下时, 其合成语音 质量会急剧下降。而以线性预测模型为基础的参数 编码方法则能很好的压缩语音的编码速率,下面介 绍参数编码中比较常用的 MELP 模型。 鉴于 LPC 模型中存在的一些缺陷, MELP 模型 中有针对性的进行了改进。LPC 中对语音的分类和 激励过于简单的问题,MELP 模型采用了周期脉冲 和白噪声的混合激励;对于帧内基音周期的时变特 性,把语音分为浊音、清音和抖动浊音,对于抖动 浊音采用了非周期的脉冲激励;针对二元激励 LPC 忽略了激励信号的形状信息, 在 MELP 中增加了激 励信号的傅立叶谱的幅度。此外,MELP 还加入了 脉冲散布滤波器和自适应谱增强滤波器来提高语 音质量, 下面简介一下 MELP 中的几个关键的技术。 1.1 混合脉冲和噪声激励
基音周期 浊音强度
语音
预处理
基音周期和浊 音强度计算
基音周期 浊音强度
是否为 强浊音 否
是
传统 MELP编码
对齐相位计算
相位对齐变换
基音周期
LP分析
LP 系数
CELP编码
量化
图 2 改进后的 MELP/CELP 混合编码器
2.4 试验结果 采用上面论述的混合编码器对一段时长 2.5960 s、20768 个样点的纯语音进行处理。可以得 到与 32 kb/s 的 ADPCM 相近的语音质量,具有很 好的自然度和清晰度。非正式 MOS 得分可以达到 3.80。 进而采用混合编码器对一段 3.6590 s、29272 个
2 MELP 和 CELP 结合编码
MELP 在稳定的强周期性的语音段,可以得 到高质量的重构语音。但是在爆破音、过渡音、 清音段则效果不是很好。这是因为在强周期性的 浊音段,有稳定的参数可以提取,而且参数比较 简单,最主要的就是基音周期,可以较为精确的 描述该语音段的激励信号。而在非周期性或不具 备很严 格的 周期性 的语 音段则 统一 的采用 白噪 声,不能精确的描述语音的激励信号。而码激励 线性预测( CELP)[2]编码则因其是以匹配原始语 音的波形为目的,而在非周期或不严格周期语音 段有着很好的效果;而这种编码方法却不能象一 般的参数编码一样,在强周期性语音段灵活的调 节基音周期等,从而精确的匹配原始语音。 从上面的分析, 我们可以看到, MELP 和 CELP 这两种编码方法在适用的范围上是互补的,我们下 面就讨论一下如何把这两种方法结合在一起。 2.1 MELP/CELP 混合编码简介 在这种混合编码器的编码端,我们把 20 ms 的 语音分为一个语音帧,再把语音帧分为三类:强浊 音、弱浊音、清音。这种分类是根据浊音强度和基 音周期来分的。没有基音周期可言,也就是不具备 周期性,而且浊音强度很低的可以分为清音;如果 基音周期不是很稳定,变化较快,浊音强度不是很 高,这种语音帧我们认为是弱浊音帧;如果基音周 期很稳定,浊音强度很高,这种语音帧我们分为强 浊音帧。对于被确定为强浊音的语音帧,我们采用 MELP 方法编码;对于被确定为弱浊音或清音的语 音帧,我们采用 CELP 方法编码。该方法编码器的 框图如图 1。 由于 CELP 是以保持原始语音的波形为目的 的,所以它的合成语音会与原始语音保持时间同 步。 而作为一种典型的参数编码的 MELP 则主要是 提取并编码激励信号的波形参数。在强浊音帧使用 MELP 编码,主要是提取了原始语音的周期方面的 参数,而没有保留相位方面的信息,这就无法与原 始语音保持时间的同步。 把参数编码和基于波形的编码混合使用在文 献[3]、 [4]中提出过。 但是如果简单的在两者之间切 换就会引入噪声, 我们在 MELP 中加入了相位对齐 并编码,从而保证和原始语音的时间同步。
2008年第 1 期
声学与电子工程
总第 89 期
MELP/CELP 混合语音编码方法研究
李建磊 1 马 震 2 陈延萍 3 (1 山东师范大学管理学院,济南,250014;2 滨州学院计算机科学系,滨州,256600) (3 山东移动滨州分公司,滨州,256600)
摘要 介绍了混合激励线性预测(MELP)的算法特点和采用的几种关键技术。在 MELP 基础上,针 对 MELP 对周期性不强的语音帧(过渡帧、清音帧等)不能准确描述其激励形状,提出了采用 MELP/CELP 互补的混合编码方案,并在 MELP 中采用了相位对齐的方法。MATLAB 仿真发现 8 kb/s 的这种混合编码器 可以获得与 32 kb/s 编码速率的 ADPCM 相近的语音质量。 关键词 混合激励;码激励;对齐相位
H ASE ( Z −1 ) =
1 ⋅ A(0.5q ⋅ Z −1 ) A(0.8q ⋅ Z −1 )
1.5 散布脉冲 为了改善在非共振峰频率处合成语音与原始 语音的匹配,MELP 引入了散布脉冲滤波器。在浊 音中,每个基音周期并不只是一个主脉冲,声门关 闭不完全会产生很多的次要脉冲,引入这个滤波器 的目的就是要对合成语音作时域扩展处理,将集中 的脉冲激励能量散布开, 增加语音的平滑性。 MELP 中采用的散布脉冲滤波器的系数可以通过对三角 脉冲作 DFT 变换,然后去除掉低频部分,进行归 20
1 N −1 2 ∑ e (n) N n=0 1 N −1 ∑ e(n) N n=0
peakness =
多峰度的大小描述了峰值是否明显。 1.3 余量信号的傅立叶谱幅度 19
李建磊 等:MELP/CELP混合语音编码方法研究 我们知道各种对语音信号的激励的编码方法, 包括多脉冲、码激励、二元激励等都是为了更好的 描述余量信号的信息。在浊音中,余量信号所包含 的信息量要远远少于原始语音信号,首先在幅度范 围上就小于原始语音信号;而且包含较少的几个脉 冲, 形状上也要比原始语音信号要简单的多。 但是, 余量信号也是有一定形状的。如果只是采用周期性 的脉冲作为激励,虽然可以描述余量信号的周期性 信息,却失去了余量信号的形状信息,这就导致合 成语音质量的下降。 从时域来描述余量信号的形状信息是比较困 难的,因为对于按周期合成的语音来说,周期内的 余量信号的长度不定,这就会给量化带来很大的麻 烦,所以可以从频域来描述余量信号的形状信息。 在 MELP 中, 采用对各基音周期谐波处的傅立叶级 数幅度进行量化的方法来描述余量信号的形状信 息。 通过这种方法可以改善 LPC 合成语音中语音嘶 哑等弱点,而且提高了抗噪声的性能。 1.4 自适应谱增强 为了使合成语音的频谱能够在共振峰所处的 频带与原始的语音信号匹配得更好, 引入了自适应 谱增强。这是因为从时域看,LPC 合成语音两个主 激励之间会衰减的比自然语音要大的多;而从频域 看,LPC 滤波器的共振峰要比自然语音的共振峰要 缓和。为了解决这个问题, 引入了自适应谱增强滤 波器。它是一个零极点滤波器, 由两部分组成。第 一部分是一个全极点的滤波器, 用来增加每个共振 峰的带宽,由 LPC 滤波器在每个 z −1 前面乘以一个 因子 A= 0. 8 得到; 第二部分是为了减小前面全极点 滤波器的低通效应而引入, 为一个全零点的滤波器, −1 由 LPC 滤波器在每个 z 前面乘以一个因子 A=0.5 后求倒数得到,可以使处于波谷的信号值有所提 升。传输函数可以写为: 一化处理后再进行 IDFT 变换即可得到。
越来越多的信息需要通过有限频带的信道进 行传输,这就要求语音压缩编码技术除了具有较高 的合成语音质量外,还要尽可能地降低编码速率。 MELP 是 Alan V McCree 等人在原来 LPC 基础 上,吸收了多带激励的思想提出的[1]。本文介绍了 MELP 中的关键技术,并且根据 MELP 的特点,提 出了 MELP 和 CELP 相结合的编码方法,在这种方 法中把语音分成强浊音、弱浊音和清音三种类型, 对于强浊音使用 MELP 编码, 对于清音和弱浊音使 用 CELP 编码,并且提出了对齐相位的概念,可以 有效的消除两种编码方式时间不同步而产生的转 换噪音,最后对这种编码方法产生的语音进行了简 单的评估。
样点的含白噪声的语音进行编解码处理。与 32 kb/s 的 ADPCM 进行 A/B 测试,选择混合编码器语音与 选择 ADPCM 语音人数比为 17:13。非正式 MOS 得 分为 3.45。采用同样的方法,对加入汽车噪声的语 音进行处理,A/B 测试结果为 16:14,非正式 MOS 得分为 3.65。从试验结果来看,对于加入噪声的语 音,混合激励编码器也能很好的进行处理。 (下转第 25 页) 21
φP = φ A +
k k −1
ωk −1 + ωk
2
T
ω (t ) = 3a3t 2 + 2a2t + a1
其中 0 < t ≤ T ,T 是一帧的长度。多项式系数可以 如下求得:
并对多项式系数作如下修正:
a3 =
ω k −1 + ω k
T
2
−2
φ d'φA 2ω + ωk a2 = 3 k 2 k −1 − k −1 T T a1 = ωk −1
k k −1
a3 =
ωk −1 + ωk
φA − φA
a2 = 3