极低速率语音编码的新发展与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

*)&’ "01 " 分 段 声码 器 和 基于 语 料 库的 声 码 器等 算 法 # 全面 论 述 了极 低 速 率语 音 编 码算 法 中 运用 的 方 法理 论 及 最
新的研究成果 " 并对这些算法进行了比较和分析 " 得出结论 $ $ 关键词 % 极低速率声码器 % 线性预测 % 矢量量化 % 波形内插 $ 中图分类号 % *+,!# $ 文献标识码 % -
形 内 插 $3@F&F&SWA U=RA?F@O N>&A@WFI=&%F>"3UN%" 该 算 法以基音周期为基本分析单元 " 利用了浊音语音的周 期波形随时间慢渐变的特点 " 每隔一段时间传送一个 基音周期波形到译码端 " 然后在译码端通过内插重建 没有传送的基音周期波形 " 这样就很好的控制了浊音 语音的周期度 " 合成了高质量的重建语音 ! 其中 " 被传 送的基音周期称为原形波形 $3U%" 但 3UN 仅适于浊音 语音质量编码 " 对清音合成比较简单 " 因此必须与其它 算法 $ 如 4:23%结合使用 ! -55* 年 "U1;1+IA%V%> 又提出 了波形内插 $UN% 算法 " 即能编码浊音信号又能编 码清 音信号 " 从而避免了与其它算法混合使用 ! UN 算法也
234 模 型 能 在 较 低 的 速 率 上 合 成 出 可 懂 度 较 好 的 语
音 " 因此 -56) 年美国确定用 2347-8 作为 /1* +$’( 速 率上的语音通信标准 ! 后来出现的 9:23"4:23"9;:"
输入语音
!
KJL
语音窗
<:23 等低速率声码器算法都以 234 为基本模型 ! ,1-1/
码激励线性预测声码器 !4:23 " 由于 234 模型过于简单 " 合成语音自然度不好 " 为 此 9=>?@AB C1<DE@FABA@ 和 ;%(E>G <1H&=I 提 出 了 用 码本作为激励源的线性预测编 码技术 $4:23%! 4:23 以 其 高 质 量 的 合 成 语 音 及 优 良 的 抗 噪 声 性 能 在 #5!! 年被确定为 *1! +$’( 的编码标准 $J:K7<LK %! 但该算 法码矢量搜索的运算复杂度很大 " 且它采用的均方误 差准则对低速率和极低速率语音编码并不适用 " 所以
!bc#c$ ^$" !^NN-P\H) YN
-$ )
& 电声技术 2005-06 %
语音技术
!"#$% &%$’(")"*
所 以 可 认 为 语 音 压 缩 编 码 的 极 限 速 率 为 !" !#""
+
$%&’( ! 但这时只能传送语言内容 " 说话者的音质 # 音调
等重要信息已全部丢失 ! 从标准编码速率 $)* +$’( % 到 极限速率间存在着很大的跨距 $ 约 )*" 倍 %" 这对于 语 音压缩编码的研究和实践有极大的指导意义 !
.(.(’
矢量量化 !/0 " 矢量量化的基本原理是将若干个标量构成一个矢
图/
!
正弦波叠加
<L4 的编解码框图
!%! ,1,1#
混合域编码 波形内插 !UN " 波形内插算法由 U1;1+IA%V%> 提出 " 最初为原形波
4:23 在进一步降低速率时难以获得很好的语音质量 ! !"$ ,1/1#
频域编码 多带激励声码器 !9;:" 多带激励就是将语音谱按基音谐波频率分成若干 子带 "对各带信号进行清浊判决 "然后根据判决结果采 用不同的激励信号合成语音 " 最后将各带信号相加形 成全带合成语音 ! 该算法在 /1*M*1! +$’( 速率上合成出 音质比传统声码器好得多的语音 " 有较好的自然度和 容忍噪声的能力 ! 其改进方案 N9;: 被国际海事卫星 组 织 于 -55- 年 定 为 标 准 &N>O=@(=&79 PF%DA 4FBADQ
RA@(%F> /’.,0! 其声码器框图如图 # 所示 ! ,1/1/
正弦变换编码算法 !<L4 " 正弦变换编码完全脱离了线性预测的框架 " 对语
电声技术 200506
" !
!"#$% &%$’(")"*+
是将一系列渐变波形 ! 在浊音段 ! 渐变波形具有明显的 周期性 " 在清音段 !渐变波形表现为类噪声性 #
极低速率数字传输在语音通信领域中的作用日益 重要 ! 现有的极低速率语音编码系统所使用的算法种 类繁多 !各有所长 !并正出现交叉渗透的现象 ’
为 是 音 素 ! 音 素 约 为 ^$] "$"Y 个 ! 若 每 秒 平 均 发 出 ^N 个音素 !则其信息熵为 (
!bU8:$-$"Y)^Nb]N-P\H)
-^ )
如果从文字角度来估计 ! 把发音看成是以语音速 率来发报文 ! 对英语来讲 ! 每个字母为 c P5C! 每分钟
#J!
理论依据 从声学理论分析语音信号存在很大的压缩空 间 !
^$" 个英语单词就可认为达到了通信语音速率 ’ 如果
单词平均由 c 个字母组成 !则信息熵为 (
L 基金项目 M 国家自然科学基金 -YN%c$N%] )T
基音周期 谱包络参数 脉冲序列发生器 清浊音判决器 随机噪声发生器 时变数字滤波器 合成语音
,
主要方法
语音编码可分为参数编码和波形编码两大类 ! 波
图-
9;: 声码器框图
形编码在编码速率高时可得到很好的合 成语音质量 " 但当码率降到 -) +$’( 以下 " 由于能传输的波形少 " 合 成语音难与原始语音在波形上很好地匹配 " 语音质量 会急剧下降 " 所以极低速率声码器普遍采用参数编码 方式 "下面分别分析时域 #频域和混合域的编码模型 ./0! 音信号进行傅里叶分析 " 提取最能表示语音信号的几 个频率成分 " 并用这些时变的频率 # 相位和幅度的正弦 波合成语音 ! 起初这种编码算法不需要对相位编码 " 为 提高质量 "CF$A@& 9DHGI=S 在 #5!T 年提出了一种改进 的 <L4" 主要在合成端引入了相位参数 ! 自此该算法开 始应用到低速率语音编码中 " 并在低于 * +$’( 速率下 获得了较好语音质量 ! 其编解码框图如图 / 所示 !
$%& 和 %& 算法在 ’(")" *+,- 编 码 速 率 之 间 较 好
地合成语音质量 # 虽然压缩速率不是极低 !但该算法为 降低语音编码速率提供了一条很好的途径 ! 即参数的 波形内插 # 算法框图如图 . 所示 #
原始语音
9:;
:% 提取
去除谱包络
基音周期
量化编码 信道 译码 当前 :% 当前 :% 与原 :% 对齐
!"#
语音技术
量 化 也 进 行 了 改 进 ! 由 此 得 到 了 >== +,- 速 率 的 声 码 器 !对 汉 语 语 音 %他 去 无 锡 市 !我 到 黑 龙 江 &进 行 编 解 码 !其合成语音波形图和窄带语谱图如图 8 所示 ! 从中 可看出 ! 该 >== +,- 声码器合成语音可很好地模拟原始 语音的时域波形 ! 其共振峰结构也吻合得很好 ! 具有较 高的可懂度 ’清晰度以及一定的自然度 #
%I.A /3@:8 & .&+V (8Q?BH # &’( # G?FC8B SLA9C5K?B # OAG?E8BD 59C?B@8UAC589
W
引言
低速率数字语音传输具有重大的实用价值 ’ 在实
其原因主要体现在 _^‘( "^ ) 语 音 信 号 中 含 有 大 量 的 冗 余 信 息 ! 即 a ! 语 音 信号样本间有很强的相关性 ! 即短时谱不平坦 #" 浊音 语音段具有准周期特性 # # 声道的形状及其变化的速 率有限 #$传输码值的概率分布非均匀 ’ "$) 人耳的听觉生理特性 ! 即 ( ! 对 不 同 频 段 的 声 音敏感程度不同 !通常对低频比对高频敏感一些 #" 对 语音信号的相位特征不敏感 ##* 听觉掩蔽 + 效应 , 人耳听不到或极不敏感的声音分量可看作冗余信 息 ! 利用该特性可把语音信号的编码速率压缩很多倍 ! 而重建语音仍可保持很好的可懂度和较好的自然度 ’
!"#$% &%$’(")"*+
文章编号 !!""#$%&%’ "#""( #"&$"")%$"’
语音技术
极低速率语音编码的新发展与应用
郭 莉 ! 郭丽红 ! 王炳锡 " 解放军信息工程大学 信息科学系 ! 河南 郑州 !"###$ # $摘
综述 & &
要 % 从 时域 ! 频 域 和混 合 域 % 方面 分 别 介绍 了 目 前在 极 低 速率 语 音 编 码 中 应 用 的 &’( "()&’ "*+) ",-( "./ "
(Q ) 原始语音
9:; :% 插值
合成滤波 重建语音
延时
当前 基音
延时Biblioteka (+ ) 合成语音
图8
>== +,- 声码器合成语音波形图和窄带语谱图
图.
:%& 算法框图
&@@ 公司 N== +,- 和 &@@ 航天,通信分公司的 8== +,声码器在 9:;<1= 的基础上利用矢量量化也获得了较 高的语音质量 !3?@ 得分为 >N(.!N## 此 外 3(4(%567 等 人又指出用 /0 技术进一步压缩编码速率的方法!J#$ (1)帧重复 9:; 矢量量化 # 在 >== +,- 9:; 矢量量 化的基础上 ! 设当前输入信号的 9:; 参数矢量为 ! ! 前 一帧输入信号的矢量 !" 经过 /0 之后得到的码本矢量 为 "" ! 将两者进行比较 ! 若 有 " !!!"" # ##! 则 认 为 本 帧 矢 量与前帧矢量是 % 重复 & 的 ! 该量化不必进行 ! 只需传送
率 WYZY! [P\H ! 中速 率 !T]Z^Y [P\H ! 低 速 率 $T!Z!T]
[P\H!所有编码速率低于 $T! [P\H 的编码算法都称为极
低速率语音编码 ! 这里主要研究极低速率声码器 ".&!
#K#
语音编码的极限速率 从信息论角度来估计 ! 语音中最基本的元素可认
+V (8Q?BH ) 的声学原理和算法 ’
59: A9Q 7IPB5Q A@@B8AF7?HT 19 C75H OAIR &’(R ()&’R *+)R ,-(R ./R *)&’R 01R ,?:D?9CAU .8F8Q?BH A9Q (8B@LH PAH?Q .8F8Q?BH AB? 59CB8QLF?Q H?@ABAC?UI 59 C75H @A@?BT ;U:8B5C7DH A9Q 9?O B?H?ABF7 B?HLUCH 59 G?BI U8O P5C BAC? H@??F7 F8Q59: 5H @B?H?9C?Q C78B8L:7UI 59 C75H @A@?BR A9Q F89FULH589H AB? :5G?9 C7B8L:7 F8D@AB5H89 A9Q A9AUIH5HT
际通信中 ! 有些信道难以扩宽且质量很差 ! 如短波信 道 # 有的信道正被广泛使用 ! 短期内 难以更新 # 有些特 殊条件下的通信 ! 如强干扰下的军事通信等 # 还有些昂 贵的信道 !压缩的每一个比特都意味着节省开支 ’ 因此 高质量的极低速率语音编码技术将成为研究的热点 ’
X
背景
根据语音编码速率可以将声码器分为几类 ( 高速
(% =>&=> $ 相位 频率 ( $= % <L4 编码框图 相位 提取相位 频率 幅度 幅度插值 $$ % <L4 解码框图 正弦波产生 合成 语音 提取相位 幅度
!"# ,1-1-
时域编码 线性预测声码器 !234"
234 模型是参数编码中的一个基本模型 " 它将语
音分为清音和浊音两大类 ! 在进行清浊判决后 " 分别以 相应的激励信号通过全极点系统来合成语音" 这种
+./ 0.1.2345.678 96: ;442<=97<368 3> ?.@A B3/ -<7 C97. D4..=E F3:<6G 234 &5 ! 234 &56789:! 0;<2 +59:6=5
">?@ABCD?9C 8E 19E8BDAC589 ,F5?9F? ! ’&; 19E8BDAC589 )9:59??B59: 395G?BH5CI # J7?9:K78L !"MNN$ ! (759A $ %;H87@9=7 & &8O P5C BAC? H@??F7 F8D@B?HH589 FA9 P? AF75?G?Q C7B8L:7 C5D? Q8DA59 F8Q59:R EB?SL?9FI Q8DA59 F8Q!
astc编码框图bstc解码框图图2s11c的编解码框图33混合域编码331波形内插wi波形内插算法由wbkleijin提出最初为原形波形内插prototypewavefofillinterpolationpwi该算法以基音周期为基本分析单元利用了浊音语音的周期波形随时间慢渐变的特点每隔一段时间传送一个基音周期波形到译码端然后在译码端通过内插重建没有传送的基音周期波形这样就很好的控制了浊音语音的周期度合成了高质量的重建语音
相关文档
最新文档