语音信号采集与回放系统设计(FPGA)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数字化语音存储与回放系统实验指导

一、数字语音处理

1、语音信号的采样

（1）采样频率

人耳可听到20Hz ～20KHz 的声音，但实际上人说话的声音带宽主要集中在300Hz ～3400Hz ，如电话线的带宽一般约为3KHz 。

根据采样定理，语音信号的采样频率应为语音带宽的2倍以上，对于300Hz ～3400Hz 的语音带宽，取采样频率为fs=8KHz 。

（2）平顶采样

实际系统中的语音采样脉冲有一定的持续时间，即属于平顶采样。如下图：（Ts 为采样间隔，τ为采样保持时间）

平顶采样可以看成是理想采样后，再经过一个冲激响应是矩形的网络来形成的：

x(t)

δ(t)

不难进行下述推导： xs(t)= x(t)δ(t)= x(t)

∑∞

−∞

=−n nTs t )(δ xsf(t)= xs(t)*h(t)=

τττd t h xs )()(−∫

∞

−∑∞

−∞

=−n nTs t h nTs x )()(

xsf(t)的频谱为: Xsf(ω)= Xs(ω)H(ω)=

∑∞

−∞

=−n Ts H s n X /)()(ωωω 矩形脉冲的H(ω)= A τ

2/sin(ωτωτ

Xsf(ω)= Ts

A τ

∑

∞

−∞

=−n s n X 2

2/sin()

(ωτωτωω

由此可以看出，平顶采样时，加权项

2/sin(ωτωτ使信号频谱发生了变化，造成语音信

号高频分量有部分损失，语音回放时失真。

实际PCM 系统中，均采用采样保持电路来提高输出信号的强度，为得到最大输出信号，通常取τ=Ts 。

Xsf(ω)= A

∑

∞

−∞

=−n Ts Ts s n X 2

2/sin()

(ωωωω

加权项为：

f fs f /)

/sin(ππ

分析该加权项：对fs=8KHz

f=0时～ 0dB ； f=300Hz 时～ -0.02dB ； f=3400Hz 时～ -2.75dB 为了抵消平顶采样所产生的这种孔径失真，语音回放端需采用响应为

)

/sin()

/(fs f fs f ππ的滤

波网络进行频谱补偿。

可以设计这样一个频谱补偿网络，其频域在300Hz ～3400Hz 范围内，增益随频率f 升高按)

/sin()

/(fs f fs f ππ规律进行放大；当f ＞4000Hz 时，增益又迅速下降。频响如下图：

2、语音信号的量化

语音信号的量化在很大程度上决定了编码比特率和编码总失真。语音信号量化有标量量化和矢量量化，该实验使用幅度标量量化。

（1）均匀量化

均匀量化是指在整个量化范围内，量化间隔都相等。

如下图：模拟语音信号X ，经采样量化后形成输出信号Y k ，k=1，2，···，L ，称为第k 个量化电平，L 为量化电平数。

每个样点量化所用的比特数为：R=log L

2假设量化器的量化范围为（-V ，V ），则量化间隔为：Δ=2V/L=2V/2

量化误差q 为： -Δ/2≤q ≤Δ/2

若L 足够大，Δ将足够小，可认为q 在（-Δ/2，Δ/2）范围内均匀分布，其概率分布密度为1/Δ

均方差为：σ=Δdq=Δ/12=2

q /1/22/2

∫−ΔΔq 2

3122L V =3

1V 2 2R

2−可以看出，均匀量化的量化噪声只与L 和V 有关，量化信号噪声比SNR 为： SNR=

σ=3×2

/σ2

222

σ SNR （dB ）=6.02R+4.77+20log （σ/V ）

x 上述表明：量化比特数R 每增加一个比特，SNR 提高约6dB ；同时，SNR 与语音信号X 的均方差值

σ有关，

当X 最大幅度达到量化器最大容许值V 的时候，这时称量化器满载，SNR 达到最大值。X 幅度每降低一半，SNR 下降约6dB 。

x 但在实际应用中，语音信号是非平稳的随机信号，由于说话人的音量不同、情绪影响等因素，使得语音信号的短时均方差值的变化（语音的动态范围）超过40dB 以上。若使X 的最大幅度不超过V ，则语音信号有效值x σ将很小，SNR 将减小；若使x σ增大，将又会产生过载噪声，SNR 也将减小；（x σ很大时，SNR （dB ）x V σ/1.6≈）这是一对矛盾！实际中常取x σ/V=0.2。对于高质量话音，要求语音信号在40dB 变动范围内，SNR 均要大于25dB ，因此必须采用12位的均匀量化器，这样在fs=8KHz 时，量化器输出信息速率为96Kbps 。为了压缩信息速率，人们又提出了非均匀量化方法。

（2）非均匀量化

非均匀量化是指在整个量化范围内，量化间隔不相等。语音信号处理中常采用的非均匀量化是对数量化，如下图：

x z

对数压缩指数扩张

由于在均匀量化中为了避免过载噪声，语音信号的x σ就不能过大，使得语音信号密度集中在小信号区域，因此量化噪声很大。非均匀对数量化相当于对输入语音小信号放大倍数大，而对大信号放大倍数小，从而压缩了信号的动态范围，使量化信噪比在整个动态范围内保持平稳。即在大信号时，SNR 相对均匀量化时低一点；小信号时，SNR 则明显提高。

实现非均匀对数量化有两种方案：一是使用对数放大器将输入语音信号x 先进行对数压缩，再进行均匀量化（8位），接收端进行指数扩张恢复原始信号，从而提高SNR 到多位均匀量化（13位）程度，但这种方法的对数压缩和扩张器件特性的不匹配，会造成新的噪声，实际中已不采用；另一种方法是将对数压缩和扩张用数字化来实现，把对数压缩和编码结合起来，即对输入语音信号x 先进行多位均匀量化（13位），再按对数压缩算法对数据进行非线性压缩编码（8位），这样既可保证SNR 达到多位均匀量化（13位）程度，又降低了信息速率。

CCITT G .712建议给出了国际上两种通用的对数压缩特性，即A 律和μ律：

A 律 y=⎪⎪⎩⎪⎪⎨⎧≤<−−−−++≤≤−−−−−+11ln 1ln 110ln 1x A A

Ax A x A Ax

A=87.6，x 、y 均为归一化；

μ律 y=

)

1ln()

1ln(μμ++x 01≤≤x μ=255，x 、y 均为归一化。

我国采用A 律，理想的A 律很难实现，在数字化处理中，CCITT 规定采用13折线法

来逼近A 律，具体方法见参考书。