语音信号的数字化和预处理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

若用σx2表示输入语音信号序列的方差，2Xmax表示信号的峰值，B表示量化分辨率(量化位长)，σe2表示噪声序列的方差，则可证明量化信噪比(信号与量化噪声的功率之比)为
X SNR 10lg
2 x 2 e
6.02B
Байду номын сангаас
4.77
2
lg
max
x
假设语音信号的幅度服从Laplacian分布，此时信号幅度超
语音信号及单片机处理
语音信号的数字化和预处理
语音分析全过程的是短时分析技术。
由于语音在一个短时间范围内的物理特征与频谱特征近似不变，具有短时平稳特性，即语音信号是一种准平稳过程，因此可以把语音的分析和处理建立在短时分析技术的基础上，即将语音信号分段来分析。其中每一段称为一帧。帧的长度叫帧长，前后帧长之间的交叠部分称为帧移。通常，由于语音在10～30ms之内是保持相对平稳的，因此帧长取为10～30ms，帧移与帧长之比为0～1/2。
这样，不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。所以，为尽量提高SNR，应在 A/D转换之前进行预加重。同时，预加重也可在A/D转换之后进行，用具有6dB/oct的提升高频特性的预加重数字滤波器实现。它一般是一阶的，即
H (z) 1 z1
式中μ值接近于1。加重后的信号在分析处理后，需要进行去加重处理，即加上6dB/oct的下降的频率特性来还原成原来的特性。
采样之后要对信号进行量化，在量化过程中不可避免地会产误差。量化后的信号值与原信号之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大或量化间隔足够小，可以证明量化噪声具有下列特性：
第4页
2021/12/12
是一个平稳的白噪声过程；
量化噪声与输入信号不相关；
量化噪声在量化间隔内均匀分布，即具有等概率密度。
第8页
2021/12/12
语音信号及单片机处理
原始的模拟语音信号经过采样和量化两个步骤，变为数字信号，从而得到时间和幅度上均为离散的数字语音信号。根据采样定理，当采样频率大于信号带宽的2倍时，才不会丢失信息，且从采样信号中可以精确地重构原始信号波形。
第3页
2021/12/12
通常电话语音的频率范围是300～3400Hz，因而采样频率一般为8kHz，但在实际语音信号处理中，采样频率通常为 7～l0kHz。为了实现更高质量的语音合成或使语音识别系统的识别率更高，语音信号的最高频率扩展到9kHz，相应的采样频率也提高到20kHz。在信号的带宽不明确时，采样前应接入防混叠的低通滤波器，使其带宽限制在某个范围内，否则，如果采样频率不满足采样定理，则会产生频谱混叠。此时，信号中的高频成分将产生失真。
语音信号本身就是一种时域信号，因而时域分析是最早使用，也是应用范围最广的一种方法，这种方法直接利用语音信号的时变特点即时域波形来进行分析。
第2页
2021/12/12
1.1数字化
语音信号的表示方法通常有两种：
•模拟信号：自然界的所有信号都是模拟信号，如人的说话声、鸟叫声。
•数字信号：采用数字信号是为了更好的保存、回放、加密、通信。
第7页
2021/12/12
1.3 防混叠滤波
A/D转换前还需要加一个防混叠滤波器。如果频率干扰 (50或60Hz)不严重或另有抗干扰措施，则不必用带通滤波器而只用低通滤波器即可。低通滤波器的截止频率由语音信号带宽决定，用以滤除高于1/2采样频率的信号成分或噪声，并且希望其带内波动和带外衰减特性尽可能好。A/D转换后采用低通滤波器作为平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。对于这种低通滤波器的特性和A/D转换频率，也要求与采样时具有相同的关系。
1.2 预加重处理
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，在800Hz以上的高频时约按6dB/oct衰减，为此要在预处理中进行预加重。预加重的目的是提升高频部分，使信号的频谱变得平坦，以便于进行声道参数分析或频谱分析。预加重可在防混叠滤波与A/D转换之前进行。
第6页
2021/12/12
过4σx的概率很小，只有0.35％。因而可以取Xmax=4σx此时上式变为SNR = 6.02B-7.2
第5页
2021/12/12
上式表明，量化器中每位字长对SNR贡献为6dB；当B＝7 位时，SNR＝35dB。此时，量化后的语音质量能满足一般通信系统的要求。研究表明：要使语音波形的动态变化信噪比达到55dB，B应取10位以上。为了在语音信号变化的范围内保持35dB的信噪比，常用12位来量化，其中附加的5 位用于补偿30dB左右的输入动态范围变化。