语音信号的数字化和预处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
若用σx2表示输入语音信号序列的方差,2Xmax表示信号的峰 值,B表示量化分辨率(量化位长),σe2表示噪声序列的方差, 则可证明量化信噪比(信号与量化噪声的功率之比)为
X SNR 10lg
2 x 2 e
6.02B
Байду номын сангаас
4.77
2
lg
max
x
假设语音信号的幅度服从Laplacian分布,此时信号幅度超
语音信号及单片机处理
语音信号的数字化和预处理
语音分析全过程的是短时分析技术。
由于语音在一个短时间范围内的物理特征与频谱特征近 似不变,具有短时平稳特性,即语音信号是一种准平稳过 程,因此可以把语音的分析和处理建立在短时分析技术的 基础上,即将语音信号分段来分析。其中每一段称为一帧。 帧的长度叫帧长,前后帧长之间的交叠部分称为帧移。通 常,由于语音在10~30ms之内是保持相对平稳的,因此帧 长取为10~30ms,帧移与帧长之比为0~1/2。
这样,不仅能够进行预加重,而且可以压缩信号的动态 范围,有效地提高信噪比。所以,为尽量提高SNR,应在 A/D转换之前进行预加重。同时,预加重也可在A/D转换 之后进行,用具有6dB/oct的提升高频特性的预加重数字滤 波器实现。它一般是一阶的,即
H (z) 1 z1
式中μ值接近于1。 加重后的信号在分析处理后,需要进行去加重处理, 即加上6dB/oct的下降的频率特性来还原成原来的特性。
采样之后要对信号进行量化,在量化过程中不可避免地 会产误差。量化后的信号值与原信号之间的差值称为量化 误差,又称为量化噪声。若信号波形的变化足够大或量化 间隔足够小,可以证明量化噪声具有下列特性:
第4页
2021/12/12
是一个平稳的白噪声过程;
量化噪声与输入信号不相关;
量化噪声在量化间隔内均匀分布,即具有等概率密度。
第8页
2021/12/12
语音信号及单片机处理
原始的模拟语音信号经过采样和量化两个步骤,变为数 字信号,从而得到时间和幅度上均为离散的数字语音信号。 根据采样定理,当采样频率大于信号带宽的2倍时,才不会 丢失信息,且从采样信号中可以精确地重构原始信号波形。
第3页
2021/12/12
通常电话语音的频率范围是300~3400Hz,因而采样频率 一般为8kHz,但在实际语音信号处理中,采样频率通常为 7~l0kHz。为了实现更高质量的语音合成或使语音识别系统 的识别率更高,语音信号的最高频率扩展到9kHz,相应的 采样频率也提高到20kHz。在信号的带宽不明确时,采样前 应接入防混叠的低通滤波器,使其带宽限制在某个范围内, 否则,如果采样频率不满足采样定理,则会产生频谱混叠。 此时,信号中的高频成分将产生失真。
语音信号本身就是一种时域信号,因而时域分析是最早 使用,也是应用范围最广的一种方法,这种方法直接利用 语音信号的时变特点即时域波形来进行分析。
第2页
2021/12/12
1.1数字化
语音信号的表示方法通常有两种:
•模拟信号:自然界的所有信号都是模拟信号,如人的说话 声、鸟叫声。
•数字信号:采用数字信号是为了更好的保存、回放、加密、 通信。
第7页
2021/12/12
1.3 防混叠滤波
A/D转换前还需要加一个防混叠滤波器。如果频率干扰 (50或60Hz)不严重或另有抗干扰措施,则不必用带通滤波器 而只用低通滤波器即可。低通滤波器的截止频率由语音信 号带宽决定,用以滤除高于1/2采样频率的信号成分或噪声, 并且希望其带内波动和带外衰减特性尽可能好。A/D转换 后采用低通滤波器作为平滑滤波器,对重构的语音波形的 高次谐波起平滑作用,以去除高次谐波失真。对于这种低 通滤波器的特性和A/D转换频率,也要求与采样时具有相 同的关系。
1.2 预加重处理
由于语音信号的平均功率谱受声门激励和口鼻辐射的影 响,在800Hz以上的高频时约按6dB/oct衰减,为此要在预 处理中进行预加重。预加重的目的是提升高频部分,使信 号的频谱变得平坦,以便于进行声道参数分析或频谱分析。 预加重可在防混叠滤波与A/D转换之前进行。
第6页
2021/12/12
过4σx的概率很小,只有0.35%。因而可以取Xmax=4σx此时 上式变为SNR = 6.02B-7.2
第5页
2021/12/12
上式表明,量化器中每位字长对SNR贡献为6dB;当B=7 位时,SNR=35dB。此时,量化后的语音质量能满足一般 通信系统的要求。研究表明:要使语音波形的动态变化信 噪比达到55dB,B应取10位以上。为了在语音信号变化的 范围内保持35dB的信噪比,常用12位来量化,其中附加的5 位用于补偿30dB左右的输入动态范围变化。