语音信号
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10 B1 02 00 音频数据传送率
04 00 10 00
64 61 74 61 80 9A 7B 01 42 FF 35 FC
数据块对其单位 datawenku.baidu.com
size
LR LR
每个采样需要的 bit 数
E2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................
2、参数合成法 特点: 可以合成大词汇(字典) 实现过程: 保存 LPC、共振峰等参数。 缺点:合成音质较差。 3、规则合成法 特点:实现难度较大, 如 TTS 系统(文语转换系统) 实现过程: 保存存音素的参数,根据语音学规则产生语音。 句子组成:音素-音节-词,根据句子(规则)确定发音。 优点:可以合成无限词汇,存储量小
---------------------------------------------------------------------------------------
| Channels
| 2 Bytes | 声道数目,1--单声道;2--双声道
-------------------------------------------------------------------------------------| SamplesPerSec | 4 Bytes | 采样频率
11 人的发音器官包括那些。 肺、气管、喉(包括声带)和声道。 12 傅立叶分析在信号处理中有什么意义? 可以使信号的某些特征变得很明显,语音信号的频谱具有非常明显的语言学习意义。可以获 得重要的语音特征(共振峰频率和带宽等)
13 文语转换系统(TTS)属于那种语音合成系统。 规则语音合成系统
14 语音的共振峰是如何形成的? 气流流过通道犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应 位置的峰起,称为共振峰。
L R LR L R LR L RL R 1)格式详解
①RIFF WAVE Chunk |
|所占字节数|
具体内容
========================
| ID
| 4 Bytes |
'RIFF'
----------------------------------
| Size | 4 Bytes |
---------------------------------------------------------------------------------------| AvgBytesPerSec| 4 Bytes | 音频数据传送速率
其值为声道数×每秒数据位数(采样频率 )×每样本的数据位数/8。
19 语音信号短时能量分析的用途 1 区分清音段和浊音段 2 区分声母和韵母 3 区分无声和有声的分界(信噪比较高的信号) 4 区分连字的边界 5 用于语音识别
20 短时自相关函数的物理意义,性质,作用。序列经过一个冲激响应为 的数字滤波器滤 波即得到短时自相关函数。 意义:自相关函数用于研究信号本身,如波形的同步性和周期性。 性质: (1) 对称性 R(k)= R(-k) (2)在 k = 0 处为最大值,即对于所有 k 来说,|R(k)|≤R(0) (3)对于确定信号,值 R(0)对应于能量,而对于随机信号,R(0)对应于平均功率 作用:1.区分清/浊音
|
|
字节数 |
具体内容
========================================================
| ID
| 4 Bytes |
‘fmt ’
----------------------------------------------------------------------------------------
| Size
| 4 Bytes | 数值为 16 或 18,18 则最后又附加信息
-------------------------------------------------------------------- -----------------| FormatTag | 2 Bytes | 编码方式,一般为 0x0001
------------------------------------------------------------------------------------------
| BitsPerSample | 2 Bytes | 每个采样需要的 bit 数
-------------------------------------------------------------------------------------------
2. 画出语音信号的产生模型,简述语音的产生过程。
:语音产生过程——空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成 语音。
3. 为生么语音信号要进行“短时”分析。 语音信号的特点—短时平稳性
4. 语音信号的时域分析方法有那些? 短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算
| (低位字节)
| (高位字节)
------------------------------------------------------------------------------------------------------------------------
|
|
取样 1
|
双声道 -- ---------------------------------------------------------------------------------------------------
15 同态信号处理也称为同态滤波,画出同态滤波中特征系统框图 卷积关系和乘积关系变换为求和关系的分离处理 常见的同态信号处理系统
16 语音合成的分类及特点,举出一个语音信号参数合成的例子。 1、波形合成法
特点: 简单 / 小词汇(报站器) 实现过程: 录音、编辑、合成, 优点:合成音质好; 缺点:存储空间大
|
|
取样 1
|
取样 2
|
单声道
---------------------------------------------------------------------------------------------------
| 16bit 量化 |
声道 0
| 声道 0
|
声道 0
| 声道 0
|
|
(低位字节) | (高位字节)
单声道 |
取样 1
|
取样 2
|
取样 3
|
取样 4
|
----------------------------------------------------------------------------------------------------
| 8bit 量化 |
声道 0
|
声道 0
|
声道 0
5.语音信号频率范围是多少? 20hz——20khz
6. 什么是浊音的基音频率(F0)?男性、女性和儿童的 F0 大致分布在什么范围。 浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。由声带的尺寸、特性和声带所受 张力决定。F0 的大小决定了声音的高低,称为音高。 男性的 F0 大致分布在:60~200Hz,女 性和儿童的 F0 大致分布在:200~450Hz
|
声道 0
-----------------------------------------------------------------------------------------------------------------------
|
双声道 |
取样 1
|
取样 2
|
----------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------
| BlockAlign
| 2 Bytes | 数据块对齐单位(每个采样需要的字节数)
其值为声道数×每样本的数据位值/8
| ID
| 4 Bytes |
'data'
----------------------------------
| Size | 4 Bytes |
----------------------------------
| data |
|
----------------------------------
清音平均过零率高,集中在高频端。 短时自相关函数:浊音语音的自相关函数具有一定的周期性。
清音语音的自相关函数不具有周期性,类似噪声
10 通过对语音信号进行分析,可以提取到那些特征参数(列举出三个以上)。 短时平均能量、短时过零率、短时自相关函数、频谱、三个共振峰频率、线性预测系数、 LPC 倒谱和 Mel 倒谱、短时平均幅度
|
| 2 Bytes | 附加信息(可选,通过 Size 来判断有无)
------------------------------------------------------------------------------------------
③Data Chunk
|
|所占字节数|
具体内容
=========================
----------------------------------
| Type | 4 Bytes |
'WAVE'
----------------------------------
②Format Chunk
========================================================
|
8bit 量化 |
声道 0(左)
|
声道 1(右)
|
声道 0(左)
|
声道 1(右)
-----------------------------------------------------------------------------------------------------------------------
1 .由下面的 WAV 文件读出语音的编码信息:
52 49 46 46 A4 9A 7B 01
57 41 56 45 66 6D 74 20
RIFF
SIZE:17B9AA4 TYPE:WAVE fmt
10 00 00 00 01 00 02 00
44 AC 00 00
SIZE:1=16
声道数目 2 采样频率
缺点:合成音质效果较差
17 画出实现语音信号时频语音增强功能的框图。
18 什么是语音信号的“短时”处理方法。 语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期 以及信号幅度等语音参数,都是随时间变化的,但这种变化是缓慢的,在一段时间内 10—
—30ms,语音信号近似不变,所以,我们把变化的语音信号分成一些相继的短时间段来处 理。而每一段时间具有固定的特性,这种方法称为短时处理方法。
7. 可以认为多长的时间范围内,语音信号是平稳信号。 语音信号是一个非平稳信号,激励和声道的谐振特性随时间变化。但在 10-30ms 内语音信 号是平稳的,即激励和声道的特性几乎不变,因此认为在此时间段内系统是线性的。
8. 电话语音的采样率为 8kHz;纯语音在进行计算机录入时,一般采样率在 15kHz~20kHz 左右;音乐的采样率可以高达 44kHz。 9. 9. 如何利用语音信号的时域分析方法进行清、浊判断。 能量分析的依据:是基于语音信号幅度随时间变化。清音段幅度小,其能量集中于高频段; 浊音段幅度较大,其能量集中于低频段。 平均幅度分析的依据:清音段幅度小;浊音段幅度较大 短时平均过零的作用:浊音平均过零率低,集中在低频端;
| 16bit 量化 声道 0(左) | 声道 0(左) | 声道 1(右)
|
(低位字节) | (高位字节)
| (低位字节)
| 声道 1(右) | (高位字节)
------------------------------------------------------------------------------------------------------------------------