语音信号处理第一章 绪论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章绪论

1、语音信号?

语音信号是具有声音的语言,人类表示信息的常用媒体,人类通信的有效工具。

2、语音信号包含的信息?

1)说话内容,说什么;2)说话人身份,谁说的;3)说话人说话时的状态,生理状态、心理状态、情绪等。(语音信号处理主要关心前两项)

3、为什么要学习和研究语音信号处理技术?

答:1)语音是人类最重要、最有效、最常用和最方便的交换信息的方式;2)让计算机能够理解人类的语言,是人类自计算机诞生以来就梦寐以求的想法;随着计算机的便携化,人们渴望摆脱键盘的束缚而代之以语音输入的方式。比如苹果公司的iphone手机,在其最新版本4s中,推出了siri功能-即语音助手,可以通过语音输入,让其充当闹钟,比如还可以让它为你找出最近的咖啡厅,另外找出行路线往往需要输入不少文字,省事的话,报出地点,它可以调用google地图来找出出行方案,还可以让它播放音乐,发送短信等等。3)语音信号技术始终与当时信息科学最活跃的前沿科学保持密切联系,并且一起发展。语音信号处理是以语音语言学和数字信号处理为基础的涉及多方面的综合性学科,它与心理学、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着密切的关系。对于语音信号处理的研究一直是数字信号处理技术发展的重要推进力量,而数字信号处理许多新方法的提出,又是首先在语音信号处理中获得成功,而后再推广到其他领域的。比如,语音信号处理算法的复杂性和实时处理的要求,促进了高速信号处理器的设计。而这些产品产生之后,又是首先在语音信号处理中得到最有效的应用的。

4、语音信号处理的发展情况

1)语音信号处理的发展标志是在1940年产生的通道声码器技术,该技术打破了以往的“波形原则”,提出了一种全新的语音通信技术,即从语音中提取参数加以传输,在接收端重新合成语音。其后,产生了“语音参数模型“的思想。

2)40年代后期,研制成功了“语谱仪”,为语音信号分析提供了有力的工具。

3)50年代后,语音信号处理得到了新的进展。主要标志是贝尔实验室的英文数字语音识别装置的成功研究。其后随着数字计算机和数字信号处理技术(FFT)的突破性发展,产生了第一台孤立词语音识别器,有限连续语音识别器。

4)70年代初,随着倒谱分析技术和线性预测技术的成功应用,微电子学、微处理芯片和专用信号处理芯片的不断问世,进一步推动了语音信号处理技术的发展。

5)80年代初,矢量量化VQ应用于语音信号处理,隐马尔可夫模型HMM是80年代语音信号处理技术的重大发展。

6)近年来,人工神经网络研究取得了迅速的发展,语音识别是神经网络的一个重要应用领域。

5、语音信号处理的应用

1)语音编码(语音压缩编码,语音压缩)

必要性:数字化语音信号的存储要占用一定的空间,传输时占用一定的带宽。为了节省空间和带宽需要对语音信号进行压缩编码。如果按照传统的模数转换技术对语音信号进行数字化,必须传输或存储大量的数据。如假设采样速率为8kHz,对每个样本进行16位A/D转换,那么每秒的语音数据量将达到128kbps,如此高的位率是不允许的,所以必须对其进行压缩。

它的发展现状是:自从30年代末提出了PCM(脉冲编码调制)原理以及声码器的概念后,语音编码一直沿着两个方向进行发展:语音信号波形编码和声码化编码,或者是非参数化编码与参数化编码。参数编码有时又称为模型编码。(1)波形编码:特点是力图使重建的语音波形保持原始语音信号的波形形状,这类编码器通常将语音信号当做一般的波形信号来处理具有适应能力强,话音质量好等优点,但是所需要的编码速率高。如:PCM,增量调制,自适应增量调制等。(2)参数编码:通过对语音信号特征参数的提取及编码,力图使重建的语音信号具有尽可能高的可懂度,即保持原语音的语意,但是重建信号的波形同原语音信号的波形相比可能有很大的差别。参数编码的主要问题是合成语音质量低,自然度较差,有时甚至连熟人也不一定能听出说话人是谁。另外,这类编码器对说话的环境比较敏感,需要安静的环境才能给出较高的可懂度。如:线性预测声码器等。(3)混合编码:克服了原有波形编码和参数编码的弱点,结合了各自的长处,在4~16kbps速率上能够得到质量较好的合成语音,在本质上具有波形编码的优点。如:多脉冲激励线性预测编码,规则脉冲线性激励预测编码,码本激励线性预测编码等。

应用范围包括:带宽受限信道的数字话音传输(蜂窝移动通信,卫星通信等),可视电话,语音的数字存储,呼叫服务(数字录音,语音信箱等)。

方向:低码率、高质量的音频编码技术和算法。语音压缩通常根据实际应用情况,进行三方面的均衡,即位率、质量和清晰度、编解码算法的复杂度。例如:有的数字语音录放系统对编码器实时性要求不高,但希望有较高的压缩位率,以降低所需存储器的容量,对于解码器,则要求算法尽量简单,成本低,并能够实时或者基本实时解码。数字通信系统则要求实时编解码。

2)语音识别

作用:将语音转换成等价的书面信息,即让计算机能够听懂人说话。语音识别是建立计算机听觉系统的基础,它使得任何计算机之间利用自然语言进行通信成为可能。

语音识别的一般过程:

-训练阶段:用户将词汇表中的每个词依次说一遍,语音分析单元对输入语音进行分析,并将其特征矢量作为模型存入模板库。

-识别阶段:将对输入语音分析得到的特征序列与模板库中的每一个模板相匹配比较,将相似度最高者作为识别结果输出。

预处理包括反混叠滤波、模数转换、自动增益控制、噪声消除、去除声门激励及口唇辐射影响,以及端点检测和自动分段。其中端点检测和自动分段取决于系统选择的识别单元的大小。基元可以是音素、音节字或词。基元选得小,存储的模板量可以减少,但对分割技术要求会提高,并会影响识别率。提取各种声学参数,包括时域参数、频域参数、倒谱参数和超音段信息。时域参数:短时平均能量、短时平均过零率和短时自相关函数。频域参数:滤波器组平均谱、线谱、共振峰信息:共振峰频率、带宽、幅值、和线性预测系数。倒谱域参数:倒谱系数。超音段信息:音长、音调、声调。统计模型通常是隐马尔可夫模型,由训练样本得到的各类模型参数。参考模板就是由训练或者聚类算法得到的语音库。未知的语音样本要通过与语音库中的各个模板进行比较才能得到识别。

应用前景:(1)声控应用,计算机识别语音内容,并实施相应的动作。典型的系统:声控电话转换,声控语音拨号,声控智能玩具,信息网络查询,银行,家庭服务等。(2)听写系统,以口授方式将文字输入计算机;(3)自动口语翻译,将一种语言翻译为另一种语言,如中科院开展的CSTAR(国际语音翻译先进研究联盟)计划,能够完成文本语音的汉英自动翻译,即人对着文本朗读出来经语音识别后再进行翻译的输出结果、自发语音的汉英自动翻译即没有任何文本作为参考的情况下,人自发说出的句子经语音识别后再进行翻译的输出结果。(4)人机交互;(5)移动计算设备语音输入;(6)说话人识别,安全加密,法庭取证,银行信息电话查询,公安机关破案等。

3)说话人识别

即根据语音辨别说话人。

说话人识别分为训练阶段和识别阶段。这两个阶段都必须根据说话人的特征建立模型进行识别。

根据判决模式不同可以讲说话人识别分为说话人辨识和说话人确认两类。根据对训练和测试语音内容的要求不同,可以讲说话人识别分为固定文本的说话人识别和任意文本的说话人识别。

说话人识别的主要方法:基于模板的方法:DTW(动态时间规整方法),矢量量化;基于随机模板的方法:混合高斯模型、隐马尔可夫模型;基于人工神经网络的方法;基于支持向量机的方法。

应用于人机接口、保安、军事、司法等方面(如保密设施的门禁系统,个人账户的身份验证,司法调查中的声音认证等)

说话人识别和语音识别比较

同:都是语音信号处理技术和计算机技术相结合的产物;都是应用机器设备来模仿人对

相关文档
最新文档