声音模型的识别与建立

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2016长沙理工大学第二届研究生数学建模竞赛参赛

承诺书

我们仔细阅读了长沙理工大学研究生数学建模竞赛的竞赛规则.

我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。

我们授权长沙理工大学研究生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。

我们参赛选择的题号是（从组委会提供的试题中选择一项填写）：

我们的参赛报名号为（如果组委会设置报名号的话）：

所属学校（请填写完整的全名）：

参赛队员(打印并签名) ：1.

2.

3.

指导教师或指导教师组负责人(打印并签名)：

日期：年月日

评阅编号（由组委会评阅前进行编号）：

2016长沙理工大学研究生数学建模竞赛

编号专用页

评阅编号（由组委会评阅前进行编号）：

评阅记录（可供评阅时使用）：

声音识别模型的建立与评价

摘要

本文通过使用MATLAB软件对声音的时域和频域特征进行了提取，研究特征向量提取方法及SVM核函数和参数选取对识别结果的影响，分析特征提取算法的优缺点，以及不同核函数以及惩罚参数对识别性能的影响。通过使用支持向量机法建模，基本达到了区分正常声音与非正常声音的目的。最后提出用低通滤波滤除白噪声。

关键词：特征向量，支持向量机，核函数，低通滤波，白噪声

从物理上讲，声音是由物体振动产生的一种波，并通过空气作用于人的耳鼓，使人们能够感知。声音的具有四种性质：1）音高：振动发出的声波有不同的频率，称为“音高”；2）强弱：声音的强弱是由振幅决定的，振幅是代表物体振动强度的特定单位，一般用分贝(dB)来表示。3）长短：一般把声音的发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四个阶段称为“包络”，包络的发生时间，也就是一个声音的长短。4)音质：音质好的声音听起来悦耳，相反则让人不适。

问题一

利用matlab中的sound函数，播放出声音信号，试听并比较正常和非正常开门声音的差别，利用plot函数绘制出具体的声音波形图，总结差别在哪些方面？

试听：我们使用sound函数播放声音样本。在仔细听了正常开门及非正常开门的声音后，发现了他们之间的差别：正常开门声音很短促，即声音的长短度短，且其强弱度相对较低。相反非正常开门声音持续时间长，强弱度高。

画图：我们选取了三组正常开门及三组非正常开门的声音，使用plot函数画出声音波形图，如下图1所示：

由图1可以看出正常开门的声音波形比较疏松，所以音调就低。非正常开门的声音波形比较密集，所以声调就高。我们还可以看出前者声波比较集中，而后者则比较散，即跨度大。这一点很好理解，正常用钥匙开门所需时间肯定比盗贼撬锁所需时间短，所以就造成了这种现象。程序源代码见附录一。

图1正常与非正常开门声音波形图

问题二

利用合适的时域或（和）频域特征表达个声音信号，建立特征向量，写出提取特征向量的具体方法和程序代码。

首先，我们对两种样本求其均值。由于正常开门的第一组数据有人声干扰，故舍去。然后用plot函数画出声音波形图，如下图2所示：

根据所分析的参数类型，语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法，因为它直接对语音信号的时域波形进行分析。接下来我们先进行时域分析。

图2正常开门声与非正常开门声均值

短时平均能量：定义n 时刻某语音信号的短时平均能量En 为：

22

(1)

[()()][()()]+∞

=-∞=--=

ω-=

ω-∑∑n

n m

m n N

E x m n m x m n m （1）

式中，N 为窗长，可见短时能量为一帧样点值的平方和。

一般我们认为声音在10-30ms 之内是稳定的，取帧长也在10-30ms 之内，而帧移通常取5-15ms 之间，所以取N=55、95、125、165。如下图3、4为正常开门及非正常开门N 取不同值时短时能量函数随帧数的变化曲线，其中横坐标为帧数。

由图3、图4可以看出，N=55,N=95时的曲线不够平滑，而N=165的曲线又过于平滑，故选取N=125时的曲线。

图3正常开门声音的短时能量曲线

图4 非正常开门声音的短时能量曲线

通过观察短时能量曲线，可以看出正常开门时的能量比较集中且数值小，非正常开门时的能量比较分散且数值大。容易想到，这些现象与前面问题一的结论是相吻合的。

短时平均过零率：短时平均过零率是指每帧内信号通过零值的次数。对有时间横轴的连续声音信号，可以观察到声音的时域波形通过横轴的情况。在离散时间声音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零，因此可以计算过零的次数。

|sgn[()]sgn[(1)]|()

= |sgn[()sgn[(1)]*()

+∞

=-∞

=

--ω---ω∑n m

Z x m x m n m x n x n n （2）

上式为短时平均过零率的公式，其中，sgn[]为符号函数，即

1, ()0

sgn[()]1, ()0⎧≥=⎨

-<⎩

x n x n x n （3）

短时平均过零率曲线如下图5、图6所示：

图5 正常开门声音的短时平均过零率