语音信号非线性分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号非线性分析
【摘要】混沌是指在确定的非线性系统中出现的一种非常复杂的随机现象,近二十年来,混沌理论及其应用的研究引起了国际学术界的广泛关注,成为一个研究热点。本文介绍了基于混沌理论的语音信号非线性分析。概括语音信号非线性和混沌的依据;描述了语音信号混沌特性参量,包括Lyapunov指数和分形维;讨论运用Takens嵌入定理于语音信号相空间重构时的研究议题,包括嵌入维数、时间延迟、噪声及滤波影响、预测时间及数据长度要求等。
【关键词】语音信号非线性混沌lyapunov指数
1 混沌学的发展
混沌是上世纪最重要的科学发现之一,被誉为继相对论和量子力学后的第三次物理学革命,它打破了确定性与随机性之间不可逾越的分界线,将经典力学研究推进到一个崭新的时代。
1963年,美国气象学家E.Lorenz在《大气科学》杂志上发表了“决定性的非周期流”的文章,指出在确定的气象预测数学模型中存在混沌现象,描述了混沌对“初始条件的敏感性”这一基本性态,即著名的“蝴蝶效应”,发现了混沌现象的第一个奇怪吸引子——Lorenz 吸引子[1],Lorenz也因此成为“混沌学之父”。
1975年,正在美国马里兰大学攻读博士学位的华人李天岩和他的导师J.Yorke联名发表了一篇震动整个学术界的论文《周期3蕴涵混沌》[2],率先引入了“混沌”( Chaos)一词,为这个新兴研究领域确立了一个中心概念,为各学科研究混沌现象树立起了一面统一的旗帜。1977年,第一次国际会议在意大利召开,标志着混沌科学的诞生。
长期以来由于混沌的奇异特性,特别是对初始条件极其微小变化的高度敏感性及不稳定性,所谓“差之毫厘,失之千里”,使得人们认为混沌是不可靠的,难以控制的,因而在工程应用领域总是被回避和抵制。1990年,Ott.Grebogi和Yorke提出的OGY方法使混沌运动达到有效控制并在试验上得到验证,从而国内外对非线性系统混沌控制的研究迅速发展起来,成为非线性科学领域研究的热点[3]。
现在人们已经发现,混沌是易于操纵的,可以开发利用的,甚
至是无价的,混沌可以应用于应用在很多方面,例如:电路输出的同步化;控制化学反应中的振荡;稳定有病的心脏的不规则的搏跳;为保密通讯提供信号的解码手段等等。而且在心脏HRV(心脏变异性)的研究中,在语言加工信息的研究中,在对人脑功能以及处理信息的机理分析中,在股票动态分析预测中,在流行病数学模型分析中,在混沌神经网络的信息图像处理中,在天文学,地球物理学,天气预报,地震预报,智能科学,经济理论,人口理论,医药化学等方面也都开始得到广泛应用。
2 混沌的特点
混沌是服从确定性规律但具有随机性的运动。所谓服从确定性运动,是指系统的运动可以用确定的动力学方程的形式或离散方程形式表示,即使有时这类方程还没有被找到所表述,而不是像噪声那样不服从任何动力学方程。所谓运动具有随机性,是指不能像经典力学中的机械运动那样由某时刻状态可以预言以后任何时刻的运动状态,混沌运动倒是像其他随机运动或噪声那样其运动状态是不可预言的,换言之,混沌运动在相空间中没有确定的轨道。
混沌运动的一些特点:
1.混沌运动是决定性和随机性的对立统一,即它具有随机性但又不是真正的或完全的随机运动。虽然混沌运动在整个时间进程中具有随机性,即在较长时间上不能对其运动做出预言。
2.对初始状态的敏感依赖与随机性密切相关的是混沌运动对初始状态的敏感依赖。系统作通常规则运动时,无法避免的涨落或噪声干扰
所引起的初始条件的微小变化一般只引起运动状态的微小差别。即初始状态很接近的轨道总是很接近的,甚至可能是趋向于一致的,这样才能使人们对系统的运动做出预言,也才有所谓的机械运动决定论,混沌运动则不然,由于系统无法避免的涨落,初始条件的微小差别往往会使相邻轨道按指数形式分开。洛伦兹戏称混沌运动这种对初始条件的敏感依赖性为蝴蝶效应。蝴蝶效应是区别混沌运动同其他确定性运动的最重要的标志。
3.只有非线性系统才可能作混沌运动对于线性微分方程初始条件给定了,它就没有确定的解。也就是说。线性系统不可能作带有随机性的混沌运动。所以说,混沌运动只可能在非线性系统中。
3语音信号的混沌性
语音信号处理是近年来研究一直很活跃的学科领域,已经在数字语音通信、话音识别、话音存贮和保密通信等许多方面取得了重要成果。传统的语音信号处理基于线性系统理论,基本的假定是语音信号特性随时间的变化是缓慢的。这个假定导出各种“短时”处理方法,语音信号被分割为一些短段再加以处理,每一段视为确定的平稳信号,经过处理以后产生一个新的依赖于时间的序列而用于描述的语音信号。
随着研究的深入,人们发现语音信号是一个复杂的非线性过程。用声学和空气动力学理论分析, 语音有声门的非线性振动过程,受舌、声道形状的变化,语音信号(特别是摩擦音、爆破音等)会在声道边界层产生涡流,并最终形成湍流,发其它音时,声门喷出的
气流仍有湍流存在,而湍流本身就是一种混沌[4]。语音信号具有的渐变不稳定性可通过成熟的自适应方法处理,而其非线性性质却一直在传统语音处理的发展趋势中未得到应有的重视。近十几年来,非线性理论中的混沌和分形信号处理为人们提供了分析自然现象的全新方法。严格的声学及空气动力学理论已证明,语音信号的产生中存在混沌的机制。从信号处理的角度检查信号是否为混沌的,首先必须从信号的物理背景出发探讨;其次,必须实验验证[5]:①信号是有界的;②信号的分形维有限,且通常不是整数,这是不规则信号区别于噪声的根本点之一;③信号的最大Lyapunov指数是正的,这决定了信号对初始条件的敏感依赖;④信号是局部可预测的,特别地,信号的动力学系统可以用确定性模型重建。
针对语音信号的非线性特性和混沌特性,从物理背景和实验两方面出发,已有许多研究。大量关于语音信号分形维和Lyapunov指数的统计实验(下文讨论)表明,语音信号符合最大Lyapunov指数为正的和分形维有限的要求;而语音信号显然是局部可预测的。因此,语音信号中存在有混沌因素。这是将混沌及分形理论引入语音信号处理的基础。
4基于混沌理论的语音信号非线性分析
通过分析系统相空间[6],可了解系统的动力学特性。但通常对实际系统,仅能知道表现为时间序列形式的系统观察值。因此,从时间序列重构系统相空间具有重要意义。Takens[7]提出了解决问题的方法,称为Takens嵌入定理。该定理指出,任意m维的紧的超平面, 可被