基于小波包与分形的语音特征提取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词 : 小波包 ; 分形 ; 语音特征 ; 动态时间归整 ( ) 中图分类号 : T P 3 1 9 文献标识码 : A 文章编号 : 1 6 7 2 7 8 0 0 2 0 1 2 0 0 6 0 1 5 9 0 3 - - - 是一种典型 的 非 上语音信号的频谱特性是随时间变化的 ,
杂的非线性过程 , 这使得基于线性系统理论发展起来 的 传 统语音识别技术性能难以进一步提高 , 从而使人们开 始 用 非线性系统理论对语音信号进行研究 。 语音信号 ( 特别是 爆破音等 ) 会在声道边界层产生涡流 , 并最终 形 成 摩擦音 、 湍流 。 湍流已被证明是一种混沌 , 这意味着语音信号 存 在 从而为利用混沌和分形理论进行语音信号分 析 提 着混沌 , 非线性理论得到了进一步的发 供了科学 依 据 。 近 年 来 , 展, 产生了诸如混沌 、 分形等理论分支 。 混沌 、 分形 理 论 近 不仅在数 字 图 像 处 理、 物理化学等领 来越来越受到重视 , 而且在 语 音 识 别 中 也 得 到 了 应 用。 域取得了很好的应 用 , 分形是通过分形维 来 描 述 分 形 信 号 的 特 征 参 数 。 分 形 方 突破了一般拓扑维数为 整 数 法将维数从整数扩大到分数 , 常 用 的 有 记 盒 维 数、 信 的限制 。 分形维的定 义 多 种 多 样 , 息维数 、 等等 。 这里采用 是 记 盒 H a u s d o r f f维和关联维数 , 维数进行计算 。
0 引言
随着信息科技的不断进步 , 语音技术在许多场合 中 得 到了广泛的应用 , 给人们的日 常 生 活 带 来 了 很 大 的 便 利。 但由于环境噪声等因素的影响 , 使得原本在实验室表 现 良 其识别率大幅下 降 。 因 好的语音识别系统在实际应用时 , 此, 鲁棒语音识别成为该领域的研究热点 。 语音识别是通过提取特征参数来进行识别的 , 特征参 数是包含在不同语 音 之 间 的 与 之 相 关 的 区 分 信 息 。 常 使 用的特 征 参 数 , 如美尔频率倒谱系数( M e l -F r e u e n c q y , 和线性预测倒谱系数 ( C o e f f i c i e n t s MF C C) L i n e a r C e s t r a l p , , P r e d i c t i o n C e s t r a l C o e f f i c i e n t s L P C C) L P C C体现了每 p 个人特定的声道特性 , MF C C 则利用了人耳听觉频率非 线 性特性 。 增强 识 别 系 统 鲁 棒 性 的 一 个 方 法 是 , 寻找一种 特征矢量 , 希望它能 够 对 环 境 有 较 小 的 敏 感 性 , 且依然具 有较好的区分特性 。 是 MF C C 是目前语音识别中使用最广泛的特征参数 , , 基于人耳听觉特性的一种特征参数 与其它特征参数 相 比 体现了较优越的 性 能 , 在无噪声情况下能得到较高的 较, 随着环境噪声的变差或者识别词汇量 的 增 识别率 。 但是 , 大, 这种特征参数的 识 别 性 能 急 剧 地 下 降 。 因 此 , 提取一 种在强噪声环境和 大 词 汇 量 识 别 上 依 然 有 较 高 识 别 率 的 有待进一步研究 。 语音特征 , 近年来 , 小波变换 被 广 泛 应 用 于 数 字 图 像 处 理 、 数据 小波变换主要用在语音 除 噪 压缩和编码 。 在语音识别中 , 音方面 , 在特征提取方面由于小波系数不能直接作为 特 征 参数参与识别 , 所以没有成为语音识别的主流方法 。 传 统 , 将语音信号分 的特征参数采用 短 时 傅 立 叶 分 析 ( S T F T) 割成 1 以满足短时平稳的要求。但实际 0~3 0 m s的小帧 ,
这个频域的一半 。 再 一 次 用 小 波 分 解 时 就 又 把 低 频 部 分 分为两个同样宽的 频 带 。 而 小 波 包 不 仅 可 以 对 低 频 进 行 ( ) 。 划分 , 同时也可以对高频继续进行向下划分 , 如图 1 b ) ) 设S ( 则S ( 可表示为 t t ∈U ,
n j n j n j
传统的短时线性方 法 在 研 究 语 音 信 号 处 理 时 取 得 了 很大进步 , 但是随着 研 究 的 深 入 , 表明语音信号是一个复
第 6 期 陈春辉 : 基于小波包与分形的语音特征提取
·1 6 1·
( ) 对各帧信号进 行 3 阶 小 波 包 子 树 分 解 , 每一帧得 2 到 8 子带系数 。 ( ) 计算每帧语音信号的小波 包 子 带 的 分 形 维 , 求得 3 每一帧 8 个分形维作为语音的特征矢量 。
n 1n + j2 j d a d =∑ l k 2 l k - 烄 k 烅 j, 2 n 1 1, n + + j d b d =∑ l k 2 l k - 烆 k
, ,
1 1 + j 珚m-2 2 t- m = ∑ { p n( k 2 n 2 k j j 珔 ( } 2 t-k) 2 t-k) m ∈Z +q m- 2 k 2 n 1( +
2 新特征提取
由于语音信号的非 平 稳 性 , 而小波被喻为“ 数学的显 , 微镜 ” 具有良好的时频分析方法 , 可以用小波包分析 代 替 然后求出 基 于 语音信号处理中的傅里叶分析和滤波器组 , 分形的语音特征 。 新的语音特征提取过程如下 : ( ) 实验选取采样 频 率 为 8 输入语音 1 0 0 0 H z的 语 音 , 信号经过预加重后进行分帧 , 帧长为 2 帧移为 1 5 6, 2 8。
— — 记盒维数 1. 3 分形 —
图 2 分形图解
n , 设语音信 号 抽 样 后 的 点 的来自集 合 为 F, 用边长 FR
) 为δ的小正方形组成的对F 集进行覆盖如图2。 令 Nδ( 表 i , , 示 在尺度δ 下覆盖 的网格个数 为 个变化尺度 F M i= δ i i 1, 2, 3…, M。 l o F) g 1 0N δ( ( ) Dδ =l i m 9 ( / ) δ→0 l o g 1 0 1δ ) / / 式( 表明 , 曲线l 在 δ→0 时 的 9 o F) l o 1 δ) g g 1 0N 1 0( δ( 渐近线为直线 , 其斜率就是 DB 。DB 就是 本 文 所 要 求 的 语 音特征矢量 , 下文将阐述新特征提取的过程 。
基于小波包与分形的语音特征提取
陈春辉
( ) 华南师范大学 计算机学院 , 广州 5 1 0 6 3 1
摘 要: 针对语音信号的非平稳特性 , 传统的短时分析技术容易丢失信息的现状 , 提出了一种利用小波包变换和 分 形
这样可以得到每个频带的小波分 技术对语音信号进行特征提取 。 用小波包变换对每一帧语音信号进行 多 分 辨 分 析 , 解值 , 然后计算出每个频带的分形维特征 , 最 后 使 用 动 态 时 间 规 整 进 行 识 别。实 验 证 明, 在 低 信 噪 比 的 情 况 下, 仍有 较高的说话人识别的效果 。
( ) 4
由小波包两尺度关系 : )= t 2 t-k) pk 2 l( l( 烄 ∑ k 烅 )= t 2 t-k) q 2 l 1( k l( + 烆 ∑

则 F 的上下 示 最大边长为δ 且能覆盖F 的记盒的最小数 , ( ) 5 盒维定义为 ) l n N( F, δ d i mBF =l i m / ) δ→0 l n( 1 δ ) l n N( F, δ d i mBF =l i m ( / ) l n 1 δ→0 δ ( ) 7 ( ) 8
为研究算法带来 M a t l a b 是一个 非 常 好 的 数 学 软 件 , 本文的实验是在 M 了极大的 方 便 , a t l a b进 行 的。M a t l a b , 里已经集合了很多的小波函数 使用里面的函数可以 非 常 方便地对信号进行小波包分 解 和 重 构 。 下 面 介 绍 下 M a t - l a b 里小波包分解和重构的几个主要函数 。 ) — — WP ( 小波包的分解函数 — 1 D E C。 ) T = WP D E C( X, N, ' w n a m e ' : 一维小波 包 分 解 函 数 。T 为 小 波 包 分 解 后 小 w d e c p 为选取 波包树 , X 为输入的数据 , N 为分解的阶数 , ' w n a m e ' 的小波 。 如要对信 号 用 小波进行3阶小波包分解可 ' d b 5 ' 以用这方法 : ) T=WP D E C( X, 3, ' d b 5 ' ( ) — — — 提取小波包系数 2 WP C O E F。 [ ) X = WP C O E F( T, N M] X 为小波包树 T 的第 N 个结点的系数 。T 为小波包 树 , N 为小波包分解阶数。M 为要求 的 小 波 包 树 第 N 阶 第 M 个 小 波 包 系 数 。 例 如 , 如 ( ) “ ” 的系数可以用下面方法 : 果要求图 1 b AA D 3 [ ] ) C o e f AA D 3=WP C O E F( T, 3, 4 ( ) — — WP 小波包的重构函数 — 3 R E C。 X = WP R E C( T) X 为重建信号 , T 为小波包分解树 。
n : , ) 定 义( 记盒维数 ) 设 F R 且 F ≠φ, 令 N( 表 F, δ
)= S( t 由于
n j
∑d

n j, n l
) 2 t-l (

( ) 1
n 2 n 2 n 1 + () ( ) , S t j∈ Z 1 =S + j j t S j
( ) 2
( ) 3 n 2 n j+1, j, , { } , { } 可 得 小 波 包 分 解 算 法 由 求 与 d d l l 2 n+1 j, { } d l
平稳信号 。 而小波分 析 正 是 一 种 处 理 非 平 稳 信 号 的 有 力 武器 。 本文是在小波分析的基础上引入分形技术 , 提出 了 一 种抗噪性强的特征 参 数 。 这 种 新 的 参 数 结 合 了 小 波 变 换 与分形技术各自的 优 点 , 由小 波 变 换 对 语 音 进 频 率 划 分, 再根据分形的稳定性 , 以分形维作为语音的特征矢量 。
表1在不同信噪比环境下各种特征的识别结果比较snrdbclean95lpccmfccwpfd10010010035869095207384901057758154069734结束语本文介绍了说话人识别中特征参数提取的一种新方法它所得到的特征参数有效地结合小波分析和分形技术各自的优点和其它特征参数相比具有更好的识别和稳定性而新的方法存在的缺陷就是分形的计算量比较大导致特征提取的过程要花费比较多的时间下一步主要的工作是减少分形的计算量提高语音的识别速度
表 1 在不同信噪比环境下各种特征的识别结果比较 S N R( d B) ( ) C l e a n9 5 3 5 2 0 1 0 5 L P C C 1 0 0% 8 6% 7 3% 5 7% 4 0% MF C C 1 0 0% 9 0% 8 4% 7 5% 6 9% WP F D 1 0 0% 9 5% 9 0% 8 1% 7 3%
图 1 三层小波分解
对一个给定的信号 S 进行采样 , 则信号的频域中给 定 了, 当进行小波分解 时 , 所得到的高频与低频信号分别占
, 作者简介 : 陈春辉 ( 男, 广东化州人 , 华南师范大学计算机学院硕士研究生 , 研究方向为嵌入式语音识别 。 1 9 8 1- )
·1 6 0·
软 件 导 刊 2 0 1 2年
() j 可得到由 S j t 与S 小波包重构算法 :
2 n 1n + j d = l ,

2 n+1
n ( ) () 。 重构 S t j+1 t 的重构算法
p ∑[
2 n j, l 2 k k -

dk +q l 2 k -
2 n 1 + j,

( ) 6
1. 2 M a t l a b 与小波
1 小波包和分形
1. 1 小波包频率分解
小波分解只是将信号的近似 系 数 用 于 进 一 步 分 解 如 ( ) 。 而小波包可根据需要选取近似系数 或细节 系 数 图1 a 来做进一步分解 , 引入小波包变换的基本思想是寻找 有 用 信号在近似 系 数 和 细 节 系 数 的 特 性 , 从而找出其中的规 律。
相关文档
最新文档