语音识别技术分析与应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 语音识别技术分析
识 别器 开始 ,到线性 预测编码 技 术和动态 时 间规 整技 术应用 于大规 模 连续词 语音识别 ,到普 林斯顿大 学将 隐马模型应 用到语 音识别过程 中,再到对 于解决海 量语 音信息识 别的基于 深度学 习的语音 识别技 术 的应 用…。语音识 别本 质上可 以看做 是一个 序列分 类 的问题 ,声学建 模可 以看做是解 决语音特征观察 序列和状态序 列匹配 的问题 。
、
樊海花
深 孽 度 神 语 譬网 音 识 络 别 的 声 学 建 令 模 机交 手 的 重 要 方 式 , 正 在 被 人 们 所 研 究 。 针 对 语 音 识 别 的 算 法 有 很多 , 本 文 对 基 于 H M M 的 语 音 识 别 声 学 建 模 、 基
1 引言
随 着 移 动 互联 网 的飞 速 发 展 , 语音 识别 作 为 简 单 快 捷 的 人机 交互 方 式 ,被 人 们所 认识 ,越 来越 多的研 究被 投入 其 中 。随着 各种 电子 设备 如 智能 手机 、家 用 电器成 为 人们 生活 所必 不 可少 的组 成部 分 ,人机 交 互变得 越 来越 重要 ,而 语 音识 别作 为最 方便 的人机 交互 方式 ,被人 们 所使 用 。
3 . 4 基 于稀 疏表 示 的语音 增强 技术 在 白噪 声 的 背景 下 ,提 出 基 于 功率 谱 稀 疏 表 示 的语 音 增 强 算 法 。该 研 究方法 用 非 负限 制 的接 近于 K 奇 异值 分解 的算 法训 练不 带 噪声 的纯净 语 音 的功 率谱 字 典 ,采 用L A R S 算 法得 到 功率 谱 的稀 疏 表示 ,这 种 算法 的终 止条 件通 过控 制 噪声 的水平 ,到噪 声 的语音 信 号 的功 率 谱 和 用 稀 疏 功率 谱 重 构 的 功率 谱 之 差 的 范 数 小于 规 定 的 值 ,就停 止算 法 。 由稀 疏表 示和 经 过训 练 的字典 可 以得 到纯 净语 音 的功 率谱估 计 ,后 结合 S S B — S T S A 方 法可 以完成 对信 号 的识 别 。 3 . 5 用 于视 觉和视 昕语 音识 别 的级联 灰色 立体 视觉 特征 提取 方法 尽 管立 体 声 信 息 最近 已经 广 泛 应 用 于 计 算机 视 觉 任 务 ,但 立 体 视 觉信 息 在视 听语 音识 别 ( A VS R)系 统 中 的并 入 以及 是 否可 以 提 高 语 音 准 确 性 仍然 是 一 个 很 大程 度 上 尚未 开 发 的领 域 。该 领 域 需要 解 决 的三个 基 本 问题 :1 )立 体声 功 能是 否 有利 于 视觉 和 视 听 语 音 识别 ? 2 )如果 是这 样 ,立 体 声功 能嵌 入 了 多少 信 息 ? 3 )如 何 在 紧 凑 的 特征 向量 中对 平 面 和立 体 声 信 息 进行 编 码 ?基 于 嵌 入 平 面 和 立 体 声特 征 的不 同信 息 ,一 种 新 的 级 联混 合 外 观 视 觉 特 征 ( C H A VF )提 取方 案 被 提 出 ,将 平 面和 立 体视 觉 信 息成 功 地 结 合 到 一个 紧凑 的特 征 向量 中 ,并且 在视 觉上 评估 这 一新 颖特 征和 视 听 连 接数 字识 别和 孤 立短 语识 别 。结果 表 明,立 体 声信 息能够 显 着提 升 语音 识别 能力 ,提 出的视 觉特 征 的性 能优 于视 觉和视 听 语音 识别 任 务 中其他 常用 的外观 视觉 特 征 。 3 . 6 使 用径 向基 函数 神经 网络 的释 义识 别研 究 抽 象是 使用 替代 单 词对 给定 文本 的重 述 。释 义 的识别 在 问答 , 信 息提 取和 多文 档摘 要 等应 用 中至关 重 要 。文字 的词 汇 ,句法 和 语 义 特 征 可 以单 独 使 用 ,也 可 以组 合 使 用 以识 别释 义 。支 持 向 量机 ( S V M ),最近 邻法 和 决策 树等机 器 学习分 类器 已经 被用 于释 义识 别 ,S V M识别 器是 最受欢迎 的。径 向基 函数 神经 网络 ( R B F NN)被 设计并 实现用 于识别释义 。该研 究在微软研 究释义 语料库 上进行 了。 从实验结 果可 以看 出,R B F N N识 别器 在准 确性 方面 始终优 于 S V M识 别器 , 当使用 词汇 ,句 法和 语义特 征 的组 合时 ,实 现 了最佳性 能
E L E C T R ONI C S W 0R L D・ 技 术 交漉
语 音 识 别 技 术 分 析 与 应 用
北方 民族 大学 电气信 息工程 学 院
基 于统计 模型 的语 音增 强算 法等 算 法做 了 阐述 ,为对语 音识 别作 进一 步 的研 究做 了基础 。 【 关键 词 】 语 音 识 别 ;HMM ;深度 神 经 网络 ;统计模 型
语音识别技术的应用具体可 以从贝尔实验室首先发明的英文数字
3 语音识别技术的应用
3 . 1 基于H MM声学建模 隐 马尔 科 夫模 型是 由隐马 尔科 夫链 演变 而 来的 ,用 于描 述 随机 过程 中的统计 特性 的一种方 Biblioteka Baidu,它 的基本思 想是通过 一串观测 值用前 验概 率计算 公式估算 出模型 参数 ,在 语音识别 训练阶段 ,训练 的数据 越 多,识别结 果就会越 接近 于实际值 。马尔科 夫链 由初 始状态 、转移 矩 阵、输 出状态组 成口 】 ,该模型 的不 同 己知条 件和 不同未 知条件 的组 合 ,会 产生不 同的 问题 。在利 用隐马科 夫模 型解决语音 识别 问题 过程 中 ,分 别用到解 决状态 序列解码 问题和 解决模 型参数估 计 问题 ,在语 料库训 练阶段 ,用到班 姆维奇 算法 ,推 测出模 型中 的参 数 。在语 音的 识别阶 段 ,采 用威特 比算 法 ,当给 定 观测 值 序 列和 模型 参 数 的基础 上 ,确定 最佳 意 义 的状态 序 列 。该模 型 的缺 点是 当隐 马模 型较 为 复 杂 的时候 , 由它训 练 的参 数容 易收敛 于局 部最 小值 。 3 . 2 基 于深 度神 经 网络 的声学 建模 基 于深 度 神 经 网络 的 建 模 , 可 以看 做 是 基 于 高 斯 混 合模 型 的 复 杂化 ,高 斯 混 合 模 型本 质 上 可 以看 做 包 含 一层 隐含 层 的 神 经 网 络 ,隐 含 层 节 点对 应 各 个 高斯 分 量 , 输 出层 为 H MM输 出状 态 】 。 D NN则 是 包含 多个 隐 含层 的多 层 网 络 ,输 入 语 音信 号经 过 分解 到 达 第 一层 隐含 层 ,从 声学 特征 空 间到达 隐含层 所构 造 的新 的特 征空 间 ,各个 隐含 层又 相 当于 下一 个 隐含层 的输入 层 ,在最 后 一层 通过 s o f t ma x 网络 后 到状 态 空 间 。D N N相 当 于通 过 增加 监 督信 息 来 调谐 网络 。D NN 模 型 用于 估 算H MM状 态 的后 验概 率 , 网络 采用 误 差反 向传播 算 法 , 目标 函数 采 用交 叉熵 算法 表 示 ,通过 求取 最优 的 目标 函数来 完 成训 练 。D N N在很 长 的时 间里 ,被 人们 当做研 究使用 的热 点 ,与 此 同时 , 问题也 随 之 而来 , 在 对 它 的多 流特 征 融 合 能力 的 研 究 中 ,发现 其在 全局 有 监督 的精 细调 整 阶段 是 比较 费时 的 。人工 神 经 网络 需要 按照 随机 梯 队下 降 的方法 ,通 过 误差 反 向传播 算法 对 训 练语 音 库进 行训 练 。为 了解 决误 差反 向传 播 算法 瘦脸 相对 缓慢 的 问题 ,提 出 了多G P U 对D N N进 行并 行训练 。 3 . 3 基于 统计 模型 的语 音增 强算 法 假 设语 音 信号 和语 音 信号 所在 环境 的 噪声 信号 的傅 里 叶变 换系 数 都服从统 一分布 ,这类算 法估计 的是语音信 号幅度 谱 ,称为 基于统 计模 型的语 音增强算 法 。隐马模型还 可用于检 测语音 停顿 ,对 于平稳 噪 声 ,在 整个 语音 发音段 ,可 以使用 E M算法 计算噪 声 的最大似 然估 计 ,但 自适应 增益估 计只有 在下一语 音停顿 处才能获 取到 ,这 种语音 增 强算法在 非平稳 噪声环境 下性能会 下降非 常快 。基 于码书 的语音增 强算 法可 以很 好地克 服这个 问题 ,它 引入 了瞬 时增益 计算 ,在 每一帧 语音 中,它利 用 了训 练语音信 号 、噪声信号 的线性预 测系数和 带噪语 音观 测序列来 计算增 益函数 。在基于码 书的语 音增强 算法 中,码 书只 提供线性 预测的参数模 型,它可 以很好的适应非平稳 噪声环境 。