多媒体技术_语音识别技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 缺点:CNN声学模型的训练占用了大量的时间,将来声学模型必定是建立在成千. 上万小时语音数据和更复杂的网络结构基础之上训练得来的。目前来看搭建多 GPU集群是有效的解决方案,其中网络分布式训练、GPU之间的数据通信等关键 技术需要进步研究。高质量的声学特征对语音识别系统而言是十分重要的,需要 设计出更加合理高效的特征提取网络以便于从语音的时频谱中获取有价值的声学 特征。
7
步骤及流程图
Steps and flow chart
止于至善
步骤
1
预处理
对语音信号进行分析和 处理,除去冗余信息
3
训练
后台按照不同语法,依 照先后次序识别字词; 系统紧扣特征信息,用
最小单元识别字词
5
对比匹配
系统进行语义分析,给关键
信息划分段落,取出所识别
出的字词并连接起来,同时
根据语句意思调整句子构成
多媒体技术 语音识别的技术实现
——采用复倒谱峰值滤波GMM 识别混响语音
multimedia technology
报告人: 报告日期:2019/10/17
止于至善
目录
content
止于至善
01 目的 02 实现功能 03 步骤及流程图 04 模块具体实现方法 05 实现原理
06 参考文献
目的
Purpose
特征提取及训练的典型方法
CNN卷积神经网络进行语音识别研究
• 优点:深度卷积神经网络作为深度学习中最常用网络结构之一,已被广泛应用于 图像识别、自然语言处理、语音识别等领域。语音识别作为人机交互最主要的入 口,具有重要的研究意义。基于深度卷积卷积网络的声学建模研究和深度卷积神 经网络的时、频谱特征提取。利用深度卷积神经网络强大的建模能力,有效地描 述语音特征的状态空间分布,并与HMM结合实现声学建模。
止于至善
4
目的
10% 虹膜识别 12% 掌型识别 20% 面部识别
27% 指纹识别
32% 语音识别
止于至善
5
实现功能
Achieve function
止于至善
实现功能
止于至善
实现功能
语音识别功能的存在,可以保证我们能够只使用语 音便能达到代替双手输入的功能,可以让智能语音 设备反馈给我们其他用户反馈的语音消息。例如在 自己双手腾不开的时候,又急需要给重要的人发送 消息,而对方可能在开车或者开会,没有办法及时 地去处理语音消息。这时候如果使用微信的语音输 入功能,这一问题就得到了解决。在使用社交软件 与人交流的时候,使用文字会显得更为庄重正式, 而使用语音则显得比较亲密随意。但是很多情况下, 我们来不及根据情况去决定使用哪种输入的方式, 所以语音转文字的功能就显得十分必要了。
止于至善
目的
随着生物识别种类的不断增加,以语音为基础的身份验证方式似乎比 其他方式更容易让人接受,因为语音识别具有非接触、非侵入性和易 于使用的特点,所以语音识别特别受大众消费者的喜欢。 根据Unisys公司调查显示,消费者喜欢的生物安全措施排名如下页扇 形图所示,通过这个排名可以看出大多数人更喜欢方便实用的语音识 别技术。
止于至善
预处理
预处理过程常用典型方法有端点检测、 声道转换、预加重、去加重、分帧、加 窗、重采样等,不同的语音识别在预处 理顺序上有一定差别。 具体描述:
端点检测的唯一目的就是找到语 音信号的起始点和结束点。端点检 测最常用的方法就是双门眼检测法。 双门眼检测法是通过计算门限能量 的方式来判断语音端点的技术, 一般 会在语音识别之前设置双门的门限λ, 然后分别计算每个时刻的语音能量, 若该能量大于门限阈值, 则新生成门 限序列为1, 反之则为0, 从而得到门 限序列后, 将其点乘原始语音序列, 得到有效语音序列。
预处理的缺点
某些人的语言习惯, 可能会出现反复出现某个词语, 或说话结结巴巴以及语音识别运用 时的外界环境的复杂性, 可能会出现方言, 别的语种类型的语言会导致预处理不当。
止于至善
13
特征提取及训练的典型方法
HMM声学模型
如今主流语音识别系统都采用隐马尔科夫模型(HMM)作为声学模型, 这是因为HMM具有很多优良特性。HMM模型的状态跳转模型很适合 人类语音的短时平稳特性,可以对不断产生的观测值(语音信号)进行 方便的统计建模;与HNN相伴生的动态规划算法可以有效地实现对可 变长度的时间序列进行分段和分类的功能;HMM的应用范围广泛。 只要选择不同的生成概率密度,离散分布或者连续分布,都可以使用 HNM进行建模。HMM以及与之相关的技术在语音识别系统中处于最 核心的地位。
止于至善
2
特征提取
提取影响语音识别的 关键信息和表达语言
含义的特征信息
4
数据库
智能算法能把语法逻 辑当作辅助识别条件,
有利于分析和识别
6
识别结果
最后智能结合语义,仔 细分析上下文的相互联 系,对当前正在处理的
语句进行适当修正
9
Βιβλιοθήκη Baidu
流程图
流程图
模块具体实现方法
Module implementation method
特征提取及训练的典型方法
RNN循环神经网络进行语音识别研究
• 优点:首先利用小波变换分析改进了特征提取环节,其次分析了循环神经网络的 基本原理和训练算法BPTT后,对语音的特征训练以及识别是建立在数字“0~9”的 实验之上,并经过与其他方法的识别率对比验证了循环神经网络对语音处理的优 势。纵观全文,虽然在实验中获得了较好的实验结果。
止于至善
预处理阶段使用预加重技 术, 在语音信息的处理阶段 预先添加与原始语音高频信 号, 通过叠加之后, 原始语音 信息在高频和低频段的能量 相当, 使得识别效率明显提 升。而在语音识别系统的输 出端, 则需要做相反的处理, 也就是去加重, 采用相反的 负能量信号将添加的高频成 分去掉, 从而还原原来的信 号分布, 有效提高声音信号 的信噪比。
12
预处理
分帧
分帧从简单来说, 一段信号整体是不稳定的, 但从局部来看, 信号是稳定的, 所以要想接 收端接收平稳的信号, 就需对整段语音进行分帧, 也就是切成几段。但是需要注意的是, 根据香农定理,分帧越多地声音片段, 其开始段和结束段会存在声音不连续的现象, 导 致了分帧的帧长越短, 信号的误差就越大。为了解决此问题, 语言学家提出了利用带通 滤波器来过滤的方法, 也就是加窗。常见的三种窗函数是矩形窗、汉明窗和汉宁窗。
7
步骤及流程图
Steps and flow chart
止于至善
步骤
1
预处理
对语音信号进行分析和 处理,除去冗余信息
3
训练
后台按照不同语法,依 照先后次序识别字词; 系统紧扣特征信息,用
最小单元识别字词
5
对比匹配
系统进行语义分析,给关键
信息划分段落,取出所识别
出的字词并连接起来,同时
根据语句意思调整句子构成
多媒体技术 语音识别的技术实现
——采用复倒谱峰值滤波GMM 识别混响语音
multimedia technology
报告人: 报告日期:2019/10/17
止于至善
目录
content
止于至善
01 目的 02 实现功能 03 步骤及流程图 04 模块具体实现方法 05 实现原理
06 参考文献
目的
Purpose
特征提取及训练的典型方法
CNN卷积神经网络进行语音识别研究
• 优点:深度卷积神经网络作为深度学习中最常用网络结构之一,已被广泛应用于 图像识别、自然语言处理、语音识别等领域。语音识别作为人机交互最主要的入 口,具有重要的研究意义。基于深度卷积卷积网络的声学建模研究和深度卷积神 经网络的时、频谱特征提取。利用深度卷积神经网络强大的建模能力,有效地描 述语音特征的状态空间分布,并与HMM结合实现声学建模。
止于至善
4
目的
10% 虹膜识别 12% 掌型识别 20% 面部识别
27% 指纹识别
32% 语音识别
止于至善
5
实现功能
Achieve function
止于至善
实现功能
止于至善
实现功能
语音识别功能的存在,可以保证我们能够只使用语 音便能达到代替双手输入的功能,可以让智能语音 设备反馈给我们其他用户反馈的语音消息。例如在 自己双手腾不开的时候,又急需要给重要的人发送 消息,而对方可能在开车或者开会,没有办法及时 地去处理语音消息。这时候如果使用微信的语音输 入功能,这一问题就得到了解决。在使用社交软件 与人交流的时候,使用文字会显得更为庄重正式, 而使用语音则显得比较亲密随意。但是很多情况下, 我们来不及根据情况去决定使用哪种输入的方式, 所以语音转文字的功能就显得十分必要了。
止于至善
目的
随着生物识别种类的不断增加,以语音为基础的身份验证方式似乎比 其他方式更容易让人接受,因为语音识别具有非接触、非侵入性和易 于使用的特点,所以语音识别特别受大众消费者的喜欢。 根据Unisys公司调查显示,消费者喜欢的生物安全措施排名如下页扇 形图所示,通过这个排名可以看出大多数人更喜欢方便实用的语音识 别技术。
止于至善
预处理
预处理过程常用典型方法有端点检测、 声道转换、预加重、去加重、分帧、加 窗、重采样等,不同的语音识别在预处 理顺序上有一定差别。 具体描述:
端点检测的唯一目的就是找到语 音信号的起始点和结束点。端点检 测最常用的方法就是双门眼检测法。 双门眼检测法是通过计算门限能量 的方式来判断语音端点的技术, 一般 会在语音识别之前设置双门的门限λ, 然后分别计算每个时刻的语音能量, 若该能量大于门限阈值, 则新生成门 限序列为1, 反之则为0, 从而得到门 限序列后, 将其点乘原始语音序列, 得到有效语音序列。
预处理的缺点
某些人的语言习惯, 可能会出现反复出现某个词语, 或说话结结巴巴以及语音识别运用 时的外界环境的复杂性, 可能会出现方言, 别的语种类型的语言会导致预处理不当。
止于至善
13
特征提取及训练的典型方法
HMM声学模型
如今主流语音识别系统都采用隐马尔科夫模型(HMM)作为声学模型, 这是因为HMM具有很多优良特性。HMM模型的状态跳转模型很适合 人类语音的短时平稳特性,可以对不断产生的观测值(语音信号)进行 方便的统计建模;与HNN相伴生的动态规划算法可以有效地实现对可 变长度的时间序列进行分段和分类的功能;HMM的应用范围广泛。 只要选择不同的生成概率密度,离散分布或者连续分布,都可以使用 HNM进行建模。HMM以及与之相关的技术在语音识别系统中处于最 核心的地位。
止于至善
2
特征提取
提取影响语音识别的 关键信息和表达语言
含义的特征信息
4
数据库
智能算法能把语法逻 辑当作辅助识别条件,
有利于分析和识别
6
识别结果
最后智能结合语义,仔 细分析上下文的相互联 系,对当前正在处理的
语句进行适当修正
9
Βιβλιοθήκη Baidu
流程图
流程图
模块具体实现方法
Module implementation method
特征提取及训练的典型方法
RNN循环神经网络进行语音识别研究
• 优点:首先利用小波变换分析改进了特征提取环节,其次分析了循环神经网络的 基本原理和训练算法BPTT后,对语音的特征训练以及识别是建立在数字“0~9”的 实验之上,并经过与其他方法的识别率对比验证了循环神经网络对语音处理的优 势。纵观全文,虽然在实验中获得了较好的实验结果。
止于至善
预处理阶段使用预加重技 术, 在语音信息的处理阶段 预先添加与原始语音高频信 号, 通过叠加之后, 原始语音 信息在高频和低频段的能量 相当, 使得识别效率明显提 升。而在语音识别系统的输 出端, 则需要做相反的处理, 也就是去加重, 采用相反的 负能量信号将添加的高频成 分去掉, 从而还原原来的信 号分布, 有效提高声音信号 的信噪比。
12
预处理
分帧
分帧从简单来说, 一段信号整体是不稳定的, 但从局部来看, 信号是稳定的, 所以要想接 收端接收平稳的信号, 就需对整段语音进行分帧, 也就是切成几段。但是需要注意的是, 根据香农定理,分帧越多地声音片段, 其开始段和结束段会存在声音不连续的现象, 导 致了分帧的帧长越短, 信号的误差就越大。为了解决此问题, 语言学家提出了利用带通 滤波器来过滤的方法, 也就是加窗。常见的三种窗函数是矩形窗、汉明窗和汉宁窗。