神经网络课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音唤醒技术综述
keyword spotting
姓名
语音唤醒
语音交互的过程与平时人与人之间交流的方式非常相似,有问有答。比如某 个阴天,你对同事呼喊称:“小明”,小明听到了抬头看你表示在听,你接 着问“今天会下雨么?”小明打开手机查了一下今天的天气预报,然后回答 你说“天气预报说下午3-4点有雷阵雨”。
唤醒可以看成是一种小资源的关键词检索任务。其计算资源小,空间存储资源小,因此其系统 框架与关键词检索有一定区别。目前常用的系统框架有以下两种:
1. 基于HMM 的keyword/filler 系统
第一种被称为基于隐马尔科夫模型的Keyword and Filler系统,这类系统的关键是上图 中左侧的解码模块,它与语音识别器中的解码器类似,也是通过维特比算法来获取到最优 的路径,但是与语音识别中LVCSR(大规模词表语音识别)系统的区别在于解码网络具体 的构建,语音识别中的解码网络包含所有词典中的词汇,而唤醒的解码网络如上图右侧包 含了Keyword和Filler的途径,除了关键词以外的词汇都包含在Filler路径当中,不是每 一个词都会有相应的路径,这样的网络会比语音识别的网络小很多,有针对性地对关键词 进行解码,可选的路径就少了很多,解码的速度也会得到大幅度的提升。对于解码出来的 候选再作一个判断,就完成这样一套技术方案的整体构架
常用框架
2. 端到端系统
第二种系统不再采用解码这样一个步骤,直接是由端到端的模式,即输入是语音,输出直 接是关键词。这样的系统包括三个部分:如上图,第一步是特征的提取,第二步通常是一个 神经网络,它的输入是语音特征,输出是各个关键词和非关键词即Filler这样一个后验概率。 由于第二步的网络是以帧为单位输出后验值的,就需要第三步对后验值以一定的窗长进行平 滑,平滑后的后验值如果超过一定的阈值会被认为是唤醒了。
语音唤醒技术介绍
“唤醒词”对用户体验的影响
唤醒词组成方式方面:
在以“名字”为基础的不同组合方式中 “名字+名字”的叠词式组合方式最受用户喜欢 “品牌+名字”的组合方式最不被用户喜欢; 就“名字”本身而言 “小+字”的名字最受用户喜欢。
语音唤醒技术介绍
“唤醒词”对用户体验的影响
语音要素方面:
声调:用户最喜欢阴平,同时相较“仄声”,用户更加喜欢 “ 平声” 声母:用户更加喜欢尾音声母为零声母,而包含了z、c、s的 舌尖前音最不被用户所喜欢; 韵母: 按照韵母发音时的口型开口情况来看,用户更喜欢开 口口型较大的齐口呼和开口呼;另外按照韵母结构来看,音 节韵母为单韵母的词最受用户的喜欢。
CNN介绍
Stride=1
Convolution
CNN介绍
பைடு நூலகம்
Stride=1
CNN介绍
滤波器(红色框)在输入图像滑 过(卷积操作),生成一个特征 图。另一个滤波器(绿色框)在 同一张图像上卷积可以得到一个 不同的特征图。
Convolution
CNN介绍
空间池化(Spatial Pooling)(也叫做亚采用或者下采样)降低了各个特征图的维度,但可以保持大部分重 要的信息。空间池化有下面几种方式:最大化、平均化、加和等等。
CONTENTS
语音唤醒技术介绍
评估性能和方法
近期文章
难点、应用及展望
语音唤醒技术介绍
语音唤醒:有时也称为关键词检测(Keyword spotting),也就是在连续不断 的语音中将目标关键词检测出来,一般目标关键词的个数比较少(1~2个居 多,特殊情况也可以扩展到更多的几个)。
语音唤醒识别(Wake-UpWord Speech Recognition)是用来识别特定的唤 醒词,将激活信号传递给硬 件设备来实现智能控制。与 大词汇量的语音识别技术不 同的是,它是一个基于小语 料的识别系统, 它要求对 唤醒词的激活率要尽量接近 百分百,而其他的词汇尽量 为零。
技术路线 语音唤醒的技术路线大致可归纳为三代 第一代:基于模板匹配的KWS 第二代:基于HMM-GMM的KWS
第三代:基于神经网络的方案
第一代:基于模板匹配的KWS
训练和测试的步骤比较简单,训练就是依据注册语 音或者说模板语音进行特征提取,构建模板。测试时, 通过特征提取生成特征序列,计算测试的特征序列和模 板序列的距离,基于此判断是否唤醒。 第二代:基于HMM-GMM的KWS
用于检测语音开始的位置,替换掉按键,比如Amazon Echo(亚马逊公司研 制的智能音箱),其语音交互流程被划分为五个环节 – 唤醒、响应、输 入、理解、反馈。
评估性能 该怎样评价语音唤醒的效果呢? 召回率:表示的是正确被唤醒的次数占总的应该被唤醒的比例。召回率越高性能越好; 虚警率:表示不该被唤醒的却被唤醒的概率。虚警率越低越好。 实时率:从用户的体验角度来说,就是设备反应的速度,唤醒对于这一反应速度的要求是很高的。 功耗:由于很多设备是依靠电池或者是充电式的,只有低能耗才能保证设备的续航时间。
语音唤醒技术介绍
语音唤醒和语音识别的区别
语音识别 只能处理一段一段的语音数据,也就是待识别的语音有明确的开始和
结束,比如siri(苹果智能语音助手)按下home键,开始录音说话,松 开录音结束,返回识别结果
语音唤醒 它是处理连续不断的语音流,比如语音开关24小时不间断的检测麦
克录音中的关键词信息
语音唤醒可以和语音识别技术结合
评估性能 网上也有多种开源的小型语音识别引擎,可以实现单独的语音唤醒功能,性能参差不齐。
常用框架 唤醒可以看成是一种小资源的关键词检索任务。其计算资源小,空间存储资源小,因此其系统 框架与关键词检索有一定区别。目前常用的系统框架有以下两种:
1. 基于HMM 的keyword/filler 系统
常用框架
将唤醒任务转换为两类的识别任务, 识别结果为 Keyword和non-keyword
第三代:基于神经网络的方案
神经网络方案又可细分为几类: 第一类是基于HMM的KWS,同第二代唤醒方案不同之处在 于,声学模型建模从GMM转换为神经网络模型。 第二类融入神经网络的模板匹配,采用神经网络作为特 征提取器。 第三类是基于端到端的方案,输入语音,输出为各唤醒 的概率,一个模型解决
keyword spotting
姓名
语音唤醒
语音交互的过程与平时人与人之间交流的方式非常相似,有问有答。比如某 个阴天,你对同事呼喊称:“小明”,小明听到了抬头看你表示在听,你接 着问“今天会下雨么?”小明打开手机查了一下今天的天气预报,然后回答 你说“天气预报说下午3-4点有雷阵雨”。
唤醒可以看成是一种小资源的关键词检索任务。其计算资源小,空间存储资源小,因此其系统 框架与关键词检索有一定区别。目前常用的系统框架有以下两种:
1. 基于HMM 的keyword/filler 系统
第一种被称为基于隐马尔科夫模型的Keyword and Filler系统,这类系统的关键是上图 中左侧的解码模块,它与语音识别器中的解码器类似,也是通过维特比算法来获取到最优 的路径,但是与语音识别中LVCSR(大规模词表语音识别)系统的区别在于解码网络具体 的构建,语音识别中的解码网络包含所有词典中的词汇,而唤醒的解码网络如上图右侧包 含了Keyword和Filler的途径,除了关键词以外的词汇都包含在Filler路径当中,不是每 一个词都会有相应的路径,这样的网络会比语音识别的网络小很多,有针对性地对关键词 进行解码,可选的路径就少了很多,解码的速度也会得到大幅度的提升。对于解码出来的 候选再作一个判断,就完成这样一套技术方案的整体构架
常用框架
2. 端到端系统
第二种系统不再采用解码这样一个步骤,直接是由端到端的模式,即输入是语音,输出直 接是关键词。这样的系统包括三个部分:如上图,第一步是特征的提取,第二步通常是一个 神经网络,它的输入是语音特征,输出是各个关键词和非关键词即Filler这样一个后验概率。 由于第二步的网络是以帧为单位输出后验值的,就需要第三步对后验值以一定的窗长进行平 滑,平滑后的后验值如果超过一定的阈值会被认为是唤醒了。
语音唤醒技术介绍
“唤醒词”对用户体验的影响
唤醒词组成方式方面:
在以“名字”为基础的不同组合方式中 “名字+名字”的叠词式组合方式最受用户喜欢 “品牌+名字”的组合方式最不被用户喜欢; 就“名字”本身而言 “小+字”的名字最受用户喜欢。
语音唤醒技术介绍
“唤醒词”对用户体验的影响
语音要素方面:
声调:用户最喜欢阴平,同时相较“仄声”,用户更加喜欢 “ 平声” 声母:用户更加喜欢尾音声母为零声母,而包含了z、c、s的 舌尖前音最不被用户所喜欢; 韵母: 按照韵母发音时的口型开口情况来看,用户更喜欢开 口口型较大的齐口呼和开口呼;另外按照韵母结构来看,音 节韵母为单韵母的词最受用户的喜欢。
CNN介绍
Stride=1
Convolution
CNN介绍
பைடு நூலகம்
Stride=1
CNN介绍
滤波器(红色框)在输入图像滑 过(卷积操作),生成一个特征 图。另一个滤波器(绿色框)在 同一张图像上卷积可以得到一个 不同的特征图。
Convolution
CNN介绍
空间池化(Spatial Pooling)(也叫做亚采用或者下采样)降低了各个特征图的维度,但可以保持大部分重 要的信息。空间池化有下面几种方式:最大化、平均化、加和等等。
CONTENTS
语音唤醒技术介绍
评估性能和方法
近期文章
难点、应用及展望
语音唤醒技术介绍
语音唤醒:有时也称为关键词检测(Keyword spotting),也就是在连续不断 的语音中将目标关键词检测出来,一般目标关键词的个数比较少(1~2个居 多,特殊情况也可以扩展到更多的几个)。
语音唤醒识别(Wake-UpWord Speech Recognition)是用来识别特定的唤 醒词,将激活信号传递给硬 件设备来实现智能控制。与 大词汇量的语音识别技术不 同的是,它是一个基于小语 料的识别系统, 它要求对 唤醒词的激活率要尽量接近 百分百,而其他的词汇尽量 为零。
技术路线 语音唤醒的技术路线大致可归纳为三代 第一代:基于模板匹配的KWS 第二代:基于HMM-GMM的KWS
第三代:基于神经网络的方案
第一代:基于模板匹配的KWS
训练和测试的步骤比较简单,训练就是依据注册语 音或者说模板语音进行特征提取,构建模板。测试时, 通过特征提取生成特征序列,计算测试的特征序列和模 板序列的距离,基于此判断是否唤醒。 第二代:基于HMM-GMM的KWS
用于检测语音开始的位置,替换掉按键,比如Amazon Echo(亚马逊公司研 制的智能音箱),其语音交互流程被划分为五个环节 – 唤醒、响应、输 入、理解、反馈。
评估性能 该怎样评价语音唤醒的效果呢? 召回率:表示的是正确被唤醒的次数占总的应该被唤醒的比例。召回率越高性能越好; 虚警率:表示不该被唤醒的却被唤醒的概率。虚警率越低越好。 实时率:从用户的体验角度来说,就是设备反应的速度,唤醒对于这一反应速度的要求是很高的。 功耗:由于很多设备是依靠电池或者是充电式的,只有低能耗才能保证设备的续航时间。
语音唤醒技术介绍
语音唤醒和语音识别的区别
语音识别 只能处理一段一段的语音数据,也就是待识别的语音有明确的开始和
结束,比如siri(苹果智能语音助手)按下home键,开始录音说话,松 开录音结束,返回识别结果
语音唤醒 它是处理连续不断的语音流,比如语音开关24小时不间断的检测麦
克录音中的关键词信息
语音唤醒可以和语音识别技术结合
评估性能 网上也有多种开源的小型语音识别引擎,可以实现单独的语音唤醒功能,性能参差不齐。
常用框架 唤醒可以看成是一种小资源的关键词检索任务。其计算资源小,空间存储资源小,因此其系统 框架与关键词检索有一定区别。目前常用的系统框架有以下两种:
1. 基于HMM 的keyword/filler 系统
常用框架
将唤醒任务转换为两类的识别任务, 识别结果为 Keyword和non-keyword
第三代:基于神经网络的方案
神经网络方案又可细分为几类: 第一类是基于HMM的KWS,同第二代唤醒方案不同之处在 于,声学模型建模从GMM转换为神经网络模型。 第二类融入神经网络的模板匹配,采用神经网络作为特 征提取器。 第三类是基于端到端的方案,输入语音,输出为各唤醒 的概率,一个模型解决