语音模式识别与声控智能家居设想
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音模式识别与声控智能家居设想
模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的信息进行处理和
分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有较高的识别率。
语音识别本质上是一种模式识别,因此,识别算法的好坏对识别效果影响巨大。在半个多世纪的发展中,各种算法层出不穷,如滤波器模型法、线性预测技术(LP) 、动态时间规整算法(DTW) 、隐马尔科夫模型( HMM) 、矢量量化技术(VQ) 、人工神经网络(ANN) 和支持向量机( SVM) 等。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
一语音识别的原理
1.声学特征提取
声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。
2.模型建立
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学模型主要包括HMM声学建模和上下文相关建模。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。
3.语音搜索
连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。方法包括 Viterbi、N-best 搜索和多遍搜索、前向后向搜索算法。
4.系统实现
语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用
音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
二语音识别的过程
语音识别主要包括语音信号预处理、特征提取、特征建模(建立参考模式库) 、模式匹配和后处理几个功能模块,其中后处理为可选部分,如图3 所示。
图3 基于仿生模式识别的语音识别原理框图
一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入的语音进行预处理,并进行特征提取。下具体说明各个模块的功能。
(1) 预处理:对输入的原始语音信号进行处理,滤除背景噪声等,进行语音信号的断点检测[5 ] ,并进行语音分帧以及预加重等处理工作。
(2) 特征提取:负责计算语音的声学参数,并进行特征的计算,提取关键特征参数。为了减小计算量,本文采用一种新的特征提取方法,在传统的能量、过零率、倒谱等特征的基础上,提取每个字能量、过零率和倒谱的最大值的位置在字中所占的比例作为改进的特征量。
(3) 识别阶段:将输入语音的特征量和参考模式库中的模式进行比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。
(4) 训练阶段:输入若干次训练语音,用上述提取得到一组特征参数,建立训练语音的参考模式库。
(5) 后处理:对上述得到的候选识别结果继续处理,通过更多知识的约束,得到最终的结果。
三自适应与鲁棒性
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。
解决办法按针对语音特征的方法和模型调整的方法分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利
用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。
语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。
四声控智能家居控制——口令触发模式:设置合理确认流程
声控智能家居控制,是在现有的智能家居控制系统中,增加了语音用户界面VUI。目前已有的智能家居控制系统,主要有两种方式:无线遥控和有线操作(电力载波或者中央布线)。都会有一个中央控制器或者中央遥控器来操作家里的各种家电。通过在中央控制器或者遥控器中集成引入LD3320 芯片,可以很方便的为智能家居系统增加语音用户界面VUI。
对于中央遥控器,如果是使用电池供电,那么就应该采用和声控电视遥控器采用一样的按键触发模式。考虑到用户的需求,在不接触控制器的状态下,通过语音来远程操作家里的各种家电。因此,口令触发模式就是最适合的模式。同时,一定需要设置确认的流程,务必要避免误触发/误识别的情况发生。以下以三个二级确认的流程来举例说明,开发者可以在此基础上进行修改,或者拓展成三级确认的流程。也可以在产品中支持多种流程,由终端用户根据自己使用的习惯来选择。
1) 设置前置口令,第二级说“操作+设备”
设置口令为“阿拉丁”或者“大管家”(口令可以选择发音响亮,琅琅上口的词语)。中央控制器处于一直上电的状态,所以识别芯片一直处于循环识别状态,只有在识别出是口令后,才进入下一阶段的识别流程。并且充分利用LD3320芯片的特性,在添加口令的同时另外增加垃圾词语直至达到LD3320 芯片的最大容量,这样可以很大程度地避免其他声音带来的误识别。(在成功识别出口令后,可以选择播放很轻微的“嘀”的一声,或者闪一下小的LED 灯,来作为提示)在识别出口令后,在接下来的8 秒钟时间内,等待接收用户的命令,比如“全部关闭”,“打开厨房灯”,“打开空调”等等。如果在限定的时间内,没有正确识别和接收到用户的命令,则取消本次识别流程。重新回到等待口令的状态。