汽车辅助驾驶系统中基于麦克风阵列的语音采集与识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

max
1<i < N
δ
t
−1
(i)aij
\*MERGEFORM(AT3-16)
c)终结
P*
=
max
1≤i≤ N
δT aij
qT* = arg max δT (i)
1≤i≤ N
d)状态序列求取
\*MERGEFORMAT(3-17)
qt*= ϕ(t+1) (q*t+1), t= T −1,,1
\*MERGEFORMAห้องสมุดไป่ตู้T 3-18)
INFORMATION TECHNOLOGY 信息化建设
三、实验仿真
(一)麦克风阵列硬件 麦克风阵列 (Microphone Array),指的是多个麦克风的有 序排列,即由一定数目的声学传感器组成的排列,可用以对 声场空间特性进行采样和处理的系统。早在二十世纪七八十 年代,语音信号处理领域就已经开始研究麦克风阵列。由于 其准确性,从九十年代开始,基于麦克风阵列的语音信号处 理算法逐渐成为研究热点。发展到现如今的“声控时代”, 这项技术的重要性更加突出。 为了让本次实验数据更可靠,本文在录音的过程中,没 有使用电脑自带的录音软件,而是使用汽车辅助中所需要的 外接麦克风。本文中的仿真实验所用的外接麦克风是科大讯 飞 的 一 款 二 麦 阵 列 XFM10211。XFM10211 是 一 款 基 于 二 麦 克风阵列的语音硬件方案。采用二麦克风录音,再经过麦克 风阵列模块进行语音降噪、回声消除、语音唤醒后,输出数 字音频信号、模拟音频信号、唤醒触发信号等。其原理图如 图 3 所示:
著名瑞典工程师兼语音学家 G.Fant 提到: “语音研究 工作者应当努力工作在跨学科领域”[2]。因为语音识别的研 究涉及到声学语音、信号处理、模式识别、语言学、计算机 科学、心理学、信号处理等学科领域的综合技术。”因此, 语音识别的研究也是一个颇具挑战性的工作。查阅国内外文 献可知,语音识别技术发展到今天,中小词汇量非特定人语 音识别系统识别精度可达到 98%,对特定人语音识别系统的 识别精度更高。这些技术可以满足通常应用的要求。
INFORMATION TECHNOLOGY 信息化建设
汽车辅助驾驶系统中 基于麦克风阵列的语音采集与识别
◆ 张文宇 涂斯纯 孙园翔 李 婕
摘要:汽车辅助驾驶系统中的语音交互,可以实现语音导航、躲避拥堵、信息查阅等功能。本文从 语音信号采集开始详细介绍了辅助驾驶中所使用的语音识别的整个过程,包括预处理,特征提取,训练 与识别。在预处理阶段,详细介绍了语音信号的采样、预加重和端点检测。其中端点检测是语音识别中 预处理阶段中最重要的一步,它直接关系到后面的识别过程的准确率。一系列的前端处理之后,正式进 入了语音识别阶段。论文主要介绍了隐马尔可夫法(HMM)语音识别算法。在仿真过程中实现孤立词的 语音识别。
语音识别的框架图如图 1 所示。语音输入通过预处理后, 逐帧进行特征的提取,再将未知语音的模式和已知语音的参 考模式逐一比较,得到的最佳匹配就是最终的识别结果。
图 1 语音识别原理图 本文语音识别算法采用 HMM 模型,在构建一个完整的 HMM 模型时,应由指定状态数 N,符号总数 M,三个参数 A, B,π 来描述,HMM 模型一般用 来表示以方便使用,其组 成示意图如图 2 所示,其中 T 表示观察时间长度。
126 信息系统工程 │ 2019.5.20
a)初始化 = δt (i) πibi (oi ) 1 ≤ i ≤ N
ϕi (=i) 0 1 ≤ i ≤ N
\*MERGEFORMAT(3-15)
b) 递= 归 δt max δt a −1 ij 2 ≤ t ≤ T ,1 ≤ j ≤ N
ϕt
(
j)
=
arg
关键词:语音识别;动态时间弯折;隐马尔可夫模型;特征提取
一、前言
语言是人类信息交流中最自然、最有效的方式。人和机 器的交流能否像人与人一样自如?一直以来得到大家的研究 学者们的关注。控制论创始人维纳 [1] 在 1950 年就曾指出:“通 常,我们把语言仅仅看作人与人之间的通信手段,但是,要 使人向机器,机器向人以及机器讲话,那也是完全办得到的”。 现如今,语音识别俨然成为了信息技术中人机接口中不可或 缺的部分,人类可以直接通过语音来控制机器。
二、语音识别模型介绍
语音识别的模型在本质上是一个多维的模式识别系统,大 部分的语音识别技术采用的是基于语音模板匹配的原理。按照 匹配原理,一个完整的语音识别系统可以分为以下三部分 : [3-5]
(1)语音的特征提取; (2)建立声学模型与语音识别算法; (3)语言模型建立及处理。 声学模型是语音识别至关重要的一步,也是识别系统较 底层的部分。构建的模型用来计算语音特征提取后的矢量序 列和单个发音模板的间距,用于匹配识别。而在中、大词汇 量的系统中,语言模型的构建也是关键的一步。若前期的分 类出现误差,可通过语言学模型、语法结构、上下文语义信 息进行判断纠正,例如:同音的识别,此类情况只能根据上 下文结构确定词义。现如今,比较成功的语言模型基本采用 基于语法统计的语言模型和基于规则语法结构命令的语言模 型这两类,后者的作用在于限定了不同词语的相互关联,同 时减少识别系统的搜索空间上起到了很大的作用。
图 2 隐马尔可夫链 一个 HMM 模型可以用 5 个元素来描述,包过 2 个状态 集合和 3 个概率矩阵。其分别为 隐含状态 S,可观测状态 O,初始状态概率矩阵 π,隐 含状态概率转移矩阵 A,观测状态转移概率矩阵 B。由 HMM 基本原理可知,如果要建立 HMM 模型并将其运用到实际生 活中,必须要先解决下面几个问题 : [7] 1)识别问题:已知观察符号序列 O = o1o2 oT 和 HMM 模 型 λ = (A, B,π ) ,如何计算观察符号序列的输出概率 P(O λ) 。 2) 寻 找 最 佳 的 状 态 序 列 问 题: 已 知 观 察 符 号 序 列 O = o1o2 oT 和 HMM 模 型 λ = (A, B,π ) , 如 何 准 确 计 算 出 与 之 相 对应的最佳状态序列?实质上就是设计一种有效的、能计算 出模型产生的观察符号序列概率的最大路径的算法。 3) 模 型 训 练 问 题: 若 所 观 察 符 号 序 列 O = o1o2 oT 和 HMM 模型 λ = (A, B,π ) ,如何不断调整 λ = (A, B,π ) 的参数,使输出 概率 P(O λ) 达到最大。第三个问题在本质上是一个寻优的过程。 本文主要利用针对第二个问题提出的 Viterbi 算法 [8] 来 实现语音识别,其算法过程如下:
相关文档
最新文档