采用非对称唇形轮廓模型提高汉语唇形识别效果

合集下载

基于三维可视语音库的发音康复方法

基于三维可视语音库的发音康复方法

篇文 章概述 了我们 的框 架结 构 , 而不 是 介 绍 工 作 成
就。
音过程的动作序列 , 一边模仿一边练习, 具体内容包
括:
1 产 生 的 背 景
为了克 服 目前 语 言障碍 者学 习发 音过 程 中出现 的无反馈 、 调枯 燥 等 不 足 。我 们 提 出将 三维 建 模 单
话代 理 的模式 基础 上建 立汉语 三 维语音 库 。应该 指 出的是 , 项工 作仍 然处 于非 常初级 的阶段 , 这 因此 这
个 发音 学 习者语 言康 复语 训 库 , 个 分等 级 一
的训练 库 , 个语 言发 音器 官参 数库 , 一 一个 三维会 话 头像 。通 过半 透 明的 头像可 以看 到 内部发 音器官 发
结合 语音识 别 和图 像 识别 技 术 对 发 音进 行校 正 , 以
和视 频 资料 。通 过视 频 分 析 ( 读 技 术 ) 音 频 分 唇 和
收 稿 日期 :09 1—6 2 0 —21 基 金项 目 : 林 省 科 技 发 展 计 划 项 目 (0 8 11 ; 林 省 教 育 厅 “ 一 五 ” 学 技 术 研 究 项 目( 09 3 ,0 94 ,0 9 5 ) 长 吉 20 2 1 ) 吉 十 科 20 2 2 20 4 6 2 04 1 ;
到将 三 维会话 头像 技术 应用 于人 机交互 用 以解决语 言障碍 者 进 行 语 言 矫 治 的 重 要 性 。 Oo nw l lvE gal ,
Pe e k rbnWi…等 人首 先提 出应 有一 个 互 动 的谈话 代
续习 厂 练/ L 二
从聋儿基本信息库中 ID a iHa模拟 l Tln e 3 kg d
从语料库 中选择相应 从参数库中

基于深度学习的唇语识别研究

基于深度学习的唇语识别研究

基于深度学习的唇语识别研究一、引言唇语是一种通过观察嘴唇的形态和运动来理解对方语言的非语言交流方式。

唇语识别可以将嘴唇形态和运动转化为文字或语音信号,从而帮助听力受限人士更好地理解对话内容。

基于深度学习的唇语识别技术已经广泛应用于理解口音、识别语音、人脸识别等领域,它的应用前景十分广泛。

二、唇语识别的技术原理唇语识别的技术原理是将视频中的唇形动作转化为可供计算机理解的数字信号,通过这个信号识别出每个唇形动作的含义。

传统的唇语识别方法主要是通过手工提取唇形特征,并使用模板匹配、HMM等算法进行分类。

这种方法的缺点是需要手动设计和选择特征,且对唇形变化的鲁棒性差。

深度学习的出现使得唇语识别技术有了长足的进步,主要是通过将唇形动作转化为图像或者序列信号,并应用神经网络进行训练和识别。

下面分别介绍两种类型的唇语识别技术。

1. 基于图像的唇语识别基于图像的唇语识别技术主要是将视频的每一帧图像作为输入,使用卷积神经网络(CNN)进行训练和识别。

训练数据一般是由许多人不同发音方式的训练集组成,而测试数据则是从视频中提取的嘴唇运动图像。

这种方法的主要优点是训练和推理容易,并且精度较高。

但是它对于光线和嘴唇颜色的不一致性较敏感。

2. 基于序列的唇语识别基于序列的唇语识别和基于图像的唇语识别类似,不同之处在于它是将输入序列作为输入,而不是单个图像帧。

在这种方法中,输入序列包含许多时间步骤,每个时间步骤是来自视频中的一个嘴唇运动图像。

该序列被馈送到循环神经网络(RNN)中,RNN的输出是一个分类结果,表示当前嘴唇动作所代表的信息。

这种方法对于光照、嘴唇颜色以及嘴唇形变等方面具有较好的鲁棒性,但是训练和推理复杂度较高。

三、基于深度学习的唇语识别应用基于深度学习的唇语识别技术已经广泛应用于实际场景。

下面列举一些应用:1. 帮助聋哑人士交流唇语识别可以将人们的嘴唇动作转化为对应的语言和文字信息,从而使听力障碍的人们能够更好地与别人进行交流。

人脸识别中嘴唇轮廓提取问题的研究

人脸识别中嘴唇轮廓提取问题的研究
(1) An improved level set approach based on Fisher transformation is proposed to strengthen the gradient information of the lip contour and improve the accuracy of contour extraction.
生物特征识别技术中人脸识别是最自然、最直接的手段。人脸识别是通过分析比较 人脸识别特征信息进行身份识别的计算机技术,涉及了数字图像处理、模式识别、计算 机视觉、生理学和数学等诸多学科,具有十分重要的理论意义。人脸识别可应用于安全 验证、视频会议、交通、银行、海关等方面用于身份验证、图像数据库的检索、提高人 机交互能力等,因此,人脸识别具有广泛的应用前景。
1.2 国内外研究现状
人脸识别中嘴唇轮廓的提取属于图像分类与识别的研究领域。下面我们介绍图像分 类与识别以及嘴唇轮廓提取的国内外研究现状。
1.2.1 图像分类与识别的研究现状
图像的分类[12]是指计算机根据图像内容分析技术自动分析和理解图像的语义信息, 并按照预先制定的分类标准将图像进行归类识别的过程。图像分类与识别的研究主要集 中在图像特征提取与分类器研究两个方面。
(1) 提出基于Fisher变换的水平集方法,增强了图像的梯度信息,使轮廓提取的准确 度得到了提高。
(2) 针对Fisher变换方法需要大量的人工标记数据的问题,将半监督学习应用到嘴唇 图像的分割中,并结合水平集方法进行轮廓提取,综合利用了有标记和未标记的图像像 素信息,在标记信息较少的情况下,取得了较好的轮廓提取效果。
1
河北大学工学硕士学位论文
研究人脸识别中嘴唇轮廓的提取与定位,该技术广泛应用于表情分类识别、唇动识别及 疲劳驾驶检测等领域。表情分类识别在人机交互系统、公共安全等领域中起着非常重要 的作用。面部表情的变化主要表现为嘴部、眼部的运动,计算机精确定位嘴唇轮廓可以 判别嘴部的运动状态,分析人的表情变化,进一步判断人的心理活动。唇读识别技术[11] 是利用视觉信道信息补充听觉信道的信息,以提高计算机系统的理解力,在现实中对听 力障碍者的沟通与交流具有重要的影响。嘴唇轮廓提取与定位是唇读识别技术的首要环 节也是非常重要的环节,对唇读识别正确率的影响至关重要。疲劳驾驶监测中,嘴部特 征定位技术作为一种基础的安全辅助驾驶技术可以用来判断驾驶员是否处于疲劳或者 精神分散状态,并进行及时的预警报告,对于安全驾驶有着非常重要的实际意义。综上 所述,嘴唇轮廓提取与定位技术是一种具有发展潜力的生物特征识别技术,其研究和发 展不仅具有重要的理论意义,而且具有广阔的应用前景和实际意义。

基于唇形图像的语音识别技术研究与应用

基于唇形图像的语音识别技术研究与应用

基于唇形图像的语音识别技术研究与应用随着科技的不断发展,人类对于语音识别技术的需求也愈发强烈。

然而,现有的语音识别技术仍然存在一些问题。

例如,有时候语音信号的质量非常差,甚至是无法辨认的。

为了解决这些问题,新的语音识别技术被不断提出并发展。

而基于唇形图像的语音识别技术是一个新近出现的技术。

它通过对唇形图像的识别和分析,来提取和识别语音信号中的信息。

这种技术已经在很多场景下得到了应用,并在某些方面已经取得了很不错的效果。

一、基于唇形图像的语音识别技术的原理和过程基于唇形图像的语音识别技术的主要思想是,通过对唇形图像的分析和比对,来准确地识别语音信号中的音频信息。

其原理和过程大致可分为以下几个步骤:第一步,获取唇形信息。

这需要借助摄像头等设备来实现,将说话人的唇部区域拍摄下来,并将其转换成数字图像。

第二步,对唇形图像进行处理。

这包括对图像进行预处理、特征提取等操作,以从唇形图像中提取出语音信息。

第三步,对提取出的语音信息进行分析。

这需要将唇形图像转换成数字信号,并对其进行信号处理和分析等操作。

第四步,将语音信息进行识别。

这需要对分析得到的语音信息进行匹配和识别,以得到最终的语音识别结果。

二、基于唇形图像的语音识别技术的应用基于唇形图像的语音识别技术可以应用于很多场景,下面就介绍几个具体的应用场景:1. 辅助听力障碍者的交流。

使用基于唇形图像的语音识别技术,可以将说话者的唇形图像转换成文字或声音,这对于听力障碍者的交流非常有帮助。

2. 电影或视频的字幕制作。

基于唇形图像的语音识别技术可以用于自动生成电影或视频的字幕,从而在观影过程中提供更好的交互体验。

3. 语音交互式应用。

在一些应用场景下,语音交互式应用可以提供更简单、方便的交互方式。

基于唇形图像的语音识别技术可以提高这类应用的准确度和可用性。

4. 安全身份验证。

使用基于唇形图像的语音识别技术,可以进行声纹识别和唇形识别的结合验证,从而提高安全性和可靠性。

中文唇语识别技术流程

中文唇语识别技术流程

中文唇语识别技术流程引言:中文唇语识别技术是一种利用人的唇部运动模式来识别和理解语言的技术。

随着人工智能和计算机视觉的快速发展,中文唇语识别技术在多个领域展示了广阔的应用前景。

本文将介绍中文唇语识别技术的流程,包括数据采集、预处理、特征提取、模型训练和识别等环节。

一、数据采集中文唇语识别技术的第一步是采集唇部运动数据。

通常使用高速摄像机或深度相机来捕捉人的唇部运动。

在数据采集过程中,应注意环境的光线和噪声干扰,以确保数据的质量和准确性。

采集到的数据应包括不同人的唇部运动视频。

二、预处理在数据采集完成后,需要对数据进行预处理以提高后续处理的效果。

预处理包括视频去噪、视频稳定和人脸检测等步骤。

去噪可以通过滤波等方法减少视频中的噪声干扰。

视频稳定可以对视频进行运动校正,使唇部运动更加平滑和稳定。

人脸检测可以定位视频中的人脸区域,以便后续的特征提取和识别。

三、特征提取特征提取是中文唇语识别技术的核心环节。

通过对唇部运动视频进行分析,提取出能够表征语音特征的唇部运动特征。

常用的特征提取方法包括时域特征和频域特征。

时域特征可以通过计算唇部运动的速度、加速度等参数来描述唇部的运动模式。

频域特征可以通过傅里叶变换等方法将唇部运动信号转换到频域,提取频谱特征。

四、模型训练在特征提取完成后,需要使用机器学习或深度学习算法对提取到的特征进行训练。

机器学习算法可以包括支持向量机、随机森林等方法,深度学习算法可以包括卷积神经网络、循环神经网络等方法。

在模型训练过程中,需要准备标注好的训练数据,并进行模型的优化和调参,以提高模型的性能和泛化能力。

五、识别在模型训练完成后,可以使用训练好的模型对新的唇部运动数据进行识别。

识别过程包括将新的唇部运动数据进行预处理和特征提取,并使用训练好的模型进行分类或回归预测。

通过比较预测结果和实际标签,可以评估中文唇语识别技术的准确性和性能。

六、应用领域中文唇语识别技术在多个领域都有广泛的应用。

唇语识别技术研究

唇语识别技术研究

唇语识别技术研究
近年来,随着科技的不断发展,唇语识别技术逐渐崭露头角,成为了人工智能领域研究的热门方向之一。

唇语识别技术将口形、唇形、面部表情等信息通过图像和视频分析提取出来,结合语音识别技术,可以达到高准确率的声音识别与语义分析效果。

唇语识别技术具有广泛应用前景,如安全监控、语音障碍者的辅助交流、虚拟现实等领域,它将极大地拓展声音识别技术的应用,可以帮助人们更好地进行信息交流。

唇语识别技术的优点在于,它可以实现“无声”语音识别。

在嘈杂环境或者语音障碍者无法发声的情况下,唇语识别技术可以帮助他们进行正常的交流。

此外,在安全监控领域,唇语识别技术可以有效识别人员是否在密谋犯罪活动,保护公共安全。

而在虚拟现实领域,唇语识别技术可以实现面部表情的实时传输,提高沉浸感和真实感。

然而,唇语识别技术仍有一些挑战需要解决。

首先是光线、阴影和嘴唇的遮挡等环境和物理因素的影响,会导致唇语识别的准确率下降。

其次是口型的多样性,不同人的口型存在巨大的差异,因此需要进行针对性的训练和优化。

最后,语音识别与唇语识别的联合应用也需要更深入的研究。

目前,国内外已经有很多学者对唇语识别技术展开了研究。

其中,深度学习、卷积神经网络等技术受到广泛关注。

此外,为了更好地应用唇语识别技术,科学家们还在不断探索其在不同领域的应用场景,如医疗、安全、教育等。

唇语识别技术的发展与普及需要不断的技术创新与研究,特别是在需要“无声”语音识别的场景中发挥重要作用。

相信随着技术的不断提升,这项具有广泛应用前景的技术将会发挥越来越重要的作用,改变人们的语音交流方式,并在各个领域取得更为广泛的应用。

搜狗推出“唇语识别”技术

搜狗推出“唇语识别”技术

龙源期刊网
搜狗推出“唇语识别”技术
作者:
来源:《中国信息化周报》2018年第03期
近日,搜狗推出一种人机交互新技术——唇语识别,这也是业内首个公开演示的唇语识别系统。

通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。

唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此在研发难度上比语音识别大得多。

搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练而成。

在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过Google发布的英文唇语系统50%以上的准确率。

在垂直场景如车载、智能家居等场景下,搜狗唇语识别系统甚至已经达到90%的准确率。

当国内大部分企业都扎堆聚集在智能语音、图像识别等领域时,搜狗唇语识别技术的推出将引领整个行业进入一个全新的发展方向。

作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

(陈曲)。

图像处理算法在唇形识别中的应用

图像处理算法在唇形识别中的应用

图像处理算法在唇形识别中的应用随着人工智能技术的不断发展,图像处理技术也越来越成熟。

唇形识别作为人脸识别技术的一部分,已经得到了广泛的应用。

唇形识别技术可以帮助我们识别一个人的身份,判断一个人在说话时的情绪等等。

而要实现唇形识别技术,就需要用到图像处理算法。

本文将从唇形识别的基本原理开始,介绍图像处理算法在唇形识别中的应用。

一、唇形识别的基本原理唇形识别技术是基于人脸识别技术的,其基本原理是通过识别一个人的唇形来判断他的身份。

唇形识别技术可以分为静态唇形识别和动态唇形识别两种。

静态唇形识别是指通过分析静态图像中的唇形来识别一个人的身份。

这种技术主要用于识别照片中的人物。

动态唇形识别是指通过分析视频中的唇形来识别一个人的身份。

这种技术主要用于识别说话时的人物。

不论是静态唇形识别还是动态唇形识别,都离不开图像处理算法的应用。

二、图像处理算法在唇形识别中的应用图像处理算法是实现唇形识别技术的核心。

下面,我们将介绍几种常见的图像处理算法在唇形识别中的应用。

1、边缘检测算法边缘检测算法是一种通过检测图像中的边缘来提高图像质量和解析度的技术。

在唇形识别中,边缘检测算法被用来检测嘴唇的轮廓。

通过边缘检测算法,我们可以得到人脸图像中唇部区域的边缘轮廓,这对于动态唇形识别来说尤为重要。

2、颜色空间变换算法颜色空间变换算法是一种将图像从一种颜色空间转换到另一种颜色空间的技术。

在唇形识别中,颜色空间变换算法被用来将彩色图像转换为灰度图像。

这样做的好处是可以减少复杂度,提高计算效率。

此外,灰度图像对于唇形识别来说更为准确。

3、图像分割算法图像分割算法是将图像中的像素按照一定的准则进行分类的技术。

在唇形识别中,图像分割算法被用来将人脸图像中的唇部区域和其他区域分割开来。

图像分割算法可以为唇形识别提供更为精确的边界信息。

4、轮廓提取算法轮廓提取算法是一种从二值图像中提取轮廓的技术。

在唇形识别中,轮廓提取算法被用来提取唇部区域的轮廓信息。

唇语识别技术的发展与应用前景

唇语识别技术的发展与应用前景

唇语识别技术的发展与应用前景近年来,随着人工智能技术不断的发展和应用,唇语识别技术逐渐成为人们关注的焦点。

唇语识别技术是指通过分析和识别口唇的形状和运动,从而推测出人们所说的话语内容。

本文将探讨唇语识别技术的发展历程,以及在不同领域中的应用前景。

一、唇语识别技术的发展过去几十年来,唇语识别技术经历了巨大的发展,从最初的基于人工规则的方法,到如今广泛应用机器学习和深度学习的技术。

唇语识别技术主要包括以下几个步骤:1. 数据采集:通过使用高清摄像设备,对不同人群的口唇图像进行采集和记录。

2. 预处理:对采集到的图像进行去噪、降噪,以及对光照条件和口红颜色进行校正。

3. 特征提取:通过使用图像处理算法,提取口唇图像中的关键特征,如唇形、唇线轮廓和唇部运动。

4. 模型训练:使用机器学习算法,如支持向量机(SVM)或深度神经网络(DNN),对口唇特征与语音之间的关系进行建模和训练。

5. 识别和解码:将训练好的模型应用于新的口唇图像,并通过解码算法将唇语转化为文字。

随着计算机性能的提升和算法的不断优化,现如今的唇语识别技术已经具备了一定程度的准确性和稳定性,可以在实际应用中发挥作用。

二、唇语识别技术的应用前景1. 提升辅助通信技术:唇语识别技术可以为听障人士提供一种新的、无需借助手语或文字沟通的交流方式。

通过实时识别和解码,将口唇运动转化为文字,进而实现语音的传递和交流。

2. 提高安全控制系统:唇语识别技术可以用于安全控制场景中,例如在银行自动提款机上,通过唇语识别系统验证用户的身份,提高系统的安全性。

3. 辅助犯罪侦查:唇语识别技术在犯罪侦查中也有着广泛的应用前景。

通过分析嫌疑人的唇语,可以对其口述内容进行识别和记录,为犯罪侦破提供有力的证据。

4. 情感识别和健康监测:口唇运动与情感状态之间存在一定的关联性。

唇语识别技术可以应用于情感识别领域,通过分析口唇的微小变化,对个体的情感状态进行判断和监测。

此外,唇语识别技术还可以用于健康监测领域,通过分析口唇的形状和颜色,实时监测个体的健康状况。

基于深度学习的语音唇形识别技术研究

基于深度学习的语音唇形识别技术研究

基于深度学习的语音唇形识别技术研究语音唇形识别是指通过观察人的口唇运动来推断出其语音信息,这项技术可以用于人机交互、疑犯识别等领域。

而基于深度学习的语音唇形识别技术,则是在人工神经网络的基础上实现的。

接下来,笔者将对这项技术进行阐述,并介绍其应用现状和未来发展方向。

一、深度学习深度学习是指一种通过多层神经网络实现的人工智能技术。

它的核心思想是模拟人类的神经系统,通过一层层的学习,实现对数据的理解和归纳。

深度学习和传统的机器学习相比,其优势在于可以自动提取特征,并且可以处理非线性和高维数据。

二、语音唇形识别技术语音唇形识别技术的基本原理是观察人的口唇运动以推断其语音信息。

在过去,这项技术主要是通过人工特征提取的方法实现的。

但是,由于人工特征提取需要考虑多种因素,如光线、角度、噪声等,因此在实际应用中存在一定的困难。

基于深度学习的语音唇形识别技术则具有以下优点:1. 自动提取特征:深度学习可以自动提取特征,无需采用人工方法,减少了因人工提取特征所带来的误差。

2. 处理非线性和高维数据:深度学习可以处理非线性和高维数据,这对于语音唇形识别等复杂任务来说非常重要。

3. 更好的准确度:许多研究表明,基于深度学习的语音唇形识别技术相较于传统方法,在准确度上有很大的提升。

三、应用现状语音唇形识别技术的应用主要涉及到语音识别、人机交互、医疗等多个领域。

以下是一些现有的应用案例:1. 语音识别:语音唇形识别技术可以被用于帮助听力受损者更好地识别声音。

2. 人机交互:智能客服、智能家居等应用中,语音唇形识别技术可以增强用户体验,提高交互效率。

3. 医疗:语音唇形识别技术可以帮助医生更好地理解和诊断患者的语言障碍等疾病。

四、未来发展方向目前,基于深度学习的语音唇形识别技术还存在许多挑战和瓶颈。

以下是一些未来的发展方向:1. 特征融合技术:为了提高唇形识别的准确度,可以结合其他信息,如声学信息、音频信号等。

2. 模型优化技术:现有的语音唇形识别模型仍然存在一定的局限性,需要通过模型优化技术来提高其准确度和实用性。

唇语识别技术的现状与前景

唇语识别技术的现状与前景

唇语识别技术的现状与前景随着科技的不断进步和人类社会的不断发展,人们的生活方式和社会形态也在不断变化。

我们已经进入了一个信息化、数字化和智能化的时代,各种新技术层出不穷,其中唇语识别技术就是一项非常有前景的技术。

唇语是指通过观察人们说话时嘴唇的形态和运动,来推断他们所说的话的一种非语音交流方式。

唇语识别技术则是指利用计算机和人工智能算法,对唇语信号进行分析和处理,从而识别出人们的语言信息。

唇语识别技术的现状唇语识别技术是一门涉及多学科的复杂技术,需要融合计算机科学、信号处理、模式识别、心理学等多个领域的知识。

目前,唇语识别技术在理论和应用方面都已经取得了一定的进展。

在理论方面,唇语的形态和运动是可以被量化和数学描述的,因此可以应用信号处理和模式识别等技术手段来进行分析和识别。

同时,心理学的认知原理也可以为唇语识别技术提供理论基础。

在应用方面,唇语识别技术已经被广泛应用于残障人士的交流、声音隔离的语音辅助识别、军事情报的窃听和侦查等领域。

例如,一些听力残障者可以通过观察说话者的唇形来理解他们说的话,而唇语识别技术可以将他们观察到的唇形转化为可识别的信息。

唇语识别技术的前景唇语识别技术在未来的发展中还有很大的潜力和前景。

比如,在教育和医疗领域,这项技术可以为听力障碍者和语言障碍者提供便利,扩大他们的沟通和学习空间。

此外,唇语识别技术还可以被应用于人机交互、网络安全、智能家居等领域。

例如,在动作捕捉技术和虚拟现实技术中,唇语识别技术可以提供更准确和自然的交互方式,改善用户的体验效果。

然而,唇语识别技术在应用过程中还存在一些挑战和问题。

首先,唇语往往需要考虑多个方面的因素,比如说话人的口型、口音、语速等,这就需要更复杂的算法和技术来解决。

其次,在现实情况下,唇语往往会受到环境的干扰,如光线、噪声等因素,这也需要更准确和稳定的信号处理技术来应对。

总之,唇语识别技术是一项非常有前景和挑战的技术,它可以为残障人士和大众提供更便利和自然的交流方式,同时也可以推动人机交互和智能化时代的发展。

基于机器学习的唇读训练辅助器具优化设计

基于机器学习的唇读训练辅助器具优化设计

基于机器学习的唇读训练辅助器具优化设计随着科技的不断发展,唇读训练辅助器具逐渐成为了听力障碍人士重要的辅助工具。

针对传统的唇读训练辅助器具存在的问题,如准确度低、使用不便等,基于机器学习的唇读训练辅助器具优化设计成为了研究的热点。

本文将介绍基于机器学习的唇读训练辅助器具的优化设计,并探讨其在提高训练效果、减少使用难度等方面的优势。

在传统的唇读训练辅助器具中,常见的方法是通过语音识别技术将声音转化为文字,然后通过文字显示在屏幕上来辅助听力障碍人士进行阅读。

然而,由于不同人的发音差异以及口型表达的细微差别,传统的方法往往无法准确地捕捉和转化为文字。

这就导致训练的准确度较低,无法满足听力障碍人士的需求。

基于机器学习的唇读训练辅助器具优化设计可以解决传统方法存在的问题。

机器学习是一种人工智能的技术,通过对大量数据进行学习和分析,可以建立模型并预测未知数据。

在唇读训练中,机器学习可以通过学习不同人的唇部运动模式,建立模型并预测出正确的口型。

首先,基于机器学习的唇读训练辅助器具需要大量的数据作为训练集。

这些数据可以包括不同人群的唇部运动视频或图像,以及对应的文字信息。

通过收集并标记这些数据,可以用于机器学习模型的训练和测试。

在训练过程中,机器学习算法可以通过学习这些数据,从中提取出唇部运动的特征,并建立准确的模型。

其次,基于机器学习的唇读训练辅助器具需要合适的算法来进行训练和预测。

常见的算法包括支持向量机、随机森林、神经网络等。

这些算法可以通过对训练数据的学习,建立起模型,并在实际使用中对未知的唇部运动进行预测。

通过不断地训练和调整算法,可以提高模型的准确性和稳定性。

此外,基于机器学习的唇读训练辅助器具还可以结合其他技术来进一步优化设计。

例如,图像处理技术可以用于提取唇部的特征,并减少其他干扰信息的影响。

语音合成技术可以将预测的唇部运动转化为声音,以进一步辅助听力障碍人士进行唇读训练。

这些技术的结合可以提高训练效果和用户体验。

基于自适应序列帧长度的端到端式唇语识别算法

基于自适应序列帧长度的端到端式唇语识别算法

生命科学仪器 2023年第21卷/第4期研究报告35通讯作者:朱真(1984-),男,汉族,籍贯江苏,东南大学集成电路学院㊁电子科学与工程学院,M E M S 教育部重点实验室,教授,博导,主要研究方向:集成微流控㊁生物传感㊁集成电路㊁M E M S 等工程技术方法进行生物学㊁精准医学领域的研究,E-m a i l :z h u z h e n @s e u .e d u .c n㊂基金项目:国家重点研发计划(2021Y F F 0701002)基于自适应序列帧长度的端到端式唇语识别算法吴威龙1 李润恺1 许霜烨2 朱 真1,2(1.东南大学#电子科学与工程学院,江苏南京2100962.东南大学#集成电路学院,江苏无锡214000)摘要 唇语识别的提出为信息安全㊁辅助驾驶等多个新兴领域提供了崭新的思路,但现有唇语识别算法架构复杂㊁收敛速度慢,难以载入便携式设备以实现端到端的唇语识别㊂基于卷积神经网络(C N N )和双向长短期记忆(B L S T M )循环神经网络,本文提出了一种自适应序列长度的端到端式唇语识别神经网络算法㊂首先,该算法通过D l i b 特征点定位法确定视频流中特征区域的位置;然后将位置信息传入C N N 神经网络中进行预处理并得到相应的开关信号;最后,将开关信号传入B L S T M 中控制其帧序列的长度㊂该算法对帧间底层的时间信息建模更加充分并能载入到端到端便携式设备上㊂经实验验证,该算法在数据集M I R A C L-V C 1上的有效精度达67.2%,与最先进的自适应序列唇语识别算法相比提升了11.2%㊂关键词 唇语识别;端到端;卷积神经网络;双向长短期记忆A nE n d -t o -E n dL i p -R e a d i n g R e c o g n i t i o nA l g o r i t h mB a s e d o n t h eA d a p t i v eL e n g t ho f F r a m e S e qu e n c e WU W e i l o n g 1,L IR u n k a i 1,X US h u a n g ye 2,Z HUZ h e n 1,2*(1.S c h o o l of E l e c t r o n i cS c i e n c e a n dE ng i n e e r i n g ,S o u th e a s tU ni v e r s i t y ,N a nj i n g 210096,J i a n gs u ;2.S c h o o l o f I n t e g r a t e dC i r c u i t s ,S o u t h e a s tU n i v e r s i t y ,W u x i 214000,J i a n gs u )ʌA b s t r a c t ɔT h e p r o p o s e d l i p -r e a d i n g r e c o g n i t i o n p r o v i d e s a b r a n d n e w i d e a f o rm a n y e m e r g i n gf i e l d s s u c h a s i n f o r -m a t i o n s e c u r i t y a n da s s i s t e dd r i v i ng .E x i s t i n g l i p -r e a d i n g r e c o g n i t i o na l g o r i th m s f e a t u r ec o m pl e xs c h e m e s ,s l o w c o n v e r g e n c e r a t e s ,a n dd i f f i c u l t y t o l o a d i n t o p o r t a b l ed e v i c e s f o r e n d -t o -e n da p pl i c a t i o n .B a s e do nc o n v o l u t i o n a l n e u r a l n e t w o r k (C N N )a n d b i d i r e c t i o n a l l o n g s h o r t -t e r m m e m o r y (B L S T M )r e c u r r e n t n e u r a l n e t w o r k ,t h i sw o r k r e p o r t s o n a n e n d -t o -e n dn e u r a l n e t w o r k m o d e l f o r l i p -r e a d i n g r e c o g n i t i o nw i t ha d a p t i v e s e q u e n c e l e n g t h .T h e a l g o r i t h ma s s i g n s t h e l o c a t i o no f f e a t u r e r e g i o n s i n t h ev i d e os t r e a m b y Dl i b f e a t u r e p o i n t l o c a l i z a t i o n m e t h o da n d t r a n s f e r s t h e mi n t o t h eC N Nn e u r a l n e t w o r k f o r p r e -p r o c e s s i n g t o o b t a i n t h e s w i t c h s i gn a l ,a n d t h e n t r a n s f e r s t h e o b t a i n e d s w i t c h s i g n a l i n t o t h eB L S T Mt o c o n t r o l t h e l e n g t ho f f r a m e s e q u e n c e .T h e a l g o r i t h m m o d e l s t h e u n d e r l y-i n g t e m p o r a l i n f o r m a t i o nb e t w e e n f r a m e sm o r e f u l l y an d c a nb e l o a d e d i n t o t h e e n d -t o -e n d p o r t a b l e d e v i c e s .T h e a l g o r i t h mh a s b e e n e x p e r i m e n t a l l y v a l i d a t e d t o a c h i e v e a r e c o g n i t i o n a c c u r a c y o f 67.2%o n t h e d a t a s e tM I R A C L -V C 1,o f f e r i n g a n a b s o l u t e i m p r o v e m e n t o f 11.2%t o t h e p r e v i o u s s t a t e -o f -t h e -a r t a d a p t i v e l i p -r e a d i n g r e c o g -n i t i o n a l go r i t h m.ʌK e y wo r d s ɔL i p -r e a d i n g r e c o g n i t i o n ;e n d-t o-e n d ;c o n v o l u t i o n a ln e u r a ln e t w o r k ;b i d i r e c t i o n a l l o n g s h o r t -t e r m m e m o r y中图分类号:R 322.8 文献标识码:A D O I :10.11967/2023210805引言过去十年中,生物特征如面部㊁指纹㊁虹膜㊁生物阻抗等在机器学习中被广泛运用㊂唇部运动作为一类典型的生物特征,其识别技术随着计算机算力的增强和人工智能的发展取得了一定的进展㊂唇语识别是一种通过视觉特征解释唇部㊁面部和舌头的运动以实现特异性识别的技术,涉及模式识别㊁图像处理与计算机视觉等多个领域㊂唇语识别根据识别模式和应用场景的不同可分为视听语音识别(A u d i o -v i s u a l S p e e c hR e c o g -n i t i o n ,A V S R )和视觉语音识别(V i s u a lS pe e c h R e c o gn i t i o n ,V S R )2l ㊂因A V S R 识别模式提供了音频信息,表现出更高的识别精度,且可在低信噪比条件下进行语音增强㊂V S R 运用视觉信息还原语言,进一步提升了活体识别的安全性与鲁棒性,在聋哑人语言辅助系统㊁军事加密通信中均有广泛的应用[3]㊂如图1所示,唇语识别的过程可以分为特征提取与分类两个阶段㊂在特征提取阶段,唇形定位与归一化的过程会直接影响后续分类的精度㊂研究报告生命科学仪器 2023年第21卷/第4期36特征提取通常选择唇部纹理和唇部几何形态作为主要唇部特征信息,而显性唇运动的加入利用了唇形变化这一重要信息,显著提高了唇语识别精度4㊂为了更好地识别唇部形态,三维卷积网络被引入到唇语识别中㊂该方式通过对连续帧唇部图像的时空信号进行建模,充分获取时空信息,强调对唇部区域进行短期动态建模的必要性㊂最新的研究探索了人脸特征点的标定方法,通过回归树算法迭代并标定人脸㊂图1 唇语识别算法构成F i g u r e 1C o m p o s i t i o no f l i p r e c o g n i t i o n a l go r i t h m 在分类阶段,隐式马尔科夫模型[6](H i d d e nM a r k o v M o d e l,HMM )㊁高斯混合模型7(G a u s s i a nm i x t u r em o d e l ,GMM )和神经网络作为主流分类模型在唇语识别中的应用已经十分普遍㊂自深度学习被引入到唇语识别后,神经网络架构的唇读系统开始迅速发展㊂这些深度学习算法不需要人为设计过多的特征提取步骤,极大提高了效率㊂但对于现有的唇语识别算法来说,仍存在以下的不足:1)唇部信息的利用不足㊂利用独立帧进行唇语识别时,以不同的音速发音不可避免会有相同的口型,因此,如果不介入语境等其它信息会引起视觉歧义㊂2)唇语识别数据集的匮乏㊂有别于一些典型的公开数据集,如M I N I S T ㊁C I F A R 10,唇语识别的数据集相对匮乏,无法支撑起整个语言库的运用㊂此外,各个地域语种及方言繁多,在国际上难以形成统一标准㊂因此,针对小样本条件下端到端式的唇语识别存在一定的挑战性,其应用也受到了一定的阻碍[8]㊂此外,目前的唇语识别多为音节㊁单词量级的识别,但在句子级别的识别中表现不佳㊂本文提出了一种可适应调整帧序列长度的无音频唇语识别算法㊂该算法在说话停顿处进行一次序列检测的分割,利用了人体的语言特性,将算法执行的堆叠到语句的停顿处,以达到在应用层面上减少延时并适应唇语识别的真实应用场景㊂利用该算法可以实现句子量级的端到端的唇语识别,为唇语识别系统载入到移动终端或便携式设备提供了一种新思路㊂1 自适应序列帧长度唇语识别算法1.1 算法整体架构 如图2所示,自适应序列帧长度唇语识别算法是一个端到端的唇语识别算法,包括三个模块:特征提取模块㊁状态信息检测模块和级联分类模块㊂特征提取模块中使用D l i b 特征预测器对输入图像进行特征提取㊂然后将位置信息传入状态信息检测模块中,通过C N N 网络对传入的图像进行预测,分辨发言者当下帧所处的状态㊂最后将状态信息作为开关信号传入级联分类模块中,控制其帧序列的长度,通过C N N 级联B L S TM 网络进行识别,实现帧序列长度自适应控制的唇语识别效果㊂图2 自适应序列帧长度唇语识别算法架构F i g u r e 2A r c h i t e c t u r e o f a d a p t i v e s e qu e n c e f r a m e l e n g t h l i p r e c o g n i t i o n a l go r i t h m 1.2 特征提取模块 自适应序列帧长度唇语识别算法使用D l i b 特征预测器进行唇形的特征提取㊂D l i b 特征预测器将人脸映射到128维度的空间向量中,通过对比空间向量的距离进行人脸识别㊂此外,D l i b 特征预测器采用基于级联回归树算法的训练算法对人脸特征进行标定[5],其迭代公式为:S ^(t +1)i =S ^(t )i +r t (I πi ,S ^(t)i )#(1)ΔS (t +1)i=S πi -S ^(t +1)i#(2)其中S (为当下形状特征的估计量;1为图像;r t 为级联中的回归因子㊂且有如下限定:πjɪ{1, ,n }#(3)S ^(0)i ɪ{S 1, ,S n }S πi#(4)生命科学仪器 2023年第21卷/第4期研究报告37ΔS (0)i =S πi -S ^(0)i #(5)如图3所示,通过该特征预测器可对脸部68个特征点标定并对范围内的唇部轮廓进行特征提取㊂图3 D l i b 特征点标注F i gu r e 3D l i b f e a t u r e p o i n t a n n o t a t i o n D l i b 特征预测器对于唇部特征的提取更加准确㊁稳定,可以更高效地规避角度㊁光照条件变化时无法精准定位的问题㊂1.3 状态信息检测模块 相较于一对一的字词级别的唇语识别,连续性唇语识别为多对多的识别关系,且对时序的依赖性更强㊂本文采用了两级神经网络协同工作的方式,实现自适应帧序列长度的唇语识别㊂状态信息检测模块使用5层的卷积神经网络作为视觉前端,向级联分类模块中传递开关信号以实现可变序列长度的识别㊂第一级卷积网络层使用步长为1的5ˑ5的卷积核对输入大小为32ˑ32的图像进行卷积运算㊂每个卷积层后都有一个批量标准化层(B a t c hN o r m a l i z a t i o n ,简称B N 层)和非线性激活层(A c -t i v a t i o n )㊂B N 层将各特征的取值范围统一,防止网络某一层输入数据的分布发生变换,从而导致网络需要重新对该层数据分布进行学习,降低学习速度㊂为避免梯度爆炸,状态信息检测模块选取整流线性单元(R e c t i f i e dL i n e a rU n i t ,R e L U )作为激活函数以加入非线性因素9]㊂全连接层采用S i gm o i d 函数进行分类,采用基于逻辑回归算法的二分类交叉熵损失函数(B i n a r y _C r o s s e n t r o p y)来计算损失,如式(6)所示:L (y ^(n ),y (n))=-1N ðNn -1(y (n )l o g y (n )+(1-y (n ))l o g(1-s (n )))#(6)1.4 级联分类模块 为了协同两级神经网络,实现帧序列长度自适应控制的唇语识别,系统引入了开关信号x (n )㊂将状态信息检测模块中C N N网络第i 个时刻的分类结果作为开关信号x (n),通过该信号完成序列拼接,实现自适应序列帧长度的图像输入(图4)㊂该系统的互联模型如图5所示㊂图4 输入图像的预处理F i g u r e 4I n p u t i m a g e p r e p r o c e s s i n g CN N B L S T MS o f t m a x 图5 系统互联模型F i g u r e 5S ys t e mi n t e r c o n n e c t i o nm o d e l 级联分类模块采用C N N 级联B L S TM 的网络架构,最大程度上利用语义,形成强相关性的时间序列㊂首先通过C N N 对图像进行向量压缩和维度提升[10];然后,将经C N N 处理后的高维向量输入B L S TM 网络进行双向推理;最后,将双向推理得到的结果置入S o f t m a x 全连接层,将每个输入序列最后一帧经B L S TM 的输出连接为一个向量并得到分类结果㊂如图6所示,B L S TM 通过在隐藏层中保存两个不同的值,分别进行正向与反向运算[11]㊂其对应的多分类交叉熵损失函数(C a t e g o r i c a l _C r o s s e n t r o p y)可以由式(7)表示:L (y (n ),y(n ))=-1NðN n -1ðC c -1y (n )c l o g y ^(n)c #(7)图6 B L S T M 的传输示意图F i g u r e 6B L S T Mt r a n s m i s s i o nd i a gr a m 为了缓解过拟合的问题,系统还在各个卷积研究报告生命科学仪器 2023年第21卷/第4期38层后加入B N 层㊁在B L S TM 层加入D r o po u t 层并进行L 2正则化[12,13]㊂2 实验结果2.1 数据预处理与训练参数设置 自适应序列帧长度唇语识别算法使用M I R A C L -V C 1数据集进行训练,该训练集由15个不同的人说的不同的10个单词和10个短语组成,共包括3000个实例,包含2600个训练集㊁200个验证集和200个测试集㊂每个实例都由49张32ˑ32像素的嘴唇图片拼接组成㊂为了适配自适应序列帧长度唇语识别算法,该训练集被横向处理为32ˑ1568的长序列图像,用来反映说话者的唇部运动㊂此外,本文还通过色彩增强㊁随机翻转等手段实现数据增强,并将其数量规范为训练集:验证集:测试集=13:4:4的比例㊂实验是在W i n d o w s 10上使用A n a c o n d a 中的P y To r c h 1.13.0在I n t e l (R )C o r e (TM )i 7-10875H C P U 上实现该框架㊂参数设置上,使用A d a m 优化器,交叉熵损失函数计算L o s s,利用验证集估计训练后的泛化误差选择合适的超参数,鉴于不同层网络数据集在数量㊁大小的差异,为其分别进行调试与迭代优化,以下参数经验证为该模型在收敛速度㊁泛化性能最优解㊂设置第一层C N N 训练批次大小为64,学习速率=0.0001,用100个e po c h 进行训练;设置第二层C N N-B L S TM 训练批次大小为32,学习速率=0.0001,用100个e po c h 进行训练㊂2.2 评估指标 本次实验选取准确率(A C C )和F 1s c o r e 作为评价预测算法的标准,选取浮点运算次数(F L O P s)和模型参数量分别衡量所构建模型的时间和空间复杂度㊂通过A C C 和F 1s c o r e 分别对状态信息检测模块和级联分类模块进行评估㊂定义混淆矩阵(C o n f u s i o nm a t r i x)如表1所示㊂表1 混淆矩阵T a b l e 1C o n f u s i o nm a t r i x预测为正预测为负真实为正T P F N 真实为负F PT N表中T P (T r u e P o s i t i v e )为真正例㊁F N(F a l s eN e ga t i v e )为假负例㊁F P (F a l s eP o s i t i v e )为假正例㊁T N (T r u eN e ga t i v e )为真负例㊂举例来说,若一个样本实际为正样本,网络预测其也为正样本,那么该样本计入T P ㊂准确率定义为网络正确分类的样本占总样本数的比例,计算公式如下:F 1s c o r e 是评价算法性能的综合评价指标,计算公式如下:网络中浮点运算定义为进行积累加运算次数(MA C ),可用来描述计算量,C N N 中计算公式如下:D 为神经网络的深度,i 表示网络第i 个卷积层,W 1H ;表示每个卷积核输出特征图大小,K ;表示卷积核大小,C r -1和C ;分别表示上一层网络输入通道数和当前层输出通道数㊂L S TM 中F L O P s 的计算公式如下:F L O P S L S TM=2ˑ4ˑHˑ(E +H )#(11)其中E 是词向量维度,H 为隐层状态维度,4表示4个非线性变换块㊂使用总参数量和各层输出特征图描述模型空间复杂度㊂参数量为模型体积,特征图为模型实时运算过程中各层输出特征图大小,分别为下式第一㊁二求和式㊂2.3 结果分析图7 算法评估:(a )第一级网络训练精度与测试精度变化曲线;(b)第一级网络损失余量变化曲线;(c )第二级网络训练精度与测试精度变化曲线;(d )第二级网络损失余量变化曲线;F i g u r e 7A l g o r i t h m e v a l u a t i o n :(a )C h a n g ec u r v e so f f i r s t -l e v e ln e t w o r kt r a i n i n g a c c u r a c y a n dt e s ta c c u r a c y ;(b )C u r v e o f t h e l o s sm a r g i no f t h e p r i m a r y n e t w o r k ;(c )C h a n g e c u r v e s o f t h e s e c o n d -l e v e l n e t w o r k t r a i n i n g a c c u -r a c y a n d t e s t a c c u r a c y ;(d )C h a n g e c u r v e o f t h e l o s sm a r gi n o f t h e s e c o n d a r y ne t w o r k ;本文对2600张训练用的图像㊁800张验证用的图像以及800张测试用的图像进行性能测试评估,得到的结果如图6所示㊂为了提高测试评估生命科学仪器 2023年第21卷/第4期研究报告39的可靠性,对十次规格化实验取平均结果㊂从图6(a)中可以看出,状态信息检测模块的验证精度和有效精度均达到了95%以上,证明状态信息检测模块能有效完成开关信号的提取与传递㊂图6(b )表现出C N N 网络较快的收敛速度㊂图6(c )与图6(d )展示了级联分类模块中C N N -B L S TM 的精度与损失余量变化㊂基于其他研究人员,包括N a d e e m 4I ,G a r gl s 已发表的工作,记录并比较了他们获得的A C C 和F 1s c o r e 与自适应序列帧长度唇语识别算法的A C C和F 1s c o r e㊂结果如表2所示,自适应序列帧长度唇语识别算法达到了预期的效果,并提供了较好的分类性能㊂自适应序列帧长度唇语识别算法的A C C 与F 1s c o r e ,分别达到67.2%和0.7288㊂同时该算法总F l o ps 为198.907M ,总P a r a m s 为11.220M ㊂模型总计算量小,对占用内存与运行资源的要求低㊂自适应序列帧长度唇语识别算法在简化了算法的基础上也提高了识别精度,这是由于引入开关信号X i n )之后输入视频流被分割为若干个相关联的完整语句,补全了双向传导中B L S TM 的推理项,更好地利用了语义形成的强相关性唇语序列㊂此外,自适应序列帧长度唇语识别算法通过D l i b 特征预测器省去了数据预处理的步骤,为端到端式唇语识别提供了一种新思路㊂表2 不同唇语识别算法在M I R A C L -V C 1语库的性能对比T a b l e 2P e r f o r m a n c e c o m p a r i s o n o f d i f f e r e n t l i pr e c o g n i t i o n a l go r i t h m s i nM I R A C L -V C 1算法F 1s c o r e A C C超参数个数本文算法0.728867.2%28文献[14]0.352452.9%19文献[15]0.546956.0%1383 结论本文利用C N N 与B L S TM 的双级唇读算法现了可变序列长度的唇语识别,在不使用外部资源额外预处理数据的情况下,自适应序列帧长度唇语识别算法结合D l i b 预测器提取唇部特征,并通过引入开关信号最大化利用语义形成的唇语序列的帧间关系㊂自适应序列帧长度唇语识别算法使用了归一化层来最小化变化,使系统鲁棒性更强㊂该算法已经在M I R A C L E V C 1语义库中进行了验证,其A C C 和F 1s c o r e 分别达到67.2%和0.7288㊂在未来,自适应序列帧长度唇语识别算法将利用其它网络模型,结合可变帧序列的处理手段,探索其在更大数据量㊁更困难的唇读任务中应用的可能性㊂参考文献[1]B A A R T Ma n dS AMU E LA G.T u r n i n g a b l i n d e ye t o t h e l e x -i c o n :E R P s s h o wn o c r o s s -t a l kb e t w e e n l i p -r e a d a n d l e x i c a l c o n t e x t d u r i n g s p e e c h s o u n d p r o c e s s i n g [J ].J o u r n a l o f M e m o r y a n dL a n g u a ge ,2015,85:42-59.[2]B L A N K Ha n dV O N K R I E G S T E I N K.M e c h a n i s m s of e n h a n -c i ng v i s u a l -s p e e c hr e c o g n i t i o nb yp r i o ra u d i t o r y i n f o r m a t i o n [J ].N e u r o i m a g e ,2013,65:109-118.[3]M.S A R H A N A ,M.E L S H E N N AWY Na n d M.I B R A H I M D.H L R-N e t :A H y b r i d L i p -R e a d i n g M o d e lB a s e do n D e e p C o n v o l u t i o n a lN e u r a lN e t w o r k s [J ].C o m pu t e r s ,M a t e r i a l s &C o n t i n u a ,2021,68(2):1531-1549.[4]C E T I N G U L H E ,Y E M E ZY ,E R Z I NE ,e t a l .D i s c r i m i n a t i v e a n a l y s i so f l i p m o t i o nf e a t u r e sf o rs pe a k e r i d e n t if i c a t i o na n d s p e e c h -r e a d i ng [J ].I E E E T r a n sI m a geP r o c e s s ,2006,15(10):2879-2891.[5]K A Z E M IVa n d S U L L I V A NJ .O n em i l l i s e c o n d f a c e a l i g n m e n t w i t ha ne n s e m b l eo f r e gr e s s i o nt r e e s [C ]//2014I E E E C o n -f e r e n c eo n C o m p u t e r V i s i o na n d P a t t e r n R e c o g n i t i o n .2014:1867-1874.[6]MO R A D ESS a n dP A T N A I KS .An o v e l l i p r e a d i n g a l g o r i t h m b y u s i n g l o c a l i z e d A C M a n d HMM :T e s t e d f o r d i gi t r e c o g n i t i o n [J ].O p t i k ,2014,125(18):5181-5186.[7]R E N G ,S H A O Ga n dF UJ .A r t i c u l a t o r y -t o -A c o u s t i cC o n -v e r s i o n U s i n g B i L S TM -C N N W o r d-A t t e n t i o n-B a s e d M e t h o d [J ].C o m p l e x i t y,2020,2020:4356981.[8]Z H A N G T ,H E L ,L I X ,e ta l .E f f i c i e n t E n d-t o-E n d S e n t e n c e-L e v e l L i p r e a d i n g w i t h T e m p o r a l C o n v o l u t i o n a l N e t w o r k s [J ].A p pl i e dS c i e n c e s ,2021,11(15):6975-6987.[9]WA N GS -H ,MUH AMMA D K ,HO N GJ ,e t a l .A l c o h o l i s m i d e n t i f i c a t i o nv i ac o n v o l u t i o n a ln e u r a ln e t w o r k b a s ed o n p a r a me t r i c R e L U ,d r o p o u t ,a n db a t c hn o r m a l i z a t i o n [J ].Ne u r a lC o m p u t i n g a n d A p pl i c a t i o n s ,2018,32(3):665-680.[10]A T I L A Üa n dS A B A Z F .T u r k i s hl i p -r e a d i n g u s i n g Bi -L S TMa n d d e e p l e a r n i n g m o d e l s [J ].E n g i n e e r i n g Sc i e n c e a nd Te c h n o l o g y,a n I n t e r n a t i o n a l J o u r n a l ,2022,35:101206.[11]L I U Ga n dG U OJ .B i d i r e c t i o n a l L S TM w i t ha t t e n t i o nm e c h -a n i s ma n d c o n v o l u t i o n a l l a ye rf o r t e x t c l a s s i f i c a t i o n [J ].N e u -r o c o m p u t i n g,2019,337:325-338.[12]S H IG ,Z H A N GJ ,L IH ,e t a l .E n h a n c e t h eP e r f o r m a n c e o f D e e p N e u r a lN e t w o r k s v i aL 2R e g u l a r i z a t i o no n t h e I n pu t o f A c t i v a t i o n s [J ].N e u r a l P r o c e s s i n g Le t t e r s ,2018,50(1):57-75.[13]S Y S O E V Oa n dB U R D A K O V O.As m o o t h e dm o n o t o n i c r e -g r e s s i o n v i a L 2r e g u l a r i z a t i o n [J ].K n o w l e d g e a n d I nf o r m a t i o nS y s t e m s ,2018,59(1):197-218.[14]N A D E E MH A S HM I S ,G U P T A H ,M I T T A L D ,e ta l .Al i p r e a d i n g m o d e l u s i n g CN N w i t hb a t c hn o r m a l i z a t i o n [C ]//P r o c e e d i n gs o f t h e 2018E l e v e n t h I n t e r n a t i o n a l C o n f e r e n c e o n C o n t e m p o r a r y C o m p u t i n g,2018:1-6.[15]AM I T A ,J N O Y O L AJNa n d S AM E E P BSB .L i p r e a d i n g u-s i n g C N Na n dL S TM [R ].T e c h n i c a lR e po r t ,2016.。

利用汉语语音音素帧间相关性的唇形特征识别

利用汉语语音音素帧间相关性的唇形特征识别
( . co l fnomainE gn eig 1 S h o Ifr t n ier ,He eUnv r t o T c n lg, Taj 0 4 1 hn ;2 c ol f rc i s u n o o n b i iesy f eh oo y i i 3 0 0 ,C ia Sh o Pei o I t met i nn o snnr adO t—lcrnc n ier g Tajn iesy ini 0 0 2 C ia) n poE et is gn ei , ini v ri ,Taj 3 0 7 , hn o E n Un t n
Li n o rRe o n t n Ba e n Co t x f r ai n o p Co t u c g i o s d o n e t n o m to f i I Ch n s h n m e i e eP o e
WA NG n n,TAN a Me gj I J n,WANGXi ,L a g u i a I n G
r t si r v db -% u d r h e t i h e o f ce t m : t 15 : 1 .I c ns et a ec a g n icp i e aewa mp o e y 12 n e eb s we g t dc e in s( t i v . ) t a e t h h n i gd s il h t n
利 用 汉 语语 音 音素 帧 间相 关性 的唇 形 特 征 识 别
王蒙军 田 间 , ,王 霞 ,李 刚
(1 河 北 工 业 大 学 信 息 工 程 学 院 ,天 津 3 0 0 ;2 . 0 4 1 .天 津 大学 精 密 仪 器 与 光 电子 工 程 学 院 ,天 津 3 0 7 0 0 2)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ti n i ie st a j n Un v riy,Ti n i 0 0 2,C i a a jn3 0 7 hn )
Ab ta t:Ba e n a a y i g t e sde f c ma nd f l f c m a sr c s d o n l z n h i —a e i ge a u l a e i ge,a n w de wa r s nt d t e mo l sp e e e o
L n , AN n — n I ig I Ga g W G Me gj ,L N In u
( c ol f Prcs n I s u n n t—lcrnc E g n eig, S h o ei o n t me t dOpoeeto i n iern o i r a s
法 , 方 法 能 够 将 识 别 效 果 平 均 提 高 2 以上 , 服 了 以 往 对 唇 形 轮 廓 提 取 时 , 常 都 采 用 人 脸 的 正 面 图 像 , 能 反 映 该 5 克 通 不
出嘴唇的突出度信息的局限 。 关 键 词 : 形 轮 廓 ; 称 模 型 ; 对称 模 型 ; 分 特 征 唇 对 非 差
s m me rc llp c t ur mo 1 y ti a i on o de. Ke r s:lp c t ur y me rc lm o e ;u y y wo d i on o ;s m t ia d l ns mm e rc lmo l t ia de ;dif r nc r m e e s fe e e pa a t r
采用 非 对 称 唇 形 轮 廓模 型提 高 汉 语唇 形 识 别 效 果
李 刚, 王蒙军, 凌 林
( 天津大学 精密仪器与光电子工程学院, 天津 30 7 ) 00 2
摘 要 : 过 分 析 人 脸 正 面 和 侧 面 图 像 的 特 点 , 立 起 一 种 新 的唇 形轮 廓 描 述 模 型 , 够 提 取 出 嘴 唇 的 突 出度 信 息 , 通 建 能 同时 通 过 计 算 部 分 参 数 对 时 间 的导 数 , 获 得 唇 形 轮 廓 的 动 态 信 息 。通 过 对 小 词 库 试 验 , 比单 纯 采用 正 面 图像 轮 廓 的 描 述 方 来 对
文献标识码 : A
中图 分 类 号 : 3 1 4 TP 9 . 3
I pr v ng Chi e e lp r a i g r c g i i g r t y m o i n s i — e d n e o n z n a e b
u s m m e r c llp c n o r m o e ny t ia i o t u dl
e t a t t e d g e fp u i g f o a 1 o t u .Att es me t e h if r n i l o fi in fs me x r c h e r e o o tn r m i c n o r p h a i ,t e d fe e ta e f e to o m c c p r me e s t e c i e d n mi c a a t r s i o h i o t u r ac lt d Ex e i n a e u t a a t r o d s rb y a c h r c e it ft e l c n o rwe e c lu a e . c p p rme t l s ls r b s d o ma ld t b s f i e e wo d h w h tt e p r me e s fo u s m me rc l i o t u a e n as l aa a eo Ch n s r s s o t a h a a t r r m n y tia l c n o r p
维普资讯
第1 4卷
第 3期
光 精 密 工 程 学
Optc n e ii is a d Pr cson Eng n e ig i e rn
Vo . 4 NO 3 I1 .
20 0 6年 6月
J n 20 u.06
文章编号
1 0 ~ 2 X( 0 6 0 — 4 30 0 49 4 2 0 ) 30 7 — 4
的 。研 究唇 读 技术 对 基 于 唇 动 信 息 的人 体 生 2
的热点 , 技术 是将 人 讲 话 时 嘴唇 区域 唇 动 的视 该
引 — 口 二 .
由于人 的面部 信 息在安 全 、 证 、 认 人机 交互 等 方 面的所具 有 的广泛 应用前 景 而越来 越成 为计 算 机模 式识别 领 域 的研 究重 点… , 别 是 近 十 几 年 特
来, 唇读技 术 已经 成 为 人机 交互 领 域 中讨 论 研 究
mo e mp o et e r c g iig r t n mo e t a 9 , ih i s p ro o t o e o h r dto a d li r v h e o nzn a e i r h n 2 6 whc s u e ir t h s ft e ta i n l 5/ i
觉信 息作 为 补充 , 增 强 自动语 音 识 别 效 果 。大 来
量 的实验 研究 表 明 , 无论 是在 有无 噪声 的情 况下 ,
采 用唇动 信息 ( 至 是 面部 信 息 ) 都 可 以明 显地 甚 , 提 高和 改善语 音识 别 的效 果 。可 见或是 部分 理解 讲话 者讲话 内容
相关文档
最新文档