听障教学中手语识别技术的研究进展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

听障教学中手语识别技术的研究进展
摘要:根据全球听力损失联盟,目前有超过7x107人使用300多种手语进行
交流。

据有关媒体报道,中国有语言和听力障碍的人数超过3×107人。

有听力和
语言障碍的人是手语的主要使用者。

手语识别技术可以帮助手语使用者克服在社
交生活中与普通人沟通的障碍。

手语识别(SLR)可以通过使用计算机设备将手语
转换为文本或语音消息来定义。

在深度学习被广泛使用之前,基于机器学习的手
语识别方法更为普遍。

然而,传统的机器学习方法普遍化能力较弱,无法构建完整
的语音识别系统。

处理大量数据的能力不足以创建高精度的手语识别模型。

学习
特征的能力不强,不可能建立准确、稳健的识别方法。

深度学习方法可以突破传
统机器学习的界限。

关键词:听障教学;语识别技术;研究进展
引言
听障学生由于无法听到或者听清教师授课的内容,通常会基于视觉信息而非
听觉信息来进行学习。

聋校课堂教学通常采用手语加口语的教学方式,为听障学
生同时提供视觉信息和听觉信息。

随着现代科学技术的发展,信息技术在聋校课
堂教学中得到广泛应用,为教师授课和听障学生学习提供了有效帮助。

语音识别
技术是指机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。

随着语音识别技术的不断成熟,在聋校课堂教学中运用语音识别技术将教师授课
的语音转化成文本,成为帮助听障学生学习的一种有效的教学辅助手段。

江苏省
南京市聋人学校于2020年引入了某品牌语音识别系统,安装在计算机教室,由
信息技术老师在课堂上使用,研究语音识别技术在课堂教学中应用的适切性,以
克服手语词汇量少、专业术语词汇匮乏以及教师运用手语不熟练等问题,打造无
障碍交流的高效信息技术课堂。

一、手语识别分类
根据手语识别的不同研究方法,可分为静态手语识别和动态手语识别。

动态
手语识别也可以分为孤立语音识别和连续卫星识别,其分类见图1。

由于手语是由
一系列具有相似特征的动作组成的快速运动,传统的手语静态识别方法难以处理
动态手语中复杂的词汇表达和手势的显著变化。

动态手势语言是在短时间内通过
动作连接的一系列手势。

您的视频序列包含时间和空间特征。

在检测过程中,有
必要考虑手部运动曲线、位置和上下文的语义信息。

因此,动态手势语言识别算
法比静态手势语言识别算法更具挑战性。

在动态手势识别中,手的形状变化和快
速运动对手势识别提出了许多挑战。

基于视觉的动态手语识别技术灵活、可扩展、成本低廉,与静态手语相比,动态手语词汇量大,种类繁多,表达丰富,更实用。


目前是手语识别研究的热点。

二、手语识别方法评价指标
手语识别方法的评价指标用于衡量手语识别方法的有效性。

手语识别方法的
评价指标包括单词错误率、Jaccard系数等。

它用于自然语言处理领域,以及机器
学习中常用的精度和准确度。

常见的手语识别评价指标有:(1)WER(Word Error Rate)是目前在自然语言处理中广泛应用的语言识别评价指标。

WER 是可从翻译
语句转换为标签语句的最小删除、插入和替换操作数。

WER越小,模型识别性能越好。

除了单词错误率外,在外语手语识别中还存在字符错误率(CER)。

(2) Jacquard 系数用于比较两个样本之间的相似性和差异。

指标值越高,相似度越高,模型的识别效果越好。

(3)精度(Acc)是正确分配的样本数量与样本总数之间的比率。

模型精度越高,识别性能越好;(4)ROC曲线(AUC)下的区域是为了解决模型识
别精度和模型实际效果的问题而设计的。

该指标通常用于手势跟踪和手势识别,
用于手势识别;(5)平均准确度(MAP)是目标识别的常用评估标准,是每类化合物的
平均检出率的平均值,一般来说,mAP值越高,检测效果越好。

此指标通常用于识别
手的常见信息;(6)其他工作使用时间、精度等。

作为评价指标。

在连续的手语识
别中,单词错误率是检测句子中单词位置变化并符合语言规则的最广泛使用的评
价指标。

在孤立字符的语言识别中,准确性是简单的评价指标。

无论是外语中的
字母错误还是汉字错误,都会影响词汇感,但准确性可能会导致与模型的实际效果
不一致的问题。

AUC指数可以避免一些样品出现问题,具有更高的精度和更好的检
测效果。

中等精度方法适用于手势识别,关节识别和其他基于目标识别的手势语
言识别方法。

Jacquard 系数描述了两个样本之间的相似程度,适用于非常罕见的
数据。

它在评估手语模式时非常容忍错误。

期限评估模型的形成效果有限,但评
估内容一致,实际应用不足。

三、听障教学中手语识别技术
(一)基于CNN的手语识别技术
CNN是深度学习的一种重要形式。

CNN试图使用类似的网络结构来处理数据,
例如时间序列和图像数据。

此外,CNN的自学习和自组织能力在许多应用领域具有
良好的应用前景,特别是在图像分类和辅助临床诊断方面。

由于 2D CNN 模型能
够提取图像特征,因此根特大学的手语团队长期以来一直建议使用包含两个 2D CNN 功能的 SLR 系统来提取手部和上半身特征。

但是,常用的2D CNN在处理连
续视频图像时会丢失时间维度的特征信息,从而降低检测精度。

因此,为了解决这
一缺陷,建议使用3D CNN网络来识别视频操作,其主要思想是通过3D建模操作从
时间和空间维度构建视频功能。

取得了良好的成果。

目前,使用CNN反射相机仍
然是国内外专家和科学家热衷于追求的有效方法之一。

在中国,CNN在汉语手语的
分类中起着非常重要的作用。

新的双输出双CNN流。

它不仅结合了空间流网络和
运动流网络,而且有效地缓解了双流CNN的返回问题,提高了其检测精度。

为了提
高 3D CNN 在动态手语识别任务中的准确性,提出了一个参考 Resnet 50 网络的
双通道时空特征提取网络。

该网络包括一个高采样频率分支和一个低采样频率分支,专注于图像中的运动和语义信息,最终将从两个分支中提取的特征融合在一起,完成分类和识别。

(二)适时使用语音识别技术
在没有引入语音识别技术之前,聋校信息技术课堂教学主要依靠手语、口语、演示文稿。

听障学生在上课时,视觉注意力主要集中在教师的手势、口型上。


讲授内容用手语表达不够准确时,教师会用演示文稿进行辅助,此时学生视觉注
意力自然会集中过来。

引入语音识别技术以后,学生在获取演示文稿信息的同时
还需要将视觉注意力分配到语音转写文本上。

例如,在使用语音识别技术讲授
“信息及其特征”一课时,教学内容包括“结绳记事”“烽火告急”“信鸽传书”
等古时候用来存储、传递、利用、表达信息的方法,教师采用演示文稿、语音转写、手语、口语方式同时呈现教学内容。

结果大部分学生反映“不习惯”“眼睛看不过来”“没看明白意思”等。

语音识别技术没有达到预期的效果,反而影响了学生理解授课内容。

可见语音识别技术不能盲目使用,而应结合课堂教学内容和学生需要来使用。

教师在使用语音识别技术时要根据学生的需要,在适当的时候为其提供相应的支持。

有残余听力的学生在课堂教学中主要通过学校提供的FM 调频语训系统接收教师的口语信息。

重度、极重度听障学生主要依靠教师的手语视觉信息。

而随班就读的学生由于长期在普校读书,手语能力有限,他们大多会选择语音转写文本的方式来接收课堂教学信息。

聋校信息技术课堂应提供多元化的视觉信息呈现方式,为不同需求的听障学生提供适切的选择。

结束语
语音识别技术进入聋校信息技术课堂有力促进了课堂教学效果的提升。

随着语音识别技术智慧化水平的不断提高,其在聋校中的应用范围将更为广泛,如低年级的语言康复训练、社会融合等多种场景,为听障学生无障碍交流提供有效支持。

聋校教师应该努力掌握新的信息技术,为听障学生创建无障碍学习环境,提升课堂教学实效。

参考文献
[1]李海博.基于关键手势提取的手语识别方法研究[D].天津大学,2020.
[2]龚晓敏,鞠海军.手语识别方法初探[J].福建电脑,2020,36(09):10-13.
[3]赵东旭.基于视觉的复杂背景下的静态手语识别技术研究[D].沈阳工业大学,2020.
[4]王焕,朱琳.语音识别技术在听障大学生课堂教学中的应用研究——以北京联合大学特殊教育学院为例[J].科技视界,2020(03):29-31.
[5]梁智杰.聋哑人手语识别关键技术研究[D].华中师范大学,2019.。

相关文档
最新文档