音视频识别技术简述

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

音视频识别技术简述

视频识别与理解技术

图像和视频信息正在飞快的增长，如何快速有效的识别、理解这些图像和视频，并从中提取有用信息是视觉信息应用中的关键技术问题，对降低视觉信息处理维度与提高视觉计算的认知水平有重要意义。

下面就目标识别，目标跟踪，场景理解方面来介绍。

1）目标识别的策略很多，建立基于块的目标模型，运用目标轮廓为主要特征，以投票的策略来检测目标。把目标作为一个整体，提取整个目标窗口中的特征，以滑动窗口的方式用分类器来检测目标，在人的检测上取得很好的效果。建立基于目标局部块的统计特征，检测到这些块后，按块的分布特征来确定是否检测到目标。基于局部块的形变模型，提出一种新的基于边缘信息的k AS特征表示方式。

2）目标跟踪在视觉跟踪领域有许多不同的分类方法。基于区域的跟踪：首先得到包含目标的模板，模板通常略大于目标，然后再序列图像中运用相关算法跟踪目标。另外还有基于变形模板的跟踪，基于特征的跟踪和基于模型的跟踪。

3）场景理解是对图像和视频更抽象的语义理解。目标的检测和识别为场景理解提供了基础，用目标检测器和上下文分类器进行场景理解，一幅场景由多个目标构成。与该方法相对的是用一幅图像或者视频中的一个帧作为为一个语义单元来训练一个场景主题。

场景理解中涉及到的技术很多，主要有三点关键技术：特征表示与提取技术，目标与场景的表示，分类器及其学习能力。1）常用的视觉特征有边缘、表面变化，颜色，纹理等。Canny方法是常用的边缘检测方法，但是该法只是用到了图像的明暗特征，新的方法基于图像的明暗、颜色和纹理来检测自然场景中目标的轮廓。形状上下文（shape context）方法可以表示轮廓，该方法给出了相应的轮廓匹配算法来进行目标识别。颜色和纹理的传统表示方法很多。一种方法是采用了离散的Harris andLaplacia 区域的分布规则来表示纹理。另外一种描述符是表示图像表面的变化特征，扩展的策略是在表明特征描述符的基础上加入了目标结构特征。采用多个特征组合一起进行图像分类是最新的发展趋势。2) 目标的表示可以分为基于整体的目标表示和基于部分的目标表示两类，目标整体表示在早期的目标识别中研究较多。基于部分的目标表示能够更有效的处理目标的形变，遮挡，角度变化造成的识别困难。3)特征选取后，运用所选择的特征对目标进行描述，建立目标描述向量，然后可以选取一种合适的学习方法对目标进行学习和分类。

关于视觉场景的理解的技术环节很多，这里仅从策略的角度来分析，第一种策略是将一个场景分割成几个视觉区域，每一个区域根据自己的特点会分成好几个片段或块，与这个策略相类似的是，场景由目标组成，目标的内容决定了场景的意义。与该策略相对的是，一个视觉场景看作一个整体，用一幅图像或者视频中的一个帧作为一个语义单元来训练一个场景主题。

虽然视频识别处理方法很多，但是对于复杂多变的场景，稳定的高效的理解方法还没有出现。

语音识别技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目

标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音文档检索、语音拨号、语音导航、室内设备控制、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。声学模型有HMM声学建模和上下文相关建模。语言模型中，统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。

连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。

语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。

以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。