虚拟现实声音实现技术论文

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对虚拟现实声音实现技术的研究

班级：计科1201 姓名：汪敏倩学号：201226100117

摘要

听觉信息是人类仅次于视觉信息的第二传感通道，是增强人在虚拟现实中的浸没感和交互性的重要途径。它作为多通道感知虚拟环境中的一个重要组成部分，一方面负责用户与虚拟环境的语音输入，另一方面生成虚拟世界中的三维虚拟声音。本文首先描述了虚拟声音的概念、作用及特征，能够形成对虚拟声音的大概认识。然后着重介绍了各种听觉模型、语音识别合成技术、语音定位等关键技术。最后就虚拟现实声音领域目前所存在的问题以及应用领域、发展前景加以描述。

正文

●三维虚拟声音的概念与作用

①概念介绍:

三维虚拟声音与人们熟悉的立体声音不同。就立体声音而言，我们可以调整它的左右声道，但是，整体来说我们能够感受到的立体声音还是来自于听者的某一个平面。而三维虚拟声音的体验，听者可以感知到来自四面八方的声音，相当于整个声音系统像一个球形空间围绕着听者的双耳，所以听者可以感受到整个球形空间的任何地方的声音。

举个例子来说，如果你在体验一个虚拟现实的射击游戏，你作为游戏中的战斗者，当听到了敌人的射击枪声时，你可以像在现实世界中一样，能够及时准确得分辨出枪声的来源方位，如果敌人在你背后你也可以分辨出来，而这在平时的立体声音中是完全体会不到的。所以，三维虚拟声音更加符合我们在真实境界中听觉方式。

图1三维虚拟声音示意图

②三维虚拟声音的作用

在虚拟现实系统中加入与视觉并行的三维虚拟声音，一方面可以在很大程度上增强用户在虚拟世界中的沉浸感和交互性，另一方面也可以减弱大脑对于视觉的依赖性，降低沉浸感对视觉信息的要求，使用户体验视觉感受、听觉感受带来的双重信息享受。总得来说，声音的作用有如下几点：

●声音可以作为用户和虚拟环境的一种交互方法，我们可以通过语音交流与虚拟世界取得联系；

●数据驱动的声音能传递对象的基本属性信息；

●增强空间信息，特别是当空间超出了视觉范围，这个时候，就完全要靠声音来识别。

●三维虚拟声音的特征

三维虚拟声音主要的特征有全向三维定位特征、三维实时跟踪特性以及沉浸感与交互性。下面对它们分别做介绍：

①全向三维定位特性是指在三维虚拟空间中把实际声音信号定位到特定虚拟专用源的能力。它能使用户准确得判断出声源的位置，非常符合我们在现实生活中的听觉感受。举个例子来说，在现实生活中，我们一般都是先听到声响，然后再用眼睛去看这个地方，三维声音系统允许用户根据眼睛注视的方向以及根据所有可能的位置来监视和识别各种信息源，由此可以看出，三维声音系统可以利用粗调的机制用以引导较为细调的视觉能力的注意。在有视觉干扰的虚拟环境中，这一点尤其重要，这个时候，我们一般会通过听觉感受来引导肉眼对于目标位置的搜索，这种方法肯定要优于没有任何辅助而直接用肉眼搜索目标。即使是对处于视野中心的物体也是如此，这就是声学信号的全向特性。

②三维实时跟踪特性是指在三维虚拟空间中实时跟踪虚拟声源位置变化或景象变化的能力。比如说，当用户的头部转动时，虽然虚拟声源在虚拟场景中的绝对位置没有发生改变，但是它相对于用户头部的位置发生了变化，所以用户的听觉感受也应该发生变化，从而使用户感受到声源位置的固定性。而当虚拟发声物体移动位置时，用户的听觉感受也应随之改变。只有声音效果与实时变化的视觉相一致，才能产生视觉与听觉的叠加与同步效应。如果三维虚拟声音系统不具备这样的实时变化能力，看到的景象与听到的声音就会相互矛盾，听觉就会削弱视觉的沉浸感。

③三维虚拟声音的沉浸感就是指在三维场景中加入三维虚拟声音后，能够使用户在听觉与视觉交互的同时能够有身临其境的感觉，使人沉浸在虚拟世界中，有助于增强临场效果。三维声音的交互特性是指随用户的运动而产生的临场反应和实时响应的能力。

●三维虚拟声音的建模方法

为了建立具有真实感的三维虚拟声音，一般从最简单的单耳声源开始，然后通过专门的三维虚拟声音系统的处理，生成分离的左右信号，分别传入听者的左右耳朵。以此来使听者准确定位声音的位置。目前常用的听觉模型包括头部相关传递函数、房间声学模型、增强现实中的声音显示。

①有很多致力于研究从声源发出的声波是如何传输到人耳中的，声波从声源处到鼓膜处的变化其实可以看做是人的双耳对声波的滤波作用，它主要表现为人的头、躯干和外耳构成的复杂外形对声波产生的散射、折射和吸收作用，人们将声波从自由场传到鼓膜处的变换函数称之为与头部相关的传递函数HRTF

（Head-Related Transfer Function）。由于每个人的头、耳的大小和形状各不相同，所以HRTF也因人而异。但是这些函数通常是从一群人获得的，因而它是一组平均特征值。获取HRTF的一般方法是：通过测量外界声音及人耳鼓膜上的声音频谱差异，即可获得声音在耳附近发生的频谱波形；随后利用这些数据对声波与人耳的交互方式进行编码，即可得出HRTF，并确定双耳的信号传播延迟特点。

然而HRTF受到很多因素的影响，除了耳廓是最主要的因素，还有头部、耳道、肩膀、躯体等等。这些影响因素里面可以分为两类，一种是与方向有关的因素，包括躯体影响、肩膀反射等，还有一种是与方向无关的因素，包括耳控共振

以及耳道与鼓膜的阻抗，示例图如下：

②房间声学模型的目标就是计算第二声源的空间图，也就是为初始声源计算一组离散的第二声源（回声）。因为在声音的传输过程中如果能够模拟声音与虚拟场景的反射效果，那么即使只有少量的一阶和二阶反射，也可以增加声音效果的真实性。对于第二声源可以由三个主要特性描述：距离上有延迟；相对第一声源的频谱有改变（空气吸收、表面发射等）；与听者的入射方向有变化。通常找到第二声源有两种方法：镜面图像法和射线跟踪法。镜面图像法能够保证找到所有几何正确的声音路径，不过由于该算法是递归的所以不容易改变尺度。射线跟踪法使用一系列射线的反射和折射寻找第二声源，它的缺点在于很难确定所需射线数目。主要优点是即使处理时间很短，也能产生不错的合理的听觉效果，而且通过调节可用射线的数目，很容易以给定的帧频工作。

③增强现实中的声音显示是指我们可以将计算机合成的声音信号与真实的声音信号叠加在一起，真实的声音信号可以由定位麦克风采样得到，可以是当地环境的，也可以是借助遥操作系统来自远地环境的。

这个声音增强系统应该是能够接受任何环境中麦克风接受的信号，用来适应给定情况的方式变化这些信号，然后把它们叠加到虚拟现实系统提供的声音信号上。

●语音识别技术

语音识别是指将人说话的语音信号转换为可被计算机识别的文字信息。语音识别的过程分为：参数提取、参数模式建立、模式识别等过程。举一个例子来说明，当我们对着话筒讲话，这句话传入到系统中，系统先把他转换成数据文件，然后相应的软件便开始识别，主要是把用户输入的样本与事先存储好的样本进行对比，系统选出它认为最像的声音序列号，通过这些序列号的拼接，可以知道用户刚才念的是什么意思，然后执行相应的操作。

其实在语音识别方面还有很大的困难，因为要真正建立识别率高的语音识别系统是非常困难的，因为在实际应用中每个使用者的语音长度、音调、频率都不一致，甚至同一个人在不同的时间念出来相同的声音，波形却也不尽相同，如果所在环境有杂音的话就更加识别不出来了。就像我们平时手机上使用的小欧助手之类的语音软件，很多时候它都是不能识别出来我们讲的是什么意思。不过现在也有很多科研人员在尽力解决这个问题，以后应该会识别度越来越高。

●语音的合成

语音合成技术是指用人工的方法生成语音的技术，相当于是语音识别的逆过程。一般来说，用户对于语音的要求是可懂、清晰、自然、具有表现力。

目前来讲，实现语音输出有两种方法，一种是录音/重放，另一种是文-语转换。对第一种方法，我们首先要把模拟语音信号转换成数字序列，编码，然后暂