基于混合现实的3D实时交互系统

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于混合现实的3D实时交互系统
摘要
本文中描述了一种基于增强现实的实时3D视频会议系统，通过这项技术，使用者以
自己的视角观察被编辑过的真实世界，它将身在偏远的地方的合作者呈现到现场中。

我
们通过估计相机和基准标记间的3D转换来将合作者的形象注册到世界中。

我们描述了一
种新的从轮廓中获取形状的算法。

这种算法能以每秒30帧的速度生成合作者的影响和相
关的深度图。

当这种虚拟的视觉被添加在真实的景观上时，它将给人一种强烈的印象：
合作者就是重建场景的一部分。

我们也证明了真实的合作者与虚拟场景的交互。

最后，
我们考虑了应用有型的AR接口实现真实世界中的使用者和虚拟空间中的合作者的交互。

关键字：视频会议、增强现实、基于图像的渲染、轮廓中提取形状、互动
一、导言
科幻小说已经预示了许多巨大在计算和通信领域的巨大进步。

在2001年，一个太空
奥德赛，弗洛伊德博士使用可视电话与家人通话。

这是一个早期的屏幕可视的2D视频会议。

这项技术是现在已是司空见惯。

最近，在电影星球大战中描述了3-D全息沟通。

在
本文中，我们也许是第一个应用计算机图形学创造了全息电话。

现有的会议技术有着很大的局限性。

只有音频的会议在在对话中失去了重要的视觉
线索，这导致了干扰和重叠的增加 [8]，对话者间消除歧义和互动的困难。

[14] 传统的2
维视频会议改善事宜，但众多的用户动作和手势不能被捕获[13]，参与者之间没有空间的线索而且参与者之间不能进行眼神的交流。

参与者只有在屏幕前才能被看到，而且参与
人数也是被显示器的分辨率限制的。

这些限制破坏通信保真度[34]，和交流的流畅性[10]，并增加干扰和重叠[11]。

配套的虚拟环境提供了面对面交谈[4]的共同空间的线索，只是
把使用者从真实世界中分离出来。

此外，非语言沟通使用传统的化身很难传达，这导致
存在感的降低。

我们定义了完美的视频化身致使使用者不能区分屏幕中的是真实的人在还是一个远
程的合作者。

也许与完美的远程展示最接近的目标就是未来办公室的工作。

[27] Ogi et al 的虚拟的视频化身Mulligan和Daniilidis的工作[23][24].。

所有系统都应用了多个相机去
重建一个参与者的几何模型。

所有的系统使用多个摄像机来构建一个参与者的几何模型,
然后使用该模型为远程的合作者生成适当的视图。

尽管令人印象深刻,这些系统目前不生
成整个3 D模型——不能在虚拟化身周围进行360度移动。

此外,由于这些系统的输出是
以投影屏幕为媒介的其显示是不可移植的。

本文的目标是通过引入增强现实的视频会议系统，提供一个这些问题的解决方案。

增强现实技术是指在真实场景中实时的插入由计算机生成的3D内容。

见[2],[3]。

通常，
使用者通过一个前方装有摄像头的头盔显示器来观察世界。

视频实时的捕获，修改和传送到观察者的视野中。

实质上，我们创造了一个活生生的化身并且通过AR技术来将他显示到真实的世界中。

(见图1) 除了创建一个极具吸引力的存在感,这种设施广泛应用于在论文的第一部分,我们回顾以前的工作在基于“增强现实”会议。

会议和协作应用程序的范围。

支持技术的系统是一个新颖方法在可以实时交互速度下生成任意视图的合作者。

在第二部分中,我们描述了算法和证明它在实时沟通应用程序的竞争技术中的一些优势。

在论文的第三部分,我们介绍了一些其他我们的技术可以适合的应用场合。

这些包括可视化的合作者在虚拟的空间中,和一个新颖方法用户在现实空间与虚拟的合作者,使用有形的用户界面技术。

图1观察者通过前方装有摄像头的头盔显示器观察世界我们的系统探测环境中的标记并且在上面加上了一个实时的生动的视频组件，并且其内容可以随着观察者的观察方向调整。

二、现有技术
Billinghrst 和佐藤第一次探索到AR是如何能被用来支持远程合作和提供视频和非语音交流的工具. 用户佩戴一个轻量级的HMD就可以看到单一的远程用户以一个真实大小的现场虚拟视频窗口出现在真实卡片上.整体效果就是与会者出现在预计的本地用户的真实工作场所.
因为卡片是远程参与者的物理表示,我们的合作接口能作为看作为Ishii的有形接口比喻的变种[Ishii97]。

用户能安排卡片的空间来创造一个虚拟空间上的会议空间，卡片也是足够小的，足以被轻便的携带，保证了产品的可移植性。

用户可以不再被要求呆在桌面而且可以说能在任何地点开会。

所以远程的与会者变成了任何世界中环境的一部分，潜在上能达到身临其境的感觉。

AR会议接口和传统桌面视频会议有许多别的明显差别。

远程用户可以显示为一个真人大小的图像并且可以立刻被显示为一个潜在的任意数量的远程用户。

摘要虚拟视频窗口可以恢复协作。

最后,远程用户的形象完全就是真正的虚拟相机放置在用户的眼睛里自然观察到的东西。

在用户研究中对比了AR会议和传统的音频和视频会议的主题显示出远程用户在AR
会议条件较高的存在感，这是一个容易察觉到非言语交际线索[6]。

确实，引人注目的自
然AR会议依靠视频会议的条件充分展示了一个用户在接近显示器，并在AR条件给虚拟
合作者建立面对面的谈话。

最近的工作[7]提出一个AR会议界面，支持多个远程用户和应用的alpha映射技术，从背景中提取远程用户的视频并且创造一个更自然的图像（见图2）。

在这个接口用户与用户研究中认为，提供更多的合作存在的AR条件和提高参与者之间的对话的理解。

三、3 – D实时增强现实
3.1概述
在本文中，我们旨在在视觉场景插入远程合作者得实时图像（见图1和图2）。

当观察员移动他的头，这个合作者视角可以适当的变化。

空间中存在的结果可以得到一个关
于远程合作者的稳定的三位感官体验。

为了实现这一目标，我们要求：（一）头戴式摄像头，（二）现场的位置估计，（三）在当的合作者的观点是渲染成的场景，可能采取的闭塞帐户。

我们依次考虑这些
问题。

头盔摄像机位姿估计
一个大洋VisorCY-DH-4400VP头盔显示器（HMD）提出相同的640×480像素的图
像和两只眼睛被视为通过现场。

一个PremaCam SCM系列彩色安全摄像机连接到本HMD 前面。

它能在640x480分辨率捕获每秒25张图像。

我们聘请的加藤和Billinhurst的标记跟踪方法[18]。

我们简化的姿势插入的2-D进入
现场的黑色和白色的基准标记的估计问题，虚拟的内容与每个标记。

由于这些标记的形状和图案，据说很容易找到这些标记，计算它们相对位置的相机。

总之，摄像机图像阈值化和连续的暗区使用连通分量算法确定。

轮廓寻求技术确定
这些地区的轮廓。

不完全包含四个角落被丢弃的轮廓。

我们估计，拟合直线的角落位置
和每边的交点决定。

一个射影变换用于映射标准形状封闭区域。

然后交叉与存储模式唯
一建立在一个校准相机的图像，标记的身份和定位标记角落的图像位置以标志和方向确
定三维位置。

此信息表示为欧氏变换矩阵与摄像机的标记协调制度，并用于呈现相应的
视图进入现场的虚拟内容。

增强现实标记跟踪和校准软件 [35]。

图2 向着更自然的增强现实视频会议的发展。

[6]的初始工作，从单一的合作者的2D 影响标记（左）。

后续的工作增加了合作者的数量，并且引入了α绘图去增加二维视频流的真实感（中）。

本文中我们介绍的实时全3D视频会议（右）。

四、虚拟视觉点产生器
4.1背景
虚拟合作者可以无缝融入现实世界中，我们需要为每个视频帧生成相应的视图。

为了实现这一目标，我们必须生成一个合作者的3-D形态，每帧的模型。

一种新的视图可以很容易地构造给定的形状和几个已知的观点。

一种方法是使用立体深度的深度信息收集。

立体重建，现在可以实现在速度的互动[17][23][24]。

然而，由此产生的稠密深度图是不健全的没有现行制度的相机。

基于图像相关的渲染技术[28] [1]没有明确计算的深度，但仍需要密集的图像之间的匹配，同样容易出错。

一个更具吸引力的方法是已被[21] [22]从轮廓信息使用的快速3-D模型建设。

一些相机放在被测物体周围。

在每个相机的每个像素被列为属于主体（前景）或背景。

导致前景表面被称为“剪影”。

在每个相机的每个像素收集的光（很窄）被置于三维空间中的基础的矩形金字塔，金字塔的顶点在摄像机的焦点和金字塔的无限延伸的焦点。

可以假设为背景像素，这个空间是空置的。

形状的剪影算法由最初假设空间到被完全占据，从每个摄像头使用的每一个背景像素，瓜分了空间碎片留下的前景对象的代表。

图三虚拟视点产生于从轮廓中产生的形状，相机拒绝了背景中的点。

A与C之间的点已经经过处理并与背景图像进行合成。

这些点被标记为未占用且为洋红色。

未被处理的点被标记为黄色。

D点是在相机2中是背景,所以它将被标记为未被占用并且搜索将继续沿着这条线。

显然，将改善、重建模型，增加更多的摄像机。

然而，由此产生的深度重建可能无
法捕捉对象的真实形状。

最好的重建形状被称为“视觉船体”[20]。

尽管有这个限制，
形状、剪影匹配技术有三个显着的优势。

首先，它是更强大的立体视觉。

背景像素，即
使误判为一个图像对象的一部分，其他的轮廓很可误判违规空间。

二是速度明显比任何
立体声要求广大。

它通常有一个缓慢的更新速度。

第三，技术是价格低廉，无需专门的
硬件。

基于上述原因，本文中所描述的系统是基于形状的剪影信息。

我们相信，这是一个
首创系统，是能够从大量的相机（15）3D模型和纹理捕捉，并显示他们从任意角度每秒
25帧（捕捉摄像头帧速率）的图像。

据我们所知，最接近的同类系统的东西只有5相机
和模型的质量做到这样。

算法概述
由于任何标准的4x4投影矩阵，代表所需的虚拟摄像头，虚拟图像每个像素的中心
在空间光相机中，开始向外延伸。

沿着这条线的人意给定距离相当于三维空间的点。

为
了确定分配给一个特定的虚拟像素是什么颜色，我们需要知道的第一个（最接近）潜在
的被占领点。

沿着这条射线。

这种三维点可投射到每一个真实相机背面的颜色样本，以
获得该位置数据。

然后，这些样本相结合，产生最终的虚拟像素的颜色。

因此，该算法
在每个虚拟像素执行三个操作：
•确定虚拟摄像头看到的虚拟像素的深度。

•查找在附近的真实图像的相应像素
•所有这些的基础上，确定像素颜色的测量。

4.2确定像素深度
每个虚拟像素的深度是一个明确的搜索。

在虚拟相机投影中心和收益对应的像素中
心（见图3）沿射线向外开始搜索。

每名候选点的三维点。

沿着这条线被评估为潜在的位置。

一个候选点是空置的，如果它投影到任何剪影背景标记。

当点一个点被发现时，所
有的轮廓标记为前景，被认为是潜在的空间，并停止搜索。

要限制每个虚拟像素搜索，相应的光与每个真实图像的边界相交。

我们投射到每个
图像形成对应的极线的射线。

这些极线满足的图像边界点被发现和射线投射到这些边界
点时，射线对这些地区的十字路口定义减少搜索空间。

如果搜索没有发现任何潜在的被
占领的像素达到本地区最远的限制，虚拟像素被标记为背景。

4.3确定像素颜色
在一般情况下，我们更偏向于以最接近近符合新颖的视角摄的像机接收到的信号为
基础建立像素颜色。

我们把摄像机按照临近性进行排名，并选择最接近的前三个摄像机。

现在我们计算三维点在于每个候选相机的图像。

不幸的是，真正的相机并不一定会看到
这些空间中的点- 另一个物体可能存在于真正的相机和点之间。

如果真实像素这样堵塞着，它就不能作用于其颜色的虚拟像素。

我们重复上一个真正的相机的像素的深度搜索算法。

如果恢复的深度在空间中足够接近三维虚拟摄像头像素点计算的3D点，我们假设真正的摄像头像素不闭塞–真实像素的颜色是可以作用于虚拟像素的颜色。

在实践中，我们靠立刻接收哪些在几何学上必然不会被堵塞的点来增加系统的速度。

我们从非闭塞相机的像素中取加权平均，比如最接近的摄像头给它最高的权重。

4.4系统的硬件和软件
14台索尼DCX – 390摄像机被等距的布置在物体的周围，还有一台从上方观察他。

五台Pentium III型1Ghz的视频捕捉器件从每台摄像机中获得数据。

视频获取机通过确定轮廓来来对频中的帧进行预处理，并通过千兆以太网链路将数据传输出去。

它的渲染服务器基于1.7 GHz奔腾IV Xeon处理器。

我们算法的特点使我们能够基于15台相机快速的产生非常高质量的模型。

本文的数据是在384x288分辨率下以<100ms的延迟在25 fps的产生。

由于每个前台的对象必须对所有摄像机完全可见，所以要对每个摄像机的变焦水平进行调整，以便使它可以总能看到的物体，甚至在它来回移动的情况下也是一样。

这意味着每个相机的分辨率的限制必须分布在所需的成像区域。

因此,我们不可避免的要在图像质量和数据捕获量之间进行权衡。

同样，深度估计的准确性将会随着摄像机的对物体的远离而下降。

同样，系统所需的物理空间大小决定于所需的捕获区域和所用镜头的领域。

我们已经尝试用2.8毫米的镜头，提供了一个角度约90度场。

这个镜头可以捕捉到的空间是在相机3.3米远的时候捕捉到2.5m高，直径3.3米的视场。

4.5与其他方法的比较
我们的系统是类似的精神Matusik[22]等工作。

他们还提出一种利用sillhouette信息基于图像的新颖的视图生成算法。

主要区别是，Matusik从现有的摄像机角度生成了整体的虚拟外壳。

然而我们只产生可见的部分。

LOK[21]提出了一种替代量为基础的方法重建。

上述线性系统的规模与摄像机的数量都增加。

我们的系统框架在实践中要慢得多，因为对像素颜色的估计（这需要大量的渲染时间）只使用一个固定数量的摄像机图像扩展。

五、三维混合现实交互
我们全系统结合虚拟的观点和增强现实软件（见图5）。

对于每一帧，增强现实系统的识别标记和相机位置的变换矩阵。

这被传递到虚拟角度服务器，连同估计摄像机标定矩阵。

服务器响应返回的RGBA图像，每个像素的adepth估计。

这种远程合作者模拟视图然后叠加在原始图像，并显示给用户。

为了提高系统的速度，我们引入的增强现实视频演示一个单一帧延迟。

因此，增强现实系统开始处理下一帧的虚拟视图服务器而产生的前一个视图。

然后发生交换返回到
增强现实系统的图形显示，新的变换矩阵被发送到虚拟视图渲染。

延迟保证，无论是机器浪费了大量的处理时间，等待其他，并保持高吞吐量。

在实践中，这意味着没有明显的延迟为用户 - 当他们移动他们的头，合作者同时出现移动。

图4 系统概况：15台相机来捕捉物体的影像，影像传送给5个视频捕捉机器来计算这些数据，随后数据送给服务器。

混合现实的客户端从头盔中获得信息，并且计算了标记的姿态。

相关的转换矩阵随后被传递给服务器从而呈现适当的物体的视图。

总延迟小于100毫秒。

我们的客户 - 服务器系统优势之一是，网络的要求相对较低由于每一帧需要只有一个图像，该系统是不超过2维视频会议在带宽方面要求事实上，它可能是要求不高，因为我们知道图像哪一部分是“背景”，促进压缩然而，在标准视频会议相比，服务质量是极其重要的保留模型的互动品质增强现实会议
六、增强现实会议
在增强现实会议的应用中，参与者1(合作者)站在一个被虚拟视点相机包围的地方。

参与者2(观察者)坐在其他地方，戴着内嵌显示器的头盔。

在接下来的文章我们使用术语“合作者”和“观察员”使用我们系统的角色,一系列经过渲染的合作者的视频信息被送给观察者使得合作者的影像叠加在真实世界中的基本标记上。

特定的合作者的形象被生成在头盔相机和基本标记之间。

因此,如果观察者移动他的头,或操作基准的标记物,图像会有适当的改变。

这个系统建立了三维空间中观察者对合作者的感知。

合作者的音频流数据也经过了特殊的处理使得它好像是从虚拟世界中的合作者发出的。

对于我们的应用程序，我们选择了一个比较大的成像空间（约3x3x2m），这是一个相对较低的分辨率。

允许系统捕捉运动和非语言的信息，这不可能用一个单一的固定摄像机拍摄。

我们提出的一个演员饰演戏剧的例子中（参见图1,2 c和5A）他的表演整个范围，包括来回踱步，跪下和站起，都可以被系统捕捉并在增强现实中传送给观察者。

并不需要过多的说明观察者就可以自然地感到合作者稳定的成为世界的一部分。

事实上，大空间成像是一个设计的选择，被选择来证明大规模的动作和手势。

大面积也使我们能够一次捕捉几个人，即使是在他们紧靠的时候。

我们的系统仍然产生了非常成功的结果，我们的现实理论是将图像显示在一个小卡片上，这种设计尤其适合于观看这些运动，因为很大的面积被缩小到一个较小的空间，并可以很容易操纵使得观察者从理想的角度查看合作者。

我们做的这个基本的演示表示了我们的技术能够捕捉这种运动，这是我们的竞争者无法做到的。

然而，这种安排的缺点之一是：在双向的系统中，观看的位置不对称。

考虑两个用户。

这当然是可能的，每个观看方向指示，让他们可以自己定位正确。

这个系统与图形替身的一个例子在[5]中。

但是，用户不能同时定位自己的合作者观看方向（假设在他的头顶）和他的合作者对他的卡标记（假设他的头部以下）的看法。

图5 视频会议可以以桌面为背景——有可移植性并容易操作的位置——或者我们可以生成一种真人大小的影响作为一种更自然的互动。

呈现在真人大小的合作者面前的这些问题有显而易见的解决方案。

然后保持相对的身体姿势和使用方向正是与现实生活中相同（见图5b）。

在这种情况下，不妨使用移动相机，这样更接近形象，体积小，分辨率高得多。

它仍然是可以跟踪用户的头部，在此配置中使用地板或墙壁上的基准标记。

然而，在实践中，经测试显示被测试者很难保持在场景中位置，同时跟踪功能或一个商业模拟现实的跟踪解决方案十分优秀。

我们已经尝试使用Intersense IS 900跟踪的结果是非常稳定。

在这种情况下，交流是尽量贴近现实生活的，我们可以模拟。

全面的3-D合作者出现在用户的空间，真正形成规模。

这使得除了保持很自然的可视化，这项技术允许参与者之间的练习。

目前我们的系统是单向的 - 用户可以看到的是合作者而不是相反。

一个对称的关系介绍了进一步的混乱情况：完全自然的沟通被中断。

因为当戴着头盔显示器的时候无法保持眼神的相互交流。

一个明显的解决办法是用光学“see-though”现实头盔使眼睛仍然可以看到显示器来增强对真实会议的调解。

最近的工作还调查了改变每个合作者对别人头上与计算机显示的图形表示的眼睛[34]观点的可能性。

七、虚拟环境中的协作
虚拟环境代表了一个令人振奋的新的介质。

事实上，对于特定的任务，他们确实优于视频会议[31]。

然而，这在以前是不可能准确的使得协作者在一个虚拟环境中可见，和一个象征性的图形表示（替身），被应用于他们所在的地方。

在在本节中，我们用一个实际的人，因为他们探索的虚拟空间中实时模拟视图的象征性的化身。

我们在虚拟空间中的合作者产生相应的视图，从我们目前的位置和方向。

为了沉浸在虚拟环境中的用户和合作者，它是必要的能够精确地跟踪他们头的方向和位置，所以可以从正确的角度呈现虚拟场景。

这些参数的估计采用的Intersense IS900跟踪系统，该措施在1.5mm和取向位置在0.05度内9x3m地区。

为观察员的位置和方向信息由Intersense系统也被发送到虚拟视图系统生成的合作者和相关的深度图形象。

这是写进观察员的现场。

允许使用Z-缓冲技术实现遮挡影响的深度图。

图6显示了从一个序列数帧在它的观察员探索与合作者，谁是一门艺术专家一个虚拟艺术画廊。

合作者，是在虚拟视图系统，被认为是通过画廊讨论与用户的照片。

生成虚拟观点抓住了他的姿态在虚拟环境中功能和自然沟通的艺术让专家动作和手势。

请注意，它甚至明确静止画面的场景由于丰富的手势和身体上正在发生的事情对我们的系统传达信息。

我们的系统一个关键功能是能够捕获在大面积，从四面八方，使参与者他们可以移动和可视化一个自然的虚拟空间。

我们相信这是首次在现场，完全3-D视频头像虚拟环境合作示范。

图6 虚拟环境的交互。

虚拟视点生成器可以被用于在虚拟环境中制作视频影像。

我们提出的例子是一个虚拟画廊的导游。

人可以用姿态来表示环境中的物体并且用非预言的线索来交流信息。

八、有形的增强现实互动
视频会议应用一个有趣的方面是虚拟内容被连接到物理现实世界的对象。

操纵这些对象来创建与电脑的“有形的用户接口”（见图1）。

在我们以前的应用中，这只是允许用户定位在他视频会议流/她环境。

我们也可以应用这些技术交互用户在一个自然物理方式。

例如，Kato et al。

[19]表明原型室内设计中的应用，用户可以拿起，放下，推动在一个虚拟空间中的虚拟家具。

[26]，[7]和[32]。

我们已经探索在一个AR技术在写作娱乐中的应用。

我们将虚拟世界叠加在现实世界中在他办公桌上（见图7）合作者探索一个微型世界。

合作者通过真实的“桨”移动，观察员现在可以看到来回走动的虚拟环境中的合作者，甚至把他抱起来，通过操纵真实的物理桨来把它放置在新的虚拟环境中。

[5]这个特别的虚拟环境被选择应用一个真实世界的书籍作为接口。

不同基准标记（或设置者）被印在每一页上，并伴随着不同的环境。

观察者只需打开这本书的页面选择合适的虚拟世界。