人机交互--多通道人机交互

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 使用户利用多个通道以自然、串行/并行、协作的方式进行人机对话
• 通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图，提高人机交互的自然性和高效性
2019/9/20 4
用户
2019/9/20
MMI
击键/指点通
手
语音
道
嘴
眼神
整
…
…
合
眼 2D/3D
手
多媒体信息
…
图5－1 多通道人机界面概念模型
第7章多通道人机交互
2019/9/20
1
本章内容
• 多通道交互技术概述 • 眼动跟踪 • 三维输入 • 实例介绍
2019/9/20 2
多通道交互技术概述
• 为适应目前和未来的计算机系统要求，人机界面应能支持时变媒体（ time-varing media），实现三维、非精确及隐含的人机交互，而多通道人机界面是达到这一目的的重要途径
2019/9/20 16
冗余性
• 冗余性是指在特定交互中多个通道同时使用并具有相同的表达作用
• 不同通道为相同参数提供所需信息，并且所表达信息可能是一致的，也可能是矛盾的
2019/9/20 17
眼动跟踪（Eye-Gaze Tracking）
• 与视觉有关的人机交互自始至终都离不开视线的控制
应用例程
5
多通道用户界面研究的目标
• 多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解
– 交互的自然性
• 使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷；
– 交互的高效性
• 使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力；
–与传统的用户界面特别是广泛流行的 WIMP/GUI兼容
注视率 92% 82% 64% 45% 22%
2019/9/20 22
眼动的主要形式
• 眼动有三种主要形式
– 跳动（Saccades）
• 在正常的视觉观察过程中，眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃
• 在注视点之间的飞速跳跃称为眼跳动。
– 注视（Fixations）
• 停留时间至少持续100ms以上的称为注视。在注视中，眼也不是绝对静止不动，会有微小运动，但大小一般不会超过1°视角。
• 三维光标
– 由六自由度三维输入装置控制的三维光标将使三维交互操作更自然和方便；
• 三维光标必须有深度感，即必须考虑光标与观察者距离：离观察者近的时候较大，离观察者远的时候较小；
• 确定光标在三维空间的方向，这种定向操作必须自然且方便操作；为保持三维用户界面的空间感，光标在遇到物体时不能进入到物体内部。三维光标的实现需要大量的计算，对硬件的要求较高，编程接口也比二维光标复杂得多。
2019/9/20 6
多通道用户界面的基本特点
• 使用多个感觉和效应通道 • 允许非精确的交互 • 三维和直接操纵 • 交互的双向性 • 交互的隐含性
2019/9/20 7
使用多个感觉和效应通道
• 感觉通道侧重于多媒体信息的接受，效应通道侧重于交互过程中控制与信息的输入，两者密不可分、相互配合
• 80 年代后期以来，多通道用户界面 (Multimodal User Interface)成为人机交互技术研究的崭新领域，在国内外受到高度重视
2019/9/20 3
多通道用户界面
• 消除当前WIMP/GUI用户界面通信带宽不平衡的瓶颈
• பைடு நூலகம்合采用视线、语音、手势眼神、表情等新的交互通道、设备和交互技术
• 一种通道(如语音)不能充分表达用户的意图时，需辅以其它通道(如手势指点)的信息；有时使用辅助通道以增强表达力
• 交替而独立地使用不同的通道不是真正意义上的多通道技术，必须允许充分地并行、协作的通道配合关系
2019/9/20 8
允许非精确的交互
• 人类语言本身就具有高度模糊性，人类在日常生活中习惯于并大量使用非精确的信息交流
2019/9/20 20
图5－3 人们对于Internet上新闻的注意程度研究结果
2019/9/20 21
人们对于Internet上新闻的注意程度研究结果
内容文章文字（Articles text）简讯（Briefs）照片（Photos）标题广告（Banner Ads）图形（graphics）
2019/9/20 31
图5－6 三视图输入实例
2019/9/20 32
多通道人机交互
• 通道(Modality)
– 用户可以使用手动、语言、眼神等多种效应通道与计算机系统进行交互
2019/9/20 33
多通道人机交互
• 通道
– 指传送或获得信息的通讯通道的类型，它包含了信息表达、感知以及动作执行的方式，定义了数据类型
• 允许使用模糊的表达手段可以避免不必要的认识负荷，有利于提高交互活动的自然性和高效性
• 多通道人机交互技术主张以充分性代替精确性
2019/9/20 9
三维和直接操纵
• 人类的大多数活动领域具有三维和直接操纵特点
• 人生活在三维空间，习惯于看、听和操纵三维的客观对象，并希望及时看到这种控制的结果
• 互补性可能存在一个“优势通道（Dominant Modality）”，并需要其他通道予以辅助，例如，用语音直指（“This city”），则需鼠标在屏幕对象上指点
2019/9/20 14
指派性
• 指派性是指某通道是完成特定交互任务唯一途径的情形，即某通道必须被用于实现特定交互任务而没有其他通道可以替代
2019/9/20 28
三维空间的交互操作方式
• 三维widgets
– 三维widgets即三维交互界面中的一些小工具。用户可以通过直接控制它们使界面或界面中的三维对象发生改变。
– 三维widget包括在三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。
– 许多三维用户界面的研究者正在设计和试验各种不同的三维widgets，希望将来能够建立一系列标准的三维widgets 就像二维图形用户界面中的窗口、按钮、菜单等。
• 如果能通过用户的视线盯着感兴趣的目标，计算机便“自动”将光标置于其上，人机交互将更为直接，也省去了上述交互过程中的大部分步骤
• 有关视觉输入的人机界面研究主要涉及两个方面
–一是视线跟踪原理和技术的研究 –二是在使用这种交互方式后，人机界面的设计技术和原
理的研究
2019/9/20 18
眼动跟踪
2019/9/20 29
图5－5 三维widgets图例
2019/9/20 30
采用三视图输入技术，实现三维的输入
• 如果输入一个三维点，只要在两个视图上把点的对应位置指定后便唯一确定了三维空间中的一个点；把直线段上两端点在三视图上输入后便可决定三维空间的一条直线；把一个面上的各顶点在三视图上输入后，也唯一确定了三维空间中的一个面；如果把一个多面体上的各面均用上述方法输入，也就在三维空间中输入了一个多面体
• 但是由于眼动存在固有的抖动，以及眼睛眨动、头部剧烈的移动所造成的数据中断，存在许多干扰信号，提取有意眼动数据非常困难。解决此问题的办法之一是利用眼动的某种先验模型加以弥补。
2019/9/20 25
米达斯接触问题与解决方法
• “米达斯接触（Midas Touch）”问题：
– 如果鼠标器光标总是随着用户的视线移动，可能会引起用户的厌烦，因为用户可能希望能随便看着什么而不必非“意味着”什么，更不希望每次转移视线都可能启动一条计算机命令。
2019/9/20 24
眼动跟踪的基本原理
• 利用红外发光二极管发出红外线，采用图像处理技术和能锁定眼睛的特殊摄像机，通过分析人眼虹膜和瞳孔中红外线图象点的连续变化情况，得到视线变化的数据，从而达到视线追踪的目的。
• 从视线跟踪装置得到的原始数据需要经过进一步的处理才能用于人机交互。
• 数据处理的目的是滤除噪声、识别定位及局部校准与补偿等，最重要的是提取出用于人机交互所必需的眼睛定位坐标。
– 互补性（complementary）； – 指派性（Assignment）； – 等效性（Equivalence）； – 冗余性（Redundancy）；
2019/9/20 13
互补性
• 互补性是指若干通道必须以互补方式完成特定的交互任务，也就是说，当单个通道不能提供充分的任务信息时，需要其他通道补充，如手势指点补充语音命令
• 避免“米达斯接触”问题的方法：在理想情况下，应当在用户希望发出控制时，界面及时地处理其视输入，而在相反的情况下则忽略其视线的移动。
• 可采用其他通道（如键盘或语音）进行配合。
2019/9/20 26
三维输入
• 许多应用（如虚拟现实系统）需要三维空间定位技术：三维空间控制器的共同特点是具有六个自由度，分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。
• 多通道人机交互的自然性反应了这种本质特点
2019/9/20 10
交互的双向性
• 人的感觉和效应通道通常具有双向性的特点，如视觉可看可注视，手可控制、可触及等
• 多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换，从而提高自然性和效率
• 视线跟踪系统可促成视觉交互双向性，听觉通道利用三维听觉定位器实现交互双向性
• 绝大多数信息只有在注视时才能获得并进行加工。
– 平滑尾随跟踪（Smooth Pursuit）
• 缓慢、联合追踪的眼动通常称为平滑尾随跟踪。
2019/9/20 23
眼动跟踪的基本要求
• 在人机交互中眼动跟踪技术必须满足以下几点要求，才能满足实际需求：
– 不能妨碍视野 – 不要与用户接触，对用户基本无干扰 – 精度要高 – 动态范围要从1弧分（六十分之一弧度）到45º – 反映速度要快，实时响应 – 能与获取的身体和头部运动相配合 – 定位校正简单 – 可作为计算机的标准外设
• 早期的视线跟踪技术首先应用于心理学研究、助残等领域，后来被应用于图像压缩及人机交互技术
• 视线跟踪技术有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分
• 视线追踪主要用于军事领域（如飞行员观察记录），阅读及帮助残疾人通信等
2019/9/20 19
图5－2 Stanford University和The Poynter Institute合作研究人们对于Internet上新闻的注意程度
• 通过控制这六个参数，用户可以在屏幕上平移三维对象或光标，也可沿三个坐标轴转动三维对象。
• 三维空间控制器、视线跟踪器、数据手套等输入设备产生的空间位置是相对的。
• 在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。
2019/9/20 27
三维空间的交互操作方式
人机交互模型的发展
2019/9/20 37
输入原语
• 为了摆脱设备的特定物理特性和操作方式上的差异，便利多种输入设备在词法级的整合，有必要在物理设备和对话控制中再抽象出一层，即输入原语翻译层
2019/9/20 11
交互的隐含性
• 追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分，反之是在自然的交互过程中隐含地说明
– 用户的视线自然地落在所感兴趣的对象之上 – 用户的手自然地握住被操纵的目标
2019/9/20 12
多通道用户界面评价
• 基于多通道用户界面所追求的目标，人们提出相应的评价多通道用户界面的若干指标（Nigay等人提出的CARE指标）：
• 模式
– 一种状态或上下文信息，决定对信息的解释一获取意义
• 通道整合(Modality Integration)
–指用户在与计算机系统交互时，多个交互通道之间相互作用形成交互意图的过程
2019/9/20 34
多通道用户界面的三维表示模型
2019/9/20 35
多通道用户界面的概念模型
2019/9/20 36
• 指派性可分为两种情形
– 一种是不存在其他选择，称为严格的指派性（Strict Assignment）
– 另一种是虽然存在选择，但用户或系统总是倾向于使用同一种通道，称为代理指派性（Agent Assignment）
2019/9/20 15
等效性
• 等效性是指在完成特定交互任务时至少有两种以上通道可以互相替代，由于设备特性、用户习惯或临时因素（如手头正忙）而使某种通道不能使用时，可选择其他通道代替。