人机交互--多通道人机交互
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 使用户利用多个通道以自然、串行/并行、 协作的方式进行人机对话
• 通过整合来自多个通道的、精确的和不 精确的输入来捕捉用户的交互意图,提 高人机交互的自然性和高效性
2019/9/20 4
用 户
2019/9/20
MMI
击键/指点 通
手
语音
道
嘴
眼神
整
…
…
合
眼 2D/3D
手
多媒体信息
…
图5-1 多通道人机界面概念模型
第7章 多通道人机交互
2019/9/20
1
本章内容
• 多通道交互技术概述 • 眼动跟踪 • 三维输入 • 实例介绍
2019/9/20 2
多通道交互技术概述
• 为适应目前和未来的计算机系统要求,人机 界 面 应 能 支 持 时 变 媒 体 ( time-varing media),实现三维、非精确及隐含的人机 交互,而多通道人机界面是达到这一目的的 重要途径
2019/9/20 16
冗余性
• 冗余性是指在特定交互中多个通道同时使用 并具有相同的表达作用
• 不同通道为相同参数提供所需信息,并且所 表达信息可能是一致的,也可能是矛盾的
2019/9/20 17
眼动跟踪(Eye-Gaze Tracking)
• 与视觉有关的人机交互自始至终都离不开视线的 控制
应用例程
5
多通道用户界面研究的目标
• 多通道用户界面主要关注人机界面中用 户向计算机输入信息以及计算机对用户 意图的理解
– 交互的自然性
• 使用户尽可能多地利用已有的日常技能与计算机 交互,降低认识负荷;
– 交互的高效性
• 使人机通讯信息交换吞吐量更大、形式更丰富, 发挥人机彼此不同的认知潜力;
–与传统的用户界面特别是广泛流行的 WIMP/GUI兼容
注视率 92% 82% 64% 45% 22%
2019/9/20 22
眼动的主要形式
• 眼动有三种主要形式
– 跳动(Saccades)
• 在正常的视觉观察过程中,眼动表现为在一系列被观 察目标上的停留及在这些停留点之间的飞速跳跃
• 在注视点之间的飞速跳跃称为眼跳动。
– 注视(Fixations)
• 停留时间至少持续100ms以上的称为注视。在注视中, 眼也不是绝对静止不动,会有微小运动,但大小一般 不会超过1°视角。
• 三维光标
– 由六自由度三维输入装置控制的三维光标将使 三维交互操作更自然和方便;
• 三维光标必须有深度感,即必须考虑光标与观察者 距离:离观察者近的时候较大,离观察者远的时候 较小;
• 确定光标在三维空间的方向,这种定向操作必须自 然且方便操作;为保持三维用户界面的空间感,光 标在遇到物体时不能进入到物体内部。三维光标的 实现需要大量的计算,对硬件的要求较高,编程接 口也比二维光标复杂得多。
2019/9/20 6
多通道用户界面的基本特点
• 使用多个感觉和效应通道 • 允许非精确的交互 • 三维和直接操纵 • 交互的双向性 • 交互的隐含性
2019/9/20 7
使用多个感觉和效应通道
• 感觉通道侧重于多媒体信息的接受,效 应通道侧重于交互过程中控制与信息的 输入,两者密不可分、相互配合
• 80 年 代 后 期 以 来 , 多 通 道 用 户 界 面 (Multimodal User Interface)成为人机交互 技术研究的崭新领域,在国内外受到高度重 视
2019/9/20 3
多通道用户界面
• 消除当前WIMP/GUI用户界面通信带宽 不平衡的瓶颈
• பைடு நூலகம்合采用视线、语音、手势眼神、表情 等新的交互通道、设备和交互技术
• 一种通道(如语音)不能充分表达用户的意 图时,需辅以其它通道(如手势指点)的信 息;有时使用辅助通道以增强表达力
• 交替而独立地使用不同的通道不是真正 意义上的多通道技术,必须允许充分地 并行、协作的通道配合关系
2019/9/20 8
允许非精确的交互
• 人类语言本身就具有高度模糊性,人类 在日常生活中习惯于并大量使用非精确 的信息交流
2019/9/20 20
图5-3 人们对于Internet上新闻的注意程度研究结果
2019/9/20 21
人们对于Internet上新闻的注意程度研究结果
内容 文章文字(Articles text) 简讯(Briefs) 照片(Photos) 标题广告(Banner Ads) 图形(graphics)
2019/9/20 31
图5-6 三视图输入实例
2019/9/20 32
多通道人机交互
• 通道(Modality)
– 用户可以使用手动、语言、眼神等多种效应 通道与计算机系统进行交互
2019/9/20 33
多通道人机交互
• 通道
– 指传送或获得信息的通讯通道的类型,它包含了信息表达、 感知以及动作执行的方式,定义了数据类型
• 允许使用模糊的表达手段可以避免不必 要的认识负荷,有利于提高交互活动的 自然性和高效性
• 多通道人机交互技术主张以充分性代替 精确性
2019/9/20 9
三维和直接操纵
• 人类的大多数活动领域具有三维和直接 操纵特点
• 人生活在三维空间,习惯于看、听和操 纵三维的客观对象,并希望及时看到这 种控制的结果
• 互补性可能存在一个“优势通道(Dominant Modality)”,并需要其他通道予以辅助,例 如,用语音直指(“This city”),则需鼠标 在屏幕对象上指点
2019/9/20 14
指派性
• 指派性是指某通道是完成特定交互任务唯一 途径的情形,即某通道必须被用于实现特定 交互任务而没有其他通道可以替代
2019/9/20 28
三维空间的交互操作方式
• 三维widgets
– 三维widgets即三维交互界面中的一些小工具。用户可以 通过直接控制它们使界面或界面中的三维对象发生改变。
– 三维widget包括在三维空间中漂浮的菜单、用于拾取物体 的手的三维图标、平移和旋转指示器等。
– 许多三维用户界面的研究者正在设计和试验各种不同的三 维widgets,希望将来能够建立一系列标准的三维widgets 就像二维图形用户界面中的窗口、按钮、菜单等。
• 如果能通过用户的视线盯着感兴趣的目标,计算 机便“自动”将光标置于其上,人机交互将更为 直接,也省去了上述交互过程中的大部分步骤
• 有关视觉输入的人机界面研究主要涉及两个方面
–一是视线跟踪原理和技术的研究 –二是在使用这种交互方式后,人机界面的设计技术和原
理的研究
2019/9/20 18
眼动跟踪
2019/9/20 29
图5-5 三维widgets图例
2019/9/20 30
采用三视图输入技术,实现三维的输入
• 如果输入一个三维点,只要在两个视图 上把点的对应位置指定后便唯一确定了 三维空间中的一个点;把直线段上两端 点在三视图上输入后便可决定三维空间 的一条直线;把一个面上的各顶点在三 视图上输入后,也唯一确定了三维空间 中的一个面;如果把一个多面体上的各 面均用上述方法输入,也就在三维空间 中输入了一个多面体
• 但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈 的移动所造成的数据中断,存在许多干扰信号,提取有意 眼动数据非常困难。解决此问题的办法之一是利用眼动的 某种先验模型加以弥补。
2019/9/20 25
米达斯接触问题与解决方法
• “米达斯接触(Midas Touch)”问题:
– 如果鼠标器光标总是随着用户的视线移动,可能会 引起用户的厌烦,因为用户可能希望能随便看着什 么而不必非“意味着”什么,更不希望每次转移视 线都可能启动一条计算机命令。
2019/9/20 24
眼动跟踪的基本原理
• 利用红外发光二极管发出红外线,采用图像处理技术和能 锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外 线图象点的连续变化情况,得到视线变化的数据,从而达 到视线追踪的目的。
• 从视线跟踪装置得到的原始数据需要经过进一步的处理才 能用于人机交互。
• 数据处理的目的是滤除噪声、识别定位及局部校准与补偿 等,最重要的是提取出用于人机交互所必需的眼睛定位坐 标。
– 互补性(complementary); – 指派性(Assignment); – 等效性(Equivalence); – 冗余性(Redundancy);
2019/9/20 13
互补性
• 互补性是指若干通道必须以互补方式完成特 定的交互任务,也就是说,当单个通道不能 提供充分的任务信息时,需要其他通道补充, 如手势指点补充语音命令
• 避免“米达斯接触”问题的方法:在理想情况 下,应当在用户希望发出控制时,界面及时地 处理其视输入,而在相反的情况下则忽略其视 线的移动。
• 可采用其他通道(如键盘或语音)进行配合。
2019/9/20 26
三维输入
• 许多应用(如虚拟现实系统)需要三维空间定位 技术:三维空间控制器的共同特点是具有六个自 由度,分别描述三维对象的宽度、深度、高度、 俯仰角、转动角、偏转角。
• 多通道人机交互的自然性反应了这种本 质特点
2019/9/20 10
交互的双向性
• 人的感觉和效应通道通常具有双向性的 特点,如视觉可看可注视,手可控制、 可触及等
• 多通道用户界面使用户避免生硬的、不 自然的、频繁的、耗时的通道切换,从 而提高自然性和效率
• 视线跟踪系统可促成视觉交互双向性, 听觉通道利用三维听觉定位器实现交互 双向性
• 绝大多数信息只有在注视时才能获得并进行加工。
– 平滑尾随跟踪(Smooth Pursuit)
• 缓慢、联合追踪的眼动通常称为平滑尾随跟踪。
2019/9/20 23
眼动跟踪的基本要求
• 在人机交互中眼动跟踪技术必须满足以下几点要 求,才能满足实际需求:
– 不能妨碍视野 – 不要与用户接触,对用户基本无干扰 – 精度要高 – 动态范围要从1弧分(六十分之一弧度)到45º – 反映速度要快,实时响应 – 能与获取的身体和头部运动相配合 – 定位校正简单 – 可作为计算机的标准外设
• 早期的视线跟踪技术首先应用于心理学研 究、助残等领域,后来被应用于图像压缩 及人机交互技术
• 视线跟踪技术有强迫式与非强迫式、穿戴 式与非穿戴式、接触式与非接触式之分
• 视线追踪主要用于军事领域(如飞行员观 察记录),阅读及帮助残疾人通信等
2019/9/20 19
图5-2 Stanford University和The Poynter Institute合作研究 人们 对于Internet上新闻的注意程度
• 通过控制这六个参数,用户可以在屏幕上平移三 维对象或光标,也可沿三个坐标轴转动三维对象。
• 三维空间控制器、视线跟踪器、数据手套等输入 设备产生的空间位置是相对的。
• 在三维用户交互中必须便于用户在三维空间中观 察、比较、操作、改变三维空间的状态。
2019/9/20 27
三维空间的交互操作方式
人机交互模型的发展
2019/9/20 37
输入原语
• 为了摆脱设备的特定物理特性和操作方式 上的差异,便利多种输入设备在词法级的 整合,有必要在物理设备和对话控制中再 抽象出一层,即输入原语翻译层
2019/9/20 11
交互的隐含性
• 追求交互自然性的多通道用户界面并不需 要用户显式地说明每个交互成分,反之是 在自然的交互过程中隐含地说明
– 用户的视线自然地落在所感兴趣的对象之上 – 用户的手自然地握住被操纵的目标
2019/9/20 12
多通道用户界面评价
• 基于多通道用户界面所追求的目标,人们提 出相应的评价多通道用户界面的若干指标 (Nigay等人提出的CARE指标):
• 模式
– 一种状态或上下文信息,决定对信息的解释一获取意义
• 通道整合(Modality Integration)
–指用户在与计算机系统交互时,多个交互通道之间相互作 用形成交互意图的过程
2019/9/20 34
多通道用户界面的三维表示模型
2019/9/20 35
多通道用户界面的概念模型
2019/9/20 36
• 指派性可分为两种情形
– 一种是不存在其他选择,称为严格的指派性 (Strict Assignment)
– 另一种是虽然存在选择,但用户或系统总是倾向 于使用同一种通道,称为代理指派性(Agent Assignment)
2019/9/20 15
等效性
• 等效性是指在完成特定交互任务时至少有两 种以上通道可以互相替代,由于设备特性、 用户习惯或临时因素(如手头正忙)而使某 种通道不能使用时,可选择其他通道代替。
• 通过整合来自多个通道的、精确的和不 精确的输入来捕捉用户的交互意图,提 高人机交互的自然性和高效性
2019/9/20 4
用 户
2019/9/20
MMI
击键/指点 通
手
语音
道
嘴
眼神
整
…
…
合
眼 2D/3D
手
多媒体信息
…
图5-1 多通道人机界面概念模型
第7章 多通道人机交互
2019/9/20
1
本章内容
• 多通道交互技术概述 • 眼动跟踪 • 三维输入 • 实例介绍
2019/9/20 2
多通道交互技术概述
• 为适应目前和未来的计算机系统要求,人机 界 面 应 能 支 持 时 变 媒 体 ( time-varing media),实现三维、非精确及隐含的人机 交互,而多通道人机界面是达到这一目的的 重要途径
2019/9/20 16
冗余性
• 冗余性是指在特定交互中多个通道同时使用 并具有相同的表达作用
• 不同通道为相同参数提供所需信息,并且所 表达信息可能是一致的,也可能是矛盾的
2019/9/20 17
眼动跟踪(Eye-Gaze Tracking)
• 与视觉有关的人机交互自始至终都离不开视线的 控制
应用例程
5
多通道用户界面研究的目标
• 多通道用户界面主要关注人机界面中用 户向计算机输入信息以及计算机对用户 意图的理解
– 交互的自然性
• 使用户尽可能多地利用已有的日常技能与计算机 交互,降低认识负荷;
– 交互的高效性
• 使人机通讯信息交换吞吐量更大、形式更丰富, 发挥人机彼此不同的认知潜力;
–与传统的用户界面特别是广泛流行的 WIMP/GUI兼容
注视率 92% 82% 64% 45% 22%
2019/9/20 22
眼动的主要形式
• 眼动有三种主要形式
– 跳动(Saccades)
• 在正常的视觉观察过程中,眼动表现为在一系列被观 察目标上的停留及在这些停留点之间的飞速跳跃
• 在注视点之间的飞速跳跃称为眼跳动。
– 注视(Fixations)
• 停留时间至少持续100ms以上的称为注视。在注视中, 眼也不是绝对静止不动,会有微小运动,但大小一般 不会超过1°视角。
• 三维光标
– 由六自由度三维输入装置控制的三维光标将使 三维交互操作更自然和方便;
• 三维光标必须有深度感,即必须考虑光标与观察者 距离:离观察者近的时候较大,离观察者远的时候 较小;
• 确定光标在三维空间的方向,这种定向操作必须自 然且方便操作;为保持三维用户界面的空间感,光 标在遇到物体时不能进入到物体内部。三维光标的 实现需要大量的计算,对硬件的要求较高,编程接 口也比二维光标复杂得多。
2019/9/20 6
多通道用户界面的基本特点
• 使用多个感觉和效应通道 • 允许非精确的交互 • 三维和直接操纵 • 交互的双向性 • 交互的隐含性
2019/9/20 7
使用多个感觉和效应通道
• 感觉通道侧重于多媒体信息的接受,效 应通道侧重于交互过程中控制与信息的 输入,两者密不可分、相互配合
• 80 年 代 后 期 以 来 , 多 通 道 用 户 界 面 (Multimodal User Interface)成为人机交互 技术研究的崭新领域,在国内外受到高度重 视
2019/9/20 3
多通道用户界面
• 消除当前WIMP/GUI用户界面通信带宽 不平衡的瓶颈
• பைடு நூலகம்合采用视线、语音、手势眼神、表情 等新的交互通道、设备和交互技术
• 一种通道(如语音)不能充分表达用户的意 图时,需辅以其它通道(如手势指点)的信 息;有时使用辅助通道以增强表达力
• 交替而独立地使用不同的通道不是真正 意义上的多通道技术,必须允许充分地 并行、协作的通道配合关系
2019/9/20 8
允许非精确的交互
• 人类语言本身就具有高度模糊性,人类 在日常生活中习惯于并大量使用非精确 的信息交流
2019/9/20 20
图5-3 人们对于Internet上新闻的注意程度研究结果
2019/9/20 21
人们对于Internet上新闻的注意程度研究结果
内容 文章文字(Articles text) 简讯(Briefs) 照片(Photos) 标题广告(Banner Ads) 图形(graphics)
2019/9/20 31
图5-6 三视图输入实例
2019/9/20 32
多通道人机交互
• 通道(Modality)
– 用户可以使用手动、语言、眼神等多种效应 通道与计算机系统进行交互
2019/9/20 33
多通道人机交互
• 通道
– 指传送或获得信息的通讯通道的类型,它包含了信息表达、 感知以及动作执行的方式,定义了数据类型
• 允许使用模糊的表达手段可以避免不必 要的认识负荷,有利于提高交互活动的 自然性和高效性
• 多通道人机交互技术主张以充分性代替 精确性
2019/9/20 9
三维和直接操纵
• 人类的大多数活动领域具有三维和直接 操纵特点
• 人生活在三维空间,习惯于看、听和操 纵三维的客观对象,并希望及时看到这 种控制的结果
• 互补性可能存在一个“优势通道(Dominant Modality)”,并需要其他通道予以辅助,例 如,用语音直指(“This city”),则需鼠标 在屏幕对象上指点
2019/9/20 14
指派性
• 指派性是指某通道是完成特定交互任务唯一 途径的情形,即某通道必须被用于实现特定 交互任务而没有其他通道可以替代
2019/9/20 28
三维空间的交互操作方式
• 三维widgets
– 三维widgets即三维交互界面中的一些小工具。用户可以 通过直接控制它们使界面或界面中的三维对象发生改变。
– 三维widget包括在三维空间中漂浮的菜单、用于拾取物体 的手的三维图标、平移和旋转指示器等。
– 许多三维用户界面的研究者正在设计和试验各种不同的三 维widgets,希望将来能够建立一系列标准的三维widgets 就像二维图形用户界面中的窗口、按钮、菜单等。
• 如果能通过用户的视线盯着感兴趣的目标,计算 机便“自动”将光标置于其上,人机交互将更为 直接,也省去了上述交互过程中的大部分步骤
• 有关视觉输入的人机界面研究主要涉及两个方面
–一是视线跟踪原理和技术的研究 –二是在使用这种交互方式后,人机界面的设计技术和原
理的研究
2019/9/20 18
眼动跟踪
2019/9/20 29
图5-5 三维widgets图例
2019/9/20 30
采用三视图输入技术,实现三维的输入
• 如果输入一个三维点,只要在两个视图 上把点的对应位置指定后便唯一确定了 三维空间中的一个点;把直线段上两端 点在三视图上输入后便可决定三维空间 的一条直线;把一个面上的各顶点在三 视图上输入后,也唯一确定了三维空间 中的一个面;如果把一个多面体上的各 面均用上述方法输入,也就在三维空间 中输入了一个多面体
• 但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈 的移动所造成的数据中断,存在许多干扰信号,提取有意 眼动数据非常困难。解决此问题的办法之一是利用眼动的 某种先验模型加以弥补。
2019/9/20 25
米达斯接触问题与解决方法
• “米达斯接触(Midas Touch)”问题:
– 如果鼠标器光标总是随着用户的视线移动,可能会 引起用户的厌烦,因为用户可能希望能随便看着什 么而不必非“意味着”什么,更不希望每次转移视 线都可能启动一条计算机命令。
2019/9/20 24
眼动跟踪的基本原理
• 利用红外发光二极管发出红外线,采用图像处理技术和能 锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外 线图象点的连续变化情况,得到视线变化的数据,从而达 到视线追踪的目的。
• 从视线跟踪装置得到的原始数据需要经过进一步的处理才 能用于人机交互。
• 数据处理的目的是滤除噪声、识别定位及局部校准与补偿 等,最重要的是提取出用于人机交互所必需的眼睛定位坐 标。
– 互补性(complementary); – 指派性(Assignment); – 等效性(Equivalence); – 冗余性(Redundancy);
2019/9/20 13
互补性
• 互补性是指若干通道必须以互补方式完成特 定的交互任务,也就是说,当单个通道不能 提供充分的任务信息时,需要其他通道补充, 如手势指点补充语音命令
• 避免“米达斯接触”问题的方法:在理想情况 下,应当在用户希望发出控制时,界面及时地 处理其视输入,而在相反的情况下则忽略其视 线的移动。
• 可采用其他通道(如键盘或语音)进行配合。
2019/9/20 26
三维输入
• 许多应用(如虚拟现实系统)需要三维空间定位 技术:三维空间控制器的共同特点是具有六个自 由度,分别描述三维对象的宽度、深度、高度、 俯仰角、转动角、偏转角。
• 多通道人机交互的自然性反应了这种本 质特点
2019/9/20 10
交互的双向性
• 人的感觉和效应通道通常具有双向性的 特点,如视觉可看可注视,手可控制、 可触及等
• 多通道用户界面使用户避免生硬的、不 自然的、频繁的、耗时的通道切换,从 而提高自然性和效率
• 视线跟踪系统可促成视觉交互双向性, 听觉通道利用三维听觉定位器实现交互 双向性
• 绝大多数信息只有在注视时才能获得并进行加工。
– 平滑尾随跟踪(Smooth Pursuit)
• 缓慢、联合追踪的眼动通常称为平滑尾随跟踪。
2019/9/20 23
眼动跟踪的基本要求
• 在人机交互中眼动跟踪技术必须满足以下几点要 求,才能满足实际需求:
– 不能妨碍视野 – 不要与用户接触,对用户基本无干扰 – 精度要高 – 动态范围要从1弧分(六十分之一弧度)到45º – 反映速度要快,实时响应 – 能与获取的身体和头部运动相配合 – 定位校正简单 – 可作为计算机的标准外设
• 早期的视线跟踪技术首先应用于心理学研 究、助残等领域,后来被应用于图像压缩 及人机交互技术
• 视线跟踪技术有强迫式与非强迫式、穿戴 式与非穿戴式、接触式与非接触式之分
• 视线追踪主要用于军事领域(如飞行员观 察记录),阅读及帮助残疾人通信等
2019/9/20 19
图5-2 Stanford University和The Poynter Institute合作研究 人们 对于Internet上新闻的注意程度
• 通过控制这六个参数,用户可以在屏幕上平移三 维对象或光标,也可沿三个坐标轴转动三维对象。
• 三维空间控制器、视线跟踪器、数据手套等输入 设备产生的空间位置是相对的。
• 在三维用户交互中必须便于用户在三维空间中观 察、比较、操作、改变三维空间的状态。
2019/9/20 27
三维空间的交互操作方式
人机交互模型的发展
2019/9/20 37
输入原语
• 为了摆脱设备的特定物理特性和操作方式 上的差异,便利多种输入设备在词法级的 整合,有必要在物理设备和对话控制中再 抽象出一层,即输入原语翻译层
2019/9/20 11
交互的隐含性
• 追求交互自然性的多通道用户界面并不需 要用户显式地说明每个交互成分,反之是 在自然的交互过程中隐含地说明
– 用户的视线自然地落在所感兴趣的对象之上 – 用户的手自然地握住被操纵的目标
2019/9/20 12
多通道用户界面评价
• 基于多通道用户界面所追求的目标,人们提 出相应的评价多通道用户界面的若干指标 (Nigay等人提出的CARE指标):
• 模式
– 一种状态或上下文信息,决定对信息的解释一获取意义
• 通道整合(Modality Integration)
–指用户在与计算机系统交互时,多个交互通道之间相互作 用形成交互意图的过程
2019/9/20 34
多通道用户界面的三维表示模型
2019/9/20 35
多通道用户界面的概念模型
2019/9/20 36
• 指派性可分为两种情形
– 一种是不存在其他选择,称为严格的指派性 (Strict Assignment)
– 另一种是虽然存在选择,但用户或系统总是倾向 于使用同一种通道,称为代理指派性(Agent Assignment)
2019/9/20 15
等效性
• 等效性是指在完成特定交互任务时至少有两 种以上通道可以互相替代,由于设备特性、 用户习惯或临时因素(如手头正忙)而使某 种通道不能使用时,可选择其他通道代替。