多通道用户界面设计技术综述.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人机交互基础教程
实验报告
实验题目:多通道用户界面设计技术综述
专业计算机科学与技术
学生姓名
班级学号
教师
指导单位计算机软件学院
日期
教师
评语教师签名:
年月日
成绩评定
备注
一、实验目的
1) 了解常见的多通道用户界面
2) 查找资料,熟悉一种多通道用户界面并写出综述
二 、预备知识
为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体,实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径。80年代后期以来,多通道用户界面成为人机交互技术研究的崭新领域,在国内外受到高度重视。
综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以自然、并行、协作的方式进行人机对话,通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性。
多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解,所要达到的目标可归纳为如下方面:
1)交互的自然性
MMI
用
户 手 嘴 … 眼
手
… 2D/3D 多媒体信息 应用例程 击键/指点 通 语音 道 眼神 整 … 合
使用户尽可能多地利用已有的日常技能与计算机交互,降低认识负荷。
2)交互的高效性
使人机通讯信息交换吞吐量更大、形式更丰富,发挥人机彼此不同的认知潜力。
3)与传统的用户界面特别是广泛流行的WIMP/GUI兼容。
(1) 多通道用户界面的基本特点
1)使用多个感觉和效应通道
2)允许非精确的交互
3)三维和直接操纵
4)交互的双向性
5)交互的隐含性
(2)涉及的主要技术
1)多媒体
使用多种表示媒体,如文本、图形、图像和声音,使人机交互技术最终要向着更接近于人的自然方式发展,使计算机具有听觉和视觉,以更自然的方式与人交互。多媒体技术引入了动画、音频、视频等动态媒体,大大丰富了计算机表现信息的形式,拓宽了计算机输出的带宽,提高了用户接受信息的效率,使人们可以得到更直观的信息,从而简化了用户的操作,扩展了应用范围。
2)虚拟现实
又称虚拟环境,虚拟现实系统向用户提供沉浸和多感觉通道体验。在虚拟现实中,人是主动参与者,复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作。虚拟现实系统具有三个重要特点:沉浸感、交互性、构想性。
3)眼动跟踪
与视觉有关的人机交互自始至终都离不开视线的控制。如果能通过用户的视线盯着感兴趣的目标,计算机便“自动”将光标置于其上,人机交互将更为直接,也省去了上述交互过程中的大部分步骤。
4)手势识别
一个简单的手势蕴涵着丰富的信息,人与人可以通过手势传达大量的信息,实现高速的通信。将手势运用于计算机能够很好地改善人机交互的效率。在多数情况下我们笼统地认为手势是人的上肢(包括手臂、手和手指)的运动状态。
5)三维输入
许多应用(如虚拟现实系统)需要三维空间定位技术,三维空间控制器的共同特点是具有六个自由度,分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。通过控制这六个参数,用户可以在屏幕上平移三维对象或光标,也可沿三个坐标轴转动三维对象。在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。
6)语音识别
语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术。语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
7)表情识别
面部表情是人体语言的一部分。人的面部表情不是孤立的,它与情绪之间存在着千丝万缕的联系。人的各种情绪变化以及对冷热的感觉都是非常复杂的高级神经活动,如何感知、记录、识别这些变化过程是表情识别的关键。
8)手写识别
发展手写识别技术并嵌入到各种设备中,将是手写识别技术未来发展的重要方向之一。联机手写识别技术的优点是不需专门学习与训练、不必记忆编码规则、安装后即可手写输入汉字,是最简单方便的输入方式。同时符合人的书写习惯,可以一面思考、一面书写,不会打断思维的连续性,是最自然的输入方式。
9)数字墨水
数字墨水是一种新的人机界面技术,它借鉴手写识别技术的同时,克服了它的许多局限性。数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹,它的记录格式与图像和文本格式都不同。这种存储方式使得数字墨水文件的大小很小,从而可以更有效地进行存储。
三、实验内容与步骤
(1)实验内容
要求上网查找资料,熟悉一种多通道用户界面并写出综述,可以是眼动跟踪、手势识别、三维输入、语音识别、表情识别、手写识别等。
(2)实验步骤
1)借助图书馆的中英文参考文献资料以及网络,确定出一种多通道用户界面;
2)完成对该多通道用户界面的综述(包括定义、发展历史、当前的应用、主要的研究方法分类、以及发展前景以及中英文参考文献(至少各5篇))
噪音环境下的语音识别
1.引言
随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究.语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。
2.语音识别的发展历史和研究现状
2.1国外语音识别的发展状况
国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版。20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,