人机交互
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话、交换信息的技术。人们可以借助键盘、鼠标、操作杆、位置跟踪器、数据手套等设备,用手、脚、声音、姿态和身体的动作、视线甚至脑电波等向计算机传递信息;计算机通过打印机,绘图仪、头盔式显示器、音频等输出设备或显示设备给人提供信息。
目前,人机交互技术正处于多通道、多媒体的智能人机交互阶段,已经取得了不少研究成果,不少产品已经问世。侧重多媒体技术的有:触摸式显示屏实现的“桌面”计算机,能够随意折叠的柔性显示屏制造的电子书,从电影院搬进客厅指日可待的3D显示器,使用红绿蓝光激光二极管的视网膜成像显示器;侧重多通道技术的有:“汉王笔”手写汉字识别系统,结合在微软的Tablet PC 操作系统中数字墨水技术,广泛应用于Office/XP的中文版等办公、应用软件中的IBM/Via Voice连续中文语音识别系统,输入设备为摄像机、图像采集卡的手势识别技术,以IPHONE手机为代表的可支持更复杂的姿势识别的多触点式触摸屏技术,以及IPHONE中基于传感器的捕捉用户意图的隐式输入技术。
人机交互技术领域热点技术的应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,对于有语言障碍的人士的无声语音识别,应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术,针对有语言和行动障碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。热点技术的应用开发是机遇也是挑战,基于视觉的手势识别率低,实时性差,需要研究各种算法来改善识别的精度和速度,眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、DNA等人类特征的研发应用也正受到关注,自然语言理解虽然目前在语言模型、语料库等方面有进展外,仍将是人机交互的重要目标,多通道的整合也是人机交互的热点,另外,与“无所不在的计算”、“云计算”等相关技术的融合与促进也需要继续探索。
人机交互技术与计算机始终相伴发展,CPU、GPU的运算能力日趋强大,网络和通信技术的快速发展,显示技术的重大突破都将为人机交互提供新的起点与高度。也许有一天,你的房间的墙壁和窗户都是基于PLED技术的巨型显示器,无需遥控器和控制器,游戏机或电视机就能“感应”到你目光的变化、捕捉到你的手势和动作、听懂你语音的命令,用你的头、手、足、躯干就可以控制游戏中
的角色。互联网正在向“云端”计算时代发展,人机交互的发展仍将延续由以计算机为中心的复杂交互向以人为中心的简单、自然交互转移的理念,理想的人机交互模式就是“用户自由”,将来,能听、能看、能说、能感觉的计算机会看不见,而计算会无所不在,不可见的人机交互也会无所不在,就像我们时刻呼吸着的氧气一样。
多媒体时代的人机交互
语音识别
在计算机进入到多媒体时代后,新的人机交互方式又涌现而出。语音识别便是一种。这种交互方式在生活中已经随处可见。在今天人们使用的手机上早已可以利用语音执行操作,不仅如此,手机甚至还能合成语音输出结果。
在当前流行的计算机中,稍微高端一点的手机,基本都有语音控制的功能,通过语音控制,人们只需要对着手机说出通讯录中的人名,手机便会自动拨号。手机上的其他功能也可直接用语音说出指令进行操作。但是受手机运算性能所限,想要通过语音实现短信的文字输入,仍未完全实现。
手机的体积非常小,输入和输出设备都非常不便,另一方面利用声音进行人机交互的方式几乎不用学习就能很快上手,因此语音输入被认为是最好的人机交互方式,并且代表了未来的趋势。因此本文在开篇之时,用了大量文字论述手机的广泛应用。
2007年4月20日,比尔盖茨在英特尔开发者论坛上表示,未来语音识别技术将彻底取代键盘。他的理由是在未来人们将会越来越习惯通过语音和指控屏来与计算机交流,而不是通过键盘,因为这种方式更加简便。在随后的一次演讲中,他说:“这(语音识别技术)是我们最大的赌注之一。”
事实也的确如此,微软早在其刚被淘汰不久的操作系统Windows XP中便已将语音识别技术集成了进去,由于并未进行大力宣传,因此大多数用户并不知道。
虽然在计算机上实现文字的输入却早已实现,可是局限性也同时存在。大约在2001年的时候,我和几个朋友在无意间获得了一款I BM的语音识别软件,那个软件的名字叫“Via Voice”。通过这个软件,在经过简单的适应性训练之后,便可以对计算机实现各种控制,还能输入文字,如果发音足够标准,输入的准确率将非常高。但我和小伙伴们在新鲜几天后,便发现这个东西其实并不使用,甚至非常麻烦。
中国人常说某人口才或者文笔好的词语是:出口成章。意思是某人说出来的话,非常连贯,不需要修改便是一篇很好的文章。口才好的人永远是少数,绝大多数人无法做到出口成章,至少我不是这样。在写本文的时候,每一句都在写作的同时修改。如果用鼠标配合键盘对文字进行修改,我很清楚,知道应该如何操作,但是如果想用语音识别技术,仅用语音去控制计算机进行文章的修改将是非常繁琐的事情,因为我必须说诸如:“将鼠标移动到……”之类的话。而且在文字输入的过程中,计算机将可能难以识别操作者的部分语音控制命令的真实意图,例如关键字“删除”、“关机”和“取消”等。
语音识别技术所面临的问题绝不是仅此而已。还有更多问题仍是语音识别技术所面临的问题。
例如隐私问题,人需要控制计算机就需要发出声音,而计算机输出语音也会发出声音。在今天,人们越来越重视个人的隐私,但是用语音进行人机交互,除非是在个人私密的环境下,否则很难保护个人隐私。
想想看,在一个几百人办公的大办公室内,所有人都对着计算机说话,那将是一件多么滑稽的事情,而且话说多了,其实也是一件非常劳累的事情,至少将会使人口干舌燥。
因此,在未来,语音识别想要彻底取代键盘,成为最主要的人机交互方式,可能性不大。他最多只能是现有鼠标加键盘人机交互方式的补充而已。
霍金的轮椅眼睛控制鼠标
史蒂芬·威廉·霍金是当今最著名的科学家,他在理论物理领域有深入研究,被认为可以与爱因斯坦齐名。霍金在21岁的时候患上了“肌肉萎缩性脊髓侧索硬化症”,该病症很快便导致他全身瘫痪,从此轮椅相伴、痼疾缠身。
也许正是由于其身患残疾,因此不会被外界干扰,所以才获得举世瞩目的大量科学成就。为了能够让霍金与其他人交流,专家们制造了一块拼写板,帮助霍金和其他人交流。交流时,需要有一位人指着英文字母,当指到霍金所要的字母时,就会扬起眉毛,逐个拼出词汇然后连成句子。这样交流方式的速度可想而知。
后来美国加利福尼亚一位名叫的瓦特·沃尔托兹电脑工程师帮霍金走出了困境。他送给了霍金一段自己编写的名为“平等器”的电脑程序,这个程序可以让霍金从屏幕上选择词汇,只要他按动手中的开关,单词转入语言合成器发出声音来。后来,剑桥调节通讯公司的大卫·梅森又改进了这套设备,并安装在了霍金的轮椅上,使霍金“说话”的速度大大加快,每分钟可“说”出15个词,如果需要还可以把文字直接打印出来。
我们可以发现,霍金的这种选词方式与鼠标的区别不是很大,后来随着霍金病情的加重,连手指也不能动作了,无法再用手控制计算机,只好依靠其他方式与人沟通。于是科学家们在霍金的眼镜上,大约距右颊一英寸的地方,安装了一块可以侦测肌肉活动的红外线发射器及侦测器,当霍金想打招呼,说“Hello”时,眼球控制红外线感应器,选定在荧幕上轮流出现的英文字母,当屏幕出现他想要的“H”时,霍金再动眼球,这样计算机就会不断显示以“H”为字头的英单词,当“Hello”出现时,他只要再动一下便可以选定“Hello”,然后接着选