基于云的机器人问答系统设计与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五届“挑战杯,中国联通
安徽省大学生课外学术科技作品竞赛
研究报告
基于云的机器人问答系统设计与实现
薛建
2013年4月
目录
一、序言^ 1
1. 1研究背景^ 1 1.1.1人机交互技术^ 1
1.1.2自然语言识别技术^ 2 1.2国内外研究现状分析^ 3
二、系统设计^ 4 2^
1设计思路^ 4
2’ 1. 1机器人隱0 ^ 5 2‘ 1. 2讯飞语音云^ 5 2.1.3百度问答服务云^
6 2.2详细设计^
7 2.2^ 1机器人隱0模块^ 7 2.2.2讯飞语音云模块^
9 2.2.3百度问答服务云模块^ 10
三、系统性能分析^ 12
四、应用前景与展望未来^ 13
五、参考文献^ 14
一、序言
随着机器人技术和人工智能研究的发展,越来越多的智能机器人进入到人们的日常生活当中,但是目前人与机器人之间的交互仍然主要是通过按钮、开关等命令方式,这种交互方式显得很生硬,不够人性化。为了使得人与机器人的交互方式更加方便、自然、和谐,基于自然语义识别的人机交互系统的研究显得十分重要,这也是近年来人机交互技术的研究重点。基于云计算的机器人问答系统使用了讯飞语音云和百度知道问答服务云,实现了用户向机器人提出问题,机器人经过短暂“思考”回答出相应的答案并且在说话的同时做出相应行为的功能,该系统实现了一定程度的自然语义的识别,提供了一种更加人性化的人机交互方式。
基于云的机器人问答系统运用当前主流的云技术,将机器人技术、语音识别技术和网络查询技术结合在一起,建立一套机器人问答服务系统,提供了一种更加人性化的基于自然语言的人机交互方式。云技术的使用,提高了语音识别的效率和问题答案的准确率,为系统的可行性提供了保证。
1.1研究背景
1.1.1人机交互技术
人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话、交换信息的技术。人们可以借助键盘、鼠标、操作杆、位置跟踪器、数据手套等设备,用手、脚、声音、姿态和身体的动作、视线甚至脑电波等向计算机传递信息;计算机通过打印机,绘图仪、头盔式显示器、音频等输出设备或显示设备给人提供信息。
目前,人机交互技术正处于多通道、多媒体的智能人机交互阶段,已经取得了不少研究成果,不少产品已经问世。侧重多媒体技术的有:触摸式显示屏实现的“桌面”计算机,能够随意折叠的柔性显示屏制造的电子书,从电影院搬进客厅指日可待的30显示器,使用红绿蓝光激光二极管的视网膜成像显示器;侧重多通道技术的有:“汉王笔”手写汉字识别系统,结合在微软的了处16〖?0操作系统中数字墨水技术,广泛应用于0打1。60?的中文版等办公、应用软件中的181八匕^0106 连续中文语音识别系统,输入设备为摄像机、图像采集卡的手势识别技术,以1?只0肥手机为代表的可支持更复杂的姿势识别的多触点式触摸屏技术,以及1?只0肥中基于传感器的捕捉用户意图的隐式输入技术。
人机交互技术领域热点技术的应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,对于有语言障碍的人士的无声语音识别,应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术,针对有语言和行动障
碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。
热点技术的应用开发是机遇也是挑战。基于视觉的手势识别率低,实时性差,需要研究各种算法来改善识别的精度和速度;眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、0嫩等人类特征的研发应用也正在受到关注;自然语言理解目前在语言模型、语料库等方面取得了很大的进展,基于自然语言理解的人机交互方式也是目前研究的热点;另外,与“云计算”等相关技术的融合与促进也需要继续探索。
人机交互技术与计算机始终相伴发展,⑶匕6?^的运算能力日趋强大,网络和通信技术的快速发展,显示技术的重大突破都将为人机交互提供新的起点与高度。也许有一天,你的房间的墙壁和窗户都是基于技术的巨型显示器,无需遥控器和控制器,游戏机或电视机就能“感应”到你目光的变化、捕捉到你的手势和动作、听懂你语音的命令,用你的头、手、足、躯干就可以控制游戏中的角色。互联网正在向“云端”计算时代发展,人机交互的发展仍将延续由以计算机为中心的复杂交互向以人为中心的简单、自然交互转移的理念,理想的人机交互模式就是“用户自由’’。
1.1.2自然语言识别技术
自然语言识别,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成,这是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。
使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。早在1920 年,美国一家公司所出品的名为“此也0如X”玩具狗便可以“听从”主人的话而执行走或者停的任务。不过在这之后相当长的时间里。这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。1952 年,贝尔实验室的0狀18等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。
大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(目)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。
进入90年代以后,语音识别的研究并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设
2