语音识别技术原理及应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音AgentNet 的整体实现张宇伟
摘要:
本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。
服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ,微软Specch SDK5语音合成,和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。
[关键词]
人机对话,MS-AGENT,语音合成,语音识别,网络编程
[Abstract]
This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet.
The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol.
[Key Words]
Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming
[目录]
第一章概述 (5)
1.1当前人机对话模型分析 (5)
1.2 当前网络应用分析 (5)
1.3 AgentNet 概念 (6)
第二章语音合成及语音识别技术 (6)
2.1 语音技术概述 (6)
2.2 微软语音技术 (7)
第三章Agent 技术介绍 (8)
3.1 Microsoft Agent技术介绍 (8)
3.2 Microsoft Agent技术应用原理 (9)
第四章开发系统介绍 (11)
4.1 Microsoft Development Studio 6.0 (11)
3.2 Microsoft SQL SERVER 2000 (13)
第五章系统实现 (14)
5.1 需求分析 (14)
5.2 模块分析 (14)
5.2.1 [客户端模块] (14)
5.2.2 [服务器端模块] (17)
5.3 具体实现细节 (18)
5.3.1 [客户端界面层] (18)
5.3.2 [客户端核心层] (24)
5.3.3 [客户端功能层] (25)
5.3.4 [客户端网络层] (29)
5.3.5 [服务器端网络层] (31)
5.3.6 [服务器端核心层] (33)
5.3.7 [服务器端功能层] (33)
5.3.8 [服务器端数据层] (34)
第六章使用手册 (36)
[操作系统要求] (36)
[硬件要求] (36)
[服务器端安装] (36)
[客户端支撑软件的安装] (36)
第七章总结与展望 (37)
参考文献 (38)
第一章概述
1.1当前人机对话模型分析
[当前研究]
人机界面正成为计算机行业的研究重点。现在的研究成果主要集中在“让电脑听懂说话”方面,IBM首先推出了语音识别技术,微软、摩托罗拉等公司也都展开了大量研究。成熟的语音平台软件包有微软的Speech SDK 、IBM的ViaVoice,等等。
目前全球人机界面研究的重点,正从研究计算机如何运行转向研究人的行为,主要包括的领域有:语音上网、多模式对话管理、语音和视觉相结合、现有芯片结合改造等。在英特尔中国研究中心,电脑已可进行语音天气、股票查询,你只要说出股票名称,它就会告诉你现在的股价;而一位研究人员在写文章时,一边用手写板写,一边说:“填加四行表格”“删除两行”,而不必像过去那样自己动手画表、不停地按删除键。
“未来,人们在与电脑交流时,可能根本见不到电脑”,出任英特尔人机界面总框架师的颜永红博士说,无论你是坐在沙发上还是躺在床上,只要手头有一个类似话筒、手写板或者遥控器之类的小玩意,就可以和电脑无线连接指挥它工作。
本文以下章节讨论了微软语音软件的应用。
1.2 当前网络应用分析
Internet自60年代出现以来蓬勃发展,近年来以惊人的速度增长——连网主机量每年翻一番,万维网站点每半年翻一番.同时伴随多媒体技术的飞速发展,Internet上多媒体应用层出不穷,多媒体信息的数量与日俱增.Internet已逐步由单一的数据传送网向数据、语音、图像等多媒体信息的综合传输网演化.
1.3 AgentNet 概念
正当计算机应用,尤其是网络应用不断增加的时候,计算机用户被许多操作所迷惑。对此,我们提出AgentNet 的概念。AgentNet 它是一种新的人机界面的尝试。
通过它,用户可以用语音告诉AgentNet帮你工作。比如:你说一句”喂,老头,有没有邮件呀?”(老头,是AgentNet 的客户精灵的名字,你当然可以任意设置它的名字),AgentNet 就会帮你收邮件。又比如你说:“有没有什么新闻呀?”,它就会为你通报你感兴趣的新闻,等等许多智能的功能。
要实现我们的目标,我们在智能代理(Agent)技术上,整合了语音合成和语音识别技术。同时实现了一套自己开发的网络协议,为以后增加新的智能服务提高了方便。
实现的困难在于:要把现成的许多较新的概念模型实现(如智能代理的实现等),并整合以往的各种成熟的技术(如网络模型的实现、语音技术的运用等等)。
后继章节将讨论其具体问题。
第二章语音合成及语音识别技术
2.1 语音技术概述
语音识别技术是信息领域的标志技术,这项被科学家称为“比登月还难”的研究,在计算机飞速发展的带动下,有了重大的突破。语音识别技术日臻成熟,目前正处于向产品化迈进的转折阶段。语音识别作为人机对话的手段,在计算机日益增长的今天,愈发显得出其在IT产业中的重要地位。
[人机对话梦想成真]
人机对话,让电脑听懂人的语言是二十世纪人类的理想之一。对于绝大多数人而言,电脑输入绝不是一件令人愉快的事情,人们心中希望计算机是个“能听会说”的工作伙伴,而不是今天这般又聋又哑毫无生气的复杂机器。直接对计算机发号施令,解放出我们的双手,在任何状态(不只限于坐在那里敲键盘)下与