语音人机交互资料 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 1791年，Von Kempelen制成了一种能说话的机器 • 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个
• 七十年代，语音识别领域取得了突破。在理论上， LP技术得到进一步发展，动态时间规整技术(DTW) 基本成熟，特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统.
我国的语音识别技术的发展
(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。
语音识别系统的结构
一个完整的基于统计的语音识别系统可大致分为三部分： (1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理
语音识别所面临的问题
1、就算法模型方面而言，需要有进一步的突破。目前能看出它的一些明显不足，尤其在中文语音识别方面，语言模型还有待完善，因为语言模型和声学模型正是听写识别的基础，这方面没有突破，语音识别的进展就只能是一句空话。
语音合成
• 语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术
• 让机器说话可以通过录音/重放,或语音合成实现 • 文语转换是语音合成的一种应用形式 • 文语转换是连续语音识别的逆过程
国外语音合成的发展
孤立词/音段阶段，注重音色(音质,音品)
• 语音合成的最早研究始于1779年Kratzen sten的研究．他用一些材料制成具有各种特殊形状的共鸣腔，目的是研究如何用管形器官模型来模拟5个单元音 A、E 、 I、0、U
2.就自适应方面而言，语音识别技术也有待进一步改进。目前，象IBM的ViaVoice和 Asiaworks的SPK都需要用户在使用前进行几百句话的训练，以让计算机适应你的声音
特征。这必然限制了语音识别技术的进一
步应用，大量的训练不仅让用户感到厌烦，
而且加大了系统的负担。并且，不能指望
将来的消费电子应用产品也针对单个消费者进行训练。
国外语音识别研究的历史
• 语音识别的研究工作大约开始于五十年代，当时 AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。
• 六十一年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP)，而后者较好地解决了语音信号源自文库型的问题，对语音识别的发展产生了深远影响。
根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
语音识别的几种基本方法
一般来说，语音识别的方法有三种：（1）基于声道模型和语音知识的方法（2）模式匹配方法（3）人工神经网络方法
基于声道模型和语音知识的方法
基于声道模型和语音知识的方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。
(2)现在，国内有不少语音识别系统已研制成功。这些系统的性能各具特色。
- 在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。
- 在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。
- 在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
语音识别系统的分类方式及依据
根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。
根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。
语音人机交互
语音人机交互
语音语音
自然语言
输入识别
处理
交互
应用程序
管
语音语音
自然语言
理
输出合成
生成
语音识别技术
• 定义： • 语音识别是机器自动语音识别（Automatic
Speech Recognition by Machine）的简称。语音识别是一种将人讲话发出的语音通信声波识别（转换）成为一种能够表达通信消息的符号序列。这些符号可以是识别系统的词汇本身，也可以是识别系统词汇的组成单元，在专业文献中常常称为识别系统的基元或子词基元。
• 3.就强健性方面而言，语音识别技术需要能排除各种环境因素的影响。目前，对语音识别效果影响最大的就是环境杂音或嗓音，在公共场合，你几乎不可能指望计算机能听懂你的话，来自四面八方的声音让它茫然而不知所措。
• 4、多语言混合识别以及无限词汇识别方面：简单地说，目前使用的声学模型和语音模型太过于局限，以至用户只能使用特定语音进行特定词汇的识别。
模式匹配方法
模式匹配常用的技术有动态时间规整（DTW）和矢量量化（VQ）；统计型模型方法常见的是隐马尔可夫模型；语音识别常用的神经网络有反向传播（BP）网络，径向基函数网络（RBF）及新兴的小波网络。
人工神经网络
• 关于神经网络在语音信号处理中的应用研究十分活跃，其中以在语音识别方面的应用最令人瞩目。目前，主要是从听觉神经模型中得到启发，以便构成一些具有类似能力的人工系统，使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理，改进现有语音语音识别系统的性能，是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。
语音识别技术的应用和前景
特殊人群用品
听写机
查询系统
家电遥控信息论
语音识别
电话拨号模式识别
语音、语言学
信号处理
人工智能
预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。