人机交互语音识别技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别技术的应用和前景
听写机 特殊人群用品 查询系统
家电遥控
电话拨号
语音识别 信息论 模式识别
语音、语言学 信号处理
人工智能
• 预测在近五到十年内,语音识别系统的应 用将更加广泛。各种各样的语音识别系统 产品将出现在市场上。人们也将调整自己 的说话方式以适应各种各样的识别系统。 在短期内还不可能造出具有和人相比拟的 语音识别系统,要建成这样一个系统仍然 是人类面临的一个大的挑战,我们只能一 步步朝着改进语音识别系统的方向一步步 地前进。
我国的语音识别技术的发展
(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研 机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川 大学等也纷纷行动起来。
(2)现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特 色。 - 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电 子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识 别与理解实时系统。 - 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了 一个主题受限的特定人连续英语---汉语语音翻译演示系统。 - 在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研 制的声控电话查号系统并投入实际使用。
语音识别技术
• 定义: • 语音识别是机器自动语音识别 (Automatic Speech Recognition by Machine)的简称。语音识别是一种将人 讲话发出的语音通信声波识别(转换)成 为一种能够表达通信消息的符号序列。这 些符号可以是识别系统的词汇本身,也可 以是识别系统词汇的组成单元,在专业文 献中常常称为识别系统的基元或子词基元。
模式匹配方法
• 模式匹配常用的技术有动态时间规整 (DTW)和矢量量化(VQ) ;统计型模 型方法常见的是隐马尔可夫模型;语音识 别常用的神经网络有反向传播(BP)网络, 径向基函数网络(RBF)及新兴的小波网络。
人工神经网络
• 关于神经网络在语音信号处理中的应用研究 十分活跃,其中以在语音识别方面的应用最令 人瞩目。目前,主要是从听觉神经模型中得到 启发,以便构成一些具有类似能力的人工系统, 使它们在解决语音信号处理(特别是识别)问题 时能得到较好的性能。研究神经网络以探索人 的听觉神经机理,改进现有语音语音识别系统 的性能,是当前语音识别研究的一个重要方向。 在模式识别的应用中,多采用Bp网和RBF网等前 向神经网络来实现。
• 3.就强健性方面而言,语音识别技术需要能排 除各种环境因素的影响。目前,对语音识别效 果影响最大的就是环境杂音或嗓音,在公共场 合,你几乎不可能指望计算机能听懂你的话, 来自四面八方的声音让它茫然而不知所措。 • 4、多语言混合识别以及无限词汇识别方面: 简单地说,目前使用的声学模型和语音模型太 过于局限,以至用户只能使用特定语音进行特 定词汇的识别。
Βιβλιοθήκη Baidu 国外语音识别研究的历史
• 语音识别的研究工作大约开始于五十年代,当时 AT& T Bell实验室实现了第一个可识别十个英文数 字的语音识别系统—Audry系统。 • 六十一年代,计算机的应用推动了语音识别的发展。 这时期的重要成果是提出了动态规划(DP)和线性预 测分析技术(LP),而后者较好地解决了语音信号模 型的问题,对语音识别的发展产生了深远影响。 • 七十年代,语音识别领域取得了突破。在理论上, LP技术得到进一步发展,动态时间规整技术(DTW) 基本成熟,特别是提出了矢量量化(VQ)和隐马尔可 夫模型(HMM)理论。在实践上,实现了基于线性预 测倒谱和DTW技术的特定人孤立语音识别系统.
• 2.就自适应方面而言,语音识别技术也有待 进一步改进。目前,象IBM的ViaVoice和 Asiaworks的SPK都需要用户在使用前进行 几百句话的训练,以让计算机适应你的声 音特征。这必然限制了语音识别技术的进 一步应用,大量的训练不仅让用户感到厌 烦,而且加大了系统的负担。并且,不能 指望将来的消费电子应用产品也针对单个 消费者进行训练。
语音识别系统的结构
• 一个完整的基于统计的语音识别系统可大 致分为三部分: (1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理
语音识别所面临的问题
• 1、就算法模型方面而言,需要有进一步的 突破。目前能看出它的一些明显不足,尤 其在中文语音识别方面,语言模型还有待 完善,因为语言模型和声学模型正是听写 识别的基础,这方面没有突破,语音识别 的进展就只能是一句空话。
•
在过去一段时间,用得较多的是BP网络。但BP网 络也有其自身的不足,那就是训练时间长,且容易 陷入局部极小值。径向基函数(RBF)网络也是前 馈网络中一类特殊的三层前向神经网络,其针对性 强,学习方法简单、方便的特点,为前馈网络提供 了一条新的思路。它是一种性能良好的前向网 络.它不仅有全局逼近性质,而且训练方法快速易 行,不存在局部最优问题。RBF这一新颖的网络类 型的出现,给神经网络的研究及应用带来了新的生 机。RBFNN的优良特性使得它正显示出比BP网络更 强的生命力,正在越来越多的领域内成为替代BP网 络的一种新型网络。
语音识别的几种基本方法
一般来说,语音识别的方法有三种 : (1)基于声道模型和语音知识的方法 (2)模式匹配方法 (3)人工神经网络方法
基于声道模型和语音知识的方法
• 基于声道模型和语音知识的方法起步较早, 在语音识别技术提出的开始,就有了这方 面的研究,但由于其模型及语音知识过于 复杂,现阶段没有达到实用的阶段 。
语音识别系统的分类方式及依据
• 根据对说话人的依赖程度可以分为特定人 和非特定人语音识别系统。 • 根据对说话人说话方式的要求,可以分为 孤立字(词)语音识别系统,连接字语音 识别系统以及连续语音识别系统。 • 根据词汇量大小,可以分为小词汇量、中 等词汇量、大词汇量以及无限词汇量语音 识别系统。