语音人机交互资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 1791年,Von Kempelen制成了一种能说话的机器 • 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个
• 七十年代,语音识别领域取得了突破。在理论上, LP技术得到进一步发展,动态时间规整技术(DTW) 基本成熟,特别是提出了矢量量化(VQ)和隐马尔可 夫模型(HMM)理论。在实践上,实现了基于线性预 测倒谱和DTW技术的特定人孤立语音识别系统.
我国的语音识别技术的发展
(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研 机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川 大学等也纷纷行动起来。
语音识别系统的结构
一个完整的基于统计的语音识别系统可大 致分为三部分: (1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理
语音识别所面临的问题
1、就算法模型方面而言,需要有进一步的 突破。目前能看出它的一些明显不足,尤 其在中文语音识别方面,语言模型还有待 完善,因为语言模型和声学模型正是听写 识别的基础,这方面没有突破,语音识别 的进展就只能是一句空话。
语音合成
• 语音合成技术是使电脑或通信终端具有类似于人 一样的说话能力的一项技术
• 让机器说话可以通过录音/重放,或语音合成实现 • 文语转换是语音合成的一种应用形式 • 文语转换是连续语音识别的逆过程
国外语音合成的发展
孤立词/音段阶段,注重音色(音质,音品)
• 语音合成的最早研究始于1779年Kratzen sten的研究.他用一 些材料制成具有各种特殊形状的共鸣腔, 目的是研究如何用 管形器官模型来模拟5个单元音 A、E 、 I、0、U
2.就自适应方面而言,语音识别技术也有待 进一步改进。目前,象IBM的ViaVoice和 Asiaworks的SPK都需要用户在使用前进行几 百句话的训练,以让计算机适应你的声音
特征。这必然限制了语音识别技术的进一
步应用,大量的训练不仅让用户感到厌烦,
而且加大了系统的负担。并且,不能指望
将来的消费电子应用产品也针对单个消费 者进行训练。
国外语音识别研究的历史
• 语音识别的研究工作大约开始于五十年代,当时 AT& T Bell实验室实现了第一个可识别十个英文数 字的语音识别系统—Audry系统。
• 六十一年代,计算机的应用推动了语音识别的发展。 这时期的重要成果是提出了动态规划(DP)和线性预 测分析技术(LP),而后者较好地解决了语音信号源自文库 型的问题,对语音识别的发展产生了深远影响。
根据词汇量大小,可以分为小词汇量、中 等词汇量、大词汇量以及无限词汇量语音 识别系统。
语音识别的几种基本方法
一般来说,语音识别的方法有三种 : (1)基于声道模型和语音知识的方法 (2)模式匹配方法 (3)人工神经网络方法
基于声道模型和语音知识的方法
基于声道模型和语音知识的方法起步较早, 在语音识别技术提出的开始,就有了这方 面的研究,但由于其模型及语音知识过于 复杂,现阶段没有达到实用的阶段 。
(2)现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特 色。
- 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电 子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识 别与理解实时系统。
- 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了 一个主题受限的特定人连续英语---汉语语音翻译演示系统。
- 在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研 制的声控电话查号系统并投入实际使用。
语音识别系统的分类方式及依据
根据对说话人的依赖程度可以分为特定人 和非特定人语音识别系统。
根据对说话人说话方式的要求,可以分为 孤立字(词)语音识别系统,连接字语音 识别系统以及连续语音识别系统。
语音人机交互
语音人机交互
语音 语音
自然语言
输入 识别
处理
交 互
应用程序
管
语音 语音
自然语言
理
输出 合成
生成
语音识别技术
• 定义: • 语音识别是机器自动语音识别(Automatic
Speech Recognition by Machine)的简称。语 音识别是一种将人讲话发出的语音通信声 波识别(转换)成为一种能够表达通信消 息的符号序列。这些符号可以是识别系统 的词汇本身,也可以是识别系统词汇的组 成单元,在专业文献中常常称为识别系统 的基元或子词基元。
• 3.就强健性方面而言,语音识别技术需要能排 除各种环境因素的影响。目前,对语音识别效 果影响最大的就是环境杂音或嗓音,在公共场 合,你几乎不可能指望计算机能听懂你的话, 来自四面八方的声音让它茫然而不知所措。
• 4、多语言混合识别以及无限词汇识别方面: 简单地说,目前使用的声学模型和语音模型太 过于局限,以至用户只能使用特定语音进行特 定词汇的识别。
模式匹配方法
模式匹配常用的技术有动态时间规整 (DTW)和矢量量化(VQ) ;统计型模 型方法常见的是隐马尔可夫模型;语音识 别常用的神经网络有反向传播(BP)网络, 径向基函数网络(RBF)及新兴的小波网络。
人工神经网络
• 关于神经网络在语音信号处理中的应用研究 十分活跃,其中以在语音识别方面的应用最令 人瞩目。目前,主要是从听觉神经模型中得到 启发,以便构成一些具有类似能力的人工系统, 使它们在解决语音信号处理(特别是识别)问题 时能得到较好的性能。研究神经网络以探索人 的听觉神经机理,改进现有语音语音识别系统 的性能,是当前语音识别研究的一个重要方向。 在模式识别的应用中,多采用Bp网和RBF网等前 向神经网络来实现。
语音识别技术的应用和前景
特殊人群用品
听写机
查询系统
家电遥控 信息论
语音识别
电话拨号 模式识别
语音、语言学
信号处理
人工智能
预测在近五到十年内,语音识别系统的应 用将更加广泛。各种各样的语音识别系统 产品将出现在市场上。人们也将调整自己 的说话方式以适应各种各样的识别系统。 在短期内还不可能造出具有和人相比拟的 语音识别系统,要建成这样一个系统仍然 是人类面临的一个大的挑战,我们只能一 步步朝着改进语音识别系统的方向一步步 地前进。
• 七十年代,语音识别领域取得了突破。在理论上, LP技术得到进一步发展,动态时间规整技术(DTW) 基本成熟,特别是提出了矢量量化(VQ)和隐马尔可 夫模型(HMM)理论。在实践上,实现了基于线性预 测倒谱和DTW技术的特定人孤立语音识别系统.
我国的语音识别技术的发展
(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研 机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川 大学等也纷纷行动起来。
语音识别系统的结构
一个完整的基于统计的语音识别系统可大 致分为三部分: (1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理
语音识别所面临的问题
1、就算法模型方面而言,需要有进一步的 突破。目前能看出它的一些明显不足,尤 其在中文语音识别方面,语言模型还有待 完善,因为语言模型和声学模型正是听写 识别的基础,这方面没有突破,语音识别 的进展就只能是一句空话。
语音合成
• 语音合成技术是使电脑或通信终端具有类似于人 一样的说话能力的一项技术
• 让机器说话可以通过录音/重放,或语音合成实现 • 文语转换是语音合成的一种应用形式 • 文语转换是连续语音识别的逆过程
国外语音合成的发展
孤立词/音段阶段,注重音色(音质,音品)
• 语音合成的最早研究始于1779年Kratzen sten的研究.他用一 些材料制成具有各种特殊形状的共鸣腔, 目的是研究如何用 管形器官模型来模拟5个单元音 A、E 、 I、0、U
2.就自适应方面而言,语音识别技术也有待 进一步改进。目前,象IBM的ViaVoice和 Asiaworks的SPK都需要用户在使用前进行几 百句话的训练,以让计算机适应你的声音
特征。这必然限制了语音识别技术的进一
步应用,大量的训练不仅让用户感到厌烦,
而且加大了系统的负担。并且,不能指望
将来的消费电子应用产品也针对单个消费 者进行训练。
国外语音识别研究的历史
• 语音识别的研究工作大约开始于五十年代,当时 AT& T Bell实验室实现了第一个可识别十个英文数 字的语音识别系统—Audry系统。
• 六十一年代,计算机的应用推动了语音识别的发展。 这时期的重要成果是提出了动态规划(DP)和线性预 测分析技术(LP),而后者较好地解决了语音信号源自文库 型的问题,对语音识别的发展产生了深远影响。
根据词汇量大小,可以分为小词汇量、中 等词汇量、大词汇量以及无限词汇量语音 识别系统。
语音识别的几种基本方法
一般来说,语音识别的方法有三种 : (1)基于声道模型和语音知识的方法 (2)模式匹配方法 (3)人工神经网络方法
基于声道模型和语音知识的方法
基于声道模型和语音知识的方法起步较早, 在语音识别技术提出的开始,就有了这方 面的研究,但由于其模型及语音知识过于 复杂,现阶段没有达到实用的阶段 。
(2)现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特 色。
- 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电 子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识 别与理解实时系统。
- 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了 一个主题受限的特定人连续英语---汉语语音翻译演示系统。
- 在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研 制的声控电话查号系统并投入实际使用。
语音识别系统的分类方式及依据
根据对说话人的依赖程度可以分为特定人 和非特定人语音识别系统。
根据对说话人说话方式的要求,可以分为 孤立字(词)语音识别系统,连接字语音 识别系统以及连续语音识别系统。
语音人机交互
语音人机交互
语音 语音
自然语言
输入 识别
处理
交 互
应用程序
管
语音 语音
自然语言
理
输出 合成
生成
语音识别技术
• 定义: • 语音识别是机器自动语音识别(Automatic
Speech Recognition by Machine)的简称。语 音识别是一种将人讲话发出的语音通信声 波识别(转换)成为一种能够表达通信消 息的符号序列。这些符号可以是识别系统 的词汇本身,也可以是识别系统词汇的组 成单元,在专业文献中常常称为识别系统 的基元或子词基元。
• 3.就强健性方面而言,语音识别技术需要能排 除各种环境因素的影响。目前,对语音识别效 果影响最大的就是环境杂音或嗓音,在公共场 合,你几乎不可能指望计算机能听懂你的话, 来自四面八方的声音让它茫然而不知所措。
• 4、多语言混合识别以及无限词汇识别方面: 简单地说,目前使用的声学模型和语音模型太 过于局限,以至用户只能使用特定语音进行特 定词汇的识别。
模式匹配方法
模式匹配常用的技术有动态时间规整 (DTW)和矢量量化(VQ) ;统计型模 型方法常见的是隐马尔可夫模型;语音识 别常用的神经网络有反向传播(BP)网络, 径向基函数网络(RBF)及新兴的小波网络。
人工神经网络
• 关于神经网络在语音信号处理中的应用研究 十分活跃,其中以在语音识别方面的应用最令 人瞩目。目前,主要是从听觉神经模型中得到 启发,以便构成一些具有类似能力的人工系统, 使它们在解决语音信号处理(特别是识别)问题 时能得到较好的性能。研究神经网络以探索人 的听觉神经机理,改进现有语音语音识别系统 的性能,是当前语音识别研究的一个重要方向。 在模式识别的应用中,多采用Bp网和RBF网等前 向神经网络来实现。
语音识别技术的应用和前景
特殊人群用品
听写机
查询系统
家电遥控 信息论
语音识别
电话拨号 模式识别
语音、语言学
信号处理
人工智能
预测在近五到十年内,语音识别系统的应 用将更加广泛。各种各样的语音识别系统 产品将出现在市场上。人们也将调整自己 的说话方式以适应各种各样的识别系统。 在短期内还不可能造出具有和人相比拟的 语音识别系统,要建成这样一个系统仍然 是人类面临的一个大的挑战,我们只能一 步步朝着改进语音识别系统的方向一步步 地前进。