8.现代测试技术-语音识别技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序号 1 2 3 4 5 6 7 8 你好 你叫什么名字? 你从哪里来? 你会什么? 背首诗 讲个故事 我要听笑话 唱首歌 来首英文歌 你喜欢玩什么? 你好可爱 问句 应答句 3条 3条 3条 1条 15首诗 6个故事 4个笑话 5首歌曲
9
10 11
5首英文 歌
5条 3条
12
中国石油大学信息与控制工程学院
FAR(False Accept Rate),错误接受率;FRR(False Reject Rate),错误拒绝率。
EER(Equal Error Rate),等错误率;即FAR=FRR时的错误率。
多说话人识别,分割
中国石油大学信息与控制工程学院
5.3 声纹识别技术
40
错 误 拒 绝 的 概
0.5 20

语音识别是研究如何采用数字信号处理技术自动提取以及 决定语音信号中最基本、 最有意义的信息的一门新兴的 边缘学科。 语音信号处理学科的一个分支。

中国石油大学信息与控制工程学院
5.2 语音识别技术概述
一、语音识别技术

从广义上讲,语音识别也包括了对说话人的识别,其主 要内容是提取语音信号中有关个人特征的信息、即语音 的个性特征(如:音律特性等),在这里专指有意义、 有内容的识别。 语音识别所涉及的学科领域:信号处理、物理学(声学 )、模式匹配、通信及信息理论、语言语音学、生理学 、计算机科学(研究软硬件算法以便更有效地实现用于 识别系统中的各种方法)、心理学等。

中国石油大学信息与控制工程学院
5.2 语音识别技术概述
三、语音识别的基本原理
中国石油大学信息与控制工程学院
5.2 语音识别技术概述
·欧氏距离 ·似然比测度 识别 结果
失真测度 语音信号 输入

预处理
声学参数 分析
训练
测度估计
判决
·反混叠失真滤波 器 ·预加重器 ·端点检测 ·噪声滤波器
语音库
专家知识库 ·构词规则 ·同音字判决 ·语法语义 ·背景知识
5.3 声纹识别技术

特征提取
谱包络参数语音信息通过滤波器组输出,以合适的速率对滤 波器输出抽样,并将它们作为声纹识别特征。
基于发声器官如声门、声道和鼻腔的生理结构而提取的参数 :基音轮廓、共振峰频率带宽及其轨迹 ; 线性预测系数(与声道参数模型相符合):如线性预测系数 、自相关系数、反射系数、对数面积比、线性预测残差及其 组合等参数; 反映听觉特性的参数;如美倒谱系数、感知线性预测等;
语音识别的基本原理框图
中国石油大学信息与控制工程学院
5.2 语音识别技术概述

语音识别基本原理中的相关概念
训练(Training):预先分析出语音特征参数,制作语音模板 (Template)并存放在语音参数库中。 识别(Recognition):待识语音经过与训练时相同的分析,得到 语音参数,将它与库中的参考模板一一比较,并采用判决的方 法找出最接近语音特征的模板,得出识别结果。 失真测度(Distortion Measures):在进行比较时要有个标准, 这就是计量语音特征参数矢量之间的“失真测度”。
智能手机:语音拨号

电话语音识别:
语音电话簿:电信增值
智能语音总机:企业应用
中国石油大学信息与控制工程学院
5.2 语音识别技术概述

嵌入式语音识别:
语音样本
预处理
特征提取
矢量量化
识别
训练 (矢量聚类)
N模板 (M码字/码本)
嵌入式语音识别
中国石油大学信息与控制工程学院
5.2 语音识别技术概述
语音对话娃娃
语 音 识 别 自然语言理解
中国石油大学信息与控制工程学院
5.2 语音识别技术概述
第二节 语音识别技术概述
中国石油大学信息与控制工程学院
5.2 语音识别技术概述
一、语音识别技术
语音识别(Speech Recognition)主要指让机器听懂 人说的话,即在各种情况下,准确地识别出语音的内容, 从而根据其信息,执行人的各种意图。

中国石油大学信息与控制工程学院
5.2 语音识别技术概述
二、语音识别的重要性

计算机语音识别是智能计算机系统的重要特征。这一技 术的应用将从根本上改变计算机的人机界面,从而对计 算机的发展以及推广应用产生深远的影响。

基于电话的语音识别技术,使计算机直接为客户提供 金 融证券和旅游等方面的信息查询及服务成为可能,进而 成为电子商务进展中的重要一环(Voice-Commerce)。 语音识别技术作为声控产业,必将对编辑排版、办公自 动化、工业过程和机器操作的声控技术起到重大的推进 作用。因此可以预言,语音技术必将对工业、金融、商 业、文化、教育等诸方面事业产生革命性的影响。
中国石油大学信息与控制工程学院
5.3 声纹识别技术

声纹识别的分类
类型分类:
文本相关(Text-dependent) 文本无关(Text-dependent)
任务分类:
说话人辨认(Speaker Identification) 说话人确认(Speaker Verification)
减少错误接受的 可能,提高系统 的安全。但是由 于错误拒绝率高, 会给用户使用带 来不便。
DET (Detection Error Tradeoff) 曲线



中国石油大学信息与控制工程学院
5.2 语音识别技术概述
六、语音识别的应用

语音监听 语音拨号 语音命令 语音听写 语音翻译 语音搜索

语音导航

企业电话簿:会议通知、 语音信箱、传真信箱、企 业邮箱、信息发布、定向 广告。 个人电话簿:个人邮件、 数据同步、资讯定制、个 人财经、业务定制。 语音门户:天气、股票、 航班查询
我很喜欢你
3条
5.2 语音识别技术概述
语音声控机器人
问句 前进 后退 左转 回答 前进 后退 左转
右转
跳舞
右转
跳舞
5.2 语音识别技术概述
五、语音识别技术现实难度

连续语音的分割比较困难;

每一个基本的声学识别基元(如音素)受前后音素发音方 式的影响(协同发音)使特征变得不稳定
不同人、不同心理和生理以及在不同的说话环境下说同一 词时,声学信号特征会发生变化; 一个词的读音不仅包含了词义特征,而且还包含了说话人 性别、年龄、情绪等大量与词义无关的信息,而这些信息 的分离是不容易的。 自然语言的多变性难以借助于一些基本语法规则进行描述 (如方言),因而使计算机编程变得困难。
中国石油大学信息与控制工程学院
现代测试技术
2011.11
语音识别技术
第五章 语音识别技术
中国石油大学信息与控制工程学院
5.1 引言
第一节 引言
中国石油大学信息与控制工程学院
5.1 引言
一、关于声音 声音的三要素
声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调 越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音,即 具有不同频率和不同振幅的混合声音。 音强是声音的强度,也被称为声音的强度。音强与声波的 振幅成正比,振幅越大,强度越大。
中国石油大学信息与控制工程学院
5.3 声纹识别技术
第三节 声纹识别技术
中国石油大学信息与控制工程学院
5.3 声纹识别技术

生物识别技术优势
中国石油大学信息与控制工程学院
5.wk.baidu.com 声纹识别技术

生物识别技术比较
错误接受率 指纹识别 掌纹识别 人脸识别 很低 低 低 错误拒绝率 较低 5% <0.2% 容易实用性 好 使用困难 非常好 需要培 训才能使用, 手工操作对 虹膜有困难 不好 可以 处理速度/人 2s-5s 5s-10s ≤5s
通过对不同特征参量的组合来提高实际系统的性能。
中国石油大学信息与控制工程学院
5.3 声纹识别技术

何谓成功的声纹识别系统
一个成功的说话人识别系统应该做到以下几点:
能够有效地区分不同的说话人,但又能在同一说话人语音发生
变化时保持相对的稳定,如感冒等情况;
不易被他人模仿或能够较好地解决被他人模仿问题; 良好的抗噪性;声学环境变化时能够保持一定的稳定性。
中国石油大学信息与控制工程学院
5.3 声纹识别技术

声纹识别与语音识别的不同
声纹识别利用的是语音信号中的说话人信息,而不考虑语 音中的字词意思,它强调说话人的个性;
而语音识别的目的是识别出语音信号中的言语内容,并不 考虑说话人是谁,它强调共性。
声纹识别系统主要包括两部分,即特征检测和模式匹配。 特征检测的任务是选取唯一表现说话人身份的有效且稳定 可靠的特征,模式匹配的任务是对训练和识别时的特征模 式做相似性匹配。
语 音 识 别
计 算 机 处 理
人与人之间、人与机器之间的语音信息处理过程
中国石油大学信息与控制工程学院
5.1 引言

计算机模拟人类交流信息的过程:
(1) 将大脑产生的思想转换成语言 (2) 将语言转换成相应的语音 (3) 识别表达语言的语音内容 (4) 理解语音所表达的语言意义
自然语言生成
语 音 合 成
虹膜识别
很低
约10%
仪器自 动对准虹膜 需要3s-5s, 手工操作需 要5s-25s
15s-30s 1s-3s
视网膜识别 声纹识别
未知 低
未知 低
签名识别

10%
一般
5s-10s
中国石油大学信息与控制工程学院
5.3 声纹识别技术
一、声纹识别技术定义
声纹识别(又称说话人识别)是一项根据语音波形中反 映说话人生理和行为特征的语音参数(声纹),并对说话人 进行身份验证的生物识别技术
中国石油大学信息与控制工程学院
5.1 引言
二、语音通信
说话方 意○ 图 语 言 形 成 文 本 解 析 发 音 人与人之间的语音通信 传输系统
(编码、解码)
收听方 收 听 认 识 · 理 解 语 音 理 解 行 动
(人 )
空间传播

文 章 (机器) ○ 输 入
语 音 合 成

应答文生成
Ⅰ:第一类人机 语音通信问题 Ⅱ:第二类人机 语音通信问题
分类结果
孤立单词识别 连续单词识别
连续语音识别
特定人语音识别 非特定人语音识别
有限词汇识别 (100,100-1000,1000)
无限词汇识别
中国石油大学信息与控制工程学院
5.2 语音识别技术概述
四、语音识别应用举例

嵌入式语音识别:
智能玩具:语音对话娃娃、语音声控机器人 智能家电:语音识别台灯、语音识别插座

音质
对于数字音频信号,音质的好坏与数据采样频率和数据位 数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。
中国石油大学信息与控制工程学院
5.1 引言

声音文件
数字化的音频文件主要分为4类:
波形音频文件。一种最直接的表达声波的数字形式, 文件扩展名是“.wav”。
MIDI音频文件。一种计算机数字音乐接口生成的 数字描述音频文件,扩展名是“.mid”。 CD-DA音频文件。标准激光盘文件,扩展名是 “.cda”。
压缩音频文件。在数字音频领域,一种MP3格式的压缩 音频文件很流行,该格式的文件简称MP3文件。
中国石油大学信息与控制工程学院
5.1 引言

获取声音
获得CD中的声音
转换成计算机能够处理的数字化声音,这就 是“采样”。可以使用Easy CD-DA Extractor、 CoolEdit等音频处理软件对音频进行编辑和处理。 录音 要录制音质好的声音,有两个途径:使用性能优良的录音设备; 采用较高的采样频率。可以使用Windows系统自带的“录音机”进行 录音。 声音转换 声音的转换只能从高质量向低质量进行,如果要进一步处理, 可采用CoolEdit(Adobe Audition)工具软件。
中国石油大学信息与控制工程学院
5.3 声纹识别技术

声纹识别相关术语
UBM(Universal Background Model) ,通用背景模型 GMM(Gaussian Mixture Model) ,高斯混合模型 背景噪音(环境噪音) 信道差异(固定电话,手机,麦克风)
身体差异,语速快慢,时间间隔
主要识别框架:基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法 (HMM:Hidden Markov Model)等。
中国石油大学信息与控制工程学院
5.2 语音识别技术概述
三、语音识别技术分类
分类原则
按识别器的类型 按识别器对使用者的适 应情况 按语音词汇表的大小
能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化 时相对保持稳定;易于从语音信号中提取;不易被模仿。
中国石油大学信息与控制工程学院
5.3 声纹识别技术
训练
输入 语音
模型 产生
模型 存储
语音 分析 识别
特征 提取 距离 测量 识别 判决
确认
身份 声明 声纹识别系统框图
中国石油大学信息与控制工程学院
相关文档
最新文档