人工智能语音识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别系统应用领域
• 电话通信的语音拨号 特别是在中、高档移动电话上
,现已普遍的具有语音拨号的功能。随着语音识别芯 片的价格降低,普通电话上也将具备语音拨号的功 能。
• 汽车的语音控制 对汽车的卫星导航定位系统(GPS
)的操作,汽车空调、照明以及音响等设备的 操作,同样也可以由语音来方便的控制。
语音识别涉及领域
信号处理
通信及信 息理论 物理学 (声学) 语言语音 学 心理学
模式匹配
生理学
计算机科 学
语音识别的类型
按识别器的类 型 按识别器对使 用者的适应情 况 按语音词汇表 的大小
• • • • 孤立单词识别 连续语音识别 连续单词识别 连续言语识别与理解
• 特定人语音识别 • 非特定人语音识别
• 有限词汇识别 • 无限词汇识别(全音节识别)
语音识别原理框图
DTW算法
模板匹配方法的语音识别算法需要解决的一个关 键问题是说话人对同一个词的两次发音不可能完 全相同。设参考模板有M帧矢量{R(1),R(2), …R(m),…,R(M)},R(m)为第m帧的语音特征 矢量,测试模板有N帧矢量{T(1),T(2),…T(n), …,T(N)},T(n)是第n帧的语音特征矢量。 d(T(in),R(im))表示T中第in帧特征与R中im帧特征之 间的距离,通常用欧几里德距离表示。
三种匹配模式的对比
Байду номын сангаас
DTW算法
DTW是把时间规整和距离测度计算结合起 来的一种非线性规整技术,它寻找一个规 整函数im=Ф(in),将测试矢量的时间轴n非线 性地映射到参考模板的时间轴m上,并使该 函数满足:
D就是处于最优时间规整情况下两矢量的距离。
DTW算法
通常规整函数必须满足如下的约束条件: 边界限制 单调性限制 连续性限制
语音识别
目录
• • • • • • • 语音识别的定义 语音识别涉及领域 语音识别的类型 语音识别原理框图 DTW算法 语音识别系统应用领域 语音识别技术的应用发展方向
语音识别的定义
语音识别技术就是让机器通过识别和理解过程把 人类的语音信号转变为相应的文本或命令的技术 ,属于多维模式识别和智能计算机接口的范畴。 它是语音信号处理学科的一个分支。语音识别系 统的本质就是一种模式识别系统。 常见的语音识别方法有动态时间归整技术(DTW) 、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、 基于段长分布的非齐次隐马尔可夫模型 (DDBHMM)和人工神经元网络(ANN)
DTW算法
DTW算法
搜索从(1,1)点出发,对于局部路径约束如 图5-3,点(in,im)可达到的前一个格点只可能 是(in-1,im)、(in-1,im-l)和(in-1,im-2)。那么 (in,im)一定选择这三个距离中的最小者所对 应的点作为其前续格点,这时此路径的累 积距离为: D(in,im)=d(T(in),R(im))+min{D(in-1,im),D(in1,im-1),D(in-1,im-2)}
DTW算法
DTW算法的原理图如图把测试模板的各个帧 号n=1~N在一个二维直角坐标系中的横轴上标出 ,把参考模板的各帧m=1~M在纵轴上标出,通过 这些表示帧号的整数坐标画出一些纵横线即可形 成一个网格,网格中的每一个交叉点(ti,rj)表示测 试模式中某一帧与训练模式中某一帧的交汇。 DTW算法分两步进行,一是计算两个模式各帧之 间的距离,即求出帧匹配距离矩阵,二是在帧匹 配距离矩阵中找出一条最佳路径。
• 智能玩具 • 家电遥控 用语音可以控制电视机、VCD、空调、电扇
、窗帘的操作,而且一个遥控器就可以把家中的电器 皆用语音控起来。
语音识别技术的应用发展方向
• 一个方向是大词汇量连续语音识别系统,主要应 用于计算机的听写机,以及与电话网或者互联网 相结合的语音信息查询服务系统,这些系统都是 在计算机平台上实现的; • 另外一个重要的发展方向是小型化、便携式语音 产品的应用,如无线手机上的拨号、汽车设备的 语音控制、智能玩具、家电遥控等方面的应用, 这些应用系统大都使用专门的硬件系统实现,特 别是近几年来迅速发展的语音信号处理专用芯片 和语音识别片上系统的出现。
• 工业控制及医疗领域 当操作人员的眼或手已经被占
用的情况下,在增加控制操作时,最好的办法就是增 加人与机器的语音交互界面。由语音对机器发出命令 ,机器用语音做出应答。
语音识别系统应用领域
• 个人数字助理的语音交互界面 PDA的体积很小
,人机界面一直是其应用和技术的瓶颈之一。由于在 PDA上使用键盘非常不便,因此,现多采用手写体识 别的方法输入和查询信息。随着语音识别技术的提高 ,语音将成为PDA主要的人机交互界面。
Thank you!