《语音信息处理》PPT课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

科大讯飞语音合成在线演示
/ttsdemo/interPh onicShow.aspx
3.3 语音编码
语音编码的研究目的是如何在尽量减少失真的情况下高效率地对模拟语音信号进行数字表达。
VOIP (Voice Over Internet Protocol)
与此同时，语音识别的线性预测参数LPC首次被提出来，采用线性预测进行研究的实践开始。以后的低速率语音编码技术，很大程度上都是依靠线性预测进行来实现的。
国外发展历史
同时，动态时间弯曲DTW技术出现，有效的解决了语音识别过程中，不等音长的匹配问题。此时的许多系统，都是建立在LPC参数和DTW 匹配技术基础上的孤立词识别系统。
测肌肉活动的红外线发射器及侦测器，譬如他想打招呼，说声"你好"，他先以眼球控制红外线感应器，选定在屏幕上轮流出现的英文字母，当计算机出现他想要的"H"时，霍金再动眼球，这样计算机就会不断显示以"H"为字头的英文字，当"HELLO"出现时，他又动一下以选定这个字，当他造句完毕后，才把句子传至合成器发声。因此霍金要说一句话，就要逐字逐句输入计算机，再由语音合成器将文字化成声音，一分钟只能处理3-5个字。
国外发展历史
20世界90年代，语音识别开始从实验室走向市场。CMU、BBN、IBM和AT&T都推出自己的语音识别产品。Microsoft、 Apple、Toshiba、 Philips和Intel不甘落后，也开始致力于语音识别系统开发。语音识别朝着大词汇量、非特定人、自然连续语音方向发展。目前，Microsoft Office XP以上版本已经集成了语音识别功能，可以采用语音输入法输入汉字。
2.语音信号处理的学科基础
消费电子 …
声学信息论
残疾人用品
语音、语言学
听写机
语音识别
信号处理
查询系统
电话拨号
… 实际应用
学科基础
人工智能
模式识别
数理统计
语音识别的应用背景和学科基础
3.语音信号处理的分支和应用
语音识别语音合成语音编码说话人识别
3.1 语音识别
在国内，声纹识别技术目前已广泛应用于嵌入式系统，同时其他方面的应用也逐渐兴起，如招商银行已经于2008年8月开始与以色列的PerSay公司进行声纹识别方面的项目合作。
声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据，如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法，已在一些刑事案件的侦破中得到应用。美国在1971年就公开认可使用声纹鉴定。
语音识别的分类
针对说话人：特定说话人语音识别和非特定说话人语音识别
针对词汇量：小词汇量、中词汇量和大词汇量的识别
针对说话方式：孤立词识别和连续语音识别
针对识别环境：实验室环境语音识别、电话语音识别和广播语音识别
语音信号和自然语言的多变性和复杂性
(1) 连续语音词与词之间没有明显的停顿，词与词之间的分割比较困难；
语音信号处理 Speech Signal Processing
金赟江苏师范大学物电学院
第一讲绪论
1.语音信号处理的概念 2.语音信号处理的学科基础 3.语音信号处理的分支和应用 4.语音信号处理的发展历史 5.本课程的内容和特点 6.参考书目 7.学习要求
1.语音信号处理的概念
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。
(5) 自然语言的多变性难以借助于一些基本语法规则进行描述，因而使计算机编程变得困难。
(6)语音信号往往受到其他信号的干扰和信道的影响。
特定孤立词短语句子朗读自然口语
任意字
口语对话
小（几十）
中（几百）
大（几千）
3.2 语音合成
语音合成是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。（让电脑说话）
在国内，随着各种录音设备的普及，声音材料的留存十分方便，因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理。声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段，其在司法活动的某些方面已然发挥出显著的作用。
声纹识别的应用
还杰克逊一个“清白”。《爆炸新闻》拉登之死。车臣总统杜达耶夫。
自动报时、报警、公共汽车或电车自动报站打印出版过程中的文本校对。电子函件及各种电子出版物的语音阅读。列车惊魂，语音合成配音 Tom猫咆哮体马丁路德金演讲大脑扫描，语音合成
பைடு நூலகம்
语音合成的例子（霍金）
不能说话和做手势，如何演讲写字？
在霍金的眼镜上，约距右颊一英寸处，安装了负责侦
4.语音信号处理的发展历史
国外发展历史
人们在19世纪就已经发现，元音主要是靠第一共振峰和第二共振峰来区别，声母的感知主要靠共振峰的弯曲方向和力度。但是，真正的语音识别却是始于1952 年，当时贝尔实验室 Davis等人通过提取语音的第一、第二共振峰作为语音特征参数，采用专用硬件实现了一台 10个英文数字的语音识别系统Audry System。
然而，这些结果都是在高质量的实验条件下获得的。实验证明，当语音数据简单地通过电话线传播后，识别正确率将会直线下跌。
国内发展历史
1995年，林肯实验室将TIMIT数据库（实验室条件）和NTIMIT数据库（TIMIT数据库通过电话传输录音）作了一次说话人识别的对比，结果表明，当实验对象简单经过电话信道传输后，识别正确率由原先接近100％急速下降到60 ％多。如何在自然环境下令人满意的进行语音识别，依旧是国内外语音学家一个艰巨的任务。
(1)语音识别研究的目的就是研究出一种具有听觉功能的机器，能直接接受人口呼的命令，理解人的意图，并做出相应的反应。
语音识别的应用
语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形式。苹果的Siri。 Siri恶搞，国人Siri，Siri惊魂，Siri日式英语。语音输入法。
美国国防部高级计划研究局（ARPAR）的语音识别和理解研究计划，产生了HAPPY， HEARSAY-II和DRAGON等典型的语音识别理解系统，提出了具有深远意义的知识源黑板模型，扩充转移网络（ATN）算法等。
国外发展历史
20世纪80年代贝尔实验室 Rabiner等人对HMM 模型进行了深入浅出的介绍，从此以后HMM模型在语音识别领域里确立了不可替代的地位，成为目前世界各国从事语音处理的最有效的方法。
语音编码的应用
数字通信系统移动无线通信保密语音通信
3.4 说话人识别
说话人识别（声纹识别）可分为两种：说话人辨认说话人确认
目前，声纹识别已经在证券交易、银行交易、身份证、信用卡的认证等领域均有应用。在国外，声纹识别技术已经取得了较为广泛的应用。美国已把声纹识别用到保险、银行等行业，迪拜在交通管理上使用声纹验证来确认驾驶员身份，戴尔公司已经实施了声纹认证用于网上订购，菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证。
矢量量化法VQ也在此时开始应用到语音识别中。 1987年，IBM公司采用VQ/HMM方案实现了一个具有2000个孤立字的特定人语音识别模型系统Tangora-2000。1988年CMU同样采用 VQ/HMM实现了一个具有977个词，并且能构成4200个句子的非特定人连续语音识别系统 SPHINX。
语音合成的应用
1．海量信息查询类业务大部分海量信息如考试查分、征婚启事、人才信息、
电话广告等，由于其内容庞大，往往无法在短期内完成录音，即使可以事先录音，也需要很长的制作周期，而且在量大的时候肯定会出现人为错误；采用语音合成技术可以节约大量人力，缩短开发周期，而且能够完全保证了所有信息100％正确。 2．动态信息查询类业务声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主，而多数的应用类节目对实时性要求比较高，如证券行情、订票、订房等，上述应用中动态信息不可能事先录音，需要实时地从数据库中读取，动态进行语音合成，保证信息的实时性。
(2) 每一个基本的声学识别基元（如音素）受前后音素发音方式的影响（协同发音）使特征变得不稳定
(3) 不同人、不同心理和生理以及在不同的说话环境下说同一词时，声学信号特征会发生变化；
(4) 一个词的读音不仅包含了词义特征，而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息，而这些信息的分离是不容易的。
国内发展历史
20世界80年代，针对汉语单音节的特点，清华大学、中国科学院、北方交通大学、东南大学等开发了汉语特定人孤立字全音节语音识别系统。
清华大学王作英教授提出了DDBHMM模型。
1986年，国家863项目语音方向设立，俞铁城先生受命筹备此项研究计划。
国内发展历史
目前，我国语音识别队伍主要有北大、清华、中科院等。其中中科院声学所的人员大部分是原Intel资深的工程师，因此在国内的语音识别领域一直遥遥领先。
国内发展历史
2003年，从世界主要语音识别机构电话对话录音识别率基本是保持在70-80％之间。
国内发展历史
2004年，我国863评测（评测结果可以看863 评测网站）小组对国内主要机构再次进行评测，测试集取样于马路边嘈杂环境，最低信噪比大约5分贝。在如此恶劣条件下，在内容识别方面，中科院声学所和自动化所均取得了约74％的正确率，清华大学取得约50％的正确率，其他院校最差的取得9％的正确率。
瑞典的G.Fant的博士论文《语音产生的声学理论》就是这个时期的代表作，对以后的语音处理的研究工作产生了深刻的影响。
国外发展历史
20世纪60年代末70年代初Baum等人首次系统地阐述了马尔可夫模型（HMM，Hidden Markov Model），并把它引入语音识别。目前， HMM模型是语音识别的最好算法，它也广泛应用于经济学上的预测问题。
1959年，美国林肯实验室的J.W.Rogie和 C.D.Forgie首次用数字计算机识别出了英语元音和以摩擦音开头的孤立字，标志着计算机语音识别时代的开始。
国外发展历史
20世纪60年代，快速傅立叶变换（FFT）技术被广泛地采用来进行频谱分析，采用其逆变换，还可以反求源信号。在傅立叶分析的帮助下，人们开始研究自然语音产生的内在机制和本质特征。
国内一些大公司，例如诺基亚、摩托罗拉、松下电器等，也致力于语音识别领域的研究。社科院长期进行实验语音学方面的研究。
国内发展历史
目前，国际和国内在实验室条件下的识别正确率均在90％以上。实验室条件一般是采用高保真的 Sennheiser麦克风录制的语音信号，信道扭曲非常小，几乎没有任何背景噪音。标准的数据库有TIMIT数据库等。1991年2月NIST(National Institute Of Standards And Technology) 的测试报告结果，如果不考虑语法约束，识别正确率为80％多；考虑语法约束后，识别率提高到90％以上。这些都是非常喜人的成果。
国外主要的研究单位：
美国的CMU（卡内基梅隆大学）、MIT（麻省理工学院）、IBM、美国电报电话公司AT&T
英国的 Cambridge （剑桥大学）
国内发展历史
20世界50年代，中科院声学所开始进行语音识别研究。1972年，俞铁城先生最早在计算机上研究语音识别。中国语音识别的真正的开端应该是1978年，中科院声学所实现的采用带通滤波器组参数为特征的语音识别系统RTSRS（01）的产生。
国外发展历史
20世纪50年代末60年代初，集成电路出现，语音信号终端系统从模拟方式演变为全数字系统方式，语音数字信号处理从此开始。最早从事此项重要技术变革的实验室有贝尔电话实验室、麻省理工学院林肯实验室、IBM Thomas Watson研究实验室、BBN语音研究小组和得克萨斯仪器公司，以及一些著名的大学研究小组。