《语音信息处理》PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科大讯飞语音合成在线演示
/ttsdemo/interPh onicShow.aspx
3.3 语音编码
语音编码的研究目 的是如何在尽量减 少失真的情况下高 效率地对模拟语音 信号进行数字表达。
VOIP (Voice Over Internet Protocol)
与此同时,语音识别的线性预测参数LPC首次 被提出来,采用线性预测进行研究的实践开始。 以后的低速率语音编码技术,很大程度上都是 依靠线性预测进行来实现的。
国外发展历史
同时,动态时间弯曲DTW技术出现,有效的解 决了语音识别过程中,不等音长的匹配问题。 此时的许多系统,都是建立在LPC参数和DTW 匹配技术基础上的孤立词识别系统。
测肌肉活动的红外线发射器及侦测器,譬如他想打招 呼,说声"你好",他先以眼球控制红外线感应器,选 定在屏幕上轮流出现的英文字母,当计算机出现他想 要的"H"时,霍金再动眼球,这样计算机就会不断显示 以"H"为字头的英文字,当"HELLO"出现时,他又动一 下以选定这个字,当他造句完毕后,才把句子传至合 成器发声。因此霍金要说一句话,就要逐字逐句输入 计算机,再由语音合成器将文字化成声音,一分钟只 能处理3-5个字。
国外发展历史
20世界90年代,语音识别开始从实验室走向市 场。CMU、BBN、IBM和AT&T都推出自己的语 音识别产品。Microsoft、 Apple、Toshiba、 Philips和Intel不甘落后,也开始致力于语音识 别系统开发。语音识别朝着大词汇量、非特定 人、自然连续语音方向发 展。目前,Microsoft Office XP以上版本已经集成了语音识别功能, 可以采用语音输入法输入汉字。
2.语音信号处理的学科基础
消费 电子 …
声学 信息论
残疾人 用品
语音、 语言学
听写机
语音识别
信号 处理
查询 系统
电话 拨号
… 实际应用
学科基础
人工 智能
模式 识别
数理 统计
语音识别的应用背景和学科基础
3.语音信号处理的分支和应用
语音识别 语音合成 语音编码 说话人识别
3.1 语音识别
在国内,声纹识别技术目前已广泛应用于嵌入式系 统,同时其他方面的应用也逐渐兴起,如招商银行 已经于2008年8月开始与以色列的PerSay公司进行 声纹识别方面的项目合作。
声纹识别已成功应用在司法鉴定领域。利用声 纹识别技术确定犯罪证据,如通过分析电话录 音资料来确定犯罪嫌疑人的身份和犯罪行为等 做法,已在一些刑事案件的侦破中得到应用。 美国在1971年就公开认可使用声纹鉴定。
语音识别的分类
针对说话人:特定说话人语音识别和非 特定说话人语音识别
针对词汇量:小词汇量、中词汇量和大 词汇量的识别
针对说话方式:孤立词识别和连续语音 识别
针对识别环境:实验室环境语音识别、 电话语音识别和广播语音识别
语音信号和自然语言的多变性和复杂性
(1) 连续语音词与词之间没有明显的停顿,词与词之间的 分割比较困难;
语音信号处理 Speech Signal Processing
金赟 江苏师范大学物电学院
第一讲 绪论
1.语音信号处理的概念 2.语音信号处理的学科基础 3.语音信号处理的分支和应用 4.语音信号处理的发展历史 5.本课程的内容和特点 6.参考书目 7.学习要求
1.语音信号处理的概念
语音信号处理是研究用数字信号处理技 术对语音信号进行处理的一门学科。
(5) 自然语言的多变性难以借助于一些基本语法规则进行 描述,因而使计算机编程变得困难。
(6)语音信号往往受到其他信号的干扰和信道的影响。
特定 孤立 词 短语 句子 朗读 自然 口语
任意 字
口语 对话
小 (几十)
中 (几百)
大 (几千)
3.2 语音合成
语音合成是将计算机自己产生的、或外部输 入的文字信息转变为可以听得懂的、流利的 口语输出的技术。 (让电脑说话)
在国内,随着各种录音设备的普及,声音材料 的留存十分方便,因此一些案件就可以借助声 纹鉴定来协助案件的侦查和审理。声纹鉴定已 经成为国内司法鉴定机构的一种重要技术手段, 其在司法活动的某些方面已然发挥出显著的作 用。
声纹识别的应用
还杰克逊一个“清白”。《爆炸新闻》 拉登之死。 车臣总统杜达耶夫。
自动报时、报警、公共汽车或电车自动报站 打印出版过程中的文本校对。 电子函件及各种电子出版物的语音阅读。 列车惊魂,语音合成配音 Tom猫咆哮体 马丁路德金演讲 大脑扫描,语音合成
பைடு நூலகம்
语音合成的例子(霍金)
不能说话和做手势,如何演讲写字?
在霍金的眼镜上,约距右颊一英寸处,安装了负责侦
4.语音信号处理的发展历史
国外发展历史
人们在19世纪就已经发现,元音主要是靠第一 共振峰和第二共振峰来区别,声母的感知主要 靠共振峰的弯曲方向和力度。但是,真正的语 音识别却是始于1952 年,当时贝尔实验室 Davis等人通过提取语音的第一、第二共振峰 作为语音特征参数,采用专用硬件实现了一台 10个英文数字的语音识别系统Audry System。
然而,这些结果都是在高质量的实验条件下获得的。 实验证明,当语音数据简单地通过电话线传播后, 识别正确率将会直线下跌。
国内发展历史
1995年,林肯实验室将TIMIT数据库 (实验室条件)和NTIMIT数据库 (TIMIT数据库通过电话传输录音)作了 一次说话人识别的对比,结果表 明,当 实验对象简单经过电话信道传输后,识 别正确率由原先接近100%急速下降到60 %多。如何在自然环境下令人满意的进 行语音识别,依旧是国内外语音学家一 个艰巨的任务。
(1)语音识别研究的目 的就是研究出一种 具有听觉功能的机 器,能直接接受人 口呼的命令,理解 人的意图,并做出 相应的反应。
语音识别的应用
语音识别技术在信息处理领域的首要的 巨大应用将在于提供了一种全新的人机 交互形式。 苹果的Siri。 Siri恶搞,国人Siri,Siri惊魂,Siri日式英 语。 语音输入法。
美国国防部高级计划研究局(ARPAR)的语音 识别和理解研究计划,产生了HAPPY, HEARSAY-II和DRAGON等典型的语音识别理解 系统,提出了具有深远意义的知识源黑板模型, 扩充转移网络(ATN)算法等。
国外发展历史
20世纪80年代贝尔实验室 Rabiner等人对HMM 模型进行了深入浅出的介绍,从此以后HMM模 型在语音识别领域里确立了不可替代的地位, 成为目前世界各国从事语音处理的最有效 的方 法。
语音编码的应用
数字通信系统 移动无线通信 保密语音通信
3.4 说话人识别
说话人识别(声纹识别) 可分为两种: 说话人辨认 说话人确认
目前,声纹识别已经在证券交易、银行交易、身份 证、信用卡的认证等领域均有应用。在国外,声纹 识别技术已经取得了较为广泛的应用。美国已把声 纹识别用到保险、银行等行业,迪拜在交通管理上 使用声纹验证来确认驾驶员身份,戴尔公司已经实 施了声纹认证用于网上订购,菲律宾政府的养老金 系统现在也可以通过声纹识别来完成身份认证。
矢量量化法VQ也在此时开始应用到语音识别中。 1987年,IBM公司采用VQ/HMM方案实现了一 个具有2000个孤立字的特定人语音识别模型系 统Tangora-2000。1988年CMU同样采用 VQ/HMM实现了一个具有977个词,并且能构 成4200个句子的非特定人连续语音识别系统 SPHINX。
语音合成的应用
1.海量信息查询类业务 大部分海量信息如考试查分、征婚启事、人才信息、
电话广告等,由于其内容庞大,往往无法在短期内完 成录音,即使可以事先录音,也需要很长的制作周期, 而且在量大的时候肯定会出现人为错误;采用语音合 成技术可以节约大量人力,缩短开发周期,而且能够 完全保证了所有信息100%正确。 2.动态信息查询类业务 声讯节目逐渐地由现在娱乐型节目为主的节目构成转 向以应用型的节目为主,而多数的应用类节目对实时 性要求比较高,如证券行情、订票、订房等,上述应 用中动态信息不可能事先录音,需要实时地从数据库 中读取,动态进行语音合成,保证信息的实时性。
(2) 每一个基本的声学识别基元(如音素)受前后音素发 音方式的影响(协同发音)使特征变得不稳定
(3) 不同人、不同心理和生理以及在不同的说话环境下说 同一词时,声学信号特征会发生变化;
(4) 一个词的读音不仅包含了词义特征,而且还包含了说 话人性别、年龄、情绪等大量与词义无关的信息,而 这些信息的分离是不容易的。
国内发展历史
20世界80年代,针对汉语单音节的特点, 清华大学、中国科学院、北方交通大学、 东南大学等开发了汉语特定人孤立字全 音节语音识别系统。
清华大学王作英教授提出了DDBHMM模 型。
1986年,国家863项目语音方向设立,俞 铁城先生受命筹备此项研究计划。
国内发展历史
目前,我国语音识别队伍主要有北大、清 华、中科院等。其中中科院声学所的人员 大部分是原Intel资深的工程师,因此在国 内的语音识别领域一直遥遥领先。
国内发展历史
2003年,从世界主要语音识别机构电话 对话录音识别率基本是保持在70-80%之 间。
国内发展历史
2004年,我国863评测(评测结果可以看863 评测网站)小组对国内主要机构再次进行评测, 测试集取样于马路边嘈杂环境,最低信噪比大 约5分贝。在如此恶劣条件下,在内容识别方 面,中科院声学所和自动化所均取得了约74% 的正确率,清华大学取得约50%的正确率,其 他院校最差的取得9%的正确率。
瑞典的G.Fant的博士论文《语音产生的声学理 论》就是这个时期的代表作,对以后的语音处 理的研究工作产生了深刻的影 响。
国外发展历史
20世纪60年代末70年代初Baum等人首次系统 地阐述了马尔可夫模型(HMM,Hidden Markov Model),并把它引入语音识别。目前, HMM模型是语音识别的最好算法,它也广泛应 用于经济学上的预测问题。
1959年,美国林肯实验室的J.W.Rogie和 C.D.Forgie首次用数字计算机识别出了英语元 音和以摩擦音开头的孤立字,标志着计算机语 音识别时代的开始。
国外发展历史
20世纪60年代,快速傅立叶变换(FFT)技术 被广泛地采用来进行频谱分析,采用其逆变换, 还可以反求源信号。在傅立叶分析的帮助下, 人们开始研究自然语音产生的内在机制和本质 特征。
国内一些大公司,例如诺基亚、摩托罗拉、 松下电器等, 也致力于语音识别领域的研 究。社科院长期进行实验语音学方面的研 究。
国内发展历史
目前,国际和国内在实验室条件下的识别正确率均 在90%以上。实验室条件一般是采用高保真的 Sennheiser麦克风录制的语音信号,信道扭曲非常小, 几乎没有任何背景噪音。标准的数据库有TIMIT数据 库等。1991年2月NIST(National Institute Of Standards And Technology) 的测试报告结果,如果不考虑语法约 束,识别正确率为80%多;考虑语法约束后,识别 率提高到90%以上。这些都是非常喜人的成果。
国外主要的研究单位:
美国的CMU(卡内基梅隆大学)、MIT(麻省 理工学院)、IBM、美国电报电话公司AT&T
英国的 Cambridge (剑桥大学)
国内发展历史
20世界50年代,中科院声学所开始进行 语音识别研究。1972年,俞铁城先生最 早在计算机上研究语音识别。中国语音 识别的真正的开端应该是1978年,中科 院声学所实现的采用带通滤波器组参数 为特征的语音识别系统RTSRS(01)的 产生。
国外发展历史
20世纪50年代末60年代初,集成电路出现, 语音信号终端系统从模拟方式演变为全数字系 统方式,语音数字信号处理从此开始。最早从 事此项重要技术变革的 实验室有贝尔电话实验 室、麻省理工学院林肯实验室、IBM Thomas Watson研究实验室、BBN语音研究小组和得克 萨斯仪器公司,以及一些著名的大学研究小组。