语音信号数字处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词检出(CallCenter)--AM+模板(策略)
汉语语音听写机(医生速记)--AM+LM ……
13
语音数字信号处理的研究方向(2)
语音识别(cont’d)
模型库
特征提取
模型训练
特征提取
识别判决
结果
14
语音数字信号处理的研究方向(3)
声纹识别(VPR)(说话人识别)

辨认、确认、检出、追踪

确认(Verification):二值判别 检出(Detection):某说话人是否在语音中出现 追踪(Tracking):检出的扩展,给出出现时间的标识
16
语音数字信号处理的研究方向(5)
声纹识别(说话人识别)(cont’d)

文本无关(Text-Independent):不限定说什么文本
未来全球生物识别市场预测(数据由国际生物集团(IBG)提供 )
5
2003年生物特征识别技术市场份额
2 0 0 3 年生物识别技术市场份额表
中间件识别 12.4% 掌型识别 10.0% 按键识别 0.3% 虹膜识别 7.3% 声纹识别 4.1%
面像识别 11.4% 签名识别 2.4%
虹膜识别 声纹识别 指纹识别 签名识别 面像识别 掌型识别 中间件识别
28
联系方式
主讲教师: 郑 方 信息科技大楼4-416 6279-6393 fzheng@tsinghua.edu.cn 助教: 唐国瑜 tanggy@cslt.riit.tsinghua.edu.cn
29
语言无关 (Language-Independent) 语言相关 (Language-Dependent)

文本相关(Text-Dependent):必须是特定的文本
必定语种相关

限定文本(Text-Prompted)
在识别时,系统随机地指定说话人说出某段或某些段文本 在识别时,系统随机提问某个或某些预先设定的问题 一般要结合ASR
100 80 60 40 20 0
93.5
55.1 47.9 30.2 10.2 0.2



MP 3



/网


iResearch(艾瑞市场咨询)根据CNNIC最新的调查数字整理发现,网民使用搜索引 擎的目的多样化,网页仍是搜索的主要目的,而软件、MP3、图片、地图都是搜索的 重要目标。 垂直搜索正逐步引起业界的重视,相比而言,垂直搜索更容易 与中文语言处理技术相互促进、共同发展。
第八章:连续语音识别中的搜索算法 第九章:连续语音识别中的语言模型(LM)
高级专题

外请学术界专家讲:Frank Soong, 吴玺宏, …… 外请产业界专家讲:曹立宏, 秦勇……
21
你想从这门课学到什么?

怎么学?
我想在这门课中教你什么?

如何教?
教学相长
22
期末考核方式
不考试,但必须完成所有大作业题目 根据大作业的完成情况评定成绩

2001年7月,已拥有世界最多的电话和手机用户 2005年7月,电话用户总数达到7.01亿户(移动电话3.63亿户 )
2010年,全国电话用户总数增至11.3亿(手机用户达8.3亿)
--国家信息产业部统计数据,7/2005


据报道,2005年中国的短信量达到2,178亿条,比去年增长58.8%。 2010年,全国各类短信发送量达到8,317亿条,同比增长6.1%。
11




(地


)
自然语言理解的市场规模
根据艾瑞公司(iResearch Inc)的报告:

我国移动增值业务发展强劲,市场和用户规模持续增长;
短信、手机上网、彩信、彩铃、手机游戏、IVR业绩突出,业务呈现百花 齐放局面,最受用户喜爱的移动增值业务有:彩铃/彩话、短信/彩信、 IVR、WAP浏览、移动秘书、移动证券、下载类业务、媒体互动、即时通 信等; 集团用户成为运营商的发展重点之一,领域包括公安、金融、交通、物 流、电力、工商等多部门(金融领域的“移动银行”、“移动证券”业 务,教育系统的“家校通”业务、公安部门的“警务通”业务); 2002年~2006年,中国移动增值业务市场规模呈现逐步扩大趋势,其中 2005年中国移动增值业务市场规模将达到 542.8亿元,增长率为40.84%。
2005年生物特征识别技术市场份额
2 0 0 5 年生物识别技术市场份额表
中间件识别 11.3% 掌型识别 10.0% 按键识别 0.4% 虹膜识别 8.8% 声纹识别 14.4%
面像识别 11.6% 签名识别 2.2%
虹膜识别
声纹识别
指纹识别
签名识别
面像识别
掌型识别
指纹识别 41.4% 中间件识别
25
大作业题目--规定动作(2)
6. 对语音分帧,计算各帧的时域参数:E、Z,
并利用这两个参数进行端点检测 7. 高斯、均匀分布(给出中心和范围)生成3类2 维随机数据,LBG分色分类 8. 进行10个数字的孤立数字识别:使用10阶 LPCC作为特征参数,标准HMM,4个状态, 单个连续高斯分布 9. 进行10个数字的连续数字识别:使用10阶 LPCC作为特征参数,标准HMM,4个状态, 单个连续高斯分布,采用Viterbi解码
语音信号处理
陈永彬,王仁华,中国科学科技大学出版社,1990
Fundamentals of Speech Recognition 语音识别基本原理
Lawrence Rabiner,Biing-Hwang Juang, 清华大学出版社, 1999.9
Matlab 5.x与科学计算
肖劲松,王沫然, 清华大学出版社,2001.5
指纹识别 52.1%
按键识别
数据由国际生物集团(IBG)提供
2003年各种生物识别技术的市场份额(不包括AFIS-自动指纹识别系统)
(VPR占4.1%)
6
2004年生物特征识别技术市场份额
2 0 0 4 年生物识别技术市场份额表
中间件识别 12.0% 掌型识别 11.0% 按键识别 0.0% 虹膜识别 9.0% 声纹识别 6.0%
语音信号数字处理
第一章 绪论
人类计算的未来是让计算机能够看、听、 学,能用Βιβλιοθήκη Baidu然语言与人类进行交流。
--微软公司总裁Bill Gates
语言是“人人”也将会是“人机”交互 最自然的方式。
--语音信号数字处理的出发点和目标
2
中国信息用户的状况
中国大陆的IT产业是世界增长速度最快的地区之一:

截止到2005年7月,中国上网用户总数为1.03亿人,其中使用宽带上 网的人数达到5,300万。 ……
19
课程内容(1)
第一章:绪论,基础知识
第二章:语音产生机理与语音生成模型
第三章:语音的线性预测编码(LPC)
第四章:倒(频)谱(Cepstrum)和线谱对(LSP) 第五章:矢量量化(VQ)和聚类算法(如LBG、K-Means) 第六章:隐含马尔可夫模型(HMM)
20
课程内容(2)
第七章:构造特定人、孤立词识别系统
26
大作业题目--自选动作
研究生的培养目标 在本课程中体现 要求:

按研究课题的要求写出选题报告
选题意义、技术综述、关键问题、技术路线、预期结果



待老师认可后,可减去某些规定动作的题目 按选题报告规定的任务完成课题研究 写出结题报告
27
参考书目
语音信号数字处理
杨行峻,迟惠生 等编著,电子工业出版社,1995
1 0.5 0.2
大量训练/测试数量
文本相关 (数字串)
0.1%
1%
电话数据 多个麦克风 训练数据量较小
(%) 0.1
0.1 0.2 0.5 1 2
5
10
20
40
错 误 接 受 的 概 率 (%)
18
语音数字信号处理的研究方向(7)
(自然)语言理解(NLU) 语音理解:ASR+NLU 语音合成(TTS) 语音翻译:ASR+NLU+MT+TTS
9
中国使用搜索引擎的企业数量变化
使用搜索引擎企业的数量和市场规模
80 60
46 64
40
26
36 24 5 8.8 14
20
7
14 1 2.3
0
2001
2002
2003
2004
2005
2006
企业数量(万家)
市场规模(亿元)
10
数据来自赛迪网(CCID)
2005年中国网民使用搜索内容的比例
2005年中国网民使用搜索内容的比例
23
大作业要求
实验都在Matlab环境下完成。

在进行孤立数字识别和连续数字识别时,我 们可以提供一些训练数据和测试数据,以供 同学使用。
每个实验要求较详细的实验报告
24
大作业题目--规定动作(1)
1. 显示语言的语谱图,观察声韵母的特点 2. 对语音加窗,利用FFT计算各帧频谱参数并
显示,考察各种窗函数的不同作用 3. 对语音进行短时自相关处理,估计基音周期, 考察各种平滑方法对自相关结果的影响 4. 求语音各帧的LPC和残差,显示之。并用参 考书1图2-20的生成模型来重构语音 5. 语音-FFT-MFCC,语音-LPC-LPCC
面像识别 12.0% 签名识别 2.0% 虹膜识别 声纹识别 指纹识别 签名识别 面像识别 掌型识别 中间件识别 指纹识别 48.0% 按键识别
数据由国际生物集团(IBG)提供
2004年各种生物识别技术的市场份额(不包括AFIS-自动指纹识别系统)
(VPR占6.0%,预计到2007年可占10% )
7

内容的安全
通过生物特征认证技术对“人”进行“真实自我、真实意思”判 断 通过语言理解技术进行有害、危险信息的过滤
4
生物特征识别技术产值增长趋势
($m) 5,000
4,000 3,000 2,000 1,000 0
601 928 2,199 1,467 3,112
4,035
2002 2003 2004 2005 2006 2007
说话人1
M
前端处理
说话人2 说话人N
宣称说话人模型
A X
说话人编号 匹配分数/概率

+ 前端处理 对比
冒名顶替者模型
> 接受 < 拒识
15

语音数字信号处理的研究方向(4)
声纹识别(VPR) (cont’d)

辨认(Identification):N->1
闭集(Close-set)—实验中 开集(Open-set)—实际中
按键识别
数据由国际生物集团(IBG)提供
2005年各种生物识别技术的市场份额(不包括AFIS-自动指纹识别系统)
(VPR已经提前超过10% ,且达到了14.4%)
8
生物特征识别技术商业模式的变化
在1980~1995年之间,应用主要集中在门禁和PC机登陆等系统;1995~2005年间,主要是信息 系统授权,而2005年之后,主要用于网络用户授权--不可接触的特点给声纹提供了空间。
根据赛迪(CCID)的估算:

预计未来短信及搜索引擎、即时信息工具(IM)的年增长率为50%; 到2007年,整体市场规模将达1,500亿元。
12
语音数字信号处理的研究方向(1)
语音识别(ASR)

词汇量大小、说话人的限制、说话方式 基本问题:特征提取、模式划分、时间对准 研究热点:
语音命令(AT&T、车载系统)--AM
17
语音数字信号处理的研究方向(6)
声纹识别(说话人识别)(cont’d)
40

误 拒 绝 的 概 率
20
文本无关 (朗读句子) 军用无线数据
25%
10 5
文本相关 (组合) 干净数据 单个麦克风
多个无线接收装置 和麦克风 训练数据适量
10%
文本无关 (对话) 电话数据 多个麦克风 训练数据适量
2
--工信部 “2010年全国电信业统计公报”
3
中文信息处理的几大问题
在人类的未来,计算机和网络将成为人类生活中非常 重要的因素;而“人机交互技术”甚至将成为“人人 交互”的一个重要环节 人们要解决的问题包括:

内容的获取
使用语音识别以最方便和自然的手段进行人机交流 使用自然语言理解技术从海量信息中快速寻找所需要的有用信息 使用机器翻译技术实现不同语言之间的交流
相关文档
最新文档