语音信号端点检测技术的研究毕业论文
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号端点检测技术的研究毕业论文
摘要I
AbstractII
第1章 绪论1
1.1语音端点检测研究背景1wk.baidu.com
1.2语音端点检测研究意义2
1.3语音端点检测研究动态4
1.4本文组织结构5
第2章 语音信号处理基础7
2.1 语音信号的数学模型7
2.2语音端点检测预处理8
2.2.1预滤波8
2.2.2预加重8
2.2.3分帧8
图1-1 语音识别系统图
在语音增强中,语音端点检测主要应用于基于单声道的语音增强技术中,此时,噪声源是不可接近的,背景噪声的特性只能从带噪语音中获得,使用有音无音检测技术分离出无音段,这时无音段主要的表现为噪声特性,然后再通过某种统计方法,即可获得对背景噪声特性的近似估计[6]。
对于语音编解码技术,降低比特率是其不断发展的目标和动力,因为比特率的降低不仅可以提高已经很拥挤的信道的利用率,而且能使同样的存储芯片存储更多的信息,减少手持设备的平均能量消耗,延长电池寿命。在人们通常的对话过程中,听起来连续的语音信号其实是由一系列的无音片断和有音片断组合起来的。在背景噪声存在的情况下,无音片断中主要以噪声为主,所携带的有用信息相对于有音片断要小得多,所以,如果能将无音片断检测出来,则可以使用相对较少的比特数来表示,而不会改变解码端的语音质量,从而降低语音编码的平均编码比特率。
从背景噪声中检测出语音信号是语音识别系统中必要的预处理过程,如图1-1,有效的端点检测技术不仅能减少系统的处理时间,提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高,实验统计数字表明,端点的偏离对语音识别最终准确性影响明显:30ms的偏移对应精确度下降2%,当超过90ms时,影响达到30%[5]。
2.2.4加窗9
2.3语音信号的时域分析10
2.3.1短时能量和短时幅度10
2.3.2短时过零率10
2.4语音信号的频域分析11
2.4.1滤波器组法11
2.4.2傅里叶变换法11
2.5语音端点检测主要步骤13
2.6影响语音端点检测的原因及噪声分类13
2.6.1影响语音端点检测的原因13
2.6.2噪声分类14
4.2基于谱熵的端点检测方法33
4.3基于距离熵的语音端点检测方法34
4.3.1距离熵34
4.3.2算法构架36
4.4实验结果39
4.5本章小结42
结论43
参考文献44
致谢48
附录1开题报告
附录2文献综述
附录3中期报告
附录4英文文献
附录5英文翻译
第1章 绪论
1.1
语言是人类特有的功能,声音是人类常用的工具,通过声音传递信息是人类最重要、最有效、最准确、最方便的信息交换的方式。随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,犹如衣、食、住、行对于人类是必要的一样,通信和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之间每时每刻都需要进行大量的信息交换,让计算机听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法,计算机越来越向便携化方向发展,计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚。在电子计算机和人工智能机器的广泛应用中,人们发现,人和机器之间最好的通讯方式是直接进行语言通讯,实现人机自由对话,赋予机器以听觉,辨别话音的容或者辨别说话人的身份,使机器能够按照人的意志进行各种操作,把人类从繁重或危险的劳动中解脱出来。用现代手段研究语音处理技术,使人们能更加有效地产生。
在现代通信技术中,凡是涉及到语音通信的,都需要应用到语音端点检测这一技术,并且这一技术的重要性不仅体现在日常语音通信中,更体现在科研和国防建设上。在科研领域,如3G手机等通讯产品的研发上,这一技术是不容回避的问题,要求在不影响接收语音信号质量的前提下,尽可能地降低静音段的数据传输率,此时精确的端点检测就非常必要。另外,有关国家安全工作,常需对某些通信线路进行监控,在对众多的线路进行监控时,为了节约人力物力并且不遗漏可疑信息,语音端点检测起到了至关重要的作用。由此可见,语音端点检测技术已经成为语音信号处理领域的重要课题之一,具有重要的理论研究价值和广阔的应用前景[7]。
经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰[2]。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点,端点检测是语音识别,语音增强以及语音编码等中的一个重要环节[3]。
2.7本章小结16
第3章 语音端点检测的相关算法17
3.1基于短时能量的端点检测17
3.2基于时频方差和的检测方法21
3.3基于多特征的端点检测方法25
3.3.1基于短时过零率和短时能量的端点检测方法25
3.3.2基于谱减法的端点检测方法28
3.4本章小结32
第4章基于距离熵的语音端点检测算法33
4.1熵的基本介绍33
1.2语音端点检测研究意义
语音端点检测最早的应用是在贝尔实验室开发的传输和转换系统中,用于通信信道的时间分配,通过语音端点检测实现在空闲的信道插入其它的话音信息,之后,各种各样的语音端点检测算法在自动语音识别,说话人确认,回声消除,语音编码和其他方面的应用中被提出来[4]。语音端点检测作为语音信号处理系统的前端操作,在语音信号处理领域中有着重要的意义。
语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面[1]。语音处理容涉及到计算机科学,模式识别,信号处理,生理学,语音学,心理学等学科,还涉及到信号和信息处理系统,通信和电子系统等具体应用领域,多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题,语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化现代通信及智能系统等新兴领域应用的核心技术之一。
摘要I
AbstractII
第1章 绪论1
1.1语音端点检测研究背景1wk.baidu.com
1.2语音端点检测研究意义2
1.3语音端点检测研究动态4
1.4本文组织结构5
第2章 语音信号处理基础7
2.1 语音信号的数学模型7
2.2语音端点检测预处理8
2.2.1预滤波8
2.2.2预加重8
2.2.3分帧8
图1-1 语音识别系统图
在语音增强中,语音端点检测主要应用于基于单声道的语音增强技术中,此时,噪声源是不可接近的,背景噪声的特性只能从带噪语音中获得,使用有音无音检测技术分离出无音段,这时无音段主要的表现为噪声特性,然后再通过某种统计方法,即可获得对背景噪声特性的近似估计[6]。
对于语音编解码技术,降低比特率是其不断发展的目标和动力,因为比特率的降低不仅可以提高已经很拥挤的信道的利用率,而且能使同样的存储芯片存储更多的信息,减少手持设备的平均能量消耗,延长电池寿命。在人们通常的对话过程中,听起来连续的语音信号其实是由一系列的无音片断和有音片断组合起来的。在背景噪声存在的情况下,无音片断中主要以噪声为主,所携带的有用信息相对于有音片断要小得多,所以,如果能将无音片断检测出来,则可以使用相对较少的比特数来表示,而不会改变解码端的语音质量,从而降低语音编码的平均编码比特率。
从背景噪声中检测出语音信号是语音识别系统中必要的预处理过程,如图1-1,有效的端点检测技术不仅能减少系统的处理时间,提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高,实验统计数字表明,端点的偏离对语音识别最终准确性影响明显:30ms的偏移对应精确度下降2%,当超过90ms时,影响达到30%[5]。
2.2.4加窗9
2.3语音信号的时域分析10
2.3.1短时能量和短时幅度10
2.3.2短时过零率10
2.4语音信号的频域分析11
2.4.1滤波器组法11
2.4.2傅里叶变换法11
2.5语音端点检测主要步骤13
2.6影响语音端点检测的原因及噪声分类13
2.6.1影响语音端点检测的原因13
2.6.2噪声分类14
4.2基于谱熵的端点检测方法33
4.3基于距离熵的语音端点检测方法34
4.3.1距离熵34
4.3.2算法构架36
4.4实验结果39
4.5本章小结42
结论43
参考文献44
致谢48
附录1开题报告
附录2文献综述
附录3中期报告
附录4英文文献
附录5英文翻译
第1章 绪论
1.1
语言是人类特有的功能,声音是人类常用的工具,通过声音传递信息是人类最重要、最有效、最准确、最方便的信息交换的方式。随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,犹如衣、食、住、行对于人类是必要的一样,通信和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之间每时每刻都需要进行大量的信息交换,让计算机听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法,计算机越来越向便携化方向发展,计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚。在电子计算机和人工智能机器的广泛应用中,人们发现,人和机器之间最好的通讯方式是直接进行语言通讯,实现人机自由对话,赋予机器以听觉,辨别话音的容或者辨别说话人的身份,使机器能够按照人的意志进行各种操作,把人类从繁重或危险的劳动中解脱出来。用现代手段研究语音处理技术,使人们能更加有效地产生。
在现代通信技术中,凡是涉及到语音通信的,都需要应用到语音端点检测这一技术,并且这一技术的重要性不仅体现在日常语音通信中,更体现在科研和国防建设上。在科研领域,如3G手机等通讯产品的研发上,这一技术是不容回避的问题,要求在不影响接收语音信号质量的前提下,尽可能地降低静音段的数据传输率,此时精确的端点检测就非常必要。另外,有关国家安全工作,常需对某些通信线路进行监控,在对众多的线路进行监控时,为了节约人力物力并且不遗漏可疑信息,语音端点检测起到了至关重要的作用。由此可见,语音端点检测技术已经成为语音信号处理领域的重要课题之一,具有重要的理论研究价值和广阔的应用前景[7]。
经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰[2]。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点,端点检测是语音识别,语音增强以及语音编码等中的一个重要环节[3]。
2.7本章小结16
第3章 语音端点检测的相关算法17
3.1基于短时能量的端点检测17
3.2基于时频方差和的检测方法21
3.3基于多特征的端点检测方法25
3.3.1基于短时过零率和短时能量的端点检测方法25
3.3.2基于谱减法的端点检测方法28
3.4本章小结32
第4章基于距离熵的语音端点检测算法33
4.1熵的基本介绍33
1.2语音端点检测研究意义
语音端点检测最早的应用是在贝尔实验室开发的传输和转换系统中,用于通信信道的时间分配,通过语音端点检测实现在空闲的信道插入其它的话音信息,之后,各种各样的语音端点检测算法在自动语音识别,说话人确认,回声消除,语音编码和其他方面的应用中被提出来[4]。语音端点检测作为语音信号处理系统的前端操作,在语音信号处理领域中有着重要的意义。
语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面[1]。语音处理容涉及到计算机科学,模式识别,信号处理,生理学,语音学,心理学等学科,还涉及到信号和信息处理系统,通信和电子系统等具体应用领域,多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题,语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化现代通信及智能系统等新兴领域应用的核心技术之一。