语音端点检测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在识别系统中,语音端点检测可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。在需要打断(barge-in)功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放。完成打断功能。
目前,语音技术正进入一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入的硬件和软件平台环境也日益向理想化迈进,但语音技术比起人类的听觉能力来还相差甚远,其应用也才刚刚开始,进一步规范和建设语音输入的硬件通道、软件基本引擎和平台,使语音技术能集成到需要语音功能的大量软件中去。而且语音产业需要更加开放的环境,使有兴趣和实力的企业都能加入到这方面的研究和开发中,逐步改变。随着声控电子产品的不断研发,语音识别技术在开发和研究上还有大量的工作需要做。
1.2 语音端点检测现状
作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅限于识别的算法,许多相关因素都直接影响着应用系统的成功与否。语音识别的对象是语音信号,端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。一般的信号流都存在一定的背景声,而语音识别的模型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出语音信号是语音识别的必要的预处理过程[2]。
随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出,而基于同一种算法又有不同的方法。例如对于熵值参数特征的检测算法,有基于信息熵[7][8]、基于自适应子带谱熵[9]、子带二次谱熵[10]、基于小波能量熵[11]、基于样本熵等的方法[12]。信息愈来愈趋近多样化。同样也有检测不同参数特征相结合来进行语音端点检测[13],比如倒谱的方法[14][15]和熵谱相结合而形成的算法[16]。
随着语音识 别应用的发展,越来越多系统将打断功能作为一种方便有效的应用模式,而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音/非语音的过 程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。例如,提示音被很强的背景噪音或其它人的讲话打断,是因为端点检测错误的 将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音。系统会表现出没有反应,在用户讲话时还在播放提示音。
第1章 绪论
1.1
语音端点检测在语音识别中占有十分重要的地位。语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步。进行有效的端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率[1]。实际运用中,通常要求首先对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点。这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。
通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。当前,语音端点检测技术还远滞于通信技术发展的脚步,在此领域还有很多问ቤተ መጻሕፍቲ ባይዱ需要研究。
对于强干扰非平稳噪声和快速变化的噪声环境,如何找到更好的端点检测方法是进一步研究的主要方向。提取人耳听觉特性可以更加有效地区分语音和噪声,从而更加准确的检测语音端点。预先未知噪声统计信息条件下的语音端点检测算法已经出现,但仍出去萌芽阶段。虽然预先未知噪声统计信息条件下的端点检测是未来语音端点检测技术的发展方向,但在理论方法和技术参数等方面还有待进一步突破[17]。
语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。语音处理内容涉及到计算机科学、模式识别、信号处理、生理学、语音学、心理学等学科,还涉及到信号和信息处理系统、通信和电子系统等具体应用领域。多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题。语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展[3]。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。
经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰[4]。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段。语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点。端点检测是语音识别、语音增强以及语音编码等中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续工作的性能得以较大提高[5],[6]。
尽管算法和方法多种多样,都是为了更简便、更易于实现、运算量小、鲁棒性好等特点,并且对于不同的信噪比具有较好的效果。
1.3 相关工作
随着生活品质的不断提高,对声控产品的要求越来越高。基于语音端点检测的识别系统则有不可替代的作用,在不同的声控产品语音识别系统中,有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。
相关文档
最新文档