关键词识别在语音监听系统中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Scientific Journal of Information Engineering
February 2014, Volume 4, Issue 1, PP.13-18 Key Words Recognition Applied to Speech Monitoring System
Min Wang#, Huiting Ni, Lizhi Li, Xiaoqun Zhao
Electronic and Information Engineering College, Tongji University, Shanghai 201804, China
#Email: viviansea87@
Abstract
Along with our government’s paying attention to national defense and security, monitoring on telephone is more and more important. Obviously, traditional way cannot meet the requirements now, so developing automated speech monitoring technology is very urgent. This paper introduced a speech monitoring system based on key words recognition (KWR), on the basis of previous research, the system achieved the following functions---online real-time monitoring and offline non real-time detection. Through the theoretical analysis, this system can save human resources and improve the working efficiency.
Keywords: CSR; Speech Monitoring System; KWR
关键词识别在语音监听系统中的应用
王民,倪慧婷,李立志,赵晓群
同济大学电子与信息工程学院,上海201804
摘要:随着我国对国家安全事业的重视,电话内容的监听越来越重要。传统的人工方式的监听已不能适应新时期的要求,迫切要求引入自动化的语音监听技术。本文介绍了一个基于语音关键词识别的电话语音监听系统,在现阶段已经成
熟的语音关键词识别技术的基础上,实现对语音电话的在线实时监听和离线非实时的检测功能,可以大大节省人力资源,
提高整个监听系统的工作效率。
关键词:连续语音识别;语音监听系统;关键词识别
引言
自9.11事件以后,如何对国家重要安全部门和敏感的公共场合进行全天候、自动、实时的监控,已成为世界各国高度重视的一个全球性问题。在这样的背景下,视频监控技术得到了广泛的应用,即通过分散设置的摄像机记录监控场景,并集中显示,使得监控人员可以实时了解发生的事件,以及时做出反应。但是,有关研究已经表明,仅依靠视频监控中的人眼检测,即使是专业操作人员也难以构成真正有效的安全系统。因为只要连续专注于监控屏幕超过20分钟,监控人员的注意力都会降低至不能满足监控要求的水平。并且视频监控的前提是建立在要监控的嫌疑人到场的情况下的。在这种情况下,语音监听显示出了视频监听所不具有的优点:1)电话监听不需要嫌疑人到场;2)电话作为公共通讯设备现在几乎人人都会使用。因此,语音电话监听比视频监控更加有效,也就成为了近年来国家安全等领域的重要研究课题,但是纯人工监听需要24小时不间断的实时监听,大大耗费了人力和时间,而且由于人的注意力不可能长时间高度集中,有时也会把极其重要的内容忽略掉[1]。
相比于目前通常采用的人工监听方式,计算机自动处理有着速度快、效率高、漏检率低等特点,尤其是针对需要同时对多路电话进行实时监听的场合,电话内容自动检测和处理技术更是具有不可替代的作用。基于连续语音的关键词识别作为语音识别的重要分支,近年来发展迅速,并广泛应用于国防、生活等各个领域。用于监听的关键词识别系统不同于其他服务类的系统,在服务类系统中,被识别的对象往往是合作状态的,
如果识别未完成可以要求重复输入语音;而在监听系统中,被识别的对象可能是多个人的对话,并且是连续的语音,而且往往是不合作的,但如果一个关键词出现了,一般会多次出现,系统有多次识别的机会,并且发现关键词后需要人来验证。根据监听系统的这些特点,本文所设计的关键词识别系统(KWS)可以对连续语音中出现的敏感关键词及时的预警、并跟踪敏感目标,可以实现实时监听,不但可以节省人力,而且高性能的语音关键词识别系统可以做到对电话网络的实时监控。
本文在分析关键词识别技术发展现状的基础上,针对监听的特点,结合实际工作的需求和实践,探讨语音关键词识别技术在语音监听方面的优点和发展趋势,设计了一个基于语音关键词识别系统的监听系统框架,通过分析本系统使用后监听工作效率的提高说明系统的有效性和先进性。
1语音识别的分类和特点
语音识别的任务是利用计算机从语音信号中提取有用信息,并确定语音的语言含义。针对发音人的不同,可以把语音识别技术分为特定人语音识别和非特定人语音识别。前者只能识别一个或几个人的语音,而后者则可以识别任意人的语音。显然,非特定人语音识别系统更符合电话语音监听的实际需要,但它要比针对特定人的识别困难得多。针对识别内容的不同,语音识别技术主要分为三类:孤立词识别、连续语音识别和语音关键词识别[2]。
孤立词识别是识别事先已知的孤立的词,如“开机”、“关机”等,说话人说话时,每个词组之间都有明显的停顿。孤立词识别主要应用于自动控制,如机器人操纵、设备仪器操纵、智能玩具、家电的操纵等。
连续语音识别(CSR, Continuous Speech Recognition)的任务是识别日常生活、工作中自然交流的连续语音,如一个句子或一段话,话音的词、句字之间可能没有明显的停顿。连续语音识别主要应用于听写机、语音输入系统、语音监听等。
关键词识别(KWR)与连续语音识别有着密切的关系。它是从连续的语音中检测若干关键词出现在何处,因此可以说关键词识别是连续语音识别的一种。但它又不要求把整个的语音流全部识别出来,只需要提取用户关心的关键信息,并不需要系统识别出整个句子。从这点上来讲,关键词识别降低了对识别系统的要求。由于用户对关键部分的发音通常都是完整的和吐字清楚的,对非关键词部分和语法不需要过多的要求,因此从语音流中识别关键词比识别整个句子的发音要容易得多。同时也降低了对环境噪声的要求。因此,关键词识别技术用于语音监听具有比较明显的优势[2,3]。
2连续语音中的语音关键词识别及其关键技术
建立一个语音关键词识别系统(KWS)主要有两个部分:关键词检出和关键词确认。关键词检出从无限制语音流中检测出尽可能多的候选关键词,再由关键词确认部分对这些候选关键词进行置信度评估。关键词检出主要包括以下几个模块:特征提取,建立声学模型并进行训练,搜索和识别等。语音关键词识别的原理框图如图1所示。
图1 语音关键词识别的原理框图