声纹自动识别技术与声纹库建设应用_李敬阳

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、前言
声纹特征是人体重要生物特征之一，具有较强的稳定性和个体特殊性。

语音作为证据用于司法鉴定方面，我国在１９８８年由中国刑事警察学院文检系率先成立了全国第一个声纹鉴定实验室，引进了美国ＫＡＹ公司生产的７８００型声谱仪。

１９８９年，公安部物证鉴定中心（时为公安部第二研究所）成立了以案件鉴定为目的的声纹鉴定实验室，并引进新一代ＫＡＹ－５５００声谱仪，推动了声纹技术在办案实践中的应用。

我国司法声纹鉴定技术经过２０年的发展，以公安部物证鉴定中心、最高人民检察院检察信息技术中心、广东省公安厅、司法部司法鉴定中心等为代表的司法鉴定技术水平已经取得长足进步。

近年来在声纹自动识别领域，我国也涌现出国际一流研发团队，已经具备开展国际前沿技术研究、引领声纹信息在公安领域实现大范围使用的实力。

二、声纹自动识别技术
（一）声纹技术发展及现状
（二）声纹自动识别技术
２０世纪４０年代初，美国贝尔实验室发明了声谱仪，并且首先开始了声纹鉴定技术研究工作，并于６０～７０年代取得重要进展，取得９９．６５％的正确率。

此后声纹鉴定逐渐成为案件侦查的一个重要技术。

目前声纹鉴定技术分为专家鉴定和自动识别两大领域。

专家鉴定方面，主要采用语音学分析方法，应用语音学及统计分析技术，通过语音工作站测量、分析说话人的语音声学特征（如声源特征、发音时的声道形状特征、发音时的口腔及双唇特征以及语音信号时变频谱特征等），然后采用统计判别方法对说话人语音是否同一作出判定。

语音学分析法是目前国内外司法领域说话人普遍采用的方法，我国开展声纹鉴定的机构绝大多数均采用此方法。

声纹自动识别也称语音信号处理法，其基本原理
声纹自动识别技术与声纹库建设应用
李敬阳胡国平王莉
１．公安部物证鉴定中心２．智能语音技术公安部重点实验室
３．安徽省语音信息安全重点实验室
１２
２３
１２
摘要：关键词：本文首先简述声纹自动识别技术，接下来围绕声纹库建设应用的核心需求和技术要点，对声纹库建设所涉及的声纹
采集标准及专业设备研发、两级联动声纹库管理系统、高性能声纹检索引擎研发以及声纹采集入库等四项重要工作进行思考和分析，阐述了近两年来各项工作所取得的进展，并对声纹库建设进行展望。

声纹
自动识别　检索　数据库
声纹鉴定技术研究
（见图１）是由系统对说话人语音的特征参数进行分离提取和线性或非线性处理，建立语音模型，然后由系统运算进行模式匹配，确定出与其最接近的若干已知说话人语音，得出相似度的结果，其结果是多选的。

还可以进一步细分为说话人辨认（ＳｐｅａｋｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎ）和说话人确认（ＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ）。

声纹自动识别技术近几年在美国等国家深受重视，例如美国国家标准技术署（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮＩＳＴ）举办的说话人识别评测，就是针对实际应用需求，测试环境多、复杂度大，这些测试能够准确体现参测系统在接近真实环境中的实际表现，被认为是国际上水平最高、最严谨、最公平、结果最权威的说话人语音识别系统测试。

受邀参加评测的均为世界顶级专业研究开发机构，包括美国麻省理工大学（ＭＩＴ）、意大利都灵理工大学（ＬＰＴ）、法国科学研究中心（ＬＩＭＳＩ）等。

近几年，我国清华大学、中国科学院声学所、科大讯飞语音实验室也参加了测试。

根据２００８、２０１０年ＮＩＳＴ举办的全球说话人识别评测结果，以科大讯飞为代表的我国声纹自动识别技术已经达到国际领先水平。

衡量声纹自动识别系统水平的一项重要指标是在一定库容量下的等错误率，等错误率越低说明准确度越高。

目前国内外不同声纹自动识别系统水平参差不齐，好的系统在ＮＩＳＴ所制定的覆盖３０００多人、１０多个语种以及各种信道的复杂情况测试集合上，对于２～３分钟语音声纹识别的等错误率已经降到２．６５％，达到实际应用要求，成为司法说话人鉴定系统一个必不可缺的部分。

它能够准确快速筛选嫌疑人，并提供可靠的相似概率，其结果与专家鉴定结论相互印证，极大提高了案件侦破的效率和准确率。

但是目前多数系统在解决海量数据、不同信道以及噪声影响等关键技术方面效果还不理想，离实际应用还有一些差距。

［１］三、声纹库建设与应用
（一）声纹库建设的意义
随着近年来电信诈骗、绑架、敲诈勒索等案件呈现不断上升趋势，声纹特征在公共安全领域的应用价值日益突显。

但目前相对于指纹和ＤＮＡ而言，我国声纹的采集、建库及管理应用能力等方面还有较大差距。

当前，如何在大量人群中快速准确地排查到犯罪嫌疑人，成为破案关键所在。

据文献报道，美、英等发达国家均建有犯罪人员语音库，可以通过声纹自动识别技术快速锁定犯罪嫌疑人，将侦查范围缩至极小，案件的侦破效率很高。

声纹库建设是我国公安机关“三项建设”的重要内容之一，是集成了现代化声纹技术、信息技术和科学管理的重要公安业务基础性工作，能够为处置重大突发事件、侦破重大、疑难案件提供特殊而重要的技术支撑。

与指纹库、ＤＮＡ库类似，声纹库建设是一项有着重要实战价值
的工作，具体表现在声纹特征具有非接触式采集的优点，和已有ＤＮＡ库和指纹库相关结合，可形成立体生物特征库，建成后直接为多警种服务，是利用高科技手段在侦破案件和诉讼活动中应用的一个新的增长点，将能有效提高公安机关侦查破案的效率和能力，成为落实科技强警的重要实践之一。

声纹库建设过程为：基于标准的声纹信息采集流程，对被采集人员的声纹进行采集入库。

声纹库的典型应用模式是：当获得检材后，基于声纹检索技术，从声纹库中获得与检材声纹最相似的前若干候选（列表），这些候
前期研讨结果，声纹库管理系统拟采用省、部两级联动的声纹库存储管理系统及声纹检索引擎，在各个基层信息采集室部署专业声纹采集设备，并在市局部署声纹检索应用客户端。

整套系统各环节分工定义如图３所示。

声纹信息采集终端：主要部署在各基层信息采集室中。

采集系统按照标准声纹采集流程执行，要求填写被采集人基本信息，具体包括姓名、身份证号、籍贯、口音、文化水平、声音特点（如沙哑、尖、浑厚）等，采集端同时集成对所采集声纹信息的质量评估功能，以确保所采集的声纹信息达到入库要求。

最终合格的声纹信息（以多通道录音数据形式）及附带标注信息，通过专网上传汇总到所在省级声纹库中。

省级声纹库管理中心：配备声纹库管理系统及声纹检索引擎服务器集群。

声纹库管理系统负责管理和保存本省所有被采集人员的声纹信息。

声纹检索引擎服务器负责从上传的多通道录音数据中提取出用于声纹检索的声纹信息，并上传到部级声纹库管理中心。

声纹检索引擎服务器同时处理各应用终端提交的声纹检索任务。

部级声纹库管理中心：配备声纹库管理系统及声纹检索任务调配系统，负责保存全国声纹信息（不包括语音数据部分）以及对应的身份等信息，以便作为省级声纹库管理中心的备份。

负责声纹检索任务调配系统、处理各省中心提交的跨省声纹检索协查任务。

声纹应用终端：主要部署在各市局点，提供声纹信息查找、下载及声纹检索任务提交和检索结果查看功能。

当某个地市出现了需要进行声纹检索的需求时，可以上传检材，并指定检索范围（全省还是全国）和已知犯罪嫌疑
选（列表）提交给鉴定专家进行进一步的声纹鉴定以确定目标人或为案件侦查提供重要线索。

声纹库建设及应用模式如图２所示。

声纹建库的内容，参考指纹库及ＤＮＡ库的建设经验，主要包括以下四部分内容，下面逐一展开说明。

首先必须确保入库声纹的质量。

因此需要通过科学、系统的研究来制定针对自然人的声纹信息标准采集流程，同时需要研制声纹采集的标准设备，并建立可操作的声纹采集标准流程，形成公共安全行业标准，为声纹库建设提供标准支撑，也确保采集入库的各个声纹能够发挥应有的价值。

根据声纹自动识别技术现状及未来趋势分析，声纹采集规范的制定应该特别注重以下几个方面：
（１）有效克服信道差异对识别结果的干扰，比如采用多通道同时录音的方式提高声纹采集精度，且多个信道的组合能够有效覆盖目前各种主流信道；
（２）充分考虑声纹信息采集内容的完整性；（３）采集过程要有明确的可操作性。

高性能声纹检索引擎是声纹库建设及价值发挥的核心。

声纹库建设中，必须基于目前声纹识别领域的最新进展，并且针对基于一个声纹检材片段在百万级声纹库中进行检索以确定目标嫌疑人范围这一特殊任务，组织有实力的技术团队进行针对性攻关。

明确声纹检索的关键指标，即在有限候选前提下，声纹检索的召回率能够达到多少。

根据未来可能实际应用场景的预测和评估，声纹检索的性能应达到在包含５０万个自然人声纹的声纹库中，基于３０秒有效语音以上的检材，声纹检索引擎所给出的前１００候选中，包含真正目标人的召回率在９８％以上。

要达到上述声纹检索性能，必须解决以下技术问题：（１）文本无关的声纹识别；
（２）研究细节区分性算法来处理声纹的相似性；（３）提高声纹检索的信道鲁棒性；
（４）检索速度及可扩展性问题，针对一个检材在百万级声纹库中的声纹检索任务，耗时需要达到１００秒以内。

声纹库管理系统也是声纹库建设的重要工作，根据
１．声纹采集设备的研制及标准的制定
２．高性能声纹检索引擎的研发
３．两级联动声纹库管理系统的研制
（二）声纹库建设的主要内容
声纹鉴定技术研究
人身份信息（如籍贯范围、年龄范围、性别等），即可向省声纹库管理中心提交声纹检索任务。

在相关核心技术及声纹管理系统建设完成后，即可依据相关法律，实施被采集人员的声纹信息采集入库工作。

这项工作是一项持续的工作，甚至对于某些被采集人员存在重复采集的可能。

关于被采集人员的界定以及采集方式等，需要进一步研究并得到国家相关政策及法律法规的支持。

２００９年以来，我国声纹库建设工作已经取得如下进展：
公安部物证鉴定中心已组织编写了声纹库建设应用的标准体系表，内容涵盖声纹信息采集、管理、传输、存储和比对查询等。

已立项并编写完成了《声纹鉴定术语》、《声纹信息采集技术规范》、《声纹自动识别系统测试规范》等三个标准草案稿。

公安部物证鉴定中心与科大讯飞公司合作研发生产了具有自主知识产权的采集语音数据专用样机，可以同时获得８个通道的声音数据，且通过精细设计８个通道的相关参数，实现对实际中可能使用的５０个主流信道的覆盖度达到７５％以上。

２０１１年４月，由公安部物证鉴定中心优选国内１０家单
４．被采集人员声纹信息的采集
１．推动建立声纹库标准体系
２．完成专用采集工具的研发工作
３．组织专家对声纹库建设应用进行科学论证（三）两年来声纹库建设的工作进展
位的专家就声纹库建设规划、技术路线、关键技术和实战应用等问题进行研讨论证。

科大讯飞公司基于联合因子分析技术框架，先后研发了基于高阶泰勒展开的噪声估计、基于正反例的敏感区域得分规整算法、基于多通道录音的稳定声纹提取、基于语音识别结果的文本相关声纹比对等各项核心技术，最终声纹检索引擎达到实用水平，顺利通过了公安部物证鉴定中心２０１１年５月组织的基于真实案例的声纹识别模拟实战测试。

以上工作进展为我国声纹库建设工作奠定了良好的工作基础。

综上所述，声纹库建设应用项目是公安机关业务需
求急、科技含量高、专业技术性强、应用领域广、建设难度大的系统工程。

通过两年多的努力，目前我国已经在声纹采集标准及设备、高性能声纹检索引擎等方面取得了重要进展，为声纹库的大规模建设做好了核心技术的前期准备。

根据公安部物证鉴定中心提出的“以现实需求为导向、以服务公安为重点、积极稳妥推进、边建设边应用”的思路，各级公安机关大力支持配合，基于已经取得的诸多技术及标准成果，我国声纹库建设就一定能够取得成功，并最终与指纹库、ＤＮＡ库成为我国公安机关侦破案件的重要科技手段之一。

４．声纹检索引擎的性能及效率均达到实用水平［２］［３］
四、总结与展望
参考文献
［１］ＮＩＳＴ２００８年测试结果．Ｈｔｔｐ：／／ｗｗｗ．ｉｔｌ．ｎｉｓｔ．ｇｏｖ／ｉａｄ／ｍｉｇ／ｔｅｓｔｓ／ｓｒｅ／２００８／ｏｆｆｉｃｉａｌ＿ｒｅｓｕｌｔｓ／ｉｎｄｅｘ．ｈｔｍｌ．［２］ＫｅｎｎｙＰ．，ＢｏｕｌｉａｎｎｅＧ．，ＯｕｌｌｅｔＰ．，ａｎｄＤｕｍｏｕｃｈｅｌＰ．Ｊｏｉｎｔｆａｃｔｏｒａｎａｌｙｓｉｓｖｅｒｓｕｓｅｉｇｅｎｃｈａｎｎｅｓｉｎｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，１５（７）：２０７２－２０８４．［３］ＹｕＨｕ，ＱｉａｎｇＨｕｏ．ＩｒｒｅｌｅｖａｎｔｖａｒｉａｂｉｌｉｔｙｎｏｒｍａｌｉｚａｔｉｏｎｂａｓｅｄＨＭＭｔｒａｉｎｉｎｇｕｓｉｎｇＶＴＳａｐｐｒｏｘｉｍａｔｉｏｎｏｆａｎｅｘｐｌｉｃｉｔｍｏｄｅｌｏｆｅｎｖｉｒｏｎｍｅｎｔａｌｄｉｓｔｏｒｔｉｏｎｓ．ＩＮＴＥＲＳＰＥＥＣＨ２００７：１０４２－１０４５．［４］李敬阳．国内外声纹鉴定发展概述［Ｊ］．刑事技术，２００９（增刊２）．［５］美国国家研究理事会等（著），丁宁（译）．嗓音鉴别的理论与实践［Ｍ］．北京：群众出版社，１９８９．［６］李敬阳．说话人鉴定概述［Ａ］．第一届全国视听技术检验学术交流会论文选［Ｃ］，北京：中国人民公安大学出版社，２００７．［７］邵永军．指纹自动识别系统入库指纹及信息存在的突出问题及对策．警察技术，２０１１（６）．。