声纹识别技术应用交流-V3

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

讯飞中文语音合成技术世界领先
• 1995年以来的历届国际、国内权威机构评比中关键指标均名列第一。1998年，合成效果率先达到可实用阶段（863专家组鉴定），2006年，合成效果率先超过普通人说话水平（国家十五863重大项目验收）。 • 快速进步的讯飞语音合成技术（自然度关键指标）：
年份自然度 1995年 <3.0 1998年 3.0 1999年 3.5 2001年 3.8 2006年 4.3
1
2 3
1
2 4
3 1
4
参赛单位有：CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、Motorola 25 研究中心、IBM 研究院等国内外43家著名语音研究机构
25
声纹产品系统结构
应用案例一
一、应用目标
通过声纹识别提升金融领域风险业务办理的安全性，整个系统对用户透明，因此用户体验不会受到影响
声纹特征的唯一性可以用来唯一确定一个用户的身份
声纹识别流程
声纹注册
−可通过自动语音提示录音完成注册过程 −支持8k/16k ，8 bit a/u-law和 16 bit pcm格式的语音 −注册有效语音在2s~60S之间，完成注册并加密存储在数据库中 −注册后的声纹可以存储在数据库中，并采用ODBC接口，支持SQL Server，ORACLE，声纹数据库提取声纹特征
– – – – – 研究积累最深厚（整合中国语音、语言研究重点机构，超过20年不懈创新）核心技术业界领先（语音合成、识别、声纹历次国际、国内权威评测名列第一）品牌影响力最大（最佳语音识别合成提供商-国内，CIPCA 2008 ）专业人才最多（全职员工超过1100人，专业技术人员超过70%）市场占有率最高（>73%,赛迪顾问-中国知名的ICT行业市场研究和顾问机构）
环境抗噪技术
100万人 1万人
>100G内存 >100CPU < 2G内存 < 10CPU
口音自适应技术超大规模解码技术
超大规模的语音数据
领先的内核算法
9 基于云计算的模型训练平台
9
口语评测技术进展
• 口语评测技术：用机器对普通话和英语发音进行打分、评价和反馈指导 • 科大讯飞评测技术是业界唯一通过国家语委鉴定达到实用水平的成果 • 截止2010年底普通话机测人数超过350万，获国家语委授予的“计算机辅助普通话水平测试特别贡献奖”
0.123 0.002
0.015 3.225 0.06
0.178 0.209
2 0.091 2
1 0.309
1 0.145
1
3.188
1
0.188 1
3
3
4
64
语音听写技术进展

语音听写技术：基于超大规模的语音数据、领先的语音核心算法、基于云计算的工程平台，讯飞在语音听写技术上取得重大突破领先的语音识别技术
M
K
H
I
A
G
D
B
F
J
E
讯飞’08
讯飞’09 讯飞’10
BC2007比赛16个参赛系统的合成效果评分
讯飞’11
J K A P O M C B H N E D Q L F G He refused to identify governments he suspected, 85% BC2008 比赛20个参赛系统的合成效果评分 but German press reports said investigations 75% 65% were focusing on North Korea and Pakistan. 55% J S B K P M V C L F O Q E G T H I R D N
• 讯飞语音技术代表了国际最高水平；负责牵头制定国家的语音技术标准； • 我国唯一以语音技术为主要产业化方向的“国家863计划成果产业化基地”， “国家规划布局内重点软件企业”。
语音产业国家队
科大讯飞长期得到高技术产业化示范工程、863项目以及国家、地方重点攻关项目支持，在历届国际、国内权威评比中关键指标均名列第一。2003年获国家科技进步奖；2005年荣获中国 “信息产业重大技术发明”奖。
提升企业形象
• 作为高科技的生物识别方案，具有独特的亮点 • 用户直接感受的系统特点，有效提升用户对企业整体的印象
衡量声纹系统效果指标
User False Reject Rate (FRR)
安全性高阈值= 4 EER: FR=FA Balance 易用性强阈值 =2
错误接受率(False Accept Rate)
ifly
本项目参测系统
葡萄牙语法国法语波斯语印地语 0.107 2.625 0.187 西班牙语海地法语达利语乌尔都语
俄语 1 1 乌克兰语
CMU、新加坡IIR、澳大利最小错误代 i4u 亚新南威尔士、南洋 0.003 0.06 价理工合作提交的系统本项目系统 1 Loquendo 1 lpt 意大利公司排名
InterVeri
DB2
声纹不是音频文件，即使被偷窃也不能重播。
文本无关确认
IVR
IVR WEB
用户
安全
自动交互
人工坐席
InterVeri 身份确认
声纹验证时有效语音长度8-60s之间，最低可支持15s有效语音，以上数据可以根据需要进行配置, 与语音无关，内容和注册也无关
文本相关确认
文本识别提取声纹特征结果通过特征比对拒绝特征比对
声纹项目实施过程
定制优化
基线系统
需求分析
采用基础语料数据，训练提供基本业务包，建设基线系统，通过内部测试，效果达到业务基本要求(一个月）
试运行
选取试点进行试运营，收集实际应用语料，进行分析与优化，对系统参数和模型进行自适应（三个月）
上线投产
效果、性能、稳定性达到项目要求，正式上线，持续统计分析应用情况，进行有针对性的优化提升，不断提升识别率和减少环境多系统的影响
2009年高混淆方言对测试八项指标六项第一名
2008 年 NIST 说话人识别大赛项目组参测系统核心技术指标评比结果 2009 年 NIST 语种识别大赛项目组参测系统核心技术指标评比结果
代号代表机构普通话广东话美国英语印度英语三大核心测试指标高混淆方言对识别测试 MinDCF EER DCF 在44个系统中排名 MinDCF EER DCF 波斯尼亚语、克罗 3 地亚语
可以作为声纹密码，一对一服务准确度很高
声纹系统的优点
• 与其他生物识别技术（如脸型、掌形、虹膜识别等）相比较：
远程控制表现更突出
1
• 非接触式识别，唯一可用于远程控制领域的生物识别技术 • 更安全可靠
有效提升用户体验
2
3
• 不涉及隐私，用户无任何心理障碍，用户接受程度高 • 在自然对话中即可实现声纹识别
根据系统提示自动完成身份确认，依照权限进入下一步操作
ISV2.1 （Verification）
当确认是VIP客户时提醒坐席人员
应用案例二
一、应用流程
①监控矫正对象身份
社区矫正管理平台
②发起要求进行声纹验证
④返回矫正对象身份是否通过验证
③说出最近一段时间近况
应用案例二
一、系统目标
保外人员按照规定需要定期至当地派出所汇报当前情况，管理成本较高，采用声纹识别系统和手机定位可以有效的进行自动监控。
声纹密码系统
注册和测试：2秒左右
第三方评测
由NIST（美国国家标准技术研究院）举办，是国际上规模与影响力最大的说话人识别评测 1996年第一次评测，之后每两年评测一次，2008年说话人识别任务难度接近大规模实际应用环境（不同信道、不同环境干扰）科大讯飞首次参赛就获得综合指标第一名的好成绩
三大核心测试指标 MinDCF 0.107 0.123 0.145 EER 2.625 3.225 3.188 DCF 0.187 0.178 0.188 在44个系统中排名 MinDCF EER DCF
代号
代表机构
ifly
i4u lpt
科大讯飞
CMU、新加坡IIR与科大讯飞、澳大利亚新南威尔士、南洋理工合作提交的系统意大利Loquendo公司
通过文本内容识别+声纹确认，可有效防止录音欺骗。
声纹密码确认
提取声纹特征结果通过
特征比对
拒绝
注册时需要将密码重复5遍，验证身份时说出之前的密码才可以通过验证，该方式识别率高，录音时间短。
声纹鉴别
提取声纹特征
特征比对
ID
得分
99
65 60 60
通过和数据库中已经注册的所有人做对比，挑选出最有可能的说话人列表
被评价为“普通话推广历史上一次重大技术革命”
面向移动互联网的讯飞语音云战略
2010年10月28日，讯飞语音云发布会在京召开，宣告中国移动互联网迈入语音时代

讯飞“语音云”：全球首个同时提供语音合成、语音搜索、语音听写等智能语音交互能力的移动互联网智能交互平台语音输入法（体验版）：智能手机安装后，可以用语音来进行QQ、短信、微博等内容的输入，使原来输入繁琐的短信书写和在线手机聊天等应用更加便捷有趣
声纹识别两个方向
文本无关声纹识别
注册与测试可采用任意不同文本注册与测试录音要求较长（注册>20s，测试>8s）注册与测试语音不必强求一致
文本相关声纹识别
注册与测试必须采用相同的文本注册与测试录音要求较短 (注册、测试均只需1~3s) 注册与测试录音尽量要求相似
适合后台监控，海量数据检索虚警相对较高

11
牵头制定中文语音标准
中文语音交互技术标准工作组成立大会
目录
一二
科大讯飞公司介绍声纹识别技术介绍
声纹的独特性
• 声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。每个人，无论别人说话模仿的多么相似，都具有独一无二的声纹，这是由每个人的发声器官在成长过程中形成的。
原文：9，这是乔丹参加1984年奥运会和1992年奥运会时的球衣号码。在1984年洛杉矶奥运会上，由于前苏联以及东欧诸国……
STOP
英文合成国际评测六连冠
合成效果
讯飞’06 讯飞’07
80% 70% 60% 50% C 75% 70% 65% 60% 55% L
BC2006比赛14个参赛系统的合成效果评分
■
其他参赛单位：
微软、IBM 美国 MIT、CMU 英国 Edinburgh 日本 NITech、ATR „
100% 0% A 90% 70% 50% M J T S K
BC2009比赛19个参赛系统的合成效果评分
I
B
H
L

O
D
J
E
Q
R W P
T M
BC2010比赛17个参赛系统的合成效果评分
F
V
S
声纹识别技术应用交流
安徽科大讯飞信息科技股份有限公司 2011 年 12 月
目录
一二
科大讯飞公司简介声纹识别技术介绍
公司简介
• 科大讯飞—领先的专业语音技术提供商，主要研发及产业化方向包括语音合成、语音识别、声纹鉴别、中英文语言学习、自然语言处理等。
快速发展的科大讯飞
• 1999年成立，2008年5月在深交所挂牌上市（股票代码： 002230，中国语音技术领域唯一上市公司； • 科大讯飞在中文语音技术领域：
B
P
R
U
G
H
N
C
L
O
Q
7
国际语音识别评比第一
评测时间：2008~2009
评测对象：语音识别技术
评测单位：美国国家标准技术研究院（NIST) 参赛单位：麻省理工学院、卡内基梅隆大学（CMU）、斯坦福研究中心、IBM、Motorola、Loquendo等评测结果：2008年说话人识别测试三项指标两项第一名
指非本人被错误的认为是本人的次数占总共测试次数的比值错误拒绝率(False Reject Rate) 指本人被错误的认为是非本人的次数占总共测试次数的比值相等错误率(Equal Error Rate)
指FA等于FR时的百分比。是衡量
声纹验证效果的重要依据
Imposter False Accept Rate (FAR)
声纹系统准确率
– 基于科大讯飞深厚的研究积累，整合国际说话人识别大赛第一名的领先技术，提供业界领先的高准确率，帮助语音应用获得最佳安全性。
系统
InterVeri(非声纹密码系统)
EER
综合7% 0.5% （冒认者不知道密码） 2.5% （冒认者知道密码）
时长标准
注册语音：20秒测试语音：10秒