科大讯飞智能语音电视解决方案——电视语点
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科大讯飞智能语音电视解决方案 ——电视语点
安徽科大讯飞信息科技股份有限公司 2012年7月
主要议题 • 讯飞语音技术介绍 • 电视语点系统介绍
智能语音交互技术概述
• 智能语音交互技术:使信息时代的各种信息机器像人一样“能 听会说”的技术,包括语音合成、语音识别和语音评测等 可以将任意的文字信息转化为自然流畅的 语音,相当于给机器装上了人工嘴巴 可以将语音中内容、说话人、语种等信息 识别出来,相当于给机器装上了人工耳朵 可以进行发音标准评价和错误反馈指导, 相当于把机器变成语音评测老师
互方式的根本性变革,具有广阔产业化前景
2007-2010年 先后发布电话语音搜索, 互联网移动语音搜索, Google Voice Action
2011年10月 iPhone4S发布,重点推 出Siri讯飞语点,据悉苹 果Siri的中文版将于3月 正式推出,2月已开始中 文的测试工作。
科大讯飞简介
欢迎参加科大讯飞召开的 新一代语音云发布暨语音开发者大会!
中文合成
多语种合成样例 中 意 藏 英 葡 维 法 日 粤 俄 越南 川 西 印地 停止
全自动构建的个性化合成系统
• 基于发音模拟、声纹识别、语音文本转写及韵律自动标 注技术,实现全自动构建的个性化语音合成系统
个性化合成样例
二、业界领先的语音识别技术
噪声环境识别性能提升 30.4%
口音适应性能相对提升 50.3%
个性化词汇识别性能提升 36.3%
NIST说话人识别评测名列前茅
由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说 话人识别评测 1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规 模实际应用环境(不同信道、不同环境干扰) 科大讯飞在2008、2010年连续两届评测中均处于国际领先地位
中国语音产业唯一的国家863计划成果产业化基地、国家规划 布局内重点软件企业和唯一的语音上市公司
股票代码002230,市值近100亿 ,2010年营收4.36亿,2011年5.58亿 研究积累最深厚(整合中国语音、语言研究重点机构,超过20年不懈 创新) 核心技术最领先(语音合成、识别、声纹历次国际、国内权威评测名 列第一) 专业人才最多(全职员工超过1500人,专业技术人员超过1000人) 市场占有率最高(>73%,CCID-中国知名的市场研究和顾问机构 )
5
智能语音交互技术时代-中国
• 社会信息服务:满足网络时代普通中国百姓通 过电话、手机等获取互联网信息的需求
政府 银行 电信 体育 证券 交通 6
智能语音交互技术时代-国内
车载领域 手机领域 电视家电 教育电子
核心技术的国家队
中国语ຫໍສະໝຸດ Baidu产业唯一的国家级企业技术中心、国家规划布局 内重点软件企业和语音上市公司,荣获2次国家科技进步奖
国际英文语音合成大赛六联冠
评测时间:2006~2011 评测对象:英文语音合成技术 评测单位:“Blizzard Challenge”国际英文语音合成大赛 He refused to identify governments he suspected, 参赛单位:IBM、微软、MIT、CMU、英国爱丁堡大学、日本ATR等 but German press reports said investigations 评测结果:
智能语音交互技术时代-国际
2007年3月 2009年11月 以8亿美金价格收购语 与Nunace就智能语音 音搜索业务公司TellMe, 技术展开战略合作。 加大对语音技术投入 自上个世纪70年代就 2009年10月 开始进行语音技术研 微软发布WIN7操作系统, 究,发布了ViaVoice, 语音是人类沟通最自然便捷的方式。语音技术可带来人机交 集成语音识别技术
were focusing on North Korea and Pakistan
Blizzard Challenge 测试结果(自然度指标)
迄今唯一自然度 大于4分的参测系统
3.8 3.7 3.3 3.3 3.1 3 3 2.7 2.7 2.6 2.6 2.6 2.5 2.1 1.9 1.6
英文合成系统连续六年蝉联自然度评测指标第一名
– 2011年9月27日,“语音及语言信息处理国家工程实验室” 揭牌仪式在中国科学技术大学西区活动中心隆重举行!
一、世界领先的语音合成技术
• 语音合成系统最关键的是自然度综合指标:
年份 自然度
1995年 <3.0
1998年 3.0
1999年 3.5
2001年 3.8
2010年 4.5
STOP
原文:9,这是乔丹参加1984年奥运会和1992年奥运会时的球 衣号码。在1984年洛杉矶奥运会上,由于前苏联以及东欧诸国……
自然语音
4.8 4.2
■
科大讯飞参测系统
5 4.5 4
MOS
3.5 3 2.5 2 1.5 1 0.5 0 A M J T
参 测 系 统 编 号 匿 名
F
V
S
B
P
R
U
G
H
N
C
L
O
Q
覆盖面逐步扩大的多语种合成系统
• 多语种合成逐步实现世界语言覆盖 正在研发德、意、
英文合成 葡、阿拉伯、印地 等语种合成 法、俄、西、日、 韩等语种合成
科大讯飞产学研一体化研发体系
合作项目 清华 社科院 语言所 中科院
联合实验室
约克大学
大学
中科院计算所
自动化所
合肥工业大学
语音及语言信息处理 国家工程实验室
新疆 大学
哈尔滨工业大学
科大讯飞·中国科学技术大学
同济大学
内蒙古 大学
浙江大学
云南 大学
西藏 大学
国家工程实验室正式获批运行
• 国家工程实验室揭牌仪式
90.15% 81.83%
92.39% 89.21%
短信、微博 讯飞语音云
搜索、导航 系统N 系统G 系统Q
数字、数值
备注:该结果根据工信部软件促进中心《语音识别测试标准》测试得出
语音识别三大技术创新
• 提出PLA、JFA、IVN综合噪声补偿算法,系统抗噪性能达到国际领先水平 • 实现MSDT声学模型训练算法,大幅增强系统口音适应性能 • 提出LSA语言模型自学习算法,个性化词汇识别准确度首次达到实用
• 在语音云规模运营的基础上,核心效果持续进化,通用识别准确性大幅提升 • 多项核心技术取得突破,有效解决抗噪、口音适应、个性化词汇等技术难题
语音识别通用准确性大幅提升
面向移动互联应用环境的中文连续语音识别技术性能(识别准确率)
95% 90% 85% 80% 75% 70% 65% 60%
89.56% 81.38%
安徽科大讯飞信息科技股份有限公司 2012年7月
主要议题 • 讯飞语音技术介绍 • 电视语点系统介绍
智能语音交互技术概述
• 智能语音交互技术:使信息时代的各种信息机器像人一样“能 听会说”的技术,包括语音合成、语音识别和语音评测等 可以将任意的文字信息转化为自然流畅的 语音,相当于给机器装上了人工嘴巴 可以将语音中内容、说话人、语种等信息 识别出来,相当于给机器装上了人工耳朵 可以进行发音标准评价和错误反馈指导, 相当于把机器变成语音评测老师
互方式的根本性变革,具有广阔产业化前景
2007-2010年 先后发布电话语音搜索, 互联网移动语音搜索, Google Voice Action
2011年10月 iPhone4S发布,重点推 出Siri讯飞语点,据悉苹 果Siri的中文版将于3月 正式推出,2月已开始中 文的测试工作。
科大讯飞简介
欢迎参加科大讯飞召开的 新一代语音云发布暨语音开发者大会!
中文合成
多语种合成样例 中 意 藏 英 葡 维 法 日 粤 俄 越南 川 西 印地 停止
全自动构建的个性化合成系统
• 基于发音模拟、声纹识别、语音文本转写及韵律自动标 注技术,实现全自动构建的个性化语音合成系统
个性化合成样例
二、业界领先的语音识别技术
噪声环境识别性能提升 30.4%
口音适应性能相对提升 50.3%
个性化词汇识别性能提升 36.3%
NIST说话人识别评测名列前茅
由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说 话人识别评测 1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规 模实际应用环境(不同信道、不同环境干扰) 科大讯飞在2008、2010年连续两届评测中均处于国际领先地位
中国语音产业唯一的国家863计划成果产业化基地、国家规划 布局内重点软件企业和唯一的语音上市公司
股票代码002230,市值近100亿 ,2010年营收4.36亿,2011年5.58亿 研究积累最深厚(整合中国语音、语言研究重点机构,超过20年不懈 创新) 核心技术最领先(语音合成、识别、声纹历次国际、国内权威评测名 列第一) 专业人才最多(全职员工超过1500人,专业技术人员超过1000人) 市场占有率最高(>73%,CCID-中国知名的市场研究和顾问机构 )
5
智能语音交互技术时代-中国
• 社会信息服务:满足网络时代普通中国百姓通 过电话、手机等获取互联网信息的需求
政府 银行 电信 体育 证券 交通 6
智能语音交互技术时代-国内
车载领域 手机领域 电视家电 教育电子
核心技术的国家队
中国语ຫໍສະໝຸດ Baidu产业唯一的国家级企业技术中心、国家规划布局 内重点软件企业和语音上市公司,荣获2次国家科技进步奖
国际英文语音合成大赛六联冠
评测时间:2006~2011 评测对象:英文语音合成技术 评测单位:“Blizzard Challenge”国际英文语音合成大赛 He refused to identify governments he suspected, 参赛单位:IBM、微软、MIT、CMU、英国爱丁堡大学、日本ATR等 but German press reports said investigations 评测结果:
智能语音交互技术时代-国际
2007年3月 2009年11月 以8亿美金价格收购语 与Nunace就智能语音 音搜索业务公司TellMe, 技术展开战略合作。 加大对语音技术投入 自上个世纪70年代就 2009年10月 开始进行语音技术研 微软发布WIN7操作系统, 究,发布了ViaVoice, 语音是人类沟通最自然便捷的方式。语音技术可带来人机交 集成语音识别技术
were focusing on North Korea and Pakistan
Blizzard Challenge 测试结果(自然度指标)
迄今唯一自然度 大于4分的参测系统
3.8 3.7 3.3 3.3 3.1 3 3 2.7 2.7 2.6 2.6 2.6 2.5 2.1 1.9 1.6
英文合成系统连续六年蝉联自然度评测指标第一名
– 2011年9月27日,“语音及语言信息处理国家工程实验室” 揭牌仪式在中国科学技术大学西区活动中心隆重举行!
一、世界领先的语音合成技术
• 语音合成系统最关键的是自然度综合指标:
年份 自然度
1995年 <3.0
1998年 3.0
1999年 3.5
2001年 3.8
2010年 4.5
STOP
原文:9,这是乔丹参加1984年奥运会和1992年奥运会时的球 衣号码。在1984年洛杉矶奥运会上,由于前苏联以及东欧诸国……
自然语音
4.8 4.2
■
科大讯飞参测系统
5 4.5 4
MOS
3.5 3 2.5 2 1.5 1 0.5 0 A M J T
参 测 系 统 编 号 匿 名
F
V
S
B
P
R
U
G
H
N
C
L
O
Q
覆盖面逐步扩大的多语种合成系统
• 多语种合成逐步实现世界语言覆盖 正在研发德、意、
英文合成 葡、阿拉伯、印地 等语种合成 法、俄、西、日、 韩等语种合成
科大讯飞产学研一体化研发体系
合作项目 清华 社科院 语言所 中科院
联合实验室
约克大学
大学
中科院计算所
自动化所
合肥工业大学
语音及语言信息处理 国家工程实验室
新疆 大学
哈尔滨工业大学
科大讯飞·中国科学技术大学
同济大学
内蒙古 大学
浙江大学
云南 大学
西藏 大学
国家工程实验室正式获批运行
• 国家工程实验室揭牌仪式
90.15% 81.83%
92.39% 89.21%
短信、微博 讯飞语音云
搜索、导航 系统N 系统G 系统Q
数字、数值
备注:该结果根据工信部软件促进中心《语音识别测试标准》测试得出
语音识别三大技术创新
• 提出PLA、JFA、IVN综合噪声补偿算法,系统抗噪性能达到国际领先水平 • 实现MSDT声学模型训练算法,大幅增强系统口音适应性能 • 提出LSA语言模型自学习算法,个性化词汇识别准确度首次达到实用
• 在语音云规模运营的基础上,核心效果持续进化,通用识别准确性大幅提升 • 多项核心技术取得突破,有效解决抗噪、口音适应、个性化词汇等技术难题
语音识别通用准确性大幅提升
面向移动互联应用环境的中文连续语音识别技术性能(识别准确率)
95% 90% 85% 80% 75% 70% 65% 60%
89.56% 81.38%