中科大语音实验室简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(BUT)、清华大学等
8个高混淆方言对 三大核心测试指标 通用测试 在参测系统中排名 第一名 DCF Min第二名 EER DCF 第三名 DCF
测试时间 测试时间
第一名 Min 第二名 DCF
第三名 EER
2009 2008
NELSLIP 0.107 LPT
MITLL 2.625
MITLL 0.187
–对特定发音人的模仿
STOP
近期成果与演示: 表现力与个性化
• 具有情感的语音合成 • 歌唱合成
语音识别演示:讯飞语点
• 2012年3月22日,以“语音点亮生活”为主题的科 大讯飞新一代“语音云”发布暨语音开发者大会在 北京国家会议中心隆重举行 • Free download: http://www.voicecloud.cn/index.html
Thanks for your attention!
1998年 3.0
1999年 3.5
2001年 3.8
2003年 4.3
STOP
• 2009年 – 中文合成系统 – 英文合成系统
STOP
近期成果与演示: 可训练参数语音合成
• 可训练参数语音合成
– 基于HMM对语音进行建模,并通过训练得到合成所 需的参数预测模型 – 基本不需要人工干预的情况下自动、快速地进行系 统构建 – 合成语音具有很高的自然度 – 音质相比拼接合成尚有一定差距
• 中文合成系统 • 英文合成系统
STOP
近期成果与演示: 方言和少数民族语音合成技术
藏语合成系统: 各种方言合成系统:
四川话
分词: 文本:
广东话
发音文本:
18
近期成果与演示: 多语种语音合成
科大讯飞是中国最大的智能语音技术提供商,在语音合成、语音识 别等多项技术上处于国际领先水平
IFLYTEK is the largest provider of speech and language technology in China, holding the worldwide leading technologies in speech synthesis, speech recognition, etc. 私達の会社は中国では ぃちばん大きぃ音声合成の技術のプロバイダーで、 音声合成、音声認識 などの技術の上で国際的なトップ水準があります
본 회사는 중국 최대 디지털 음성 기술 제공자로서 음성합성, 음성인식 등 다양한 기술이 이미 국제 기준에 부합하여 높은 수준을 자랑하고 있습니다.
欧洲语种 意大利语
德语
法语
近期成果与演示: 表现力与个性化
• 语音合成系统的话者转换
–利用少量目标发音人数据构建合成系统
•源合成系统(1000句) •目标合成系统(1000句) •话者转换系统(5句)
近期成果与获奖
• • KD系列汉语文语转换系 统获2002年国家科技进步 二等奖
近期成果与获奖
• • “智能语音交互关键技术 及应用开发平台”,2011 年度国家科技进步二等奖 (证书号:2011-J-220-201-D01)
近期成果与获奖
“智能语音交互关 键技术及应用平 台 ”获得2008年 度安徽省科技进 步奖一等奖
1NELSLIP 1
2NELSLIP 2
LPT 3
2011 2010
NELSLIP0.33 BLZ
MITLL 5.872
MITLL 0.405
BLZ 2
2009,2011年语种识别测试中获8个高混淆度方言对测试冠军,通用测试亚军 2008,2010年连续两届说话人评测中关键指标均保持前两名
近期成果与获奖
1. 国家863十一五重点项目:多语言语音合成关键技术 与应用产品开发(课题编号:2006AA010104)。 2. 国家863十一五专题课题:基于HMM模型的高表现力多 语种语音合成技术(课题编号:2006AA01Z137)。 3. 高技术研究项目两项 4. 中德合作科研项目(PPP):面向德国汉语学习者的 普通话发音训练系统 5. 科技部标准研究专项:语音识别与合成技术标准研究。
• 研究成果获2010年度 IEEE信号处理学会最佳青年作者论文奖( IEEE Signal Processing Society Young Author Best Paper Award)
–语音及语言信息处理国家工程实验室获批建设
近期成果与演示: 大语料库拼接合成技术
年份
自然度
1995年 <3.0
在研项目
1. 面向移动互联网的新一代语音合成关键技术及系统,安徽省科技厅 (11010202190),2011-2012 。
2.
3. 4. 5. 6. 7. 8.
结合发音动作参数的统计建模语音合成方法研究,国家自然科学基金委员会 (60905010), 2010-2012
用于灵活可控语音合成的发音动作参数-声学参数联合建模方法研究,国家自然科学基 金委-英国爱丁堡皇家学会国际合作交流项目(61111130120), 2011-2012 高噪声环境下的语音增强与主动降噪方法研究,安徽省科技厅(11010202188),20112012 高技术项目,编号:40901040102,2011-2016 声纹识别中合成语音的鲁棒性研究,国家自然科学基金委(60970161),2010-2012 基于情境建模的高效视觉匹配方法及其应用研究,国家自然科学基金委(61172158), 2011-2013 语种识别技术研究,华为公司(YJCB2011048HW),2012 –2013
0.5 0 A M J T F V S B P R U G H N C L O Q
近期成果与获奖
• 2011年国际NIST语种识别最混淆方言对测试第一名
评测时间:2008-2011
评测对象:声纹语种识别技术
评测单位:美国国家标准技术研究院(NIST) 参赛单位:麻省理工学院、法国科学研究中心(LIMSI ),捷克布尔诺科技大学
研究队伍
• • • • • • • • • • 王仁华 戴礼荣 刘庆峰 胡 郁 郭 武 凌震华 宋 彦 邓 力 江 辉 在读研究生 教授 (博导) 教授 (博导) 讲座教授(博导) 讲座教授 付教授,博士 付教授,博士 博士 客座教授 (微软Redmond研究院) 客座教授 (加拿大York University) 博士生 9名,硕士生 25名
国家语音及语言工程实验室 科大讯飞语音实验室
郭武
主要内容
√ √ √ √ √ √ 宗旨 研究队伍 研究方向 在研项目 学术交流与合作 近期成果与获奖
宗
旨
本实验室是中国科技大学、国家智能计算机研究开发中心、安徽科
大讯飞信息科技有限公司的联合实验室,主要开展人机语音交互技 术的研究与开发。
以中文信息处理为核心,建成国内一流,国际上有声誉的高水平语 音技术研究实验室。 面向国家重大需求,研究语音信息处理应用技术。 为国内语音技术企业或行业提供新技术,增强国内语音技术企业在 国内外市场的竞争能力。 创造进行高水平科研与开发的环境与平台,吸引国内外信息领域优 秀人材。
研究方向
一、语音合成 (Speech Synthesis) 二、语音识别 (Speech Recognition)
计 算 机
三、说话人识别 (Speaker Recognition)
四、语种识别 (Language Recognition)
五、语音评测 (Speech Assessment)
近年完成的项目
5 4.5 4.8 4.2 3.8 3.7 3.3 3.3
Challenge 测试结果(自然度指标) 迄今唯一自然度 大于4分的参测系统
3.1 3 3
位
Fra Baidu bibliotek
–参 测 系
2.1 1.9 1.6
–MOS
4 3.5 3 2.5 2 1.5 1
2.7
2.7
2.6
2.6
2.6
2.5
统
编
号 –2006~2011年Blizzard Challenge大赛六连冠 匿
最近期成果与获奖
• 2011年国际英文语音合成大赛再次荣获第一名
评测时间:2006~2011 评测对象:英文语音合成技术 评测单位:“Blizzard Challenge”国际英文语音合成大赛 参赛单位:IBM、微软、MIT、CMU、英国爱丁堡大学、日本ATR等
–Blizzard –自然语 音–本项目单
学术交流与合作
1. 第九届全国人机语音通讯学术会议,于2007年10月21日-24日在安徽省黄山市召 开; 2. 第六届中文口语语言处理国际会议 (The Sixth International Symposium on Chinese Spoken Language Processing ),于2008年12月16日-19日在云南省 昆明市召开; 3. 中德合作科研项目(PPP),柏林应用科学大学计算机科学及传媒系/ Computer Science and Media Department , TFH Berlin; 4. 组织研究小组参加国际语音处理技术的学术性比赛:Blizzard Challenge 2006-2011; NIST-SLE-2007&2009&2011,NIST-SRE-2008&2010 5. 2007年和2008年度:日本东京大学和名古屋科技大学开展学术交流;2009-2012 年英国爱丁堡大学学生交流2人 6. 学生及教师交流:新加波,日本东京大学和名古屋科技大学,英国爱丁堡大学, 加拿大约克大学,微软亚洲研究院,约12人次。 7. 支持学生参加国际会议。
8个高混淆方言对 三大核心测试指标 通用测试 在参测系统中排名 第一名 DCF Min第二名 EER DCF 第三名 DCF
测试时间 测试时间
第一名 Min 第二名 DCF
第三名 EER
2009 2008
NELSLIP 0.107 LPT
MITLL 2.625
MITLL 0.187
–对特定发音人的模仿
STOP
近期成果与演示: 表现力与个性化
• 具有情感的语音合成 • 歌唱合成
语音识别演示:讯飞语点
• 2012年3月22日,以“语音点亮生活”为主题的科 大讯飞新一代“语音云”发布暨语音开发者大会在 北京国家会议中心隆重举行 • Free download: http://www.voicecloud.cn/index.html
Thanks for your attention!
1998年 3.0
1999年 3.5
2001年 3.8
2003年 4.3
STOP
• 2009年 – 中文合成系统 – 英文合成系统
STOP
近期成果与演示: 可训练参数语音合成
• 可训练参数语音合成
– 基于HMM对语音进行建模,并通过训练得到合成所 需的参数预测模型 – 基本不需要人工干预的情况下自动、快速地进行系 统构建 – 合成语音具有很高的自然度 – 音质相比拼接合成尚有一定差距
• 中文合成系统 • 英文合成系统
STOP
近期成果与演示: 方言和少数民族语音合成技术
藏语合成系统: 各种方言合成系统:
四川话
分词: 文本:
广东话
发音文本:
18
近期成果与演示: 多语种语音合成
科大讯飞是中国最大的智能语音技术提供商,在语音合成、语音识 别等多项技术上处于国际领先水平
IFLYTEK is the largest provider of speech and language technology in China, holding the worldwide leading technologies in speech synthesis, speech recognition, etc. 私達の会社は中国では ぃちばん大きぃ音声合成の技術のプロバイダーで、 音声合成、音声認識 などの技術の上で国際的なトップ水準があります
본 회사는 중국 최대 디지털 음성 기술 제공자로서 음성합성, 음성인식 등 다양한 기술이 이미 국제 기준에 부합하여 높은 수준을 자랑하고 있습니다.
欧洲语种 意大利语
德语
法语
近期成果与演示: 表现力与个性化
• 语音合成系统的话者转换
–利用少量目标发音人数据构建合成系统
•源合成系统(1000句) •目标合成系统(1000句) •话者转换系统(5句)
近期成果与获奖
• • KD系列汉语文语转换系 统获2002年国家科技进步 二等奖
近期成果与获奖
• • “智能语音交互关键技术 及应用开发平台”,2011 年度国家科技进步二等奖 (证书号:2011-J-220-201-D01)
近期成果与获奖
“智能语音交互关 键技术及应用平 台 ”获得2008年 度安徽省科技进 步奖一等奖
1NELSLIP 1
2NELSLIP 2
LPT 3
2011 2010
NELSLIP0.33 BLZ
MITLL 5.872
MITLL 0.405
BLZ 2
2009,2011年语种识别测试中获8个高混淆度方言对测试冠军,通用测试亚军 2008,2010年连续两届说话人评测中关键指标均保持前两名
近期成果与获奖
1. 国家863十一五重点项目:多语言语音合成关键技术 与应用产品开发(课题编号:2006AA010104)。 2. 国家863十一五专题课题:基于HMM模型的高表现力多 语种语音合成技术(课题编号:2006AA01Z137)。 3. 高技术研究项目两项 4. 中德合作科研项目(PPP):面向德国汉语学习者的 普通话发音训练系统 5. 科技部标准研究专项:语音识别与合成技术标准研究。
• 研究成果获2010年度 IEEE信号处理学会最佳青年作者论文奖( IEEE Signal Processing Society Young Author Best Paper Award)
–语音及语言信息处理国家工程实验室获批建设
近期成果与演示: 大语料库拼接合成技术
年份
自然度
1995年 <3.0
在研项目
1. 面向移动互联网的新一代语音合成关键技术及系统,安徽省科技厅 (11010202190),2011-2012 。
2.
3. 4. 5. 6. 7. 8.
结合发音动作参数的统计建模语音合成方法研究,国家自然科学基金委员会 (60905010), 2010-2012
用于灵活可控语音合成的发音动作参数-声学参数联合建模方法研究,国家自然科学基 金委-英国爱丁堡皇家学会国际合作交流项目(61111130120), 2011-2012 高噪声环境下的语音增强与主动降噪方法研究,安徽省科技厅(11010202188),20112012 高技术项目,编号:40901040102,2011-2016 声纹识别中合成语音的鲁棒性研究,国家自然科学基金委(60970161),2010-2012 基于情境建模的高效视觉匹配方法及其应用研究,国家自然科学基金委(61172158), 2011-2013 语种识别技术研究,华为公司(YJCB2011048HW),2012 –2013
0.5 0 A M J T F V S B P R U G H N C L O Q
近期成果与获奖
• 2011年国际NIST语种识别最混淆方言对测试第一名
评测时间:2008-2011
评测对象:声纹语种识别技术
评测单位:美国国家标准技术研究院(NIST) 参赛单位:麻省理工学院、法国科学研究中心(LIMSI ),捷克布尔诺科技大学
研究队伍
• • • • • • • • • • 王仁华 戴礼荣 刘庆峰 胡 郁 郭 武 凌震华 宋 彦 邓 力 江 辉 在读研究生 教授 (博导) 教授 (博导) 讲座教授(博导) 讲座教授 付教授,博士 付教授,博士 博士 客座教授 (微软Redmond研究院) 客座教授 (加拿大York University) 博士生 9名,硕士生 25名
国家语音及语言工程实验室 科大讯飞语音实验室
郭武
主要内容
√ √ √ √ √ √ 宗旨 研究队伍 研究方向 在研项目 学术交流与合作 近期成果与获奖
宗
旨
本实验室是中国科技大学、国家智能计算机研究开发中心、安徽科
大讯飞信息科技有限公司的联合实验室,主要开展人机语音交互技 术的研究与开发。
以中文信息处理为核心,建成国内一流,国际上有声誉的高水平语 音技术研究实验室。 面向国家重大需求,研究语音信息处理应用技术。 为国内语音技术企业或行业提供新技术,增强国内语音技术企业在 国内外市场的竞争能力。 创造进行高水平科研与开发的环境与平台,吸引国内外信息领域优 秀人材。
研究方向
一、语音合成 (Speech Synthesis) 二、语音识别 (Speech Recognition)
计 算 机
三、说话人识别 (Speaker Recognition)
四、语种识别 (Language Recognition)
五、语音评测 (Speech Assessment)
近年完成的项目
5 4.5 4.8 4.2 3.8 3.7 3.3 3.3
Challenge 测试结果(自然度指标) 迄今唯一自然度 大于4分的参测系统
3.1 3 3
位
Fra Baidu bibliotek
–参 测 系
2.1 1.9 1.6
–MOS
4 3.5 3 2.5 2 1.5 1
2.7
2.7
2.6
2.6
2.6
2.5
统
编
号 –2006~2011年Blizzard Challenge大赛六连冠 匿
最近期成果与获奖
• 2011年国际英文语音合成大赛再次荣获第一名
评测时间:2006~2011 评测对象:英文语音合成技术 评测单位:“Blizzard Challenge”国际英文语音合成大赛 参赛单位:IBM、微软、MIT、CMU、英国爱丁堡大学、日本ATR等
–Blizzard –自然语 音–本项目单
学术交流与合作
1. 第九届全国人机语音通讯学术会议,于2007年10月21日-24日在安徽省黄山市召 开; 2. 第六届中文口语语言处理国际会议 (The Sixth International Symposium on Chinese Spoken Language Processing ),于2008年12月16日-19日在云南省 昆明市召开; 3. 中德合作科研项目(PPP),柏林应用科学大学计算机科学及传媒系/ Computer Science and Media Department , TFH Berlin; 4. 组织研究小组参加国际语音处理技术的学术性比赛:Blizzard Challenge 2006-2011; NIST-SLE-2007&2009&2011,NIST-SRE-2008&2010 5. 2007年和2008年度:日本东京大学和名古屋科技大学开展学术交流;2009-2012 年英国爱丁堡大学学生交流2人 6. 学生及教师交流:新加波,日本东京大学和名古屋科技大学,英国爱丁堡大学, 加拿大约克大学,微软亚洲研究院,约12人次。 7. 支持学生参加国际会议。