盘点语音识别芯片原厂、方案、平台

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别分类

按照使用者的限制而言,语音识别芯片可以分为特定人语音识别芯片和非特定人语音识别芯片。

特定人语音识别芯片是针对指定人的语音识别,其他人的话不识别,须先把使用者的语音参考样本存入当成比对的资料库,即特定人语音识别在使用前必须要进行语音训练,一般按照机器提示训练2遍语音词条即可使用。

非特定人语音识别是不用针对指定的人的识别技术,不分年龄、性别,只要说相同语言就可以,应用模式是在产品定型前按照确定的十几个语音交互词条,采集200人左右的声音样本,经过PC算法处理得到交互词条的语音模型和特征数据库,然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。

非特定人语音识别应用有的是基于音素的算法,这种模式下不需要采集很多人的声音样本就可以做交互识别,但是缺点是识别率不高,识别性能不稳定。

语音识别基本原理

嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理,包括语音信号的采样、反混叠滤波、语音增强,接下来是特征提取,用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤,第一步是系统"学习"或"训练"阶段,这一阶段的任务是构建参考模式库,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。第二是"识别"或"测试"阶段,按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。

语音识别四大平台

1、科大讯飞

科大讯飞股份有限公司成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。2008年,科大讯飞在深圳证券交易所挂牌上市,股票代码:002230。

11月23日科大讯飞轮值总裁胡郁在发布会上引述了罗永浩在9 月锤子发布会上的演示数据,表示科大讯飞的语音输入识别成功率也达到了97%,即使是离线识别准确率也达到了95%。

2、云知声

云知声成立于2012年6月。之前1年,Siri的发布再度唤醒了大家对语音识别的关注。经过四年多的积累,云知声的合作伙伴数量超过2万家,覆盖用户超过1.8亿,其中语音云平台覆盖城市超过470个,覆盖设备超过9000万台。

3、百度

百度则在11月22日宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。百度语音开放平台自2013 年10 月上线以来每日在线语音识别请求已经达到了1.4 亿次,开发者数量超过14 万。在如此庞大的数据支撑下,百度语音在“安静条件下”的识别准确率达到了97%。4、搜狗

搜狗语音团队在11 月21 日推出了自己的语音实时翻译技术。搜狗的这项技术主要包括两个方面,分别是语音识别和机器翻译。根据该团队的介绍,搜狗语音识别的准确率达到了97%,支持最快400 字每秒的听写。

语音识别芯片原厂及芯片方案

1、ICRoute

总部:上海

简介:ICRoute专注于开拓语音识别的芯片市场,致力于研发出高性能的语音识别,语音处理芯片。为各种平台的电子产品提供VUI(Voice User Interface)语音人机交互界面。目前提供的语音识别芯片,可以在

包括蓝牙,小家电,照明开关,玩具,车载电子,遥控器等各个电子产品领域提供非特定人的语音识别/声控功能。

语音识别芯片:

ICRoute LD3320——能在单片机上使用的语音识别芯片

由LD3320组成的语音识别系统有很广泛的应用,如语音控制的点歌系统、语音控制的手机、音控智能导航仪、音控智能家电产品等。

2、凌阳、凌通(芯片原厂)

总部:台湾

语音识别芯片:

凌阳单片机61A——带有语音识别芯片的微控制器,可以实现语音识别功能的芯片,一般小客户只能拿到特定人识别的参考代码。

3、新唐科技

总部:台湾

语音识别芯片:

ISD9160是一款具有Cortex-M0内核的语音SOC,能够实现录音放音等应用。通过软件支持,ISD9160可以实现特定人和非特定人语音识别。其中非特定人语音识别支持九种语音,方便客户开发国际化的产品。客户在开发的时候,使用新唐提供的ASR Tool工具,只需将所需命令写成文本模式,然后经由工具转换,就能生成用于项目文件的语音识别代码模块,简单并且容易使用。这种语音识别方案适用于语音控制系统领域,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如智能家电、智能穿戴、声控智能玩具等许多领域。

4、全志

总部:珠海

全志R16助力科大讯飞智能语音

科大讯飞4+1环形五麦克风阵列搭载全志R16平台

搭载全志R16平台的科大讯飞4+1环形五麦克风阵列,专为机器人等可移动、能灵活转身、有全角度拾音需求的智能硬件产品而设计,远场拾音距离可达5米。相比以往线性麦克风单维180度的覆盖维度,它可将覆盖度扩大到二维空间,即360度全平面拾音角度,而且去噪效果更好,抗环境噪音的能力更强,就算在嘈杂的环境中也能准确地识别声音。卓越的环形五麦克风远场识别技术与语音识别、语音合成、语音唤醒、声纹识别、人脸识别等交互技术相结合,让智能硬件产品拥有了更出色的人机交互能力。

5、深圳市盛矽电子科技有限公司(二次开发)

总部:深圳

简介:盛矽电子是专业从事语音方案与技术服务的提供商,由深圳总公司和北京研发中心分公司组成。专注于语音识别、智能玩具、儿童电脑、语音芯片等领域。

语音识别芯片:

1)特定人语音识别·录音·放音语音芯片SR150X

2)非特定人OTP语音识别芯片SR170X

独有的的软件虚拟机技术,只要硬件资源能够匹配,所有软件功能可以通过Flash端实现,有效降低客人MASK风险以及库存量,多款产品可以通过同一颗芯片实现,真正实现零库存,MASK的价格,OTP的性能。

6、深圳市捷通语音技术开发有限公司(二次开发)

总部:深圳

简介:深圳市捷通语音技术开发有限公司是一家专业从事语音识别、语音合成业务的科技及贸易一体化公司。公司开创了语音识别芯片应用在玩具领域的市场。公司可根据客户的需求,提供产品的解决方案; 为特定市场的产品,设计新功能新应用,为品牌企业实现产品创新。

相关文档
最新文档