语音识别引擎介绍

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音识别引擎介绍
1.语音识别技术简介
语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

2.语音识别技术详解
目前，主流的大词汇量语音识别系统多采用统计模式识别技术。

典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成
信号处理及特征提取模块。

该模块的主要任务是从输入信号中提取特征，供声学模型处理。

同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

统计声学模型。

典型系统多采用基于一阶隐马尔科夫模型进行建模。

发音词典。

发音词典包含系统所能处理的词汇集及其发音。

发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型。

语言模型对系统所针对的语言进行建模。

理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

解码器。

解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

从数学角度可以更加清楚的了解上述模块之间的关系。

首先，统计语音识别的最基本问题是，给定输入信号或特征序列，
符号集（词典），求解符号串使得：
W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为
由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。

W = argmaxP(O | W)P(W)
从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。

而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。

为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。

它实际上定义了映射的映射。

为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。

并且有：
最后，语言模型则提供了P(W)。

这样，基本公式就可以更加具体的写成：对于解码器来说，就是要在由,,ui以及时间标度t张成的搜索空间中，找到上式所指明的W。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。

3.语音识别引擎介绍
随着智能化电子终端的不断普及与发展，语音技术已经成为智能产品市场的一个热点需求，优同语音识别引擎也在市场需求的驱动下不断发展革新，已经被广泛运用于广泛应用于电子通信、移动互联、信息安全、车载导航、呼叫中心、教育医疗、航空军工、智能家居、智能玩具以及可穿戴式设备等众多行业。

相比同行业语音识别引擎，讯飞语音识别引擎具有以下特点：
➢支持中文、英文两个语种的识别，同时，还提供粤语、河南话、四川话等方言的识别。

➢语音输入速度达180字/分，识别结果响应时间低于200ms——系统运行效率让信息沟通变得无比顺畅。

➢基于用户语音特征，建立个性化的词条语言模型，调整识别参数，持续优化识别效果，提高用户的个性化词条识别准确率。

基于用户语音特征，
建立个性化的词条语言模型，调整识别参数，持续优化识别效果，提高
用户的个性化词条识别准确率。

➢语音听写使用超大规模的语言模型，对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测。

语音识别过程框架
➢语音听写
把语音(≤60秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能。

➢语音转写
语音转写（Long Form ASR）基于深度全序列卷积神经网络，将长段音频（5小时以内）数据转换成文本数据，为信息处理和数据挖掘提供基础。

➢实时语音转写
实时语音转写（Real-time ASR）基于深度全序列卷积神经网络框架，通过WebSocket 协议，建立应用与语言转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果。

➢离线语音听写
把语音(≤60秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能
➢语音唤醒
设备(手机、玩具、家电等)在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令，即唤醒词)，让处于休眠状态下的设备直接进入到等待指令状态，开启语音交互第一步
➢声纹识别
声纹识别（Voiceprint Recognize），是一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术
➢关键词提取
关键词提取是把文本中包含的信息进行结构化处理，并将提取的信息以统一形式集成在一起。