基于DSP的连续数字语音识别系统的实现

合集下载

基于定点DSP处理芯片的语音信号的识别

基于定点DSP处理芯片的语音信号的识别近年来，高性能数字信号处理芯片DSP(Digital Signal Process)技术的迅速发展，为语音识别的实时实现提供了可能，其中，AD 公司的数字信号处理芯片以其良好的性价比和代码的可移植性被广泛地应用于各个领域。

因此，我们采用AD 公司的定点DSP 处理芯片ADSP2181 实现了语音信号的识别。

1 语音识别的基本过程根据实际中的应用不同，语音识别系统可以分为：特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。

但无论那种语音识别系统，其基本原理和处理方法都大体类似。

一个典型的语音识别系统的原理图如图1 所示。

语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。

预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。

语音信号识别最重要的一环就是特征参数提取。

提取的特征参数必须满足以下的要求：(1)提取的特征参数能有效地代表语音特征，具有很好的区分性;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。

在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。

在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。

同时，还可以在很多先验知识的帮助下，提高识别的准确率。

2 系统的硬件结构2.1 ADSP2181 的特点AD 公司的DSP 处理芯片ADSP2181 是一种16b 的定点DSP 芯片，他内部存储空间大、运算功能强、接口能力强。

有以下的主要特点：(1)采用哈佛结构，外接16.67MHz 晶振，指令周期为30ns，指令速度为33MI/s，所有指令单周期执行;(2)片内集成了80 kB 的存储器：16 kB 字的(24b)的程序存储器和16kB 字(16b) 的数据存储器;(3)内部有3 个独立的计算单元：算术逻辑单元(ALU)、乘累加器。

基于DSP的语音处理系统的设计

基于D S P的语音处理系统的设计The Standardization Office was revised on the afternoon of December 13, 2020Cadence SPB基于DSP的语音处理系统的设计摘要近年来，随着DSP技术的普及和低价格、高性能DSP芯片的出现，DSP已越来越多地被广大的工程师所接受越来越广泛地被应用于各个领域，并且已日益显示出其巨大的优越性。

DSP是利用专门或通用的数字信号处理芯片，以数字计算的方法对信号进行处理，具有处理速度快、灵活、精确、抗干扰能力强、体积小及可靠性高等优点，满足了对信号快速、精确、实时处理及控制的要求。

本次设计基于TLV320AIC23和TMS320VC5416两种芯片设计并实现了一种语音录音、语音编码、语音解码、语音处理和回放的系统。

通过软件和硬件结合对该系统进行设计，使本次设计的语音处理系统具有强大的数据处理能力并配有灵活的接口电路，可以作为一种语音信号处理算法研究和实时实现的通用平台，对语音编码在DSP上的实时实现进行了简单的研究，从而掌握了算法移植的一般流程，为能够在高速DSP硬件平台设计及系统应用开发方面取得成功奠定基础。

关键词：DSP；数据采集； TLV320AIC23；TMS320VC5416。

目录摘要 I 第1章绪论 1 DSP的发展及应用 1 语音信号处理系统概述 2 第2章 DSP芯片介绍 3 TLV320AIC23简介 3 TMS320VC5416简介 3 第3章系统设计 4 系统硬件设计 4 系统结构框图 4 DSP处理器 5 A/D电路 5 D/A电路 7 系统软件设计 10 TMS320VC5416初始化 10 TLV320AIC23初始化 10 第4章总结 11 参考文献 12 致谢 13 附录 14 第1章绪论近年来，在数字信号处理领域有着绝对优势的DSP技术得到了迅速发展，不仅在通信计算机领域大显身手，并已逐渐渗透到人们日常消费领域。

基于DSP的语音识别技术设计与实现

基于DSP的语音识别技术设计与实现随着科技的发展，语音识别技术正在得到广泛的应用。

它可以实现智能音响、智能家居等场景下的语音交互，并且可以应用于医疗、教育、广播电视等多个行业。

其中，基于DSP的语音识别技术更是成为这些领域的核心技术之一。

本文将探讨基于DSP的语音识别技术的设计与实现，希望能够对相关工程师和爱好者提供帮助。

一、DSP技术基础DSP技术（数字信号处理）是指利用数字信号处理器对数字信号进行处理的技术。

它可以处理语音信号、图像信号、视频信号等多种数值信号类型。

而在语音识别技术中，DSP技术主要用于语音信号的前端处理，包括信号滤波、降噪、增益等，以提高信号的质量和准确性。

DSP技术的实现需要掌握多项计算机技能，如DSP芯片的选型、DSP编程技术（C语言、汇编语言等）、DSP算法的掌握等。

因此，在选取DSP芯片之前，需要充分了解DSP技术的特点和应用场景。

常用的DSP芯片有TI（德州仪器）、ADI（模拟设备公司）等，各有特点和适用范围。

二、语音信号前端处理DSP技术在语音识别中的作用主要在于对语音信号进行前端处理。

语音信号包含了大量的噪声和杂音，因此需要进行降噪和信号增益来提高信号的质量。

接下来，我们将详细介绍语音信号的前端处理方法。

1. 语音信号采集语音传感器通常采用麦克风，根据具体应用场景不同，可选择不同类型的麦克风。

对于智能音响等应用场景，常采用阵列麦克风，以提高语音采集的质量。

采集时需要设置合适的采样率和采样深度，以保证质量。

一般采样率为8、16、32kHz 等，采样深度可为12、16、24、32位等。

2. 语音信号滤波语音信号中包含了大量的噪声和杂音，需要进行滤波处理。

常用的语音信号滤波方式有数字滤波器和模拟滤波器。

其中，数字滤波器是基于DSP技术实现的，模拟滤波器是基于模拟电路的。

根据实际需求，可选择不同的滤波方式。

3. 语音信号降噪语音信号中的噪声是影响语音识别准确性的主要因素之一，因此需要对语音信号进行降噪处理。

基于DSP的语音识别技术研究ppt

设置步骤: 1.设置 MP /MC =0，使芯片工作在微计算机方式下。 2.设置 OVLY=1，使片内的 0x80-0x7FFF 既映射在程序区，又映射在数据区。 3.设置 DROM=1，以便在数据区访问片内的 ROM 区。
外部存储器扩展:
本系统扩展了两块64K×16bit的SRAM(IS61LV12816) 和一块256K×16bit的FLASH(AM29LV400B)来增加系统存储空间。IS61LV12816是ICSI公司推出的一款高性能CMOS静态RAM，速度范围8~15ns，电源3.3V。扩展命令：
基于DSP的语音识别
---何绍富(101) 蔡光明(101) 陈冉冉(100) 徐珍 (99) 何玲 (99)
目录
1、实验内容 2、总体方案 3、硬件设计 4、软件设计 5、实验结果
1、实验内容
本次实验的主要内容是通过在语音信号分析的基础上，对线性预测编码倒谱系数LPCC与MEL倒谱系数MFCC进行详细说明及分析，计算欧氏距离为识别算法。对程序进行仿真测试分析后，选择 TMS320C6416为系统的核心。
#pragma DATA_SECTION(buffer,".EXT_RAM")
数据采集与传送模块
C6416片内包含三个多通道缓冲串行接口 McBSP(Multi-channel Buffered SerialPort)，分别为McBSP0、McBSP1、McBSP2。它支持全双工通信、双缓冲数据寄存器允许连续的数据流，支持多种传输方式（如T1/E1帧协议、MVIP帧协议等），数据字长可为8、12、16、24和32bit，内置 μ-律和A-律的压缩扩展硬件，并可直接与工业标准的编码器、模拟接口芯片（AISC）及串行 AD/DA 器件连接并进行通信。

基于DSP的语音处理和识别系统的实现

邮局订阅号：８２－９４６３６０元／年技术创新ＤＳＰ开发与应用《ＰＬＣ技术应用２００例》您的论文得到两院院士关注基于ＤＳＰ的语音处理和识别系统的实现ＲｅａｌｉｚａｔｉｏｎｏｆＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇａｎｄＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍＢａｓｅｄｏｎＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ（河北工程大学）王社国魏艳娜董爱荣ＷＡＮＧＳＨＥＧＵＯＷＥＩＹＡＮＮＡＤＯＮＧＡＩＲＯＮＧ摘要：设计并实现了一种嵌入式语音处理和识别系统，核心处理器是ＴＭＳ３２０ＶＣ５４０２，语音接口芯片是ＴＬＶ３２０ＡＩＣ１０，软件模块包括语音的端点检测、特征参数提取、模板训练、测试识别等。

系统使用定点ＤＳＰ实现了浮点ＤＳＰ运算，提高了预算的精度，扩大了信号处理的动态范围。

试验结果表明，该系统对孤立词特定人识别率为９８％，系统体积小、成本低、可扩展性好，方便应用于许多特定场合，如：声控玩具，门禁控制等。

有很好的市场前景。

关键词：ＴＭＳ３２０ＶＣ５４０２；语音处理；语音识别中图分类号：ＴＮ９１２．３４文献标识码：ＢＡｂｓｔｒａｃｔ：Ａｎｅｍｂｅｄｄｅｄｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇａｎｄｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｉｓｄｅｓｉｇｎｅｄａｎｄｒｅａｌｉｚｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｉｔｓｈａｒｄｗａｒｅ’ｓｐｒｏｃｅｓｓｏｒｉｓＴＭＳ３２０ＶＣ５４０２ａｎｄｓｐｅｅｃｈｉｎｔｅｒｆａｃｅｃｈｉｐｉｓＴＬＶ３２０ＡＩＣ１０．Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ’ｓｓｏｆｔｗａｒｅｃｏｎｓｉｓｔｓｏｆｓｅｖｅｒａｌｍｏｄｕｌｅｓｓｕｃｈａｓｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ，ｆｅａｔｕｒｅｃｏｅｆｆｉｃｉｅｎｔｅｘｔｒａｃｔｉｏｎ，ｔｒａｉｎｉｎｇｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｒｅｆｅｒｅｎｃｅｄｖｅｃｔｏｒｓ，ｅｔｃ．Ｔｈｅｓｙｓｔｅｍｒｅａｌｉｚｅｓｆｌｏａｔ－ｐｏｉｎｔｏｐｅｒａｔｉｏｎｏｎｆｉｘｅｄ－ｐｏｉｎｔｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ，ｉｔｈａｓｈｉｇｈｅｒｐｒｅｃｉｓｉｏｎｉｎｃａｌｃｕｌａｔｉｏｎａｎｄｗｉｄｅｒｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐａｒｉｎｇｔｏｆｉｘｅｄ－ｐｏｉｎｔｒｅａｌｉｚａｔｉｏｎｓｃｈｅｍｅ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｃｏｎｆｉｒｍｓｔｈａｔｉｔｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｃｃｕｒａｃｙｒｅａｃｈｅｓ９８ｐｅｒｃｅｎｔｆｏｒｓｐｅｃｉａｌｐｅｒｓｏｎａｎｄｓｍａｌｌｖｏｃａｂｕｌａｒｙ．Ｔｈｉｓｓｙｓｔｅｍｈａｓｓｍａｌｌｓｃａｌｅ，ｌｏｗｃｏｓｔａｎｄｈｉｇｈｃａｐａｂｉｌｉｔｙｏｆｅｘｐａｎｄｉｎｇ．Ｉｔｉｓｖｅｒｙｃｏｎｖｅｎｉｅｎｔｆｏｒｓｏｍｅｓｐｅｃｉａｌｓｉｔｕａｔｉｏｎｓ，ｓｕｃｈａｓｔｈｅｓｐｅｅｃｈｃｏｎｔｒｏｌｌｉｎｇｔｏｙｓ，ｇａｔｉｎｇｓｙｓｔｅｍｅｔｃ．Ｉｔｈａｓｍｕｃｈｍａｒｋｅｔｐｏｔｅｎｔｉａｌ．Ｋｅｙｗｏｒｄｓ：ＴＭＳ３２０ＶＣ５４０２，ｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇ，ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ文章编号：１００８－０５７０（２００７）０８－２－０１７９－０３引言ＤＳＰ是利用专门或通用的数字信号处理芯片，以数字计算的方法对信号进行处理，具有处理速度快、灵活、精确、抗干扰能力强、体积小及可靠性高等优点，满足了对信号快速、精确、实时处理及控制的要求。

基于DSP的语音采集与处理系统的设计与实现

基于DSP的语音采集与处理系统的设计与实现程武，物理与电子信息学院摘要:本文介绍了一种基于TMS320C5402的语音采集与处理系统的设计与实现, 采用TLC320AD50作为语音CODEC模块的核心器件,利用TMS320C5402对采集到的语音信号进行FIR滤波,该系统具有较强的数据处理能力和灵活的接口电路,能够满足语音信号滤波的要求,可以扩展为语音信号处理的通用平台。

关键字:语音采集; FIR滤波器; TMS320C5402Design and Implementation of Speech Signal Acquisitionand Processing System Based on DSPCheng Wu，The College of Physics and Electronic InformationAbstract: The design of speech signal acquisition and processing system is introduced in this paper. TLC320AD50 is used as the core voice CODEC module device in this system and TMS320C5402 is used as FIR filter. The system has high performance signal processing ability and is equipped with flexible inter facing circuit. It can satisfy the requirement for speech signal processing and can be used as a universal platform in the study of audio processing.Key words: Speech Signal Acquisition; FIR Filter; TMS320C54021引言语音处理是数字信号处理最活跃的研究方向之一～在IP电话和多媒体通信中得到广泛应用。

基于DSP的语音采集与回音效果的系统实现

基于DSP的语音采集与回音效果的系统实现数字技术的应用几乎已经渗透到现代科技的每一个角落，而数字音频技术则是应用最广泛的领域之一。

现在大量的数字音频设备已相当成熟，利用软件在已有的硬件平台上实现不同的功能已成为一种趋势，软件编程的灵活性给很多设备增加不同的功能提供了方便。

和其它数字系统一样，DSP系统具有许多模拟系统所不具备的优点，如灵活、可编程，支持时分复用，易于模块化设计，可重复使用，可靠性高等。

随着DSP技术的发展，以DSP为内核的设备越来越多。

基于DSP技术的开发应用正在成为数字时代应用技术领域的潮流。

在实际生活中，当声源遇到物体时一般会发生反射，反射的声波和声源声波一起传输，听者会发现反射声波部分比声源声波慢一些从而形成回音。

而现在，在已知一个数字音源后，也可以利用计算机，以数字方式通过计算来模拟回声效应。

简单地讲。

就是在原声音流中叠加延迟一段时间后的声流来实现回音效果。

如此产生的回音，我们称之为数字回音。

1 主要器件介绍本设计选用的TLV320AIC23是TI公司生产的一款高性能的多媒体数字语音编解码器，它的内部ADC和DAC转换模块带有完整的数字滤波器，其数据传输宽度可以是16位、20位、24位和32位，采样频率范围为8～96 kHz，并可通过控制接口来编辑该器件的控制寄存器，同时可支持SPI和I2C两种控制模式。

TLV320AIC23的控制模式由MODEM管脚决定，本系统选用I2C模式。

TMS320VC5509A是TI公司C5000 DSP系列中的新一代产品。

该DSP对C54X 有很好的继承性。

并与C54x源代码兼容，从而有效地保护用户在软件上的投资。

TMS320VC5509A功耗低、成本低，并可在有限的功率条件下保持最好的性能。

2 系统方案设计2.1 系统工作原理该回音系统中的I2C接口模块由串行数据SDA和串行时钟SCL组成，SDA 和SCL均为双向接口。

连接在同一总线上的I2C设备可以工作在多主线工作模式下。

基于DSP的语音识别的设计与实现

Computer Knowledge and Technology 电脑知识与技术第5卷第23期(2009年8月)本栏目责任编辑：唐一东人工智能及识别技术基于DSP 的语音识别的设计与实现张文婷（宁波大红鹰学院，浙江宁波315175）摘要：该系统选用了TI 公司的TMS320VC5402作为处理器芯片，选择对小词汇量语音识别系统进行研究。

实现小词汇量的语音识别主要包括以下三个方面的工作：端点检测、特征提取和模式匹配。

在端点检测中，通过对过零率和短时能量参数的检测来判断起始点和结束点，去掉噪声，从而提取出语音信号数据。

在特征提取中，首先对语音信号进行分帧、然后计算每帧语音信号的特征参数，该文采用线性预测倒谱参数作为特征参数，这些特征参数组成特征矢量，从而构成语音模板。

在模式匹配中，采用了动态时间归整方法，将测试模板与参考模板进行匹配，比较两者之间的失真，得出识别判决的依据。

关键词：DSP ；语音识别；DTW ；LPCC ；端点检测中图分类号:TN912.34文献标识码：A 文章编号：1009-3044(2009)23-6512-02The Application of the Speech Recognition System Based on DSPZHANG Wen-ting(Ningbo Da Hong-ying institution,Ningbo 315175,China)Abstract:For this,the s ystem selected TI's TMS320VC5402DSP to realize the speech recognition system of small -vocabulary.The small-vocabulary phonetic recognition includes three following respects:starting &ending point measuring,eigenvalue extracting and mode matching.Starting &ending point can be detected through zero rate and energy parameter .By detecting starting and ending point of speech waveform,we can remove the noise from the process of extracting the pronunciation signal data.In eigenvalue extracting,the pro -nunciation signal is divide into some framed signals,then,calculate every frame characteristic parameter,these characteristics made up the characteristic vector and formed the pronunciation template.In mode matching,adopting DTW （Dynamic Time Warping ）method,made testing template matches with reference template in a perticular mode,and then,by campared distortion between them to obtain adjudge -ment result.Key words:DSP;Phonetic recognition;DTW;LPCC;the extreme point measuring1DSP 语音信号处理板的硬件设计本文选择了小词汇量、非特定人、孤立词识别方案，采用TMS320C5402DSP 芯片及外围接口与存储芯片，设计了一个语音识别系统。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

系统由话筒／扬声器、市内电话（５部），
第４期增刊
任文霞等：基于ｒ）ｓＰ的连续数字语音识别系统的Ｊ宴现
７９７
波器，全部代码同化在Ｒ（）Ｍ中，采样的数据和变量存人ＲＡＭ内。采样信号通过Ｈａｍ嘶Ｉｌｇ窗，窗长为２０ｍｓ，帧长为２０ｍｓ，即１６０个采样点，帧移为１０ｍｓ帧长，加窗语音通过一阶预加重滤波器来被偿语音信号中的高频部分（口＝Ｏ．９６），再运用连续密度的隐马尔可夫模型进行训练和识别。语音信号的特征提取和训练算法全部由ＴＭＳ３２０ｃ５４０２
ＴＭｓ３２０Ｖａ４０２璐Ｐ芯片为核心进行硬件设计．实现数字语音的实时识别。实验结果表明该系统具有识别精度高、速度快等
特点，语音识别率达到了９６％以上，为其实用化提供了较为重要的技术途径。关键词：ＨＭＭ；端点检测；自适应｝数字信号处理器
ＲｅａｌｉｚａｔｉｏｎｏｆｓｅｒｉａｔｅｄｉｇｉｔａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂａｓｅｄＷｅｎ）ｄａ，ＬｖＷｅｎｚｋ，Ｈｕａｎｇ
ＥⅧ完成，系统控制和识
５结论
别阶段的工作通过ＤＭＡ方式由Ｐｃ机完成。
４系统的性能测试
先采集３０个学生（１５男１５女，普通话均较标准）的共６０００个语音样本，并对所有的样本进行训练，做成３０个训练样本。另加入１０人（普通话均较标准），采集这４０人的４０００个语音样本作为测试样本，对该系统进行测试，所得测试结果如表１所示。
第２８卷第１期增刊２００７年４月
仪器仪表
Ｃｈｌｎｅｓｅ
学报
Ｖｏｌ＿２８Ｎｏ．４ＡＤｒ．２００７
ｊｏｕｒｎａｌｏｆｓｃＩｅｎｎ脏Ｉｎｓｔｒｕｍｅｎｔ
基于ＤＳＰ的连续数字语音识别系统的实现
任文霞，吕文哲，黄涛
（河北科技大学信息科学与工程学院石家庄０５００５４）
摘要：本文介绍一个非特定人的连续数字语音识别系统，它采用端点检测方法和自学习语音识别算法，同时以ＴＩ公司的
练样本，然后再对这３０人进行测试，可发现识别率为９６％，并且一直稳定在９６％左右。而未参加训练的ｌｏ人，识别率仅为９２．５％，如果将这ｌｏ人的测试样本加入洲练中进行自学习，得到新的训练样本，然后再对这１０人的另２０００个样本进行测试，识别率为９５％左右。经过几次自适应之后，识别率也将稳定在９６％左右。
２．２
进行有效的融台而形成一个模板。当训练发音的次数增多时，只会造成洲练过程的计算量增大，而不会使识别过程的计算量有丝毫增加。利用ＨＭＭ对多训练序列的迭代公式．设计一套算法使系统具有自适应功能。该算法的基本思想是，当发生错误的识别时，系统对误识的模板进行调整，使之更适应使用者的发音习惯，以避免类似的误识再度发生。发生错误的识别时必然牵涉到两个模板，～个是与待识别发音相同的数字却被判为不相同的模板；另一个是与待识别发音不同的数字却被判为相同的模板。当发生误识并由用户确认后，系统对两个模板进行修正；对于前者的处理较简单，程序将被误识的发音加到原训练发音群中，再用迭代公式求出新的模板即可；对于后者的处理则较复杂，它的主要任务就是剔出形成该模板的训练发音群中有一部分与被误识的发音相近的部分训练发音。为此先把被误识的发音制成模板，再用该模板与原先的模板的各训练发音分别匹配，把艇配程度较好的训练发音剔除。对剩下的训练发音使用迭代公式形成新的模板即可。
图２系统硬件构成原理
ＴＭＳ８２０ｃ５４０２ＥｖＭ及阱ｐＣ机组成（见图２）。话
筒或电话的语音模拟信号通过ＴＭＳ３２０ｃ５４０２ＥＶＭ的ＲｃＡ连接器，进入预处理，包括Ａ／Ｄ变换、自动增益控制、反混叠滤波、预加重。其中Ａ／Ｄ采样频率为８ｋＨｚ（此即语音信号的采样频率），可通过对ＴＭＳ３２０ｃ５４０ＪＣ３２０４６集成块完成．它接收和发送数据都是以串行数据的形式，其串行数据收发的交互线和ＴＭＳ３２０ｃ５４０２一一对应，并且内置有Ｉ／Ｏ滤
ｏｎ
ＤＳＰ
Ｒｅｎ
Ｔａｏ
（Ｈ也ｉ孤ｆ聊ｉ幻ｏ，Ｓｃｉ删Ｆ４硝％＾＂ｏ抛ｙ，珊巧ｉ口拍瑚醒０５００５４，凸ｉ抛）
Ａｂｓｔ嗡ｃｔ：Ｔｈｉｓ
ｐａｐｅｒ
ｉｎｔｒｏｄｕｃｅｓ
ａ
ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ，ｗｈｉｃｈｉｓｕｓｅｄｆｏｒｉｎｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒ．Ｔｈｅ
ｃｏｒｅ
ｏｆｔｈｅｈａｒｄｗａｒｅｄｅｓｉｇｎ，ｗｈｉｃｈｉｓｔｈｅｐｒｏｄｕｃｔｉｏｎｏｆＴＩ
ａｓ
Ｔｈｅｅｘｐｅｒｉｍｅｎｔａ】ｒｅｓｕＩｔｓｓｈｏｗｔｈａｔｔｈｉｓｓｙｓｔｅｍｈａｓｍａｎｙａｄｖａｎｔａｇｅｓｓｕｃｈ
ｈｉｇｈｒｅｃｏｇｎｉｔｉ。ｎ
ａｎ
ｐｒｅｃｉｓｉｏｎ，ｈｉｇｈｓｐｅｅｄａｎｄｅｔｃ．Ｔｈｅｓｐｅｅｃｈｒｅｃｏｇ工ｌｉｔｉｏｎｒａｔｅｒｉｓｅｓｕｐｔｏ９６％，ｗｈｉｃｈｐｒｏｖｉｄｅｓ
ａｒｅ
ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎａｎｄａｄａｐｔｉｖｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａ—ｔｈｍｅｔｉｃｔｈｅｓａｍｅｔｉｍｅ，ｔｈｅｔｅｒｐｒｉｓｅ．
ｕｓｅｄｉｎｔｈｅｄｅｓｊｇｎｏｆｓｏｆｔｗａｒｅ．
Ａｎｄａｔ
ｅｎ—
ＴＭＳ３２０ＶＣ５４０２
ｉｓｔｈｅ
［１］Ｒａｂｉｎｅｒ
ＬＲ语音识别原理［Ｍ］．北京：清华大学出
版社，１９９９，４１２９０＿２９４．［２］赵力．语音信号处理［Ｍ］，北京：机械工业出版社，
２００３，６：２０６—２６８．
［３］
ｃＨＥＮＹＨ
ｔｉｎｕｏｕｓ
Ａｕｔｏｒｎａｔｉｃｓｅｇｍｅｎｔａｔ．０ｎｏｆｃｈｉｎｅｓｅ∞ｎ－Ｈｏ“ｇｋｏｎｇ：Ｐｍｃｅｅｄｉｎｇｓｏｆ
本文链接：/Conference_6420044.aspx
表ｌ识别系统的测试结果
本文采用基于ＨＭＭ模型的语音信号端点检测方法进行端点检测，提高了识别的准确率，并利用１１公
司的高速耶ｖＩＳ３２０ｃ５４０２硎设计了一个连续数字语
音自动实时识别系统。在识别算法中，采用基于ＶＣ∥ ＨＭＭ的自适应算法，使未经过训练的人只需少数几次的自适应学习就能取得较高的识别率。实验结果表明，该系统具有实时、可靠、鲁棒性强和识别率高的特点。参考文献
３
系统硬件设计及工作原理
在此基于ＨＭＭ的连续数字语音识别系统中采用
ＴＭＳ３２０ｖｃ５４０２ＤＳＰ芯片来实现。系统的电路结构
框图如图２所示。
（２）采用Ｖ创ＨＭＭ的自适应语音识别系统
数字语音的端点检测出来后，即可对数字语音的每一帧进行声学参数分析，提取特征参数。语音信号是短时准平衡的随机过程，具有很强的时变特性。ＨＭＭ模型包括两个随机过程，其中一个随机过程则产生观测序列。对于语音识别系统，观测序列就是矢量量化后的结果序列，ＨＭＭ模型就是由训练语音得到的模板。语言的训练过程就是产生模板的过程，而语言的识别过程就是求出在模板下待识别的语音的结果序列的条件概率。目前都采用迭代的方法得到状态转移概率矩阵和观测序列分布概率矩阵的近似解。在实际中，仅对数字的少数次发音进行训练的语音识别系统，不可能对各种复杂语境下的不同发音都有较高的识别率。而ＨＭＭ能够对一个数字的多个训练序列
随着语音识别技术的发展，语音识别的产品已经进入人们的日常生活中。近几十年来。国内外关于语音识别的研究取得了许多重大进展，许多语音识别产品已经由实验室阶段转而投放到市场中。在语音识别
的算法上先后出现动态时间弯曲（唧）、隐马尔可夫
（ＨＭＭ）和人工神经网络三种主要方法。Ｄｒｗ的存储和计算量太大，而人工神经网络法目前难以在实际中获得广泛的应用。ＨＭＭ因为计算量大大减少和正确率较高，从而得以在语音识别系统中广泛的应用。本文介绍的连续数字语音识别系统采用基于ＨＭＭ的语音信号端点检测方法和基于Ｗ∥ＨＭＭ的自适应语音识别算法，并且在硬件上利用ＤｓＰ强大的数据处理功能，使识别率高达９６％．获得良好的效果。
ｉｍｐｏｒｔａｎｔ
ｍｅｔｈｏｄｆｏｒｉｔｓｐｒａｃｔｉｃａｌａｐｐｌｉｃａｔｉｏｎｓ．
Ｋｅｙ
ｗｏｒｄｓ：ＨＭＭ；ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ｝ａｄａｐｔｉｖｅ；ＤＳＰ
１引
言
２系统软件实现
２．１语音识别的基本原理孤立词的识别系统的原理框图如图ｌ所示。识别系统中，训练阶段训练者先将数字依次读一遍，并且将其特征矢量序列作为模板存入模板库中。识别时，将输入语音的特征矢量序列与模板库中的每一个模饭进行相似度比较，相似度最高者作为识别结果输出。
ｍｘＰＺ［ｚ／ｋ］。
ＨＭＭ算法在系统中应用（１）基于ＨＭＭ模型的语音端点检测方法在噪声
环境中的应用为了检测未知语音数字的起点和终点，需要把语音信号流和背景噪声区分开，端点检测通过一组复杂的门限，并按算法规则分析语音的方法将两者区分开来。对于各种不同的信号电平和电话网络中的各种噪音干扰，门限会进行自适应调整。另一方面，端点检测门限和算法不仅有助于把语音和噪音区分开来，而且还能将数字串内的无声和数字串尾的无声区别开来。从而减少采集的数据量，删除背景噪声，降低语音识别处理中的计算量和处理时间，提高识别的准确性。为此把ＨＭＭ方法直接用于语音信号的端点检测。具体做法是：在训练阶段，分别得出背景噪声和语音的模型参数；在测试阶段，用ｖｉｔ－ｅｒｂｉ解码方法在训练模型基础上对被测语音进行分解，求出语音的哪些帧与背景噪声匹配．哪些帧与语音匹配，从而得到端点的所在处。
ＩＥＥＥ
由上数测试结果发现。对于参加先期训练的３０人，识别率已经相当高，如果再把这３０００个样本加入原来的６０００个样本进行多训练序列迭代形成新的训
ｓｐｅｅｃｈ
Ｔｍｓ［Ｊ］，１９８７，０９（１—４）：１６３～１６８．
基于DSP的连续数字语音识别系统的实现
作者：作者单位：任文霞，吕文哲，黄涛河北科技大学信息科学与工程学院,石家庄,050054