DSP课程设计报告-语音识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
一、设计任务书 (1)
二、设计内容 (2)
三、设计方案、算法原理说明 (2)
1 系统概述 (2)
2.硬件构成 (3)
2.1 系统构成 (3)
2.2 系统主要功能模块构成 (3)
3.语音识别算法软件实现 (4)
3.1 系统流程图 (4)
3.2 语音信号的端点检测 (5)
3.3 特征参数的提取 (7)
3.4 建立语音库 (8)
3.5 特定人语音识别算法 (9)
四、程序设计、调试与结果分析 (12)
五、设计(安装)与调试的体会 (18)
六、参考文献 (18)
附录课程设计成绩评定 (18)
一、设计任务书
语音技术,包括语音识别、语音合成、关键词检出、说话人识别与确认、口语对话系统等,是现代人机交互的重要方式之一,具有广泛的应用前景。其中语音识别技术,尤其是连续语音识别技术,是最基础、最重要的部分,而且已经逐步走向成熟与实用。
语音识别是研究使机器能够准确地听出人的语音内容的问题,即准确地识别所说的话,语音识别是近二三十年来发展起来的新兴学科,在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学等方面有着广泛的应用。
语音识别装置有着重要的应用价值。而计算机技术=模式识别和信号处理技术及声学技术的发展也使满足各种需要的语音识别的实现成为可能。
语音识别按不同的角度有以下几种分类方法:
从所要识别的单位。有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。
从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。
从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。
从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。
这三种方法都建立在最大似然决策bayes判决的基础上,但具体做法不同,简述如下:
a.模块匹配法。
将测试语音与模块的参数一一进行比较与匹配,判决的依据是是真测度最小准则。这里,除了参数分析的精度之外,选择何种失真测度至关重要。通常它要求对语音信息的各种信息具有顽健行,而且可以使用具备加权技术,使得测度更符合或更接近于最佳。
b.随机模型法。
这是一种使用隐马尔可夫模型(HMM)的概率参数来对似然函数进行估计和判决,从而得到识别结果的一种方法。由于HMM具有状态函数,所以这种方法可以利用语音频谱的内在变化和他们的相关性。这表明,该方法能够较好地将语言结构的动态特性用到识别中来。
c.概率语法分析法。
适用于大长度范围的连续语言的识别情况,也就是说它可以利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决。这里,形式语法可以用参数形式来表示,也可以用概率估计的非参数形式来表示。甚至可以用两者结合的形式。因此该方法可将a 或b方法结合起来。
除了上面三种方法,其他的识别方法包括人工神经网络语音语音识别、应用模型数学识别的语音识别语句等。
对于汉字语音的识别,本质上和其他语音识别没有区别,也有其特点。主要是它宜于用音节作为基本研究对象,从而使特征的提取、字节的分割、动态时间匹配的选取等也具有特点。目前汉语识别的研究重点主要是以词为单位的孤立词识别和连续语音识别对等。
本实验的主要任务就是对以TMS320VC5402芯片为核心的系统硬件设计进行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS30VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于的灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。
二、设计内容
(1)对DMA进行初始化;
(2)对A/D、D/A进行初始化;
(3)编写DMA中断服务程序,实现语音信号的实时识别;
(4)根据识别系统的类型选择一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,作为标准模式由机器存储起来,形成标准模式库。
(5)对语音进行特征参数的分析,语音信号经过相同的通道得到语音参数,生成测试模板;
(6)将测试模板与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果,从而实现语音的识别。
三、设计方案、算法原理说明
1 系统概述
语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。
2.硬件构成
2.1 系统构成
这里采用DSP芯片为核心(图2),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。
2.2 系统主要功能模块构成
语音处理模块采用TI TMS320VC5402,其主要特点包括:采用改进的哈佛结构,一条程序总线(PB),三条数据总线(CB,DB,EB)和四条地址总线(PAB,CAB,DAB,EAB),带有专用硬件逻辑CPU(40位算术逻辑单元(ALU),包括1个40位桶形移位器和二个40位累加器;一个17×17乘法器和一个40位专用加法器,允许16位带或不带符号的乘法),片内存储器(八个辅助寄存器及一个软件栈),片内外专用的指令集,允许使用业界最先进的定点DSP C语言编译器。TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG 边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成