DSP的嵌入式语音识别-开题报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上海工程技术大学
毕业设计(毕业论文)开题报告
学院电子电气工程学院
专业电子信息工程
班级学号
学生
指导教师
题目基于DSP的嵌入式语音识别系统设计
《基于DSP的嵌入式语音识别系统设计》
————开题报告
一、选题背景
语言是人类相互沟通信息的重要工具。随着现代科学技术的发展,特别是语音通信和各类相关产品的普及,语音信号的数字化处理在越来越多的领域中发挥着至关重要的作用。
所谓的语音技术,无非是一种集合:一种涵盖了识别、合成、检出关键词、口语对话系统的集合,而这个集合的核心无可厚非便是语音识别技术,特别是连续识别——这门最初为了解决机器如何能够准确地解析人的语音内容的学科,正以一种不可思议的态势飞速发展,给“死板”的机器添上了一份“人性”。
算法运算量大,处理快速高效(无论是实时或准实时)这些都是一个语音系统的基本要求,而DSP凭借着本身强劲的数据处理能力和高运行速度挑起大梁,充当起整个系统的“心脏”。它是一种特殊的微处理器,一种以数字信号来处理大量信息的器件,其工作原理:首先将接收模拟信号进行转换,转换为0或者1的数字信号,再对数字信号进行修改、删除及强化并在其他系统芯片中把数字数据解译回模拟数据或实际环境格式。具有可编程性的它,以每秒千万条复杂的令程序的实时运行速度,让那些通用的微处理器望尘莫及。
二、研究课题的意义
本文实现的语音识别系统主要由硬件设备和相应的软件算法组成。在Matlab7.8平台上验证和改进了算法(如:预处理、端点检测、特征提取和模式匹配),然后用 C汇编语言结合混编的方式移植到DSP的开发平台——CCS,最终在ICETEK-VC5416AE-S60实验箱上实现孤立词(0-9)的识别,而随着库内容的丰富,本系统将会越发接近当下最为热门的语音助手——siri。
三、语音识别的研究概况
1.国外语音识别技术的研究现状
从1952年Bell实验室的Audry到2012年iphone的Siri。60年来语音识别这项技术一直都是计算机研究领域内的“香饽饽”,倍受 IBM、微软等IT巨头器重,相关研究成果也层出不穷。
IBM——作为语音识别技术的先驱,以它的 ViaVoice 软件为例:可以帮助人们通过麦克风用语音向字处理软件输入文字,无论是英语、意大利语、德语、法语、日语还是汉语等都照单全收。而微软新版的 Windows 操作系统 Vista,也配置了先进的语音识别软件。用户动口而不动手来完成通过语音和计算机交流(比如通过口来“书写”信件或电子邮件······)。而这个功能对于那些“特殊群体”,带来的便利是不言而喻的。
目前世界上最先进的语音识别软件叫做 Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking已经得到了大多数用户的认可。对着麦克风说话,屏幕上就显示出说话的内
容,很容易识别和纠正错误。久而久之,该软件会摸索出用户的“秉性”。当然,用户如果在说话过程中发现软件无法识别的,也相应地作出调整,这样一来,语音识别的正确率就会逐渐提高。
2.国内语音识别技术的研究现状
尽管我国语音识别研究工作起步较晚,但目前在该领域中国已占有了自己的一席之地。这一切都要归功于1987年的863计划,它大大缩短了从实验室逐步迈向应用层面的周期。而最作为世界上最有韵味、最美丽的语言——汉语我们也有着近水楼台先得月的优势。
“天语”中文语音系列产品—Pattek ASR就是其中的佼佼者,它结束了中文语音识别产品自 1998 年以来一直由国外公司垄断的历史。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和 96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到 96.9%(不定长数字串和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到 98.73%;并且可以识别普通话与四川话两种语言,达到实用要求。
也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思维定势。
四、语音识别所面临的挑战
人们在识别道路上的不断努力只是为了有一天能够实现机器像
人类一样能“听懂"语言,与人类自然地沟通。但在实际应用中,由于系统的鲁棒性、灵活性和适应能力远达不到市场需求,导致了目前你很难在市场见到成熟的语音识别的相关产品。若想提高应用率就必须从普遍性和实用性这两大方面入手,具体可以以下的切入点:
1同一发音信号的随机性变化
语音信号是非平稳信号,不但不同发音者发音之间存在重大差异,即使同一人在不同时间、地点、不同生理状态情况下发音也存在很大差异。
2噪声问题
由于环境噪声广泛存在,具体的语音识别工作环境千差万别,容易造成训练与测试环境不匹配致使系统性能严重下降,因此提高语音识别系统的鲁棒性是关系这项技术能否走向实用阶段的关键。现有的语音识别系统只能工作在安静环境下。在噪声环境下工作,受噪声的干扰,讲话人产生情绪或心理的变化,导致发音失真、发音速度和音调改变,即发生Lombard 效应或Loud 效应。从90 年代初期到现在,抗噪声语音识别技术已经成为语音识别领域的一个重要研究课题。
3连续语音方面:
相比数字和英文连续识别,汉语有着自己味道,如何品出汉语的内涵?如何解决各音节之间相似度极高,不容易区分的现象?就需要从汉语韵律中寻的突破:试着考虑语言中重音、语调、声母和韵母等因素。
4可移植性:
如今,应用系统的设计、开发周期都很短,所以会频繁地移植系统,这个时候系统的性能会有重大退化,为了返回到它的“黄金岁月,就必须依据新项目来的要求改善训练方式,这样即费时又费力。所以可移植性的研究也就显得刻不容缓
5词与词的特征空间混叠
语音识别的常规方法是利用语音信号的短时平稳特性将语音时域采样信号分为若干帧,计算出每一帧的相应特征矢量,从而得到该帧语音的一个特征矢量序列。但从这些矢量的空间分布来看,很多不同词语的矢量序列在特定空间存在混叠现象。克服这个问题的主要思路是,首先应当基本准确地找到该发音者发音的大致短时周期,并尽量使用合理的特征,同时充分利用特征序列的时序特征。
五、方案论证
系统总体设计方案
根据需求制定任务书
根据任务说明书进行原理研究、方
案论证和系统的参数设定
软件MATLAB仿真
硬件DSP底层文件修改
算法移植
系统测试与调试
图3.1 系统设计流程图