基于DSP的连续数字语音识别系统的实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

系统由话筒/扬声器、市内电话(5部),
第4期增刊
任文霞等:基于r)sP的连续数字语音识别系统的J宴现
797
波器,全部代码同化在R()M中,采样的数据和变量存 人RAM内。采样信号通过Ham嘶Ilg窗,窗长为 20ms,帧长为20ms,即160个采样点,帧移为10ms帧 长,加窗语音通过一阶预加重滤波器来被偿语音信号 中的高频部分(口=O.96),再运用连续密度的隐马尔可 夫模型进行训练和识别。语音信号的特征提取和训练 算法全部由TMS320c5402
TMs320Va402璐P芯片为核心进行硬件设计.实现数字语音的实时识别。实验结果表明该系统具有识别精度高、速度快等
特点,语音识别率达到了96%以上,为其实用化提供了较为重要的技术途径。 关键词:HMM;端点检测;自适应}数字信号处理器
Realization of seriate digital speech recognition system based Wen)da,Lv Wenzk,Huang
EⅧ完成,系统控制和识
5结 论
别阶段的工作通过DMA方式由Pc机完成。
4系统的性能测试
先采集30个学生(15男15女,普通话均较标准) 的共6000个语音样本,并对所有的样本进行训练,做 成30个训练样本。另加入10人(普通话均较标准), 采集这40人的4000个语音样本作为测试样本,对该 系统进行测试,所得测试结果如表1所示。
第28卷第1期增刊 2007年4月
仪器仪表
Chlnese
学报
Vol_28No.4 ADr.2007
journal of scIenn脏Instrument
基于DSP的连续数字语音识别系统的实现
任文霞,吕文哲,黄涛
(河北科技大学信息科学与工程学院石家庄050054)
摘要:本文介绍一个非特定人的连续数字语音识别系统,它采用端点检测方法和自学习语音识别算法,同时以TI公司的
练样本,然后再对这30人进行测试,可发现识别率为 96%,并且一直稳定在96%左右。而未参加训练的lo 人,识别率仅为92.5%,如果将这lo人的测试样本加 入洲练中进行自学习,得到新的训练样本,然后再对这 10人的另2000个样本进行测试,识别率为95%左右。 经过几次自适应之后,识别率也将稳定在96%左右。
2.2
进行有效的融台而形成一个模板。当训练发音的次数 增多时,只会造成洲练过程的计算量增大,而不会使识 别过程的计算量有丝毫增加。 利用HMM对多训练序列的迭代公式.设计一套 算法使系统具有自适应功能。该算法的基本思想是, 当发生错误的识别时,系统对误识的模板进行调整,使 之更适应使用者的发音习惯,以避免类似的误识再度 发生。发生错误的识别时必然牵涉到两个模板,~个 是与待识别发音相同的数字却被判为不相同的模板; 另一个是与待识别发音不同的数字却被判为相同的模 板。当发生误识并由用户确认后,系统对两个模板进 行修正;对于前者的处理较简单,程序将被误识的发音 加到原训练发音群中,再用迭代公式求出新的模板即 可;对于后者的处理则较复杂,它的主要任务就是剔出 形成该模板的训练发音群中有一部分与被误识的发音 相近的部分训练发音。为此先把被误识的发音制成模 板,再用该模板与原先的模板的各训练发音分别匹配, 把艇配程度较好的训练发音剔除。对剩下的训练发音 使用迭代公式形成新的模板即可。
图2系统硬件构成原理
TMS820c5402EvM及阱pC机组成(见图2)。话
筒或电话的语音模拟信号通过TMS320c5402EVM的 RcA连接器,进入预处理,包括A/D变换、自动增益 控制、反混叠滤波、预加重。其中A/D采样频率为 8kHz(此即语音信号的采样频率),可通过对 TMS320c540JC32046集成块完成.它接收和发 送数据都是以串行数据的形式,其串行数据收发的交 互线和TMS320c5402一一对应,并且内置有I/O滤
on
DSP
Ren
Tao
(H也i孤f聊i幻o,Sci删F 4硝%^"o抛y,珊巧i口拍瑚醒050054,凸i抛)
Abst嗡ct:This
paper
introduces

speech recognition system,which is used for independent speaker.The
core
of the hardware design,which is the production of TI
as
The experimenta】resuIts show that this system has many advantages such
high recogniti。n
an
precision,high speed and etc.The speech recog工lition rate rises up to 96%,which provides
are
endpoint detection and adaptive speech recognition a—thmetic the same time,the terprise.
used in the de sjgn of software.
And at
en—
TMS320VC5402
is the
[1]Rabiner
L R语音识别原理[M].北京:清华大学出
版社,1999,41290_294. [2]赵力.语音信号处理[M],北京:机械工业出版社,
2003,6:206—268.
[3]
cHEN Y H
tinuous
Autornatic segmentat.0n of chinese∞n- Ho“gkong: Pmceedings of
本文链接:/Conference_6420044.aspx
表l识别系统的测试结果
本文采用基于HMM模型的语音信号端点检测方 法进行端点检测,提高了识别的准确率,并利用11公
司的高速耶vIS320c5402硎设计了一个连续数字语
音自动实时识别系统。在识别算法中,采用基于VC∥ HMM的自适应算法,使未经过训练的人只需少数几 次的自适应学习就能取得较高的识别率。实验结果表 明,该系统具有实时、可靠、鲁棒性强和识别率高的 特点。 参考文献

系统硬件设计及工作原理
在此基于HMM的连续数字语音识别系统中采用
TMS320vc5402 DSP芯片来实现。系统的电路结构
框图如图2所示。
(2)采用V创HMM的自适应语音识别系统
数字语音的端点检测出来后,即可对数字语音的 每一帧进行声学参数分析,提取特征参数。语音信号 是短时准平衡的随机过程,具有很强的时变特性。 HMM模型包括两个随机过程,其中一个随机过程则 产生观测序列。对于语音识别系统,观测序列就是矢 量量化后的结果序列,HMM模型就是由训练语音得 到的模板。语言的训练过程就是产生模板的过程,而 语言的识别过程就是求出在模板下待识别的语音的结 果序列的条件概率。目前都采用迭代的方法得到状态 转移概率矩阵和观测序列分布概率矩阵的近似解。在 实际中,仅对数字的少数次发音进行训练的语音识别 系统,不可能对各种复杂语境下的不同发音都有较高 的识别率。而HMM能够对一个数字的多个训练序列
随着语音识别技术的发展,语音识别的产品已经 进入人们的日常生活中。近几十年来。国内外关于语 音识别的研究取得了许多重大进展,许多语音识别产 品已经由实验室阶段转而投放到市场中。在语音识别
的算法上先后出现动态时间弯曲(唧)、隐马尔可夫
(HMM)和人工神经网络三种主要方法。Drw的存 储和计算量太大,而人工神经网络法目前难以在实际 中获得广泛的应用。HMM因为计算量大大减少和正 确率较高,从而得以在语音识别系统中广泛的应用。 本文介绍的连续数字语音识别系统采用基于HMM的 语音信号端点检测方法和基于W∥HMM的自适应语 音识别算法,并且在硬件上利用DsP强大的数据处理 功能,使识别率高达96%.获得良好的效果。
important
method for its practical applications.
Key
words:HMM;endpoint detection}adaptive;DSP
1引

2系统软件实现
2.1语音识别的基本原理 孤立词的识别系统的原理框图如图l所示。识别 系统中,训练阶段训练者先将数字依次读一遍,并且将 其特征矢量序列作为模板存入模板库中。识别时,将 输入语音的特征矢量序列与模板库中的每一个模饭进 行相似度比较,相似度最高者作为识别结果输出。
mx PZ[z/k]。
HMM算法在系统中应用 (1)基于HMM模型的语音端点检测方法在噪声
环境中的应用 为了检测未知语音数字的起点和终点,需要把语 音信号流和背景噪声区分开,端点检测通过一组复杂 的门限,并按算法规则分析语音的方法将两者区分开 来。对于各种不同的信号电平和电话网络中的各种噪 音干扰,门限会进行自适应调整。 另一方面,端点检测门限和算法不仅有助于把语 音和噪音区分开来,而且还能将数字串内的无声和数 字串尾的无声区别开来。从而减少采集的数据量,删 除背景噪声,降低语音识别处理中的计算量和处理时 间,提高识别的准确性。为此把HMM方法直接用于 语音信号的端点检测。具体做法是:在训练阶段,分别 得出背景噪声和语音的模型参数;在测试阶段,用vit- erbi解码方法在训练模型基础上对被测语音进行分 解,求出语音的哪些帧与背景噪声匹配.哪些帧与语音 匹配,从而得到端点的所在处。
IEEE
由上数测试结果发现。对于参加先期训练的30 人,识别率已经相当高,如果再把这3000个样本加入 原来的6000个样本进行多训练序列迭代形成新的训
speech
Tms[J],1987,09(1—4):163~168.
基于DSP的连续数字语音识别系统的实现
作者: 作者单位: 任文霞, 吕文哲, 黄涛 河北科技大学信息科学与工程学院,石家庄,050054
图l孤立词识别系统原理框图
796
仪器仪表学报
第2 8卷
在本系统中选用HMM作为模式匹配法,把马尔 可夫随机过程的输出作为语音序列的输出。系统的核 心算法就是用马尔可夫随机过程对语音信号进行建 模,并求出该随机过程的参数。假定识别系统的数字 共包括M个数字,那么在训练阶段需要清很多人分别 将这些数字读一遍并存人数据库中。利用这些训练数 据为每一个数字建立一套HMM参数k,(1≤m≤ M)。在识别时,每输如一个待识别的数字,就可以得 到一个M维行矢量z(N是语音中包含的帧数),只需 要计算各个k产生z的概率Pz[乙],则识别结果m‘ 为使此概率最大者,即:m。一arg
相关文档
最新文档