Sphinx用于汉语连续数字语音识别的研究

合集下载

基于HTK的宁夏银川方言普通话语音识别系统

基于HTK的宁夏银川方言普通话语音识别系统文/赵俊峰1，刘升平2，海占广2，诸叶平2（1.宁夏大学信息工程学院；2.中国农业科学院农业信息研究所）摘要：自动语音识别（ASR）是机器或程序识别语音命令或听写的能力，其内容涉及将语音模式与所提供或获取的词汇匹配的能力。

目前，主要使用基于隐马尔可夫模型（HMM）的语音识别器。

本文旨在为应用于农产品交易领域的宁夏银川方言普通话构建语音识别系统，隐马尔可夫模型工具包（HTK）用于开发系统，它使用声学词模型识别孤立的词。

系统训练113 个常用农业词汇，训练数据收集于9 位说话人，实验结果表明，HMM拓扑中10 个状态的系统的整体精度为96.61%和95.49％。

关键词：自动语音识别（ASR）；HTK；MFCC一、背景在农业领域进行信息化建设的过程中，键盘成为计算机和用户之间的障碍。

这对西部地区农业生产者尤其重要。

语音识别将在促进农村地区的技术方面发挥非常重要的作用，通过这项技术，允许农村地区的人们使用他们的本地语言，以缩小计算机和农业生产者之间的差距。

语音是一种有用的和有效的通信媒体，特别是在键盘输入尴尬或不可能的环境中。

技术处理（自动语音识别和语音合成）在英语和汉语普通话方面取得了巨大进步。

在宁夏大约有四分之三的人口居住在农村地区，大多数人口不熟悉电脑和英语。

如果与机器以地方话交流，将会为农业信息化提供极大便利，这将使得人们能够使用自己的语言与计算机进行交互，而无需使用键盘。

语音接口涉及两个不同的领域，语音合成和自动语音识别（ASR）。

语音合成是将文本输入转换为相应的语音输出的过程，即它用作文本到语音转换器。

相反，语音识别是将讲话声音转换成类似于由这些声音传送的信息的文本的方式。

在这两个任务中，语音识别更加困难，但它有多种应用程序，如交互式语音响应系统，身体残疾人的应用程序和其他人（Aggarwal，Dave，2011）。

有许多公共领域软件工具可用于语音识别领域的研究工作，如来自卡内基梅隆大学的Sphinx （SPHINX，2011），隐马尔可夫模型工具包（HTK，2011）和大词汇连续语音识别（LVCSR）引擎（Julius，2011）。

智能语音系统创造背景

智能语音系统创造背景
智能语音，即智能语音技术，以语音识别技术为开端，是实现人机语言的通信，包括语音识别技术（ASR）和语音合成技术（TTS）。

智能语音技术是最早落地的人工智能技术，也是市场上众多人工智能产品中应用最为广泛的。

随着人工智能的快速发展，中国在智能语音技术的专利数量持续增长。

通过庞大的用户群基础以及互联网系统优势明显，国内智能语音公司已经占据一席之地。

智能语音技术的研究可追溯到20世纪50年代，其发展历程分为以下四个阶段：
1.萌芽
1952年，第一个语音识别系统Audry诞生
2.突破
1984年，计算机第一次开口说话，IBM发布的语音识别系统在5000个词汇量级上达到了95％的识别率
1988年，世界上首个非特定人大词汇量连续语音识别系统SPHINX诞生
3.产业化
1997年，语音听写产品问世
1998年，成功开发出可识别上海话、广东话和四川话等地方口音的语音识别系统
2002年，美国首先启动“全球自主语言开发”项目
2009年，微软Win7集成语音功能
4.快速应用
2011年，苹果个人手机助理Siri诞生
2015年，首个可智能打断纠正的语音技术问世
2017年，智能语音系统集中扩展深度学习应用技术取得突破性进展
每一次科技的进步都给我们的生活和工作带来了便利。

在不久的以后，智能语音技术在口语教学、考试测评、模拟练习等环节也将能够代替老师的很多工作，大大降低人工成本。

随着技术的愈加成熟和逐步突破，我们相信智能语音的未来不可限量。

C语言智能语音助手语音识别和自然语言处理

C语言智能语音助手语音识别和自然语言处理C语言智能语音助手—语音识别和自然语言处理C语言智能语音助手是一种具备语音识别和自然语言处理功能的应用程序。

它通过使用C语言的相关库和算法，能够将语音输入转换为可理解的文本，并利用自然语言处理技术进行语义分析和理解。

一、语音识别语音识别是将语音信号转换为文本形式的过程。

在C语言智能语音助手中，我们可以使用开源的语音识别库来实现这一功能。

其中，最常用且效果较好的库是CMU Sphinx。

它提供了丰富的功能和算法，能够对多种语言进行准确的语音识别。

在进行语音识别时，我们首先需要收集和处理输入的语音信号。

这一过程可以通过麦克风进行实时获取，或者从音频文件中读取语音信号。

接着，我们将语音信号传输给语音识别库，库中的算法将对输入信号进行解析和分析，并转换为文本形式。

二、自然语言处理自然语言处理是对文本进行语义分析和理解的过程。

它能够识别和处理自然语言表达的意图和含义，使计算机能够理解并回应人类的语言输入。

在C语言智能语音助手中，我们可以利用C语言的字符串处理功能和相关库来实现自然语言处理功能。

首先，我们需要对语音识别得到的文本进行初步的处理和分词。

分词是将长串的文本切分为单词或短语的过程，便于后续的语义分析。

在C语言中，我们可以使用字符串处理函数来实现分词功能。

接下来，可以使用预定义的规则或者机器学习算法来进行语义分析。

预定义规则是一种基于语法和语义规则的方法，通过手动编写规则来解析文本的含义。

而机器学习算法是通过对大量标记好的语料进行训练，从中学习语言的特征和规律，达到自动分析文本含义的目的。

在完成语义分析后，我们可以根据用户的意图和需求，进行相关的操作和回应。

例如，根据用户提问的关键词进行信息检索、调用其他功能模块进行计算等。

三、C语言实现C语言作为一种高效而强大的编程语言，非常适合用于实现智能语音助手。

在C语言智能语音助手的开发过程中，我们可以利用C语言的相关库、算法和数据结构来实现语音识别和自然语言处理功能，从而打造一个高效且实用的应用程序。

基于HMM的黔东南少数民族地区苗语连续语音识别系统研究

基于HMM的黔东南少数民族地区苗语连续语音识别系统研
究
杨建菊;唐录洁;龙虎
【期刊名称】《电脑知识与技术》
【年(卷),期】2017(013)031
【摘要】该文根据贵州黔东南少数民族地区苗族语言发音特点,对苗语连续语音识别系统进行研究,并尝试采用Sphinx工具应用HMM方法,对苗语连续语音识别系统进行初步设计和识别测试.
【总页数】2页(P190-191)
【作者】杨建菊;唐录洁;龙虎
【作者单位】凯里学院大数据工程学院,贵州凯里556011;凯里学院信息网络中心,贵州凯里556011;凯里学院大数据工程学院,贵州凯里556011
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于ANN/HMM混合模型汉语大词表连续语音识别系统 [J], 蒋瑞;李海峰;马琳
2.基于ANN／HMM混合模型汉语大词表连续语音识别系统 [J], 蒋瑞;李海峰;马琳
3.基于DDBHMM的维吾尔语语音声学层识别系统研究 [J], 吾守尔·斯拉木;刘俊;王飞飞
4.黔东南西部方言普通话正音——兼谈黔东南苗语的语音影响 [J], 王贵生
5.苗语亲属称谓系统研究——以贵州省松桃苗族自治县苗语为例 [J], 麻昌贵因版权原因，仅展示原文概要，查看原文内容请购买。

Python中如何进行AI语音识别

Python中如何进行AI语音识别随着人工智能技术的发展，语音识别技术已经得到广泛应用，成为人们生活中不可或缺的一部分。

而Python作为一种流行的编程语言，已经在AI领域中扮演着重要的角色。

那么，在Python中如何进行AI语音识别呢？本文将围绕这一问题进行论述。

一、Python语音识别库介绍Python语音识别库包括google speech recognition、sphinx、pocketsphinx、Envelop等几种。

下面将对它们一个个进行介绍。

1. Google Speech RecognitionGoogle Speech Recognition是使用Google的API实现的语音识别库，它可以将音频文件转化为文本。

它可以支持多种语言，如英语、法语、德语、中文等。

它的优点是使用方便、准确度高，但缺点是需要稳定的网络连接，而且需要获取API密钥。

使用方法：（1）安装库。

```pythonpip install SpeechRecognition```（2）使用Google API密钥调用```pythonimport speech_recognition as srdef recognize_speech(audio_file_path):r = sr.Recognizer()with sr.AudioFile(audio_file_path) as source: audio = r.record(source)try:text = r.recognize_google(audio)return textexcept Exception as e:print(e)```2. SphinxSphinx是CMU开发的一种免费语音识别工具包。

由于它可以使用离线识别，因此它是一种非常强大、适用性广泛的语音识别工具。

它能够支持多种操作系统，包括Windows、MacOS、Linux等。

它的优点是支持离线识别，准确度高，但需要一定的学习和训练过程。

【sphinx】中文声学模型训练

【sphinx】中⽂声学模型训练⼀ .使⽤CMUSphinx训练声学模型CMUSphinx⼯具包中⾃带好⼏个⾼质量的声学模型。

美语模型，法语，中⽂模型。

这些模型是经过优化的，为了得到最佳的性能，⼤多数指令交互系统能直接⽤这些模型，甚⾄⼀些⼤词汇量的应⽤也能直接⽤他们。

除此之外，CMUSphinx提供了功能，能适应现存的模型，为了满⾜有些需要更⾼精度的需求。

当你需要使⽤不同的录⾳环境，（⽐如近距离，远离麦克分或者通过通话过程中），这些情况下做适应结果都是不错的，或者当需要转换⼀种⼝⾳，⽐如美语和英语的转换，印度英语的使⽤等。

⾃适应能满⾜这样的要求：那就是你需要在很短的时间内，⽀持⼀门新的语⾔，那么你只需要基于词典做出⼀个声学模型⾳素集到⽬标⾳素集的转换就可。

然⽽，在某些时候，当下的模型并没法⽤。

⽐如⼿写识别中，或者其他语⾔的监测中。

这些情况下，你需要重新训练你⾃⼰的声学模型。

如下教程会指导你如何开始训练。

⼆开始训练训练之前，假设你有充⾜的数据：⽤于单个⼈的指令应⽤，⾄少需要⼀⼩时录⾳，⽤于很多⼈指令应⽤，需要200个录⾳⼈，每⼈5⼩时⽤于单个⼈的听写，需要10⼩时他的录⾳⽤于多个⼈的听写，需要200个说话⼈，每⼈50⼩时的录⾳同时你要有这门语⾔的语⾳学知识，以及你有⾜够的⽐如⼀个⽉的时间，来训练模型⽽如果你没有⾜够的数据，⾜够的时间，⾜够的经验，那么建议你还是做已有模型的⾃适应来满⾜你的要求。

数据准备训练者需要知道，使⽤哪⼀个声⾳单元来学习参数，⾄少每个序列都要在你的训练集中出现。

这个信息储存在transcript file中。

然后通过词典dictionary，其中对于每个单词都有相应的声⾳序列做了映射。

所以，除了语⾳数据，你还需要⼀个transcripts，和两个词典。

⼀个中是每个单词到发⾳的对应表，以及⼀个中是不发⾳的单元的表，记为filler dictionay.训练开始训练之前需要准备如下两个⽬录etcyour_db.dic - Phonetic dictionaryyour_db.phone - Phoneset fileyour_db.lm.DMP - Language model -语⾔模型your_db.filler - List of fillersyour_db_train.fileids - List of files for trainingyour_db_train.transcription - Transcription for trainingyour_db_test.fileids - List of files for testingyour_db_test.transcription - Transcription for testingwavspeaker_1file_1.wav - Recording of speech utterancespeaker_2file_2.wavFileids (your_db_train.fileids and your_db_test.fileids中列出了语⾳数据的⽂件名。

MiniGUI和语音识别引擎PocketSphinx间通信机制的实现

欢迎订阅欢迎撰稿欢迎发布产品广告信息63D o :i 10.3969/.j issn .1671-1041.2009.05.035M iniGUI 和语音识别引擎Pocke tSphinx 间通信机制的实现韩培宽,张雪英(太原理工大学信息工程学院,太原030024)摘要:介绍了在Linux 系统下M i n i G U I 开发环境的建立,并通过消息队列使M i ni GU I 和语音识别引擎PocketSphi nx 之间完成数据传输,实现了Pocket Sphi nx 语音识别功能的图形化。

消息队列将P ock etSph i nx 的识别结果发送给M i ni GU I,M i ni GU I 通过消息处理机制,对语音识别信号产生响应,同时返回一个参数给PocketSphinx 表示完成语音识别。

关键词:L i nux;M i n i G U I ;Pocket Sphi nx ;消息队列中图分类号:TP 334 文献标识码:BThe imple m ent of co mmunication m echanis m bet weenM iniGUI and speech recognitionengine PocketSphinxHAN Pe i kuan ,ZHANG Xue yi ng(C ollege o f I nfor m ati on Engineeri ng ,Ta i yuan University o f Techno l ogy ,Taiyuan 030024,China)Abstrac :t This paper gives a brief intr oduc tion of est abli s hing t he develop m ent env iron m ent of M ini G U I under Linux syste m.It has real ized the data tr ansm iss i o n bet ween M ini G U I and Pocket Sphinx by Message Q ueue and ach i e ved t he graphica l of speech recogniti o n f uncti o n of Pocket Sphinx .The process is transm it s t he recogniti o n result fro m Pocket Sphinx to M i n i G U I by Message Q ueue ,t hen M i n i G U I has the response to t he voice contr o l signal t hrough t he message handling mechanism.At t he sa m e tm i e ,M ini G U I ret urns a paramet er t o Pocket Sphinx and complet e the voice control f unc tion .Key w or ds :L inux ;M ini G U ;I Pocket Sphinx;message queue0 引言近年来,随着软硬件资源的成熟与完善,嵌入式技术和人们的生活更加紧密相关,设备日益小型化,传统的键盘、鼠标控制已经显得越来越不合时宜,对语音控制的需求也日趋强烈。

常用语音芯片

常用语音芯片语音芯片是一种集语音识别、语音合成和语音处理功能于一体的集成电路芯片，被广泛应用于智能音箱、智能手机、车载电子、语音助手等领域。

随着人工智能技术的快速发展，语音芯片在人机交互、智能控制等方面发挥着重要作用。

下面是一些常用的语音芯片。

1. CMU Sphinx：CMU Sphinx是一种开源的语音识别系统，具有较高的识别准确率和良好的性能。

它适用于嵌入式设备和个人电脑，可实现连续语音识别和关键词检测等功能。

2. Microsoft Azure Speech：Microsoft Azure Speech是微软公司提供的一种云端语音服务。

它可以轻松实现语音转文本、文本转语音、关键词检测等功能，具有高度可定制性和强大的语音处理能力。

3. Google Cloud Speech：Google Cloud Speech是谷歌公司的语音识别服务，提供准确的语音转文本功能，并支持多种语言和实时音频流处理。

它适用于智能音箱、智能手机等领域，能够满足不同场景的需求。

4. Apple Siri：Apple Siri是苹果公司的语音助手，搭载在iPhone、iPad等设备上。

它采用自然语言处理和机器学习技术，可以回答问题、发送信息、设置提醒等，并支持多种语言。

5. Amazon Alexa：Amazon Alexa是亚马逊公司的语音助手，搭载在Echo智能音箱上。

它可以通过语音控制家居设备、播放音乐、查询天气等，具有丰富的技能和强大的智能控制能力。

6. Baidu DuerOS：Baidu DuerOS是百度公司的语音助手平台，提供语音识别、语音合成和语义理解等功能。

它支持人机对话、智能家居控制、在线购物等应用场景，是智能音箱等设备的理想选择。

7. iFLYTEK：iFLYTEK是中国科大讯飞公司开发的一种语音技术平台，提供语音识别、语音合成和语义理解等服务。

它在语音处理领域有着较高的影响力，被广泛应用于智能交互、教育培训等领域。

PocketSphinx语音识别系统语言模型的训练和声学模型的改进

PocketSphinx语音识别系统语言模型的训练和声学模型的改进PocketSphinx语音识别系统语言模型的训练和声学模型的改进**************/zouxy09关于语音识别的基础知识和sphinx的知识，具体可以参考我的另外两篇博文：语音识别的基础知识与CMUsphinx介绍：/zouxy09/article/details/7941585PocketSphinx语音识别系统的编译、安装和使用：/zouxy09/article/details/7942784下面的工作都是基于上面两篇博文往下做的，所以最好先了解下前面的情况。

下面的过程参考CMU sphinx的wiki：一、训练语言模型词与词之间存在着合乎句法与否的约束，语言模型就是用来表示这些约束的，它可以提供字与字之间的上下文信息和语义信息。

在pocketsphinx语音识别系统时，采用了N-gram模型，即对训练音频文件所对应的文本文件进行统计，提取不同字词之间先后发生的统计关系。

如果你的语言模型较小（例如小的语音指令集或者任务），而且是英文的，那就可以直接上CMU提供的网络服务器上面训练，如果较大的话，一般使用CMUclmtk语言模型工具来训练。

下面分两种情况来介绍：1.1、利用在线工具建立语言模型（1）创建一个语料库：语料库实际上就是一些文本的集合，包含了你需要识别的语音的文字的一些集合，例如句子啊，词啊等等。

#vi corpus.txt输入如下内容：stopforwardbackwardturn rightturn left保存退出（2）利用在线工具LMTool建立语言模型：进入网址：点击Browse按钮,选择之前创建的corpus.txt，最后点击COMPILE KNOWLEDGE BASE。

这样就会生成字典文件* .dic 和语言模型文件 *.lm，例如：生成TAR2916.tar.gztar xzf TAR2916.tar.gz2916.corpus 2916.lm 2916.sent.arpabo 2916.vocab2916.dic 2916.sent 2916.token真正有用的是.dic、.lm的文件（3）测试结果：pocketsphinx_continuous解码器用-lm选项来指定要加载的语言模型，-dict来指定要加载的字典。

基于动态时间规整算法的语音识别技术研究

基于动态时间规整算法的语音识别技术研究作者：张慧敏来源：《科技资讯》2017年第26期摘要：语音控制作为一种新型的人机交互手段，给用户带来更多的操作体验，在很多特定场景中具有必要性。

本文将梅尔倒谱系数（MFCC）作为语音特征参数，采用动态时间规整算法（DTW）进行模式识别和分类，实现了小样本孤立词汇的实时识别，具有高识别率。

在基本算法的基础上进行了边界条件改进，克服了端点检测缺陷。

在语音特征提取上，分析比较了线性预测系数（LPC）和梅尔倒谱系数（MFCC）作为特征参数的优缺点，最后选定基于人耳听觉特性的MFCC作为语音特征参数。

语音信号采用NI公司USB-6218采集卡将数据直接传输至MATLAB开发平台，在MATLAB集成环境下实现了语音识别程序。

实验结果表明，系统可以实现6个特定的孤立词识别，满足实时性和准确性要求。

关键词：语音识别端点检测 DTW MFCC中图分类号：TP39 文献标识码：A 文章编号：1672-3791（2017）09（b）-0028-04Abstract： Speech control， as a new type of human-computer interaction method， brings better operation experience to users， and it is necessary in many specific scenes. In this paper， the MFCC are used as speech feature parameters， and the dynamic time warping algorithm （DTW） is used for pattern recognition and classification， which realizes the real-time recognition of small sample isolated words with high recognition rate. On the basis of the basic algorithm， the boundary condition is improved and the defect of endpoint detection is overcome. In the speech feature extraction， analysis and comparison of the linear prediction coefficient （LPC） and MFCC advantages and disadvantages as characteristic parameters， finally selected based on human auditory characteristics MFCC as speech feature parameters. The voice signals are directly transmitted to the MATLAB development platform by NI company's USB-6218 acquisition card， and the voice recognition program is implemented in the MATLAB integrated environment. Experimental results show that the system can implement 6 specific isolated word recognition， which meets the requirements of real-time and accuracy.Key Words： Speech recognition； Endpoint detection； DTW； MFCC语言是人与人之间最自然、最重要的交流工具，同时也是人类获取信息的重要途径之一。

语音识别技术综述

语音辨别技术综述语音辨别技术综述电子信息工程2010 级 1 班郭珊珊【纲要】跟着计算机办理能力的快速提升，语音辨别技术获得了飞快发展，该技术的发展和应用改变了人们的生产和生活方式，正逐渐成为计算机办理技术中的要点技术。

语音技术的应用已经成为一个拥有竞争性的新兴高技术家产。

【要点词】语音辨别；语音辨别原理；语音辨别发展；产品语音辨别是以语音为研究对象，经过语音信号办理和模式辨别让机器人自动辨别和理解人类口述的语言。

语音辨别技术就是让机器经过辨别和理解过程把语音信号转变成相应的命令或文本的高新技术。

1语音识其余原理语音辨别系统本质是一种模式辨别系统，包含特色提取、模式般配、参照模式库等三个基本单位元。

未知语音经过话筒变换成电信号后加载识别系统的输入端，第一经过预办理，再依据人的语音特色成立语音模型，对输入的语音信号进行剖析，并抽取所需特色，在此基础上成立语音辨别所需的模板。

计算机在辨别过程中要依据语音识其余模型，将计算机中寄存的语音模板与输入的语音信号的特色进行比较，依据必定的搜寻和般配策略，找出一系列最优的与输入语音般配的模板。

而后依据此模板的定义，经过查表可给出计算机的辨别结果。

这类最优的结果与特色的选择、语音模型的利害、模板能否正确都有直接的关系。

2语音辨别系统的分类语音辨别系统能够依据对输入语音的限制加以分类。

2.1 从说话者与辨别系统的有关性考虑能够将辨别系统分为 3 类： (1) 特定人语音辨别系统：仅考虑关于专人的话音进行识别； (2) 非特定人语音系统：识其余语音与人没关，往常要用大批不一样人的语音数据库对识别系统进行学习； (3) 多人的辨别系统：往常能辨别一组人的语音，或许成为特定组语音辨别系统，该系统仅要求对要识其余那组人的语音进行训练。

2.2 从说话的方式考虑也能够将辨别系统分为 3 类： (1) 孤立词语音辨别系统：孤立词辨别系统要求输入每个词后要停留； (2) 连结词语音辨别系统：连结词输入系统要求对每个词都清楚发音，一些连音现象开始出现； (3) 连续语音辨别系统：连续语音输入是自然流畅的连续语音输入，大批连音和变音会出现。

利用计算机技术进行语音识别与自然语言处理的基本流程与工具

利用计算机技术进行语音识别与自然语言处理的基本流程与工具计算机技术的快速发展为语音识别和自然语言处理提供了广阔的发展空间。

语音识别和自然语言处理是计算机科学领域的重要研究方向，涉及到声音、语言和信息处理等多个学科。

本文将介绍语音识别和自然语言处理的基本流程和常用工具。

一、语音识别的基本流程语音识别是将人类语音转换为计算机可识别的文本或命令的过程。

它可以应用于语音助手、语音翻译、语音识别软件等多个领域。

语音识别的基本流程如下：1. 语音采集：通过麦克风或其他录音设备采集人类的语音信号。

语音信号是一种连续的模拟信号，需要经过模数转换器将其转换为数字信号。

2. 预处理：对采集到的语音信号进行预处理，包括去除噪声、降低语音信号的动态范围等操作。

预处理的目的是提高语音信号的质量，减少后续处理过程中的干扰。

3. 特征提取：从预处理后的语音信号中提取特征。

常用的特征提取方法包括短时能量、过零率、梅尔频率倒谱系数等。

这些特征可以反映语音信号的频谱特性和时域特性。

4. 建模：将提取到的特征与语音模型进行匹配。

语音模型可以是隐马尔可夫模型（HMM）或深度神经网络（DNN）等。

建模的目的是找到最匹配的语音模型，以识别出语音信号中的语音内容。

5. 解码：根据语音模型的匹配结果，将语音信号转换为文本或命令。

解码过程中会使用语言模型来提高识别的准确性。

语言模型可以是n-gram模型、循环神经网络（RNN）等。

二、自然语言处理的基本流程自然语言处理是指计算机对人类自然语言进行处理和理解的过程。

它可以应用于机器翻译、文本分类、情感分析等多个领域。

自然语言处理的基本流程如下：1. 文本预处理：对原始文本进行清洗和归一化处理。

包括去除标点符号、转换为小写、去除停用词等操作。

预处理的目的是减少噪音和数据冗余，提高后续处理的效果。

2. 分词：将预处理后的文本切分为独立的词语。

分词是自然语言处理的基础步骤，对于中文来说尤为重要。

常用的分词方法包括基于规则的分词和基于统计的分词。

PocketSphinx语音识别系统声学模型的训练与使用

声学模型主要用于计算语音特征和每个发音模板之间的似然度。

目的是为每个声学单元建立一套模型参数（通过不断地学习和改进得到最优的，也就是概率最大的一组HMM模型参数）。

需要训练的情况：1）需要创建一个新的语音或者方言的模型；2）为你的小词汇的应用创建一个特定的模型；3）你有足够的大量的语音数据：单的人的话（控制指令）需要1小时的录音，200个人的话需要50小时的录音。

4）你需要有语言的音素结构的知识；5）你有足够的时间去训练和优化（大概需要一个月）。

如果不具备以上的情况或者条件，那么用模型增强（适应）比训练一个新的模型更有效。

另外，你的语音数据库应该能够比较好地代表你所要识别的语音，而且最好是多个人的录音数据，而且包含多种录音情况，还有所有可能的语言学句子。

语音数据库包含两个部分：训练集和测试集，一般来说，测试集占全部数据库的1/10，但最好不要超过4个小时的录音时长。

获得一个语音数据库的一个比较好的方式是：1）对现有的你需要识别的语音的录音材料进行切割，例如新闻或者电台播音等；2）把你身边的人，例如家人，朋友或者同事的语音录下来；3）在voxforge上面收集；关于语音识别的基础知识和sphinx的知识，具体可以参考我的另外的博文：语音识别的基础知识与CMUsphinx介绍：/zouxy09/article/details/7941585PocketSphinx语音识别系统的编译、安装和使用：/zouxy09/article/details/7942784PocketSphinx语音识别系统语言模型的训练和声学模型的改进:/zouxy09/article/details/7949126SphinxTrain是CMU大学开发的开源声学模型训练器。

此工具可以训练适应于PocketSphinx的半连续HMM声学模型，也可以训练应用于Sphinx3的连续HMM声学模型。

（1）需要准备的文件：在进行训练之前，先通过SphinxTrain中的wave2feat文件对音频文件进行特征提取，得到的MFCC特征参数文件，并把它们作为声学模型训练的输入。

语音识别技术的研究与发展

语音识别技术的研究与发展王敏妲(同济大学微电子研究中心，上海201804)摘要：回顾了语音识别技术的发展历史,描述了语音识别系统的基本原理,介绍了语音识别的几种基本方法,并对语音识别技术面临的问题和发展前景进行了讨论。

关键词：语音识别；模式识别；特征提取；人机交互中图分类号：TP392.42文献标识码：AThe research and progress of speech recognition technologyWANG Min Da(Microelectrics Center of Tongji University，Shanghai201804，China)Abstract：This paper reviews the development history of speech recognition technology and describes the fundament of speech recognition system,introduces several basic methods of speech recognition and discusses the difficulties and prospect of speech recognition development.Key words：speech recognition；pattern recognition；feature extraction；human-computer interact1语音识别技术概述语音识别是解决机器“听懂”人类语言的一项技术。

作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。

如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。

以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。

Linux平台下Sphinx语音识别-4页精选文档

Linux平台下Sphinx语音识别Sphinx Speech Recognition Under the Linux PlatformYu Jiang,Liu Shi,Li Huaizhou(School of Optoelectronic Information,University of Electronic Science&Technology,Chengdu610054,China)Abstract:The programming of speech recognition under the Linux platform is expounded in this paper,and introduces the way to build a speech recognition system using PocketSphinx in detail.Keywords:Linux;ASR;Pocketsphinx programing随着科技的发展，语音识别在生活中扮演着越来越重要的角色，语音识别是机器通过录音设备将语音转化成程序能“理解”的命令的过程pocketsphinx是由卡耐基梅隆大学研发的一个轻量级，多平台，非特定人，大词汇库，可连续识别语音的引擎。

一、语音设别过程语音识别的一般过程是：获得声音波形，划分为“字”单位，然后识别。

我们可能要尝试所有的词组合来进行和音频的匹配。

但这样会给计算机造成很大的负担，我们找到了一个折中的方法：构建模型来进行语音识别这样速度和精确性都得到了很好的照顾。

二、模型语音识别系统主要由以下几个基本模块所构成：1.统计声学模型：典型系统多采用基于一阶隐马尔科夫模型进行建模。

2.发音词典：发音词典包含系统所能处理的词汇集及其发音。

3.语言模型：语言模型对系统所针对的语言进行建模。

三、sphinx系统的构建Include /usr/local/libinclude /usr/local/lib/pkgconfig然后执行命令ldconfig来重构库配置文件，这样pocketsphinx和sphinxbase所需要的库文件就被加入到了环境变量中了。

语音情感识别分类算法研究综述

语音情感识别分类算法研究综述李银河;李雪晖;徐楠;钟文雅;赵新仕;程晓燕;孙峰;袁键【摘要】语音情感识别本质上是对语音情感的特征参数进行分类和模式识别,其核心问题在于寻找一个更为合适的语音情感识别算法.综述了语音情感识别算法的分类概况、常用的分类算法、研究中的困难与需要进一步研究的问题.最后展望了可能提高精度的先进识别模型.【期刊名称】《南阳师范学院学报》【年(卷),期】2017(016)006【总页数】6页(P28-33)【关键词】语音情感识别算法;分类算法;识别准确率【作者】李银河;李雪晖;徐楠;钟文雅;赵新仕;程晓燕;孙峰;袁键【作者单位】南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061;南阳师范学院生命科学与技术学院,河南南阳473061【正文语种】中文【中图分类】TP391随着互联网的普及，人们对机器的智能化开发更加深入，使机器具备和人一样的情感和思维成为网络时代的潮流.语音情感是情感识别领域的一个重要分支，在人机交互中起着至关重要的作用.例如在计算机交互教学[1]、人的精神健康辅助诊断[2]等应用中都发挥着重要的作用.语音情感描述方式大致可分为离散情感类别和连续情感维度两种形式.这两种形式都具有各自表达情感的优缺点.前者描述简洁、易懂、容易着手，但是其单一有限的情感描述能力无法满足对自发情感的描述.后者拥有无限的情感描述能力，但将主观情感转化为客观数值的过程是繁重且无法保证质量的.当前，离散情感分类的研究比连续情感维度的研究更为繁荣.对于离散情感识别而言，其系统的识别准确率是与两个要素紧密相关的，即特征表示和分类器[3].在语音情感识别研究领域，研究者已经尝试和改进了多种分类技术.本文工作主要集中在离散语音情感识别模型的对比和改进上.语音情感描述方式大致可分为离散情感类别和连续情感维度两种形式.整体而言，依据情感描述方式的不同，当今语音情感识别系统所采用的识别算法可以分为以下两类.1.1 离散语音情感分类技术本文将基于离散情感描述模型的语音情感识别研究称为离散语音情感识别，它们被建模为标准的模式分类问题，即使用标准的模式分类器进行情感的识别[4].已有不少模式分类器被语音情感研究者们所尝试.常用的语音情感分类器线性的有Naive Bayes Classifier、Linear ANN(artficial neural network)、LinearSVM(support vector machine)、动态时间规整算法(dynamic time warping,DWT)、主成分分析(Principal Component Analysis)、BP(Back Propagation)神经网络、决策树(Decision Tree)、混合蛙跳算法(SELA)等；非线性的有Decision Trees、k-NN(k-nearest neighbor algorithm)、Non-linearSVM、GMM(Gaussian Mixture Model)、HMN(Hidden Markov Model)以及稀疏表示分类器等.其中，最为广泛使用的有HMM、GMN、ANN和SVM等[5].1.2 维度语音情感分类技术本文将基于维度语音情感描述模型的语音情感识别研究称为维度语音情感识别(Dim-SER).它的出现与传统的离散语音情感识别相比较为新兴，但也已得到领域内研究者们越来越多的关注[4，6-9].维度语音情感识别(Dim-SER)是情感计算领域的一个新兴分支，它从多维、连续的角度看待情感，将SER问题建模为连续值的预测回归任务.在当前维度语音情感识别(Dim-SER)领域应用较多的分类技术有：Linear Regression、k-NN、ANN、SVR等.其中SVR由于性能稳定、训练时间短等优点应用最为广泛[5].例如，Grimm等人在VAM数据库上对基于规则的逻辑分类器(rule-based fuzzy logic classifier)、k-NN和SVR在包括Valence、Action和Domiance在内的三维情感属性上的预测能力进行比较，实验结果表明，SVR的预测能力更胜一筹.可以看出：当前离散情感分类的研究比连续情感维度的研究发展更为繁荣，维度情感预测技术的研究较为薄弱，更多高性能的情感识别算法有待进一步开发.2.1 Artifical Natural Network(ANN)也称为人工神经网络，是在人类大脑神经突触的结构及链接模式的基础上发展起来的信息分析单元.ANN凭借其自适应性、非线性表示能力、自组织能力、实时处理能力、强容错能力、通过学习获得记忆信息并且解决问题的能力，在语音识别领域有着十分广泛的应用.但是，为充分学习隐形规则，神经网络方法一般都采取了含有大量神经元的隐含中间层导致其复杂度和计算量较高[10].图1给出了采用神经网络方法进行语音情感识别的流程图.Nicholson[11]所研究的系统整个神经网络由8个子网络构成，每个子网处理一种特定的情感，这种网络具有很好的可扩展性，增加情感类别时不需要重新训练整个网络.在神经网路构造完成后，将语音情感的特征参数分别输入到每个情感子网络中，以输出参数(介于0至1之间)为根据来确定该参数情感所属类型的似然程度，通过判别各情感子网络的输出结果，将似然程度最大的情感作为语音情感识别的最终结果[12].ANN在语音情感识别中主要应用在以下几个方面：(1) 缩小建模单元，它一般在音素上建模，通过提高音素的识别率来提高整个语音系统的识别率.(2) 从语音信号中提取多种特征，采用混合模型，并应用多种知识源(词汇、词意、句法、音素)，进行语音识别理解研究，以提高系统的性能.(3) 对大脑运行机制、声学模型、听觉模型进行综合分析，对语音信号引进上下文信息，以减少语音多变化的影响.通常语音情感识别神经模型分为两类，一类是神经网络或神经网络与传统的模型相结合的混合模型；另一类是根据人耳听觉生理学、心理学研究成果建立听觉神经网络模型.目前，ANN在复杂性和规模上都不能和人的听觉系统相比.因此，探讨ANN在语音情感识别中的应用，主要是从听觉神经模型中得到启发，在解决语音情感识别问题时得到较好的性能.语音情感识别领域较常用且具有潜力的神经网络模型主要有单层感知器模型SLP(Single Layer Perceptron)、多层感知器模型MLP(Multi-Layer Perceptron)、预测神经网络PNN(Prediction Neural Networks)、径向基函数神经网络RBF(Radial Basis Function)、Kohonen 自组织特征映射模型SOFM(Self Organization Feature Mapping)等.此外，为了使神经网络反映出语音信号的动态时变特性，还有循环神经网络RNN(Recurrent Neural Networks)、时延神经网络TDNN(Time Delay Neural Networks)等.B.Schuller等对语音情感识别中BP网络、听觉神经网络、自组织特征映射、听觉神经网络、时延神经网络、神经预测网络和学习矢量量化进行了详细分析、讨论，指出了他们各自的优缺点，为在以后的研究中找到语音信号更强有力的神经网络模型、更适宜的激活函数、更高速有效的学习算法和更合理的结构做了理论铺垫[13].近年来ANN有了很大的发展，ANN在语音情感识别的应用研究大致分为以下几个方面：(1)提高ANN的性能.(2)将ANN与已经发展的方法结合构成一种混合系统.(3)探讨利用一些新近出现或广泛关注的数学方法构成具有独特性质的神经元网络，并将其应用于语音信号处理领域[13].2.2 隐马尔科夫模型(Hidden Markov Models,HMM)作为一种统计信号模型，其基础模型是1970年前后由Baum等人建立的[14-17].HMM近年来也被应用到语音情感识别领域，并且取得很大成功.如Nogueiras[17]等人采用基音和能量特征在一个半连续的隐马尔科夫模型上对七种不同的情感状态进行分类，在模型状态数为64时取得了最优识别性能，平均识别率达到了82.5%.HMM可以很好地模拟人类的语言过程，自20世纪80年代，L.R.Rabiner把HMM统计模型引入语音情感识别上来，研究者已经取得了不少研究成果.HMM在语音情感识别中的主要问题有：Baum-Welch训练算法、Viterbi算法等问题[18].目前，应用最为成功的语音情感识别系统大多是基于隐马尔科夫模型构造的，如CMU的Kai-Fulee等研制的SPHINX连续语音识别系统，对997个词在有/无文法限制的条件下，识别率分别为96%和82%.IBM构造的Tangora2000词语音识别系统得到95%的识别率.用HMM进行汉语声母、韵母、单音节及连续语音识别，都得到了很好的性能.HMM之所以在语音识别中应用较为成功，主要是它具有较强的对时间序列结构的建模能力.隐马尔科夫模型用概率或统计范畴的理论成功地解决了怎样辨别具有不同参数的短时平稳的信号段，怎样跟踪它们之间的转化等问题.由于语音的信息结构是多层次的，除了语音特征外，它还牵涉音调、能量等超音段信息以及语法、句法等高层次语言结构的信息.HMM的特长还在于：它既可以描述瞬态的(随机过程)，又可以描述动态的(随机过程的转移)特性，所以它能利用这些超音段的和语音结构的信息.尽管如此，HMM技术还存在一些缺点，影响了语音识别的能力，所以HMM的改进算法及近年来HMM与ANN构成混合网进行语音识别的研究成为热点，成果引人注目[19].2.3 支持向量机(Support Vector Machine，SVM)是一种以统计学习理论为基础的模式识别算法.它最早作为一种二类分类器被提出[20]，在20世纪90年代得到迅速发展和完善.支持向量机其本质可以转化为二次规划问题来求解.而在实际中很多时候面临的是一个多分类的问题.如何将支持向量机推广到多分类的情况中，很多文献都提出了不同的方法.多多类(M-ary)支持向量机即为其中一种，它是多个二分类支持向量机的组合，具有使用向量机数目少，速度快等优点，尤其适用于语音识别实时性要求[21].针对传统的一对一支持向量机算法在预测阶段存在的缺点，可以在分类识别阶段，将得票较低的类别先剔除掉，不用计算由这些类别构成的二分类器的决策函数值，以此提高模型的识别效率.支持向量机在小样本、信噪比较高的情况下有较高的识别效率，但是在大规模样本、噪音环境下的结果就不尽如人意.为了解决这一系列问题，可以采用K最近邻算法先对训练样本进行删减，使分类超平面尽可能简单，进而提高训练速度.删减完成之后再用支持向量机进行后续的训练和识别工作.实验结果表明，经过删减之后，训练样本集和支持向量机的数目都大大减少，支持向量机的训练速度明显加快，同时还保持了较高的识别率[22].不同于HMM，SVM用于语音情感识别时一般采用情感语音信号的全局统计特征作为特征参数，因此较HMM其复杂度更低，且具有小样本分类优势.传统的支持向量机的参数选择往往基于专家建议或经验，或使用默认参数，参数选择的不当会成为制约分类效果的瓶颈之一.因此，国内外学者提出了多种解决方法，如Lin等的模拟退火优化的支持向量机(Simulated Anneling-Support Vector Machine,SA-SVM)以及Samadzadegan等的蚁群算法支持向量机[23](Ant Colony Optimization-Support Vector Machine,ACO-SVM).2.4 高斯混合模型(GMM)在语音信号处理中，研究人员通常用高斯混合模型(GMM)或者拉普拉斯混合模型(Laplacian Mixture Model)[24-29]等复杂模型对语音信号的分布进行拟合.其中，GMM在语音识别[30]、语音情感识别[31]以及说话人识别[32]等领域得到了广泛应用.GMM是语音情感识别中常用的一种识别方法.高斯混合模型(GMM)的优点是可以平滑地逼近任意形状的概率密度函数，每个密度分布可表示出基本声学类，并且模型稳定、参数容易处理.文献[34]在其情感识别试验中使用GMM识别七种情感状态，实验结果表明，GMM的识别率高于采用短时特征矢量与HMM分类器的识别率.使用GMM选取的特征向量对语音进行情感识别实验，结果表明：共振峰对高兴、愤怒能较好的区分；基频相关的参数对悲伤、平静的识别率较高；语速和平均能量对各类情感都具有较好的区别力[30].但GMM的阶数和初值较难确定，特别是阶数很难从理论上推导出来.GMM实验结果显示在生气、高兴、悲伤、恐惧四种语音情感的识别上，总体上比决策树、层次模型和支持向量机有所提高，并且在平均识别率上也取得了良好的识别效果.生气和高兴从维度模型理论分析，在效价维度上属于相反的两类情感，但是换成激活维度的角度进行观察分析，它们同属于高维度情感.正是这种相似和相异所以在识别上难免会带来一定的误识率[31].2.5 决策树(Decision Tree,DT)DT是一种通过分支对源数据依靠其属性进行分类的树型结构[32].决策树是机器学习领域著名的预测模型[33]，它是一个类似流程图的树型结构.如图2.决策树的最大的优点就是它可以自学习.在构造一颗决策树时需要解决以下问题：(1)收集大量数据，且数据未分类，而且数据属性必须要标注清楚.(2)设计分类原则，数据需要以何种方式或者用哪些属性进行分类，属性该如何量化.(3)选择分类原则，要保证分类的结果和最终建立的树令人满意，如何选择合适的分类算法是关键.(4)设计分类停止的条件，即使该树的熵的总量最小.分层模型是基于决策树的基础做了改进，将一次分类用到单一的特征属性改为多个属性同时决定的强条件，分类方法则是基于SVM分类器[31].DT的生成实质上是一种贪心算法.它在各个内部节点选择分割属性(即考察变量x1,x2,…,xk)时是顺序完成的.每次分割都依赖于它前一个节点的分割，分割一旦完成就不能回溯修改.但是，DT易于理解和实现，并能清晰地显示属性的重要程度；同时，对于大型的源数据库，DT能在相对较短的时间内生成可行性强而且效果良好的结果.总之，DT是语音情感识别领域一种十分常用的分类方法.2.6 朴素贝叶斯分类器(Naive Bayes Classifier,NBC)NBC是基于贝叶斯定理与特征条件独立假设的分类方法.它是应用非常广泛的一种分类算法[29，34]，具有简洁高效的特点.围绕NBC主要有3个重点方向的研究.(1) 贝叶斯网络推理机制.贝叶斯网络推理是指在给定相关节点信息的情况下求出贝叶斯网络中某节点的发生概率.推理方法主要有两种，分别是团树传播算法和变量消元算法.目前更多的研究都集中在团树传播算法上，其中，胡学钢、胡春玲、姚宏亮提出了一种改进的基于邻接树的贝叶斯网络推理算法，实验表明算法具有良好推理性能.(2)贝叶斯网络学习方法的研究.贝叶斯网络学习方法主要有参数学习和结构学习，参数学习相对理论比较成熟，近几年来，结构学习一直都是贝叶斯网络研究的热点与难点.贝叶斯网络结构学习的方法可以分为基于评分搜索法、基于约束的方法这两种.其中基于评分搜索算法又得到更多关注，很多研究人员对如何优化网络结构做出贡献，并且提出了很多新思路、新想法.胡云安、刘振等人提出了一种爬山法与模式蚁群法混合的贝叶斯优化算法，实验表明提出的方法可以加快结构学习的收敛速度和精度.(3)在实际问题领域的研究应用.贝叶斯网络模型学习和推理是一个NP Hard问题，所以，随着网络节点数的增加，运算的时间复杂度也越来越高.正因为此，贝叶斯网络在实际问题领域的应用也遇到了极大的挑战.近年来，很多机构和学者致力于解决NP问题，提出了很多新想法，这也让贝叶斯网络应用于生产环境得以实现.贝叶斯网络以独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性成为近几年来理论研究的热点，被广泛应用于辅助智能决策、模式识别、医疗诊断等领域.在医疗领域，贝叶斯网络对病理分析、病因查找都起着重大作用，在工程领域获得了成功，涌现出很多有价值的医疗系统，其中PATHFINDE医疗系统和CPCSBN远程医疗系统最具代表性.除此之外，贝叶斯网络也在其他领域获得了一定的突破，在信号检测、软件可靠性分析等方面都涌现出许多有价值的应用[35].2.7 混合蛙跳算法(Shuiiled Frog Leaping,SFLA)SFLA是一种全新的启发式群体进化算法，具有高效的计算性能和优良的全局搜索能力.SFLA[36]由Eusuff和Lansey为解决组合优化问题于2003年最先提出.全局信息交换和局部深度搜索的平衡策略使得算法能够跳出局部极值点，向全局最优方向进行[37].标准的SFLA采用个体适应度排序进行种群分割.文献[37]提出了几何分割和随机分割两种模因组的生成方法.针对几个低维和高维Benchmark函数进行分割性能的评估，实验结果表明基于几何分割方法的SFLA具有更好的优化性能[36].SFLA是一种群体智能优化算法，其全局优化性保证了算法可以有效地对解空间进行搜索，不易陷入局部最优，而且算法具有较强的通用性，对问题的具体形式和领域知识依赖性不强，同时其固有的并行性保证了算法能够较快地寻找到最优解或满意解[37]. 针对烦躁、喜悦、愤怒、悲伤、恐惧、惊讶和平静等情感，提取了韵律特征与音质特征，分别采用BP神经网络、RBF神经网络与SFLA神经网络进行学习与识别，发现在相同的测试条件下，SFLA神经网络的平均识别率高于BP神经网络4.7%，高于RBF神经网络4.3%.说明利用SFLA训练随机产生的初始数据优化神经网络学习的权值与阈值，可快速实现网络的收敛，获得较好的学习能力[38].随着人工智能技术和数字信号处理理论的迅速发展，语音情感识别领域涌现出许多模型和算法，比如HMM、SVM、GMM等.但是这些模型的复杂结构导致识别过程通常无法达到实时的效果，因而并不适用于实现实时语音信号的情感分析和识别.然而，由于科学项目研究不断地向实用性靠拢，实时语音信号的研究是大势所趋. 语音信号是语言的声音表现形式，情感是说话人所处环境和心理状态的反映.由于情感信息的社会性、文化性，以及语音信号自身的复杂性，语音情感识别中尚有许多问题需要解决，特别是符合人脑认知结构和认知心理学机理的情感信息处理算法需要进一步的研究和探索[39].用于语音情感识别的分类算法多种多样，寻求更为高效的语音识别分类算法是研究者们追捧的热点.随着对语音情感识别分类算法研究的持续改善，它能够解决的现实问题也越来越多.在今后的研究中，需要进一步探讨混合蛙跳算法与神经网络的结合，特别是在优化神经网络的拓扑结构方面还存在着许多尚未解决的问题.在今后的语音情感识别领域，应进一步扩展Im-SFLA的应用，在人脸表情识别、人脸识别等领域分析Im-SFLA的优缺点.因此，对语音情感识别算法的理论和应用探讨将会一直是机器学习和人工智能中所要研究的重要内容.【相关文献】[1] LITMAN D，FORBES K.Recognizing emotions from student speech in tutoring dialogues[J].IEEE Workshop on Automatic Speech Recognition andUnderstanding,2003:25-30.[2] FRANCE D J,SHIVI R G,SILVERMAN S,et al.Acoustical properties of speech as indicators of depression and sucidal risk [J].IEEE Trans on Biomedical Engieering,2000,47(7):829-837.[3] 金琴,陈师哲,李锡荣,等.基于声学特征的语音情感识别[J].计算机科学,2015,42(9):24-28.[4] GRIMM M,KROSCHEL K,NARAYANAN S.Support vector regression for automatic recognition of spontaneous emotions in speech[J].IEEE Internatinal Conference on Acoustics，2007,4(4):1085-1088.[5] 韩文静,李海峰，阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50.[6] EYBEN F,WOLLMER M,GRAVES A,et al.On-line emotion recognition in a 3-D activation-valence-time continuum using acoustic and linguistic cues[J].Journal on Multimodal User Interfaces,2010,3(1/2):7-19.[7] GIANNAKOPOULOD T,PIKRAKIS A,THEODORIDIS S.A dimensional approach to emotion recognition of speech from movies[J].IEEE International Conference on Acooustics,2009:65-68.[8] WU D R,PARSONS T D,MOWER E,et al. Speech emotion estimation in 3d spaces[J].IEEE International Conference on Multimedia and Expo,2010,26(2):737-742.[9] KARADOGAN S G,LARSEN bining semantic and acoustic feature for valence and arousal recognition in speech[J].International Workshop on Cognitive Information Processing,2012,12:1-6.[10]吴楠.基于主动学习的语音情感识别研究[D].天津:天津师范大学,2012.[11]NICHOLSON J,TAKAHASHI K,NAKATSU R.Emotion Recognition in Speech Using Neural Network[J].Neutral Computing and Application,2000,9(4):90-96.[12]张震南.人工神经网络技术在语音识别中的应用[J].甘肃科技纵横,2008,37(4).[13]SCHULLER B,RIGOLL G,LANG M.Hidden Markov model-based speech emotion recognition[J]. International Conference on Multimedia & Expo,SignalProcessing,2003,1:401-404.[14]赵力.语音信号处理[M].北京:机械工业出版社，2004.[15]JELINEK F.Continous Speech Recognition by Statistical Methods[J].Proceedings of IEEE,1976,64(4):532-536.[16]JELINEK F.BAHL L M R.Design of a Linguistic statistical Decoder for the Recognition ofContinuous Speech[J].IEEE Trans on Information Theay，1975，21(3):250-256.[17]NOGUEIRAS A,MORENO A,BONAFONTE A,et al.Speech Emotion Recognition Using Hidden Markov Models[J].Eurospeech,2001,41(3):2779-2682.[18]胡洋,蒲南江,吴黎慧,等.基于HMM和ANN的语音情感识别研究[J].电子测试,2011,8(8):33-87.[19]段红梅,汪军,马良河,等.隐马尔科夫模型在语音识别中的应用[J].工科数学,2002,18(6):16-18.[20]刘佳.语音情感识别的研究与应用[D].杭州：浙江大学,2009.[21]刘潇营,郑郁正,李国良.多类支持向量机在语音识别中的应用[J].成都信息工程学院学报,2010,25(1):13-17.[22]何小萍.改进的支持向量机分类算法在语音识别中的应用研究[D].太原:太原理工大学,2013.[23]SAMADZADEGAN F,HASANI H,SCHENK T.Simultaneous feature selection and SVM parameter determination in classification of hyperspectral imagery using ant colony optimization[J].Canadian Journal of Remote Sensing,2012,38(2):139-156.[24]GARCIA-GUINEA J,FURIO M,et al.Robust Speech Recognition in Additive and Channel Noise Environments using GMM and EM Algorithm[J].IEEE International Conference on Acoustics,2004,1:941-944.[25]LEE W,RON Y,KIM D,et al.Speech Emotion Recogtion usingSpectralEntropy[J].International Conference on Intelligent Robotics andApplications,2008,5315:45-54.[26]REYNOLDS,D A,ROSE R.C.Robust Text-independent Speaker Indentification using Gaussian mixture Speaker Models[J].IEEE Transaction on Speech,Audio and Processing,1995,3(1):72-83.[27]TORRES-CARRASQUILLO P A,SINGER E,KOHLER M A,et al.Approaches to Language Identificaition using Gaussian Mixture Models and Shifted Delta CepstralFeatures[J].International Conference on Spoken Language Processing,2002:89-92.[28]PICARD R W.Affective Computing [M].Cambringe:MIT Press,1997.[29]TOTH L,KOCSOR A,CSIRIK J.On Naive Bayes in Speech Recognition[J].Journal of Trauma,2005,64(6):86-93.[30]顾鸿虹.基于高斯混合模型的语音情感识别研究与实现[D].天津:天津师范大学,2009.[31]蔡桂林.高斯混合模型用于语音情感识别研究[D].桂林：广西师范大学,2016.[32]EUSUFF M M,LANSEY K E.Optimization of water distribution network design using the shuffled frog leaping algorithm[J].Journal of Water Resources Planning and Management,2003,129(3):210-225.[33]Rahimi-Vahed A,MIRZAEI A H.A hybrid multi-objective shuffled frog-leaping algorithm for a mixed-model assembly line sequencing problem[J].Computers and Industrial Engineering,2007,53(4):642-666.[34]RISH,I. An Empirical Study of the Naive Bayes Classifier[J].Journal of Chirersal Computer Science,2007(2):127.[35]黄金龙.基于贝叶斯网络的语音情感识别[D].广州：华南理工大学,2014.[36]余华,黄程韦,张潇丹,等.混合蛙跳算法神经网络及其在语音情感识别中的应用[J].南京理工大学学报,2011,35(5):659-663.[37]KASHTIBAN M A,AHANDANI M A.Various strategies for partitioning of memeplexes in shuffled frog leaping algorithm[J].Computer Conference,2009:576-581.[38]HU Hao,XU Mingxing,WU Wei.GMM super vector based SVM with spectral features for speech emotion recognition[J].IEEE International Conference on Acoustics,2007,4:413-416.[39]蔡伟建.人工神经网络理论在语音识别技术中的应用[J].仪器仪表学报,2010,31(8):113-116.。

神经网络技术在语音识别领域的应用

神经网络技术及其在语音识别领域的应用苗峰（21225075）浙江大学机械电子工程专业摘要：本文对神经网络技术以及语音识别技术的发展历程及基本原理做了概述，针对传统语音识别技术的缺点，介绍不同神经网络技术分支在语音识别领域的应用和实现方式并分析了各自的特点。

关键字：神经网络；语音识别；概述1神经网络技术概述1.1神经网络技术简介人工神经网络（Artificial Neural Networks，简记作ANN），是对人类大脑系统的一阶特性的一种描述，属于人工智能研究的一种方法。

神经网络是一个由大量简单的处理单元组成的高度复杂的大规模自适应系统，人工神经网络是对人脑功能作某种简化、抽象和模拟，是一个高度复杂的、非线性动力学系统，具有学习、记忆、联想、归纳、概括和抽取、容错以及自学自适应的能力[1]。

近年来除在模式识别、非线性动态处理及自动控制等领域显示出极强的生命力外，在预测、评价等方面也取得了很好的应用效果。

1.2神经网络技术的发展历程人工神经网络的发展始于本世纪40年代，经历了兴起、萧条和兴盛三个时期。

从1943年心理学家McCulloch和数学家Pitts提出著名的M-1模型到50年代末Rosenblatt提出感知机，从而将神经网络的研究应用于工程实践，形成了神经网络第一次研究高潮，并在信号识别等领域取得了一定成绩。

60年代初到70年代末，知识工程的出现给人工智能由实验室走向实用带来了希望，同时微电子技术的发展使得传统计算机的处理能力有很大提高，但是神经网络方法由于拓扑结构和算法上的局限性而处于相对停滞的阶段。

到了80年代传统计算机及信息处理方法在处理复杂问题过程特别是知识推理体系和人工智能中的表达、采集、存取及推理中都遇到了严重的挑战，美国生物物理学家教授J.J.Hopfield于1978年和1984年发表在美国科学院院刊上的两篇文章提出了一种特殊的非线性动态结构以解决优化问题，标志着神经网络研究高潮的又一次到来。

语音识别的基础知识与CMUsphinx介绍

语音识别的基础知识与CMUsphinx介绍语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

基于语音识别芯片的嵌入式产品也越来越多，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等，这些芯片在嵌入式硬件开发中得到了广泛的应用。

在软件上，目前比较成功的语音识别软件有：Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK，这些软件都是面向非特定人、大词汇量的连续语音识别系统。

语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。

语音识别的目的就是让机器赋予人的听觉特性，听懂人说什么，并作出相应的动作。

目前大多数语音识别技术是基于统计模式的，从语音产生机理来看，语音识别可以分为语音层和语言层两部分。

当今语音识别技术的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

语音识别分类：根据对说话人的依赖程度，分为：（1）特定人语音识别（SD）：只能辨认特定使用者的语音，训练→使用。

（2）非特定人语音识别（SI）：可辨认任何人的语音，无须训练。

根据对说话方式的要求，分为：（1）孤立词识别：每次只能识别单个词汇。

（2）连续语音识别：用者以正常语速说话，即可识别其中的语句。

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。

Sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。

一个连续语音识别系统大致可分为四个部分：特征提取，声学模型训练，语言模型训练和解码器。

（1）预处理模块：对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测（找出语音信号的始末）、语音分帧（近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析）以及预加重（提升高频部分）等处理。

基于SPHINX4的语音解码模块设计

中图分类号：tn97 文献标识码：a 文章编号：1009-914x（2016）16-0167-01随着alphago（围棋人工智能程序）在2016年初击败了世界围棋冠军后，人工智能技术的研发与讨论继续走向一个新的高峰，而语音识别技术则是其核心内容。

本文主要基于语音识别技术的语音解码模块进行讨论，从其涉及技术、设计、实现进行全面描述。

运用解码器进行解码操作，通过搜索算法在解码端寻找最优词串，搭建和训练声学模型，并提高语音识别率。

本项目基于一个完整的android软件作为依托，但由于篇幅有限，本文重点讨论离线语音包、搭建语言模型、以及语音解码模块的设计过程。

1.项目背景语音识别技术是能够将人的语音信号转换成机器可以识别的指令的一种方法，通过指令来控制机器的正常运转。

语音识别的任务主要包括：孤立词识别、关键词识别、连续语音识别等。

市面上的离线语音识别一直不成熟，识别慢、识别率低等问题一直被人诟病。

本项目离线语音识别部分是基于sphinx-4自行训练得到的声学模型和语言模型，在小词汇量识别方面尽量提高其识别率。

2.需求分析一个成熟的语音识别系统可以划分为特征提取、声学模型训练、语言模型训练和解码器四个重要组成部分；而离线端语音解码模块，包括了对原始语音进行信号处理、特征提取、通过viterbi动态规划算法搜索最优结果、语义分析及输出文本结果等步骤。

1、原始信号处理：获取通过麦克风按钮接收到的原始音频数据，过滤非必要信息以及背景噪音对语音前端点和后端点进行截取，对语音信号分割成若干个进行分析；2、特征提取：根据sphinxbase语音系统给出的接口，提取出语音信号的关键特征，并将其生成一个序列，以供解码处理时搜索这个隐式序列，得出结果；3、算法搜索最优序列：根据viterbi算法设计出计算序列中出现概率最大的词串的方法，搜索出每一帧语音信号的最优路径，输出结果；离线语音解码模块流程如下图2-1所示：3.系统设计3.1.特征提取特征提取的主要目的是减少语音噪声静音等无用的杂讯，获取必要的讯号数据，将数据转换成电脑可以识别的数字信号，以便作识别和语义分析。

Python语音识别库的使用方法与性能对比研究

Python语音识别库的使用方法与性能对比研究1. 引言语音识别是人工智能领域中的重要方向之一，广泛应用于语音助手、语音翻译、智能家居等领域。

在Python中，有多个语音识别库可供选择，本文将对其中几个常用的库进行介绍与性能对比研究。

2. 语音识别库概述2.1 SpeechRecognitionSpeechRecognition是Python中一款简单易用的语音识别库，支持多种语音识别引擎，如Google Cloud Speech API、Wit.ai、CMU Sphinx等。

其使用方法简单明了，只需安装库、导入模块、设置语音引擎、录制并识别语音即可。

2.2 pocketsphinxpocketsphinx是CMU Sphinx项目中的一部分，是一款开源的语音识别引擎。

与SpeechRecognition相比，pocketsphinx更加轻量级，适用于嵌入式设备和资源有限的环境中。

使用pocketsphinx进行语音识别需要安装相应的语言模型和音频资源。

2.3 deepspeechdeepspeech是Mozilla开源的一款基于深度学习的语音识别库，使用TensorFlow作为后端。

deepspeech具有较好的识别精度和性能，在大规模语音识别任务中表现出色。

使用deepspeech需要先下载和导入相应的预训练模型。

3. 使用方法对比3.1 SpeechRecognition的使用方法首先，安装SpeechRecognition库，可以通过pip命令进行安装。

然后，导入speech_recognition模块，设置识别引擎，并进行语音录制和识别操作。

相关代码如下：```import speech_recognition as sr# 设置语音引擎r = sr.Recognizer()# 录制语音with sr.Microphone() as source:audio = r.listen(source)# 识别语音text = r.recognize_google(audio)print(text)```3.2 pocketsphinx的使用方法首先，安装pocketsphinx库，可以通过pip命令进行安装。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Sphinx用于汉语连续数字语音识别的研究王韵，张雪英太原理工大学信息工程学院，太原（030024）E-mail：312118847@摘要：本文介绍了一个基于Sphinx的汉语连续数字语音识别系统，其声学模型采用SphinxTrain训练生成，语言模型由cmuclmtk统计语言模型生成，识别引擎采用PocketSphinx 工具。

实验证明该系统对于非特定人不定长数字串的句子识别率为89.583%，词识别率为97.20%，说明该系统有良好的性能。

关键词：Sphinx；语音识别；声学模型；语言模型中图分类号：TN912.341．引言作为汉语语音识别的一个重要分支，非特定人连续数字识别有着广阔的应用前景。

它在语音电话拨号、数字家电遥控、移动通信、电话证券交易等众多实用化领域[1]都给人们带来极大的便利。

连续数字识别是一个小词汇量的语音识别系统，识别对象仅包括0～9十个数字，但由于汉语的单音节及易混淆性使得识别率同实际应用还存在一定差距。

本文利用卡内基梅陇大学（CMU）开发的嵌入式识语音识别引擎PocketSphinx，声学模型训练工具SphinxTrain，语言模型生成工具cmuclmtk[2]构建了一个汉语数字识别系统。

PocketSphinx是CMU开发的一款用于快速语音识别的嵌入式语音识别引擎，它对于小词汇量的英语连续语音有很高的识别率。

这里我们借助此识别引擎，通过训练汉语数字的声学模型和语言模型来构建一个高性能的汉语连续数字语音识别系统。

这些工具的源代码都是公开的，通过改进算法，在汉语连续数字识别方面取得了一定的成效。

2．系统结构连续语音识别系统主要由特征提取，声学模型，语言模型，识别引擎四部分组成如图1。

以下会根据本文构建的数字连续语音系统对这四部分分别介绍。

图1 连续语音识别系统的基本结构2.1 特征提取SphinxBase是卡内基梅隆大学著名的Sphinx语音识别工程的公用库，主要用MFCC实现了语音识别系统的前端特征提取，其流程如图2示：图2 MFCC 流程图输入信号为16bit 的音频数据流。

采样率为16KHz ，语音分帧的帧长为25.6ms ，帧叠为10ms 。

对于每帧语音信号求出12维美尔倒谱系数和功率谱系数并对其归一化。

现用x(t)表示时刻t 的倒谱向量，x(t)表示功率谱系数。

经过一阶二阶差分后得到51维向量作为语音识别输入的四个特征流[3]：MFCC 系数x(t)：归一化倒谱向量（12维）一阶差分系数12()()(2)(2),()(4)(4)x t x t x t x t x t x t x t ΔΔ=+−−Δ=+−−：（24维）二阶差分系数()(1)(1)x t t t ΔΔΔ+−Δ−：（12维）功率谱向量0000()(),(),()x t x t x t x t ΔΔΔ：（3维）2.2 改进的声学模型训练主流语音识别系统多采用HMM 进行建模，本系统采用半连续HMM 模型进行声学模型训练，声学模型的输入是由特征提取模块提取的特征。

由于数字识别系统词汇量非常小，这里我们选择把每个词的发音（即拼音）作为声学模型的训练单元。

由于连续语音中存在协同发音的情况，所以本文采用的声学单元是上下文相关的三元音子[4]（triphone ）。

所谓上下文相关三元音子，是指考虑一个音素与其左右相邻音素的相关情况后选取的音素。

对于数字串“yi1 er4 san1 wu3”,使用triphone 表示为如下序列：sil sil-yi1+er4 yi1-er4+san1 er4-san1+wu3 san1-wu3+sil sil句首的sil 表示句子开始的静音段，句尾的sil 表示句子结束时的静音段。

每个音素模型都采用具有相同的5状态贝叶斯拓扑结构的HMM 。

每个特征码书的半连续声学模型都含有256个密度分量。

聚类后的状态称为senone ，每个senone 都有其独立完整的高斯混合模型，这也是解码过程的最基本的单元。

本文采用CMU 开发的sphinxtrain 工具进行声学模型的训练。

训练步骤如下：(1) 确定建模单元（11个：ling2 yao1 yi1 er4 san1 si4 wu3 liu4 qi1 ba1 jiu3 ）和模型的拓扑结构（5状态贝叶斯拓扑结构）；建立字典文件，音素文件，音频文件及存储路径，确保各个文件一一对应。

(2) 从语音文件中统计全局的均值和方差，并用这些全局的均值和方差初始化所有上下文无关（Context-independent ，CI ）模型的均值和方差，并使用Baum-Welch 算法训练CI 模型。

(3) 结合训练的发音词典，构建词间三元音子的句子HMM 串。

基于Baum-Welch 算法，训练未聚类的上下文相关（Context-dependent ，CD ）模型。

(4) 构建CI 模型的各个状态所对应的决策树；对得到的决策树根据事先设定的Senone数目进行裁剪，并利用裁剪后的决策树进行声学模型的状态聚类。

(5) 训练聚类后的CD模型，得到输出概率分布是单高斯的CD模型。

(6) 从单高斯的CD模型开始，不断地分裂高斯密度函数分布，增加高斯混合的数目，并且利用Baum-Welch算法训练分裂后的CD模型直至其收敛。

不断地重复该高斯分裂步骤直到高斯混合数目满足要求为止[5]。

(7) 删除插值是声学模型训练的最后步骤，目的是减少过度拟合的影响。

它是一个在CI 和CD之间反复插值的过程。

数据被分为两个集合，其中一个集合的数据用来估计另一集合已训练得到的CI和CD之间的最优插值因子。

随后两个集合交换，并把得到的插值因子作为当前操作的初始值，交换直至插值因子收敛为止。

最终我们得到解码端需要的声学模型文件：特征参数文件feat.params，模型定义文件mdef，均值文件means，方差文件variances，转移矩阵transition_matrices，状态分布sendump，噪声词典noisedict，混合权重mixture_weight。

2.3 语言模型训练本文采用cmuclmtk工具训练语言模型，通过统计大量文本数据得到以单个数字建立的N-Gram模型。

在训练中主要采用2-Gram和3-Gram模型，即某个词出现的概率仅依赖于前一个或者前两个词。

语言模型生成的基本流程[6]如图3，其输入是文本数据text，输出包括两个语言模型文件：语言模型arpa和语言模型转储文件arpa.DMP。

图3 语言模型训练流程图2.4 识别引擎PocketSphinx可以对wave格式存储的语音文件进行识别。

待识别的语音可以麦克风输入，也可读取wave格式语音文件得到，最后输出的识别结果以文字形式显示。

识别引擎算法集中分为四个部分：声学特征计算，高斯函数计算，高斯混合模型计算和Viterbi搜索。

解码端的搜索算法主要采用ViterbiBeam[7]搜索算法。

在搜索过程中不断地寻找可能的最优状态子序列，记录相应的信息，根据不同层次的裁剪门限进行裁剪，直到处理完所有的特征矢量，最后进行回溯得到最优的词序列。

3．实验结果及分析本文采用linux作为编程环境，实验中使用的版本分别有：SphinxBase-0.3.和PocketSphinx-0.4.1。

使用的语音库是中国科学院自动化研究所开发的CASIA汉语数字串语音库。

语音库是连续语音数字串，包括55个男生数据，每人80个句子数字串，共4400个句子，串长1-7不等。

语音数据采用16KHz采样，16bit量化，帧长25.6ms，帧移10ms。

采用汉明窗，预加重系数0.97，计算得到51维MFCC特征向量。

声学模型训练选取0-9十个数字的发音（1包括yao1和yi1两种发音）共十一个单元进行声学模型的训练。

实验中选取其中46个男生的语音数据（3680句）作为声学模型的训练集，剩余9个男生的语音数据（720）作为测试集。

使用训练集语音数据所对应的文本文件生成语言模型。

在本实验中，选取训练集中的9个男生数据作为测试集-1，测试集数据作为测试集-2。

分别对两个测试集的2字长（99句）、3字长（90句）和不定长（720句）语音数据进行了测试，并计算了各自的句识别率和词识别率。

表1 测试集-1识别结果2字长3字长不定字长句识别率98.990% 92.222%90.694%词识别率99.49% 97.41% 97.82%表2 测试集-2识别结果2字长3字长不定字长句识别率98.990% 91.111%89.583%词识别率99.49% 96.67% 97.20%表中：句识别率=1-错误句子数 / 识别句子总数词识别率=（识别词总数-插入-删除-替换）/ 识别词总数从表1和表2可以看出，测试集1的识别率高于测试集2的识别率，这说明不同说话人对同一语音的发音有很大差异；随着字长的增加，由于连续汉语识别的高连续性和高混淆度使得识别率有不同程度的下降。

传统的连续数码串识别系统中，数码串的词识别率为91.729%[8]，而本系统的词识别率高达97.20%以上，说明该系统识别性能有很大改善。

从表中可以看出非特定人不定长连续数字的句子识别率平均达到90℅左右，说明该系统性能良好。

4．结论本文给出了一个应用于嵌入式手持设备的快速汉语连续数字语音识别系统。

从实验结果看，使用Sphinx系统搭建小词汇量的汉语连续数字语音识别系统具备良好的性能。

今后准备结合汉语声韵特征，改进Sphinx系统使其应用于大词表汉语连续语音识别。

参考文献[1] 顾良，刘润生．汉语数码语音识别:发展现状、难点分析与方法比较［J］．电路与系统学报，1997，2(4) ：32-38．[2] David Huggins-Daines．SphinxTrainWalkthrough - CMU Sphinx Documentation Wiki[EB/OL]．/cmusphinx/moinmoin/SphinxTrainWalkthrough，2009-06-08．[3] Mosur K. Ravishankar．Efficient Algorithms for Speech Recognition［D］．Pittsburgh：Carnegie Mellon University,1996．[4] 赵庆卫，王作英等．汉语连续语音识别中上下文相关的识别单元(三音子)的研究［J］．电子学报，1999，27(6):79-82．[5] 高勤．汉语语音文档检索技术研究及系统实现［D］．,北京：北京大学， 2007．[6] RoniRosenfeld． LanguageModelingToolkit[EB/OL]．/SLM/toolkit_documentation.html， 2009-06-21．[7] 袁俊．HMM 连续语音识别中Viterbi 算法的优化及应用［J］．电子技术，2001，2：48-51．[8] 张培玲,王福忠, 刘群坡．连续数码串语音识别系统的MATLAB 实现[J]．河南理工大学学报(自然科学版．2009，28(2)：211-216．The Chinese Continuous Digit Speech Recognition SystemBased on SphinxWang Yun, Zhang XueyingCollege of Information Engineering, Taiyuan University of Technology,Taiyuan (030024)AbstractThis paper introduces a speech recognition system of Chinese continuous digit based on Sphinx. The acoustic model of this system is produced by SphinxTrain, and the language model is produced by the cmuclmtk statistical language model. In addition, this system makes use of PocketSphinx recognition engine. According to the experiment, the recognition rate of this system to a sentence of random length made by Speaker-Independent is up to 89.583%, and the word recognition rate is 97.20%. Therefore, the performance of this system is fairly well.Keywords: Sphinx; speech recognition; acoustic model; language model作者简介：王韵，女，1985年生，硕士研究生，主要研究汉语连续语音识别。