ASR自动语音识别技术定义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自动语音识别(Automatic Speech Recognition,ASR)
目标是让计算机能够辨别出人们所说的话的内容。
ASR通常有以下几种分类方法:
(1) 特定人和非特定人;
(2) 小词汇量、中词汇量和大词汇量;
(3) 语音命令(孤立词)识别、关键词检出,以及连续语音识别(听写)等
其中语音命令识别引擎要求用户所说的语音中最多只能含有一个词表中定义的词;而关键词检出引擎中则允许用户所说的语音中除了含有一个或多个词之外,还可以包含其它无关的内容,识别器将只检测出那些在词表中定义过的词,同时忽略其它无关的内容;连续语音识别引擎则会把用户所说的语音逐字逐句地转换为文字,是实现“声音”到“文字”转换的技术,它的实现中涉及到声学模型和语言模型:声学模型用以从声音信号中识别出“音(例如拼音)”,而语言模型用以把“音”转换成“字(例如有意义的文本语句)”。
语音识别技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,并且与计算机进行交互。
例如按键、二进制编码或者字符序列。
与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:
信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
实验室语音方面研究主要包括语音识别,语音评估两个方面的研究,主要的集中的工作在如何实现高准确率,高效率的中文连续语音识别系统以及语音发音标准评估系统。
主要研究方向:
•语音识别
重点在连续中文语音识别方面,通过研究和改进语音识别数学模型,使模型更适合于中文语音特点,从而提高中文语音识别的准确率,并且应用到工程项目当中。
•语音评估,语音教学
重点研究在连续语音环境,查找说话人语音的当中的发音错误,对说话人声音进行评分,并
且纠正说话人错误的发音。