多通道用户界面

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
后处理
包括自动分词、词类分析、词义分析、词用分析、语法分析、句法分析、同音词判别等。后处理是利用语言学知识库中的知识,按一定的推理策略,把识别出来的拼音转换成汉字并理解语句的含义。语言学知识库中有词汇、语法、句法、语义、语用和常用词语搭配等知识。
发展前景
21世纪是信息和网络的时代,Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。


语音识别是要进一步拓展我们的交流空间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识别技术、机器翻译技术以及语音合成技术的完美结合,而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片,比如手持移动设备上,那么个人就可以带着这种设备周游世界而无需担心任何交流的困难,你说出你想表达的意思,手持设备同时识别并将它翻译成对方的语言,然后合成并发送出去;同时接听对方的语言,识别并翻译成己方的语言,合成后朗读给你听,所有这一切几乎都是同时进行的,只有机器充当着主角。
80年代,MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展,语音识别的问题逐步在理论体系上得到了比较完整和准确的描述,同时在实践上又逐步研发出效率较高的解决算法。
90年代以来,在美国国防部的Darpa测试、Ears计划、近期的Gales计划,以及我国863计划等推动下,一大批高水平的研究机构和企业加入到语音识别的研究领域,极大地推动了语音识别技术的发展和应用。语音识别系统已经从过去的小词汇量、孤立词识别、特定人识别、安静环境等简单任务逐步发展到大词汇量、连续语音、非特定人、噪声环境下的识别任务,从单纯的语音识别任务发展到语音翻译任务,从实验室系统走向商用系统。
语言模型
语言模型用于计算从音节到字的概率。目前,语言模型主要有:规则模型和统计模型两种。
语音识别的过程分为三个步骤:预处理、识别和后处理。
预处理
包含波形硬件采样率的确定、分帧的大小和帧移策略的确定;剔除噪声的带通滤波、高频预加重处理、各种变换策略;波形的自动切分。
首先对模拟语音信号采样,将其数字化。连续语音流切分是找出语音信号中的各种识别基元如音素、音节、半音节、声韵母、单词或意群等的始点和终点的位置,进而将对连续语音的处理变为对各个语音单元的处理。语音端点检测指的也是连续语音流切分。
青岛理工大学
课程实验报告
课程名称
人机交互基础教程
班级
软件131
实验日期
2015.6.10—2015.6.30
姓名
杨鲁
学号
201207197
实验成绩
实验名称
多通道用户界面







1.了解常见的多通道用户界面
2.查找资料,熟悉一种多通道用户界面并写出综述




硬件平台:PC
软件平台:




要求上网查找资料,熟悉一种多通道用户界面并写出综述,可以是眼动跟踪、手势识别、三维输入、语音识别、表情识别、手写识别等。
识别
包含特征参数提取;参数模板存储及识别。
识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。寻找一个既能充分表达语音特征又能彼此区别的、较稳定的特征参数是很重要的。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、平均能量、短时频谱、共振蜂频率及带宽等。识别参数的选择着眼于能得到高的识别率,由于有些参数的提取较为复杂,计算较费时,因而要折衷考虑选用哪些参数并确定采用哪种识别方法。


参考文献
[1]柳春语音识别技术研究进展[J]甘肃科技
[2]杨尚国语音识别技术概述[J]福建电脑
[3]熊燕抗噪声语音识别技术研究[J]中国科技信息
[4]刘筠一种新型语音识别系统[J]成都大学学报(自然科学版)
[5]马斌基于小波变换的DSP语音识别系统[J]低压电器
[6]英锋基于SPCE061A的语音识别系统的设计[J]微计算机信息
语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。当人们想对计算机说话时,通常首先需要进行语音识别,即将声音信号转换成单词流。
发展历史ቤተ መጻሕፍቲ ባይዱ
语音识别的研究工作大约开始于20世纪50年代,当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。









多通道用户界面:语音识别
随着计算机技术的发展,人们迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通。在人机对话方面寻求最好的语音信息交换手段是发展人机语音通信和新一代智能计算机的主要组成部分。随着计算机的普及,越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,逐渐引起了人们的重视。从而也就诞生了计算机语音学。计算机语音学覆盖了广泛的研究活动,包括语音识别、语音合成、语音编码、自然语言理解、机器翻译等。
语音信号在完成模/数转换后,还要进行特征提取,一方面为了获得语音的本质特征;另一方面还可以进行数据的压缩。目前通用特征提取的方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。
声学模型
声学模型是用于从语音到音节的概率计算。在识别时将提取的语音特征与声学模型比较并匹配,以获得最佳的识别效果。目前广泛采用的声学建模法有:隐马尔科夫模型建模和上下文相关建模。
60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划(DP)和线性预测分析技术(LPC),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。
70年代,语音识别领域取得了较大进展。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
[8] Based on improved a hidden markov model (HMM) speech recognition method Volume 26, Issue 6, October 1999
[9]Man-machine interaction and absenteeism Original Research Article
最近年里,语音识别技术的显著进展,带来了高性能的算法和系统。用于语音拨号、语音命令控制、简单的数据输入和准备结构化文档的语音识别工具已经开始出现。
主要的研究方法分类
语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。一个完整的语音识别系统应包括以下三个部分:
语音特征提取
相关文档
最新文档