语音识别技术概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
流量管理是在网络中用于控制流量的一系列规程和技术, 以获取较高的网络利用率、避免网络拥塞和提供可接受的服务 质量。在核心网络的数据业务流量急速增长的情况下, 所要面对 的问题是: 应用现有的 IP 技术中的路由算法是否能应对如此巨 大的增长。在未来网络中, 随着新的流量管理技术的出现( 如排 队 管 理 、接 纳 控 制 、分 布 式 多 队 列 系 统 ) , 及 其 在 IP 路 由 器 中 的 应用, 有可能加快路由器的数据包处理速度, 同时降低网络延 时。 3.3.3 服务质量管理( QoS)
语音识别系统可以根据对输入语音的限制加以分类。如果
从说话者与识别系统的相关性考虑, 可以将识别系统分为 3 类: (1)特 定 人 语 音 识 别 系 统 ; (2)非 特 定 人 语 音 系 统 ; (3)多 人 的 识 别 系统: 或者成为特定组语音识别系统。
3.1 如果从说话的方式考虑, 也可以将识别系统分为 3 类: (1)孤立词语音识别系统; (2)连接词语音识别系统; (3)连续语音识 别系统。
移动性管理是成功实现无缝移动业务的关键, 其处理过程 大致可分为三个步骤, 即本地管理、路由管理和切换管理。从总 体来看, 需要关注的是查找移动节点位置信息, 经最佳路由将数 据包传送到目的地。
用户的无缝连接移动性已成为基本要求, 为确保各种不同 的无线技术平滑转换, 有必要考虑诸多因素, 最终建立移动性管 理机制, 调整移动用户在不同系统间漫游时所需的业务特性匹 配。 3.3.2 流量管理
( 2) 模板匹配的方法。模板匹配的方法发展比较成熟, 目前 已达到了实用阶段。在模板匹配方法中, 要经过四个步骤: 特征 提取、模板训练、模板分类、判决。常用的技术有三种: 动态时间 规整(DTW)、隐马尔可夫模型( HMM) 理论、矢量量化( VQ) 技术。
( 3) 神经网络的方法。利用人工神经网络的方法是 80 年代 末 期 提 出 的 一 种 新 的 语 音 识 别 方 法 。人 工 神 经 网 络 (ANN)本 质 上 是一个自适应非线性动力学系统, 模拟了人类神经活动的原理, 具有自适应性、并行性、鲁棒性、容错性和学习特性, 其强的分类 能力和输入- 输出映射能力在语音识别中都很有吸引力。但由于 存在训练、识别时间太长的缺点 , 目前仍处于实验探索阶段。由 于 ANN 不 能 很 好 的 描 述 语 音 信 号 的 时 间 动 态 特 性 , 所 以 常 把 ANN 与 传 统 识 别 方 法 结 合 , 分 别 利 用 各 自 优 点 来 进 行 语 音 识 别。 3.3 语音识别系统的结构
50
福建电脑
2006 年第 8 期
语音识别技术概述
杨尚国 1, 杨金龙2
(1. 曲阜师范大学物理工程学院 山东曲阜 273165 2. 青岛大学软件技术学院 山东青岛 266061)
【摘 要】: 本文阐述语音识别的发展过程、基本方法以及语音识别系统的分类, 分析了语音识别所面临的问题。 【关键词】: 语音识别; 隐马尔可夫模型( HMM) ; 系统分类
我国对语音识别的研究开始于 80 年代。近年来发展迅速, 并取得了一系列的成果。如清华大学计算机系研制的语音识别 系 统 以 1183 个 单 音 节 作 为 识 别 基 元 , 采 用 分 段 概 率 模 型 , 对 词 的组成音节进行分解, 在字一级上先做分体识别, 再用搜索匹配 算法计算词一级的整体识别率, 使三字词和四字词的识别率达 98%。中 科 院 自 动 化 所 模 式 识 别 实 验 室 将 汉 语 音 节 切 分 成 声 母 、 韵母, 并辅之以四声, 然后加以识别, 其声、韵母识别采用连续密 度的 HMM, 四声识别采用多层感知器的神经网络模型。整个系 统 识 别 率 为 89.5%, 声 调 识 别 率 为 99.5%, 词 的 识 别 率 为 95%。 另外, 中国科学院声学所、北方交通大学、北京大学、哈尔滨工业 大 学 、中 国 科 技 大 学 、北 京 邮 电 大 学 、国 防 科 技 大 学 等 单 位 结 合 汉语语音学和语言学的特点, 在汉语语音识别系统的基础理论、 数学模型和算法、实用系统开发等方面做了大量的工作 , 并取得 了一系列的成果。目前, 国内在该领域的研究主要受到国家 863 资助, 所研究的系统大部分是大词汇量孤立词识别系统。最近一 两年才在中科院的自动化所、声学所 , 及清华大学电子工程系等 机构才有连续语音识别系统的发展。台湾的一些学术机构在汉 语语音识别方面也做了大量的研究及实用化的工作。 3. 语音识别技术基础 3.1 语音识别系统的分类
本文主要对移动因特网的需求进行分析, 并由此给出了未 来移动因特网的功能分层体系结构。分层体系结构是未来移动 网络中处理和增加业务流量以及调整新业务应用、简化研究的 唯一方法。IP 连接性需要在 移 动 性 管 理 、流 量 管 理 以 及 QoS 管 理方面有增强性功能, 以实现对目前快速分组交换网络 ( 如 ATM) 的完全覆盖。对于移动核心网络独立于底层接入技术的实 现 , 分层体系结构 较 3G 系 统 提 供 了 简 化 的 处 理 方 式 。 另 外 , 它 对融合各种接入技术的研究提供了一个框架, 为未来因特网的 可扩展问题提供了相应的解决方案。
如果从识别系统的词汇量大小考虑, 也可以将识别系统分 为 3 类: (1)小词汇量语音识别系统。通常包括几十个词的语音识 别 系 统 。(2)中 等 词 汇 量 的 语 音 识 别 系 统 。通 常 包 括 几 百 个 词 到 上 千个词的识别系统。(3)大词汇量语音识别系统。 通常包括几千 到几万个词的语音识别系统。这些不同的限制也确定了语音识 别系统的困难度。 3.2 语音识别的几种基本方法
语音识别技术的研究是从 50 年代开始的。1952 年, 当时的 AT&Tbell 实验室的 Davis 等人研制成功了世界上第一个能识 别 十个英文数字发音的实验系统:Audry 系统。60 年代计算机的应 用推动了语音识别的发展。这时期的重要成果是提出了动态规 划(DP)和线性预测分析技术(LP), 其中后者较好地解决了语音 信 号产生模型的问题, 对语音识别的发 展 产 生 了 深 远 影 响 。70 年 代, 语音识别领域取得了突破。在理论上, LP 技术得到了进一步 发展, 动 态 时 间 归 正 技 术(DTW)基 本 成 熟 , 特 别 是 提 出 了 矢 量 量 化(vQ),隐马尔可夫模型(HMM)理论。在实践上, 实现了基于线性 预测倒谱和 DTW 技术的特定人孤立语音识别系统 。80 年 代 语 音识别研究进一步走向深入, 其 显 著 特 征 是 HMM 模 型 和 人 工 神经元网络(ANN)在语音识别中的成功应用。进入 90 年代后, 随 着多媒体时代的来临, 迫切要求语音识别系统从实验室走向实 用 。 许 多 发 达 国 家 如 美 国 、日 本 、韩 国 以 及 IBM, Apple, AT&T, NTT 等 著 名 公 司 都 为 语 音 识 别 系 统 的 实 用 化 开 发 研 究 投 以 巨 资。当前, 美国在非特定人大词汇表连续语音隐马尔可夫模型识 别方面起主导作用, 而日本则在大词汇表的连续语音神经网络 识别, 模拟人工智能进行语音后处理方面处于主导地位。
一般来说,语音识别的方法有三种: 基于声道模型和语音知 识 的 方 法 、模 板 匹 配 的 方 法 以 及 利 用 人 工 神 经 网 络 的 方 法 。
( 1) 基于语音学和声学的方法。该方法起步较早, 在语音识 别技术提出的开始, 就有了这方面的研究, 但由于其模型及语音 知识过于复杂, 现阶ቤተ መጻሕፍቲ ባይዱ没有达到实用的阶段。
一个完整的基于统计的语音识别系统可大致分为三部分: (1)语音信号预处 理 与 特 征 提 取;(2)声 学 模 型 与 模 式 匹 配;(3)语 言 模型与语言处理.。 4. 语音识别所面临的问题
( 1) 就算法模型方面而言, 需要有进一步的突破。尤其在中 文语音识别方面, 语言模型还有待完善, 因为语言模型和声学模 型正是听写识别的基础。目前使用的语言模型只是一种概率模 型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实 理解人类的语言, 就必须在这一点上取得进展, 这是一个相当艰 苦的工作。此外, 随着硬件资源的不断发展, 一些核心算法如特 征 提 取 、搜 索 算 法 或 者 自 适 应 算 法 将 有 可 能 进 一 步 改 进 。
1. 引言 语音识别是一门交叉学科, 语音识别正逐步成为信息技术
中人机接口的关键技术, 语音识别技术与语音合成技术结合使 人们能够甩掉键盘, 通过语音命令进行操作。语音识别技术就是 让机器通过识别和理解过程把语音信号转变为相应的文本或命
令的高技术。语音识别还可以应用在工业控制方面 , 在一些工作 环 境 恶 劣 、对 人 身 有 伤 害 的 地 方 (如 地 下 、深 水 及 辐 射 、高 温 等 )或 手工难以操作的地方, 均可通过语音发出相应的控制命令, 让设 备完成各种工作。 2. 语音识别的发展历史
现有的接入技术, 如无线蜂窝和无线局域网必须为离散数 据业务进行优化而不是只面向传统的语音业务。先进的智能天 线 技 术 、信 源 编 码 、信 道 编 码 在 提 高 数 据 传 输 速 率 、带 宽 利 用 率 和信道容量方面都是必要的技术。
现有的有线或无线网络接入技术的充分结合, 对于在未来 网络实现端到端的可靠数据传输非常重要, 处于同代和不同代 的无线网络在横向和纵向上将协同工作, 以实现各自服务功能 的相互补充。在热点地区业务处理和室内宽带业务方面, 无线局 域网( 如 LAN) 和固定网 络 ( 如 ADSL) 将 协 助 无 线 蜂 窝 系 统 在 提 供完备服务方面达到相应的目标。同时, 在地面网络无法覆盖的 情况下, 卫星网络能够利用直接广播或用户至卫星的直接通信 提供各种异种网络与个人移动用户之间的互联。 3.3 网络管理层
参考文献: 1. Abbas Jamalipour 著《. 无线移动因特网: 体 系 结 构 、协 议 及 业 务 》. 北 京: 机械工业出版社, 2005 2. S.A.M. Makki, Niki Pissinou 等 . Mobile and wireless Internet access. Computer Communications, 2003 3. 李谦. 话说移动因特网. 中国计算机用户, 2000
( 2) 就自适应方面而言, 语音识别技术也有待进一步改进。 做 到 不 受 特 定 人 、口 音 或 者 方 言 的 影 响 , 这 实 际 (下 转 第 34 页)
34
福建电脑
2006 年第 8 期
快会成为一种可供选择的业务, 而以传输数据业务为主的通信 业务会逐渐占据主导地位, 必须精心设计所有系统的参数以实 现有效的传输离散数据, 同时为各类数据业务提供 QoS 保证。 3.2 物理层
不同接入技术的互联, 由一些核心网络元素提供, 如互联功 能服务器。这样的互联需要在网络层次上处理, 因此在应用层和 接入层之间需要设置一个提供应用服务的网络管理层, 该层次 在未来移动因特网实现中占有重要地位。
网络管理所承担的任务功能很多, 主要负责管理任务以及 应用层和物理层的协调功能。网络管理最重要的功能是流量管 理、移动性管理、安全管理以及 QoS 管理。 3.3.1 移动性管理
QoS 是各层向高一层提供的适合的服务的性能水平。性能 是 指 诸 如 带 宽 、时 延 、时 延 变 化 和 错 误 率 等 网 络 参 数 。 在 每 个 环 境中, QoS 可以通过环境所支持的应用来规定。在主要提供实时 语音通信的无线蜂窝网络中, 时延和时延变化就成为 QoS 的主 要考虑的特性, 但对于无严格实时要求的数据文件传送业务占 主导情况下的移动环境而言, 无差错传送数据包就成为 QoS 主 要考虑的特性。对于新的应用来说, 往往要规定相应的 QoS 主要 参数。 4. 结束语