自动识别技术及其技术应用技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、语音识别技术简介 语音识别是一门交叉学科。语音识别过程实际上
是一种认识过程,该过程与人对语音的识别处理过 程基本上是一致的。目前主流的语音识别技术是基 于统计模式识别的基本理论,一个完整的语音识别 系统可大致分为三部分:
(1)语音特征提取:操作员发出的语声波先由话 筒接收并转换为电信号再进入自动识别系统,经过 特征分析,把言语划分成一段段具有一定时间长度 的音段序列,每一个音段的特征可以经编写组合成 便于存储和便于比较的图形,语音特征提取就是从 语音波形中提取出随时间变化的语音特征序列。
一、光学字符识别的原理和方法 光学字符识别即OCR识别;(Optical Character
Recognize) 模板识别原理:首先根据手写数字的特点建立模板储存
在识别装置内,再把应予以识别的字符和识别装置内 所储存的模板进行比较。 基于字符点特征的识别方法:文字是一种简单的线状图 形,对识别有价值的信息集中在文字笔道的中心线即 文字骨架上,所以我国邮政编码的识别主要采用基于 字符点特征的识别方法。
二、基于字符点特征的识别过程
1、学习阶段
(1)字形特征分析
分枝特征:端点、连点、三节点、四节点
长度特征:
方向特征:某一点的方向代表了笔记的走向,共分为八个方向
(2)链码编制:根据字形分析得到某种字形的辨认特征后, 需要用专门的符号将辨认特征制成一种特殊的图形,由于这 种图形是由一个个圆环符号构成,连在一起很象一根链条, 故称为链码编制。
3、识别判断阶段 (1)信息预处理
去污、平滑、细化 (2)分类 (3)跟踪抽特征 分枝特征的抽取 方向特征的抽取 长度特征的抽取 (4)顺序逻辑判断
第三节 语音识别技术
与机器进行语音交流,让机器明白你说什么,这 是人们长期以来梦寐以求的事情。语音识别技术就 是让机器通过识别过程把语音信号转变为相应的文 本或命令的高新技术,它使人们能够甩掉键盘,通 过语音命令进行操作,因此,语音识别正逐步成为 信息技术中人机接口的关键技术。在邮政行业,它 可被广泛的应用在邮件处理中心和其它一些信息处 理场合,并会产生较好地社会和经济效益。
二、语音识别技术在邮政领域的应用
1Βιβλιοθήκη Baidu在邮政生产中的应用
(1) 语音识别技术作为一项高新技术, 它可以广泛地应用在邮政领域。比如在一些小型邮 件处理中心,目前仍存在一些多席位人工分拣机, 分拣信函时需要人工输入信函的邮政编码或格口地 址代码,为了保证准确和迅速的将信函入格,就要 求分拣人员必须熟练的使用键盘或牢记住与邮政编 码相对应的格口代码,稍有疏忽就会造成错分,因 此操作人员至少要经过三至五个月的培训才能上岗, 如果利用语音识别技术,操作员只需将邮政编码呼 叫一遍即可,并且要达到熟练分拣不必再需要大量 的工作经验,大大提高了工作效率。
(2) 语 音识别技术也可应用在近年来各一、二级中心局 引进的信函自动分拣机中。目前,各种自动分拣设备由于受 光学字符识别技术的限制,自动识别率只在70%左右,为了 提高分拣效率必须配备视屏补码系统,也就是将机器拒识字 符的图象信息送往视屏补码台,由补码员在专用键盘上实时 键入相应的数字,由于30%左右的邮政编码需要人工输入, 并且补码速度要求小于6秒,所以补码员的工作量和工作强 度都很大,容易出现差错,并且差错是不可挽回的,如果利 用语音识别技术,补码员只需将显示在屏幕上的数字读出即 可,只要稍稍有点责任心的就不会读错,因此,不论是哪种 类型的分拣机都可以利用语音识别技术进行改造,以适应生 产的要求。同样,在包裹、印刷品、邮袋的分拣中,操作员 也只需将邮件的地址信息用声音告诉机器,从而就可以从机 械的键盘操作中解放出来。也相应减少了错分率。
(3)语言模型与语言处理:语言模型包括由识别语音 命令构成的语法网络或由统计方法构成的语言模型, 语言处理可以进行语法、语义分析。就像人们听语 音时,并不把语音和语言的语法结构、语义结构分 开来,因为当语音发音模糊时人们可以用这些知识 来指导对语言的理解过程,对机器来说,识别系统 也要利用这些方面的知识。语言模型对中、大词汇 量的语音识别系统特别重要。当分类发生错误时可 以根据语言学模型、语法结构、语义学进行判断纠 正,特别是一些同音字则必须通过上下文结构才能 确定词义。
第4章 自动识别技术及其应用
一、概述
自动识别技术包括:光字 符识别技术、条码技术、射频识 别技术、磁识别技术、语音识别 技术、图形识别技术和生物识别 技术。其中光学字符识别技术、 条码识别技术、语音识别技术应 用较为广泛。本章主要介绍光学 字符识别技术、语音识别技术、 射频识别技术。
第二节 光学字符识别
(2)声学模型与模式匹配:声学模型通常将获取的 语音特征通过学习算法产生,它是识别系统的底层 模型,并且是语音识别系统中最关键的一部分。声 学模型的目的是提供一种有效的方法,计算语音的 特征矢量序列和每个发音模板之间的距离。例如: 邮件分拣时分拣员读出的都是收寄地址的单呼词, 并且两个单呼词之间有一定的时间间隔,在这种情 况下,就要根据语声波能量是否有突变来判断是否 有呼叫,语声特征编码也是以整个单呼词而不是单 个音节作为识别的基本单元,这一点和分拣机上采 用的邮政编码的光学字符识别技术是不同的。另外, 声学模型的设计和语言发音特点密切相关,必须根 据不同语言的特点、识别系统词汇量的大小决定识 别单元的大小,在识别时将输入的语音特征同声学 模型进行匹配与比较,得到最佳的识别结果。
(3)链码存储:将“0”和“1”的符号编制成记忆特征表, 并按字形粗分类的顺序存入计算机内存中,作为标准字库使 用,这一过程称为“链码存储”。
2、阅读阶段
(1)光电转换
利用光学装置和光敏器件交字符图形的光学信号转 变为模拟电信号。常用的转换装置有:光敏管、摄 像管、固体光敏集成器件、CCD等。
(2)正量储存:光电转换后的输出信息为模拟电信 号,必须将其进行模数转换才能被计算机识别。在 技术上制订一个基准电压作为阈值,采用二值化处 理方法。二值化的过程即为“正量”。这样就将数 字的光学图形转变成了一系列的“0”和“1”电子 图形,以矩阵的形式存放于计算机中。