语音识别技术在手机中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别的应用

语音识别可以应用的领域大致分为大五类:办公室或商务系统。典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。制造业:在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。电信:相当广泛的一类应用在拨号电话系统上都是可行

的,包括话务员协助服务的自动化、国

际国内远程电子商务、语音呼叫分配、

语音拨号、分类订货。医疗:这方面的

主要应用是由声音来生成和编辑专业的

医疗报告。其他:包括由语音控制和操

作的游戏和玩具、帮助残疾人的语音识

别系统、车辆行驶中一些非关键功能的

语音控制, 如车载交通路况控制系统、

音响系统。

当语音识别技术应用到计算机桌面

的时候,这看起来似乎是一个好主意。

但是,对于大多数人来说,语音识别还

不能取代键盘和鼠标。现在,语音技术

正用于一个全新的环境:手机。语音识

别技术在手机中的应用将进一步推动这

语音识别是以语音为研究对象, 通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术在手机中的应用

专题报道2011年第7期

种技术向新的方向发展和应用。这是语音识别技术在台式电脑应用中从来没有涉足的方向。

IBM在60年代初期创建了一个名为“Shoebox”的试验性的语音识别系统。这个系统解决了口语算法问题。语音识别技术是在50年代作为一项早期的技术第一次出现的,当时主要是由于好奇。在60年代初,IBM的“Shoebox”设备能够识别出16个口语单词并且能够回答简单的数学问题,如“3 + 4 =?”。

Dragon Systems在80年代初为DOS计算机推出的DragonDictate可能是第一个语音识别应用程序。这个应用程序只能识别单个单词,每次只说一个单词。随着时间的推移,这个应用程序已经发展成为名为“Dragon NaturallySpeaking”(目前是第11个版本,由Nuance通讯公司所有)的产品。这个应用程序能够翻译以正常的会话语音和速度读出的文本。

语音识别技术在台式电脑中的应用有两个制约因素。第一,为了使这个应用程序以更高的准确性工作,这个应用程序必须要进行训练以便识别用户的语音特征。Windows Vista和Windows 7操作系统中的本地语音转换文本技术和Dragon NaturallySpeaking等第三方产品仍然都需要一个用户训练期才能使用。

第二个制约因素是键盘的流行程度。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?

微软TellMe团队是负责为多媒体环境开发语音识别技术的部门。TellMe团队高级产品经理Abhi Rele指出,在台

式电脑环境,用户有方便的人机交流模

式,如键盘和鼠标。因此,语音的使用

主要是针对语音爱好者的。

语音控制的计算更广泛的应用需要

两件事情:更好的方便的应用和主要使

用语音的地方。手机正是很长时间以来

一直在增长的这种地方。

Nuance负责产品管理和营销的副总

裁Matt Revis解释说,台式电脑和移动环

境的区别是这样的:台式电脑是一个固

定的环境,重点完全在于台式电脑的使

用情况。因此,台式电脑的语音技术主

要执行如下任务:支持办公应用程序、

网络浏览、通讯等。在移动方面,语音

更多地用于支持各种生活方式方面:移

动中的专业人员、户外的有趣活动、免

提电话等等。

Gartner分析师Tuong Nguyen赞同这

个观点:语音在移动环境中更有意义。

他说,从使用的角度看,掌上设备的语

音识别功能价值更大。它增加了用户友

好的、方便的输入方式。

Nguyen补充说,如果不用

语音技术说出一个简单的说明语

句,而是翻动许多菜单或者努力

地在小显示屏键盘上进行输入,

语音识别的价值就显现出来了。

随着触摸屏设备(没有物理键

盘)应用的增长,语音识别技术

将用来增强数据输入和输出。语

音识别还支持免提要求或者法律

要求。

在移动设备方面

因为移动设备一般仅支持

台式电脑的一部分存储和处理功

能,语音处理需要一些时间才能

以基本的形式出现在手机中。

语音处理Springer手册解释了手机

在2000年代初的情况。尽管那时还有

一些局限性,但是,手机经过编程之后

能够识别逐个数字的拨号语音,在某种

程度上还能识别人的名字。主要问题是

内存,因此,大多数手机一次只能识别

10个数字或者名字。但是,这些作者指

出的另一个问题是这个功能使用的比较

少,可能是因为手机厂商在这方面的营

销很糟糕。

随着手机的增加内存和增强处理能

力,普通手机的识别能力也增强了。三

星电子在2005年发布的售价99美元的

SCH-p-207型手机增加了语音至文本的

听写功能和语音拨号功能。随着内存达

到数百MB和存储容量达到数GB,目前

这一代智能手机很少受到限制。

另一个关键的进步是网络速度。

速度更快的无线网络浪潮抬高了许多大

船,包括最新一代的语音处理技术。速

度更快的网络能够把语音处理任务从网

络迁移到远程服务器。

谷歌语音搜索产品经理Amir

Mane

相关文档
最新文档