语音识别技术的难点

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别技术的难点说话人的差异

●不同说话人:发音器官,口音,说话风格

●同一说话人:不同时间,不同状态

噪声影响

●背景噪声

●传输信道,麦克风频响

鲁棒性技术

●区分性训练

●特征补偿和模型补偿

语音识别的具体应用

●命令词系统

●识别语法网络相对受限,对用户要求较严格

●菜单导航,语音拨号,车载导航,数字字母识别等等●智能交互系统

●对用户要求较为宽松,需要识别和其他领域技术的结合●呼叫路由,POI语音模糊查询,关键词检出

●大词汇量连续语音识别系统

●海量词条,覆盖面广,保证正确率的同时实时性较差●音频转写

●结合互联网的语音搜索

●实现语音到文本,语音到语音的搜索

手写识别技术揭秘

识别率是手写汉字识别研究中最重要的环节,影响识别率的因素也是手写识别技术研究中的难点,目前影响识别率的因素主要有以下几个方面:

1.笔顺问题

由于不同人具有不同的书写习惯,笔划的书写顺序经常发生变化,因此,单纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,必须利用一些二维方法来描述,从而又极大地增加了匹配的难度。

2.连笔问题

一般人写字时都不会一笔一划地书写,为了节省时间,连笔字是自然而然的事情,一些行书连笔甚至完全脱离了楷书的框架。从实用角度讲,连笔问题比笔顺问题具有更重要的意义。对于结构识别而言,连笔一方面使笔划种类大大增加,甚至达到难以归纳的程度;另一方面,连笔又使得笔段抽取难度大增,因为连笔会增加一些冗余笔段,连笔造成的畸变又会使笔段方向严重离散。总之,连笔不论对于基于哪种基元的结构识别都是严峻的挑战。

3.相似字区分

汉字种类繁多,很多汉字彼此之间非常相似,例如“己、已、巳”三个字相差只在细微之间。手写汉字的变形十分严重,怎样能使识别系统抓住微小的差别,目前还是一个非常值得研究的问题。

4.对抗干扰能力的要求

抗干扰能力,也称为鲁棒性,对于联机手写识别系统的性能是非常重要的。书写时候,笔划的畸变、丢失,多余笔段(如笔锋)的插入,字的倾斜,部件间相对位置、大小的变化,这些都是经常发生的现象。对于结构识别来说,会造成基元提取和识别的错误。传统的结构识别方法恰好在鲁棒性上是薄弱环节。因此,要想取得好的性能,必须对传统识别方法进行改进,增强其鲁棒性,从而增加实用性。

后PC时代,各式各样新奇、小巧的PDA、手机、电子书(E-book)、信息家电(IA)等等信息产品被创造出来,但是这些产品几乎都有面板过小、输入不易的问题。就是PC的键盘输入,对大多数人来说也不是那么方便容易。手写输入必然会受到瞩目,因此,将手写识别技术移植并嵌入其他行业领域,将是手写识别技术未来发展的重要方向之一。

相关文档
最新文档