语音识别技术的难点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别技术的难点说话人的差异
●不同说话人:发音器官,口音,说话风格
●同一说话人:不同时间,不同状态
噪声影响
●背景噪声
●传输信道,麦克风频响
鲁棒性技术
●区分性训练
●特征补偿和模型补偿
语音识别的具体应用
●命令词系统
●识别语法网络相对受限,对用户要求较严格
●菜单导航,语音拨号,车载导航,数字字母识别等等●智能交互系统
●对用户要求较为宽松,需要识别和其他领域技术的结合●呼叫路由,POI语音模糊查询,关键词检出
●大词汇量连续语音识别系统
●海量词条,覆盖面广,保证正确率的同时实时性较差●音频转写
●结合互联网的语音搜索
●实现语音到文本,语音到语音的搜索
手写识别技术揭秘
识别率是手写汉字识别研究中最重要的环节,影响识别率的因素也是手写识别技术研究中的难点,目前影响识别率的因素主要有以下几个方面:
1.笔顺问题
由于不同人具有不同的书写习惯,笔划的书写顺序经常发生变化,因此,单纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,必须利用一些二维方法来描述,从而又极大地增加了匹配的难度。
2.连笔问题
一般人写字时都不会一笔一划地书写,为了节省时间,连笔字是自然而然的事情,一些行书连笔甚至完全脱离了楷书的框架。从实用角度讲,连笔问题比笔顺问题具有更重要的意义。对于结构识别而言,连笔一方面使笔划种类大大增加,甚至达到难以归纳的程度;另一方面,连笔又使得笔段抽取难度大增,因为连笔会增加一些冗余笔段,连笔造成的畸变又会使笔段方向严重离散。总之,连笔不论对于基于哪种基元的结构识别都是严峻的挑战。
3.相似字区分
汉字种类繁多,很多汉字彼此之间非常相似,例如“己、已、巳”三个字相差只在细微之间。手写汉字的变形十分严重,怎样能使识别系统抓住微小的差别,目前还是一个非常值得研究的问题。
4.对抗干扰能力的要求
抗干扰能力,也称为鲁棒性,对于联机手写识别系统的性能是非常重要的。书写时候,笔划的畸变、丢失,多余笔段(如笔锋)的插入,字的倾斜,部件间相对位置、大小的变化,这些都是经常发生的现象。对于结构识别来说,会造成基元提取和识别的错误。传统的结构识别方法恰好在鲁棒性上是薄弱环节。因此,要想取得好的性能,必须对传统识别方法进行改进,增强其鲁棒性,从而增加实用性。
后PC时代,各式各样新奇、小巧的PDA、手机、电子书(E-book)、信息家电(IA)等等信息产品被创造出来,但是这些产品几乎都有面板过小、输入不易的问题。就是PC的键盘输入,对大多数人来说也不是那么方便容易。手写输入必然会受到瞩目,因此,将手写识别技术移植并嵌入其他行业领域,将是手写识别技术未来发展的重要方向之一。