语音识别技术调研报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别技术的原理和应用语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。导致语音识别在互联网和传媒行业一直没有得到广泛的应用。但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。例如音频指纹技术和音频二维码技术等。下面本文具体讨论这两种技术。
音频二维码
音频二维码技术
二维码技术经过多年的发展,已成为大家耳熟能详的名词了。二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。但是普通的二维码技术只是将文本信息进行加码和解码。这导致二维码只能传输普通的文本信息。如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫
无疑问音频信息将成为互联网行业的第三大入口方式。
音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。
2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。这四位二进制数是待发送文件的ID。发送端向接收端发送的其实只是上述生成的ID。发送端在向客户端发送ID的同时向云端发送ID和数据。在接收端接收到ID后,通过该ID向云端获取对应的数据。
音频二维码应用
音频二维码的应用非常广泛。音频二维码通过声音传递信息。广播和电视也通过声音传递信息。如果结合音频二维码技术和广播电视技术,将使二者相得益彰。音频二维码可以使广播电视用户不再是单一的受众,也是参与者。通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。
例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串
话让观众知道如何来报名参加非诚勿扰,只需要说“欢迎在听到嘀声后报名参加非诚勿扰”就可以了。观众的终端在听到嘀声后解析相应的内容,获取到报名所需要的电话号码和电子邮箱。观众可以任选一种进行报名。这样观众再也不需要拿笔和纸去记录这些信息了。
观众在观看好享购频道的时候,在一个节目结束的时候插入一个声音。观众的手机在听到这个声音后自动解析购买此商品的号码,用户按拨号键就可以直接购买自己想要的商品。使用了音频二维码技术,用户便从对着电视屏幕记录购买号码中解脱出来了。
不像电视技术同时通过声音和画面来传递信息,广播技术只能通过声音来传递信息。所以在广播行业中,尤其需要其它的手段让听众接收信息。在这个需求下,音频二维码技术变得尤为重要。
通过音频二维码技术,广播和电视可以向用户推送广告,例如团购消息、好享购商品信息以及商场打折券等等;可以向用户推送增值服务,例如天气预报、银行还款等等;可以向用户发起投票活动;还可以允许用户分享这些内容到各大社交论坛,吸引物联网用户的眼球。
缺点
蛐蛐儿SDK采用的是人耳可以听到的四千到一万伏的频段。这导致非常容易被周围环境中的噪声干扰。经过测试,该SDK在咖啡店和火锅店等公共场所中,在两米以内的传输率能达到百分之百,距离越远,传输率越低。
蛐蛐儿SDK采用的是人耳听觉范围内的音频,这对于广播电视行业来说是个缺点。因为在原本纯内容的声音信息中加入了其它的对人耳来说无用的声音,可能会让观众无法接受。这个问题可以通过采用超声波或者次声波来代替可听波来解决。但是如果采用超声波,会显著增加功耗,并且不能绕过障碍物。在电视前站一个人将把所有信息拒之门外。并且某些频率的次声波对人体产生的危害非常大。所以确定音频的频率是一个非常重要的研究。
音频指纹
音频指纹技术
音频指纹技术是一种通用音频处理技术。它能根据音频对象的特征准确识别该对象的信息。音频指纹是音频对象简短的摘要。音频指纹技术在音频对象和指纹之间建立一种映射关系。通过这种机制,不需要通过比较较大的音频对象本身,而是通过比较相关的指纹,就可以确定音频之间知觉平等的关系。
音频技术的研究起步较早,现在已发展的非常成熟。音频指纹的研究主要有两个方向。一是基于水印嵌入的指纹方法。周鸿飞提出了一种基于混沌和系数均指统计特性的音频指纹方案。首先使用用户信息生成混沌映射初值,然后应用混沌方法把混沌映射初值生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中。这种方法具有一定的鲁棒性,但是需要嵌入多余的数据。另一种是基于内容的指纹方法。Haitsma J.提出了一种鲁棒的音频哈希指纹方法,对相邻2
帧提取频域能量的差异作为哈希指纹。
音频指纹应用
音频指纹起步较早,应用也非常广泛。目前应用最广的领域是音乐播放软件中。根据音乐的旋律能够准确识别歌名歌手等信息。飞利浦公司研制了一款手机软件。只要把手机贴近正在播放歌曲的收音机,不出三秒钟的时间就能记下这首歌曲的音频指纹。然后手机可以通过该音频指纹去音频指纹数据库寻找匹配的歌曲。酷我音乐也采用了这种技术实现了类似的功能。
音频指纹也可以应用到电视媒体中。例如可以使用音频指纹对电视广告进行检测。商业公司可以检测电视台的广告是否按合同规定播出。媒体研究机构和广告策略公司可以统计广告的信息,对其进行整理和数据挖掘。
音频指纹还可以用于版权控制。版权所有者可以对广播和电视进行音频指纹采集,然后根据音频指纹对比音视频数据库,找到该音视频,进而挖掘传播者是否具有该音视频的版权。
音频指纹也可以用于向电视和广播用户的终端推送服务,增加与用户的互动。例如用户的手机接收到特定的音频指纹后就打开web 浏览器,转到一个URL。该URL可以是与用户互动的投票系统,也可以是广告,或者是一些增值服务。
音频指纹同样也可以用于物联网行业。当用户上传或者下载音频的时候,首先传递该音频的指纹。如果发现已存在该音频,将直接完