语音芯片基础了解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)语音压缩技术。
由于语音数据量庞大,对语音数据进行有效压缩是很必要的,能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式:
语音分段:将语音中可以重复的部分截取出来,通过排列组合将内容完整地回放出来。
语音采样:一般我们使用的喇叭频响曲线在中频部分,较少用到高频,所以,在喇叭音质可以接受的情况下,适当降低采样频率,达到压缩效果,这种过程是不可逆的,无法恢复原貌,叫有损压缩。
数学压缩:主要是针对采样位数进行压缩,这种方式也是有损压缩。例如,我们经常采用的ADPCM压缩格式,是将语音数据从16bit压缩到4bit,压缩率是4倍。MP3是对数据流进行压缩,涉及到数据预测问题,它的波特率压缩倍率为10倍左右。
通常,以上几种压缩方式都是综合起来使用的。
(4)常用语音格式
PCM格式: Pulse Code Modulation 脉冲编码调制,它将声音模拟信号采样后得到量化后的语音数据,是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。 WAV格式:Wave Audio Files 是微软公司开发的一种声音文件格式,也叫波形声音文件,被Windows平台及其应用程序广泛支持。WAV 格式支持许多压缩算法,支持多种音频位数、采样频率和声道,但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据,这些数据包括采样频率和位数,单声道(mono)还是立体声(stero)等。
ADPCM格式:是利用对过去的几个抽样值来预测当前输入的样值,并使其具有自适应的预测功能与实际检测值进行比较,随时对测得的差值自动进行量化级差的处理,使之始终保持与信号同步变化。它适用于语音变化率适中的情况,而且声音回放过程简短。它的优点是对于人声的处理比较逼真,一般达到90%以上,已广泛地应用于电话通信领域。
MP3格式: Moving Picture Experts Group Audio Layer
III,简称为MP3。它是利用 MPEG Audio Layer 3 的技术,采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的mp3文件,并使压缩后的文
件在回放时能够达到较接近原音源的声音效果。它的实质是
vbr(Variant Bitrate 可变波特率)可以根据编码的内容动态地选择合适的波特率,因此编码的结果是在保证了音质的同时又照顾了文件的大小。
mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。
Linear Scale格式:根据声音的变化率大小,把声音分成若干段,对每段用线性比例进行压缩,但是它的比例是可变的。
Logpcm格式:基本上对整个声音进行线性压缩,将最后若干位去掉。这种压缩方式在硬件上很容易实现,但音质比Linear Scale差一些,特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面。
(b)“音乐芯片”介绍:
(1)音乐的通道与音色:
包络(envelope)方波(patch) 通道(channel)
包络:合成音色的一部分,单位时间内音符输出的变化,常见
有“ADSR”
方波:合成音色的一部分,单位时间内音符方波电流的变化。(另见三角波等)
通道:在同一时间内,芯片输出的音符个数,即“单音乐器”的个数。
PCT:模拟音色的一种,通过采样256个点的乐器声音来模拟出各个音符的音高。(音色柔和,占空间小,但不够真实)
FULL WAVE:通过采集一种乐器声音来模拟各个音符音高。(乐器声真实,但占用空间大,且采集音色音质要求高)
(2)音乐的压缩:
由于音乐数据量庞大,对音乐数据进行有效压缩是很必要的,能够使我们在有限的ROM空间里录入更多的音乐内容。有以下几种方式:
音乐分段:将音乐中可以重复的部分截取出来,通过排列组合将内容完整地回放出来。
音色:根据音乐的丰满程度、需求程度,来确定Full wave,PCT、dual tone的选择,各个音色占用空间不懂,音色质量也不同。。
数学压缩:主要是针对采样的音色(Full wave)进行压缩,这种方式也是有损压缩,对于要采集的音色进行降采样、处理等减小采
集音色的大小(同语音类的修音)。
(3)常用音乐格式:
MID格式:MIDI(Musical Instrument Digital Interface)乐器数字接口 ,是20 世纪80 年代初为解决电声乐器之间的通信问题而提出的。MIDI 传输的不是声音信号, 而是音符、控制参数等指令。 NV系列是市面上唯一一种同时支持WAV和MIDI格式的语音芯片) WAV格式:(相见语音IC类介绍)采集音色的格式。
3、语音ROM空间的表述
语音芯片为表述的形象化,由语音长度来表示
a)普通语音芯片以6K采样率为语音长度计算标准。
b)录音IC以4K采样率为语音长度计算标准。
即:以6k(4k)采样率芯片可以播放的长度。
4、语音芯片的要素
相同品种的芯片成本与芯片的大小成正比。
a)I/O口的分配和ROM的大小(语音秒数)决定芯片成本。低秒数语音芯片其I/O口较少。
b)音质提高,采样提高,语音秒数缩短。
音质降低,采样降低,语音秒数变长
c) 语音秒数的计算方法:M/(n*f)
M---ROM大小(bit) n*f---波特率
NV系列语音芯片容量与音质(采样率)之间的关系表如下:
NV020 512Kbit @6K采样 20秒
NV040 1Mbit @6K采样 40秒
NV080 2Mbit @6K采样 80秒
NV170 4Mbit @6K采样 170秒
NV340 8Mbit @6K采样 340秒
5、声音处理软件介绍
1)SoundForge
2)Cooledit
3)goldwave
4)Calewalk
6、语音芯片分类:
语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(又称语音IC,这里应该叫成Voice IC),但是在语音芯片的大类型中,又被分为语音IC(这里应该叫成Speech IC),音乐
IC(这里应该叫成Music IC)两种.