语音清晰度的客观评测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2)STIPA (STI for public address) 适用于包括扩声系统的厅堂或电声系统的语音传输质量 评价 选取了7种倍频带载波,每种载波对应2中调制频率 125Hz 250Hz 500Hz 1.0Hz 1KHz 2KHz 4KHz 8KHz 2.5Hz
1.0Hz 0.63Hz 2.0Hz 1.25Hz 0.8Hz
5.0Hz
5.0Hz 3.15Hz 1.0Hz 6.25Hz 4.0Hz 12.5Hz
《公共广播系统工程技术规范》 STIPA作为评价公共广播语言传输质量的重要指标
分类
业务广播 (一级)
STIPA
≥0.55
分类
紧急广播 (一级)
STIPA
≥0.55
业务广播 (二级)
业务广播 (三级)
≥0.45
≥0.35
紧急广播 (二级)
紧急广播 (三级)
≥0.45
≥0.40
2.混响作用下STIPA与汉语清晰度的关系
对于“声韵调”结构语言—汉语,情况是怎样的?
目的:在实验室条件下对无噪声纯混响作用下STI-PA与普
通话单音节清晰度之间的关系进行实验研究。以期对搞清
楚在纯混响作用下普通话单音节清晰度与语言传输指数 STI-PA的具体关系有所贡献和帮助。对汉语语音清晰度客
LOGO
语音清晰度的客观评测
中国传媒大学 传播声学研究所
章斯宇 2010.5.21
主要内容
1
语音清晰度评测的发展概况 混响作用下STIPA与清晰度的关系
2
3 4
噪声环境下STIPA与清晰度的关系 总结与展望
1. 语音清晰度的评测
语音的清晰度或可懂度是音质评价的重要指标—反映
厅堂或扩声系统的声音传输质量 主观评价: 组织测试队伍实地测试(articulation test) 优点: 直接、真实 缺点: 耗费人力物力
STIPA与普通话单音节清晰度的关系
1 0.9 0.8 0.7 0.6
Clarity
0.5 0.4 0.3 0.2 0.1 0
C 0.4376S 2 0.5624S
0
0.1
0.2
0.3
0.4
0.5 STI-PA
0.6
0.7
0.8
0.9
1
在实验结果的基础上归纳导出了STI-PA与普通话单音节清 晰度之间的关系,此关系对制定扩声系统的STI-PA指标具 有实用意义。
D Dc D Dc
虽然提高扬声器的Q值有助 于改善语音清晰度,但Q值 与清晰度之间是否成简单 的线性关系并没有实际的 实验数据支持。 Jacob(1985)认为语音清晰 度与Q并无直接的关联。
辅音损失率%ALcon的不足
根据实验结果的经验推导, 物理基础不够; 对于信噪比低于25dB的情况 估计不足,不能充分反映噪 声和混响联合作用时的影响; 没有考虑早期反射声,单次 回响的作用,且结果仅给出 某个频带的清晰度水平,未 考虑参数的频率特性的影响;
ɑ—校准值。针对不同水平的听者。1.5%~12.5%。
Dc—临界距离。单位m。
Dc 0.20
V T60
Klein对Peutz公式的补充
当房间声学特性难以改善时,采用电声手段提高语音清晰度。 声源个数n;声源指向性因子Q;
V Q Dc 0.20 T60 n
200 D 2T60 2 n a)% ( % ALcon V Q (9T a)% 60
1.00 0.80 0.60 0.40 0.20 0.00 声母 韵母 声调 音节
前 中 后
实验结果
混响时间与清晰度、STIPA的关系
0.650 0.600 0.550 0.500 0.450 0.400 0.350 0.300 0.250 0.200 0.150 0.0 1.0 2.0 3.0 4.0 RT sec. STI-PA Clarity 5.0 6.0
信噪比/dB
信噪比/dB
2) 等清晰 度曲线 不同的噪声 条件可能有 着相同清晰 度水平
5 0 -5 -10
清晰度0.8 可懂度100% 0.8 清晰度0.6 可懂度95% 0.7 清晰度0.8 可懂度100%
信噪比/dB
-20 清晰度0.4 可懂度80% -25
STI-PA
-15
清晰度0.5 可懂度88%
MTF
STI与语音清晰度
不论是噪声、带通限制、 削峰、混响等干扰因素, STI与语音清晰度得分之间 始终有着良好的一致性。
客观可测的物理参量STI能 良好的反映和预测真实的 语音清晰度水平。
Steeneken (1980)
语言传输指数STI的简化算法
限制条件: 无明显非线性失真;环境噪声无脉冲;混响时间频率特 性平滑;宽带语言传输系统; 1)RASTI (Rapid STI or Room acoustic STI) 适用于不包括扩声系统的厅堂语音传输质量的评价 选取了语言谱中比较有代表性的频带和调制频率 500Hz 2KHz 1Hz 0.7Hz 2Hz 1.4Hz 4Hz 2.8Hz 8Hz 5.6Hz 11.2Hz
GB-T 15508-1995 《声学 语言清晰度测试方法》
语音清晰度的客观评价方法
主观 测试
AI
尽可能反映真实 的清晰度水平
%ALcon
STI
清晰度指数 AI (Articulation Index)
French & Steinberg(1947),Fletcher(1953), Kryter(1962)
4. 展望
主观 测试
AI
STI for Chinese?
%ALcon
STI
LOGO
清晰度和STI-PA
清晰度 清晰度与信噪比拟合 STI-PA STI-PA与信噪比拟合
清晰度 清晰度与信噪比拟合 STI-PA STI-PA与信噪比拟合
0.6 0.5 0.4 0.3 0.2 0.1 0 -20 -15 -10 -5 0 5
0.6 0.5 0.4 0.3 0.2 0.1 0 -20 -15 -10 -5 0 5
采用了全频带白噪声和中心频率为250Hz,500Hz,1KHZ ,2KHz,4KHz,8KHz的倍频带噪声作为干扰噪声,各频 带噪声分别设置4~5种信噪比。
实验结果
1) 信噪比与清晰 度、STIPA的关 系(以白噪声为例)
男声
1 0.9 0.8 0.7
清晰度和STI-PA
女声
1 0.9 0.8 0.7
Black Box
输出端: 听者耳朵
输入端: 说话人发音
调制转移函数MTF (modulation transfer function)
连续的语音可以看成一系 列语音碎片(音位)的组合。 音位又可以看成是发音器 官对某种窄带噪声调制的 结果。音位的时域包络中 包含了所传递的信息。 传输过程中,噪声、混响、 系统失真等会使得包络发 生变化,从而导致清晰度 恶化,利用MTF描述量化 包络波动性能的变化程度。
Jacob(1985)
语言传输指数STI (speech transmission index)
Hougast & Steeneken (1973\1980\1985) IEC Std. 60268-16 充分反映声传递系统性能质量的优劣 语言传输系统: 充分考虑传递过程中 噪声、混响、回响、 系统失真等各种干扰 因素的影响
0.6
0.5 清晰度0.6 可懂度95% 0.4 清晰度0.5 可懂度80.2 可懂度55%
0.3 清晰度0.2 可懂度55% 0.5 1
清晰度0.4 可懂度80%
0.5
1
2
4
8
0.2 0.25
2
4
8
噪声的中心频率 /KHz
噪声的中心频率 /KHz
工作是在实验室条件下进行的,考虑到实际的应用情况, 可能还有一些不完善的地方,比如房间冲击响应的结构是 否会对STI-PA与清晰度的关系有明显的影响还需要探讨。 实际环境中的噪声种类多样,频率范围丰富,由于条件限 制无法一一进行测试。每个频带噪声的信噪比取值区间可 以更加细致以获得更为全面的结果。另外本次实验只是在 65dBA(标准说话声压级)的噪声水平下进行的,其它噪声 水平下的语言清晰度和STI-PA、信噪比的关系是否同本次 实验结果一致还需要进一步的研究。
MTF的计算
函数定义为声信号经 传输后接收信号强度 包络的调制度相对于 原信号强度包络调制 度的降低,它随调制 频率不同而变化。
STI的计算
14种调制频率;7种倍频带噪声
作为测试信号 计算98个MTF结果 类似AI计算中的加权平均最终得 STI [0,1]
根据房间脉冲响应可以直接计算
辅音损失率 %ALcon (articulation loss of consonants)
能不能根据测量房间内的某些物理量估计语音清晰度? Knudsen(1932), Peutz(1971), Klein(1971) 根据大量的实地测量和清晰度主观评价测试的结果, Peutz发现%ALcon与房间的声学特性相关。
观评测方法的发展有着积极的意义。
实验方法
实验室录音、模拟测试的方法 参照《声学 语言清晰度测试方法》GB-T 15508-1995
单音节词表 混响处理器 Reveber4000
录音间
录音、控制、处 理、回放中心
测听室
Ivie IE-35 STI-PA
混响时间:0.5 s~6.0 s,步长0.5 s,共12种混响条件; 发音人2名,听音人11名;声场中心声压级65dBA; 中、后音节受混响作用更明显;
实验结果也揭示出汉语普通话单音节清晰度受混响的影响 与英语清晰度受混响的影响程度有明显的不同。启示我们 在实际工程应用中,在涉及到普通话语音清晰度的评测问 题时,对直接引用已有的国际标准或基于外语的研究结果 要十分慎重。
3.噪声条件下STIPA与汉语清晰度的关系
Peutz 公式(经验推导)
200D2T602 a)% ( % ALcon V (9T a)% 60 D Dc D Dc
注意: SNR>25dB; 单个无指向性的 点声源(Q=1);
D—听音处距声源的距离。单位m。 T60—混响时间(1400Hz)。单位s。 V—房间的体积。单位m3。
1) 测量或估计语言频谱和听音人处的噪声有效掩蔽谱计算 得到各频带的“有效信噪比”;
2) 对各频带信噪比进行线性转化至[0,1]得“贡献值”; 3) 基于不同频带对清晰度的贡献率加权平均得AI; ANSI Std. S3.5-1969\1986\1997
特点:特别适用于评价诸如噪声干扰、有限带通等频域失真引 起的语音清晰度恶化程度,不能反映混响、回声或削峰等时域 或非线性失真的影响。
在实验室条件下分析了不同频带范围、不同信噪比的噪声 环境下语音清晰度、STI-PA与信噪比的关系,并根据单音 节清晰度与语言可懂度的关系,估计了在满足一定可懂度 条件下的最低信噪比及相应的STI-PA。 实验室录音、模拟测试的方法 参照《声学 语言清晰度测试方法》GB-T 15508-1995