语言清晰度的客观评测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
客观可测的物理参量STI能 良好的反映和预测真实的 语音清晰度水平。
Steeneken (1980)
语言传输指数STI的简化算法
限制条件: 无明显非线性失真;环境噪声无脉冲;混响时间频率特 性平滑;宽带语言传输系统;
1)RASTI (Rapid STI or Room acoustic STI) 适用于不包括扩声系统的厅堂语音传输质量的评价 选取了语言谱中比较有代表性的频带和调制频率
T60—混响时间(1400Hz)。单位s。 V—房间的体积。单位m3。
ɑ—校准值。针对不同水平的听者。1.5%~12.5%。
Dc—临界距离。单位m。
V
Dc 0.20 T60
Klein对Peutz公式的补充
当房间声学特性难以改善时,采用电声手段提高语音清晰度。 声源个数n;声源指向性因子Q;
根据大量的实地测量和清晰度主观评价测试的结果, Peutz发现%ALcon与房间的声学特性相关。
Fra Baidu bibliotek
Peutz 公式(经验推导)
% ALcon
(
200D
T2 2 60
V
a)%
(9T60 a)%
D Dc D Dc
D—听音处距声源的距离。单位m。
注意: SNR>25dB; 单个无指向性的 点声源(Q=1);
主观评价: 组织测试队伍实地测试(articulation test) 优点: 直接、真实 缺点: 耗费人力物力
GB-T 15508-1995 《声学 语言清晰度测试方法》
语音清晰度的客观评价方法
主观 测试
AI
尽可能反映真实 的清晰度水平
%ALcon
STI
清晰度指数 AI (Articulation Index)
辅音损失率%ALcon的不足
根据实验结果的经验推导, 物理基础不够;
对于信噪比低于25dB的情况 估计不足,不能充分反映噪 声和混响联合作用时的影响;
没有考虑早期反射声,单次 回响的作用,且结果仅给出 某个频带的清晰度水平,未 考虑参数的频率特性的影响;
Jacob(1985)
语言传输指数STI (speech transmission index)
LOGO
语音清晰度的客观评测
中国传媒大学 传播声学研究所 章斯宇
2010.5.21
主要内容
1 语音清晰度评测的发展概况 2 混响作用下STIPA与清晰度的关系 3 噪声环境下STIPA与清晰度的关系 4 总结与展望
1. 语音清晰度的评测
语音的清晰度或可懂度是音质评价的重要指标—反映 厅堂或扩声系统的声音传输质量
500Hz 1Hz 2Hz 4Hz 8Hz
2KHz 0.7Hz 1.4Hz 2.8Hz 5.6Hz 11.2Hz
2)STIPA (STI for public address) 适用于包括扩声系统的厅堂或电声系统的语音传输质量 评价 选取了7种倍频带载波,每种载波对应2中调制频率
125Hz 250Hz 500Hz 1KHz 2KHz 4KHz 8KHz 1.0Hz 1.0Hz 0.63Hz 2.0Hz 1.25Hz 0.8Hz 2.5Hz
Hougast & Steeneken (1973\1980\1985) IEC Std. 60268-16 充分反映声传递系统性能质量的优劣
输入端: 说话人发音
语言传输系统: 充分考虑传递过程中 噪声、混响、回响、 系统失真等各种干扰 因素的影响
输出端: 听者耳朵
Black Box
调制转移函数MTF (modulation transfer function)
French & Steinberg(1947),Fletcher(1953), Kryter(1962) 1) 测量或估计语言频谱和听音人处的噪声有效掩蔽谱计算 得到各频带的“有效信噪比”; 2) 对各频带信噪比进行线性转化至[0,1]得“贡献值”; 3) 基于不同频带对清晰度的贡献率加权平均得AI;
5.0Hz 5.0Hz 3.15Hz 1.0Hz 6.25Hz 4.0Hz 12.5Hz
《公共广播系统工程技术规范》 STIPA作为评价公共广播语言传输质量的重要指标
分类
业务广播 (一级)
业务广播 (二级)
业务广播 (三级)
STIPA
≥0.55 ≥0.45 ≥0.35
分类
紧急广播 (一级)
Dc 0.20
V Q T60 n
% ALcon
(
200D2T602n V Q
a)%
(9T60 a)%
D Dc D Dc
虽然提高扬声器的Q值有助 于改善语音清晰度,但Q值 与清晰度之间是否成简单 的线性关系并没有实际的 实验数据支持。 Jacob(1985)认为语音清晰 度与Q并无直接的关联。
STI的计算
14种调制频率;7种倍频带噪声 作为测试信号
计算98个MTF结果 类似AI计算中的加权平均最终得
STI [0,1] 根据房间脉冲响应可以直接计算
MTF
STI与语音清晰度
不论是噪声、带通限制、 削峰、混响等干扰因素, STI与语音清晰度得分之间 始终有着良好的一致性。
连续的语音可以看成一系 列语音碎片(音位)的组合。 音位又可以看成是发音器 官对某种窄带噪声调制的 结果。音位的时域包络中 包含了所传递的信息。
传输过程中,噪声、混响、 系统失真等会使得包络发 生变化,从而导致清晰度 恶化,利用MTF描述量化 包络波动性能的变化程度。
MTF的计算
函数定义为声信号经 传输后接收信号强度 包络的调制度相对于 原信号强度包络调制 度的降低,它随调制 频率不同而变化。
ANSI Std. S3.5-1969\1986\1997 特点:特别适用于评价诸如噪声干扰、有限带通等频域失真引
起的语音清晰度恶化程度,不能反映混响、回声或削峰等时域 或非线性失真的影响。
辅音损失率 %ALcon (articulation loss of consonants)
能不能根据测量房间内的某些物理量估计语音清晰度? Knudsen(1932), Peutz(1971), Klein(1971)
Steeneken (1980)
语言传输指数STI的简化算法
限制条件: 无明显非线性失真;环境噪声无脉冲;混响时间频率特 性平滑;宽带语言传输系统;
1)RASTI (Rapid STI or Room acoustic STI) 适用于不包括扩声系统的厅堂语音传输质量的评价 选取了语言谱中比较有代表性的频带和调制频率
T60—混响时间(1400Hz)。单位s。 V—房间的体积。单位m3。
ɑ—校准值。针对不同水平的听者。1.5%~12.5%。
Dc—临界距离。单位m。
V
Dc 0.20 T60
Klein对Peutz公式的补充
当房间声学特性难以改善时,采用电声手段提高语音清晰度。 声源个数n;声源指向性因子Q;
根据大量的实地测量和清晰度主观评价测试的结果, Peutz发现%ALcon与房间的声学特性相关。
Fra Baidu bibliotek
Peutz 公式(经验推导)
% ALcon
(
200D
T2 2 60
V
a)%
(9T60 a)%
D Dc D Dc
D—听音处距声源的距离。单位m。
注意: SNR>25dB; 单个无指向性的 点声源(Q=1);
主观评价: 组织测试队伍实地测试(articulation test) 优点: 直接、真实 缺点: 耗费人力物力
GB-T 15508-1995 《声学 语言清晰度测试方法》
语音清晰度的客观评价方法
主观 测试
AI
尽可能反映真实 的清晰度水平
%ALcon
STI
清晰度指数 AI (Articulation Index)
辅音损失率%ALcon的不足
根据实验结果的经验推导, 物理基础不够;
对于信噪比低于25dB的情况 估计不足,不能充分反映噪 声和混响联合作用时的影响;
没有考虑早期反射声,单次 回响的作用,且结果仅给出 某个频带的清晰度水平,未 考虑参数的频率特性的影响;
Jacob(1985)
语言传输指数STI (speech transmission index)
LOGO
语音清晰度的客观评测
中国传媒大学 传播声学研究所 章斯宇
2010.5.21
主要内容
1 语音清晰度评测的发展概况 2 混响作用下STIPA与清晰度的关系 3 噪声环境下STIPA与清晰度的关系 4 总结与展望
1. 语音清晰度的评测
语音的清晰度或可懂度是音质评价的重要指标—反映 厅堂或扩声系统的声音传输质量
500Hz 1Hz 2Hz 4Hz 8Hz
2KHz 0.7Hz 1.4Hz 2.8Hz 5.6Hz 11.2Hz
2)STIPA (STI for public address) 适用于包括扩声系统的厅堂或电声系统的语音传输质量 评价 选取了7种倍频带载波,每种载波对应2中调制频率
125Hz 250Hz 500Hz 1KHz 2KHz 4KHz 8KHz 1.0Hz 1.0Hz 0.63Hz 2.0Hz 1.25Hz 0.8Hz 2.5Hz
Hougast & Steeneken (1973\1980\1985) IEC Std. 60268-16 充分反映声传递系统性能质量的优劣
输入端: 说话人发音
语言传输系统: 充分考虑传递过程中 噪声、混响、回响、 系统失真等各种干扰 因素的影响
输出端: 听者耳朵
Black Box
调制转移函数MTF (modulation transfer function)
French & Steinberg(1947),Fletcher(1953), Kryter(1962) 1) 测量或估计语言频谱和听音人处的噪声有效掩蔽谱计算 得到各频带的“有效信噪比”; 2) 对各频带信噪比进行线性转化至[0,1]得“贡献值”; 3) 基于不同频带对清晰度的贡献率加权平均得AI;
5.0Hz 5.0Hz 3.15Hz 1.0Hz 6.25Hz 4.0Hz 12.5Hz
《公共广播系统工程技术规范》 STIPA作为评价公共广播语言传输质量的重要指标
分类
业务广播 (一级)
业务广播 (二级)
业务广播 (三级)
STIPA
≥0.55 ≥0.45 ≥0.35
分类
紧急广播 (一级)
Dc 0.20
V Q T60 n
% ALcon
(
200D2T602n V Q
a)%
(9T60 a)%
D Dc D Dc
虽然提高扬声器的Q值有助 于改善语音清晰度,但Q值 与清晰度之间是否成简单 的线性关系并没有实际的 实验数据支持。 Jacob(1985)认为语音清晰 度与Q并无直接的关联。
STI的计算
14种调制频率;7种倍频带噪声 作为测试信号
计算98个MTF结果 类似AI计算中的加权平均最终得
STI [0,1] 根据房间脉冲响应可以直接计算
MTF
STI与语音清晰度
不论是噪声、带通限制、 削峰、混响等干扰因素, STI与语音清晰度得分之间 始终有着良好的一致性。
连续的语音可以看成一系 列语音碎片(音位)的组合。 音位又可以看成是发音器 官对某种窄带噪声调制的 结果。音位的时域包络中 包含了所传递的信息。
传输过程中,噪声、混响、 系统失真等会使得包络发 生变化,从而导致清晰度 恶化,利用MTF描述量化 包络波动性能的变化程度。
MTF的计算
函数定义为声信号经 传输后接收信号强度 包络的调制度相对于 原信号强度包络调制 度的降低,它随调制 频率不同而变化。
ANSI Std. S3.5-1969\1986\1997 特点:特别适用于评价诸如噪声干扰、有限带通等频域失真引
起的语音清晰度恶化程度,不能反映混响、回声或削峰等时域 或非线性失真的影响。
辅音损失率 %ALcon (articulation loss of consonants)
能不能根据测量房间内的某些物理量估计语音清晰度? Knudsen(1932), Peutz(1971), Klein(1971)