基于PESQ算法的语音质量客观评价方法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一
多个 处 理 环 节
时
,
,
在评价 语 音 通 信 系 统 的 整 体 性 能
分 )
。
、
良 ( 4分 )
、
般 ( 3分 )
、
差 ( 2分 )
、
坏
通 常 将语 音 质 量 的 好 坏 作 为 最 直 接 反 映 系 统 性 能 的 技
。
1 【分 )
术指标
( 二 ) 客 观评 价
,
语 音质 量 评 价从 评 价 主 体 来说
一
、
失真 平 均意 见 分 ( D e g r a d a t io n M e
a n
O p in io
Sc
o re
基于 输 入
输 出 的客观 评价 是 在信 号 特征表 示 的基础
30
l瞀桑困
20 11年
第5 期
上 理
,
对 失真 语 音 和 原 始 语 音 进行 比 较 语 音信 号 特 征提 取
电平
。
再 用 输 入 滤波 器 模拟标准 电话 听筒进 行 滤 波
,
对通
过 电平 调 整和 滤 波 后 的两 个 信 号 在 时 间上 对 准 觉 变换
,
并进 行 听
这 个 变换 包 括 对 系 统 中线 性滤波 和 增益 变化 的 补
。
偿和均 衡
以 两 个 听觉 变换 后 的信 号 之 间的 不 同 作 为 扰 动
,
音 之 间 的差 异 ( 失真 ) 程 度
衡量 依 据
。
将 差异 量 值作 为语 音 质 量 的
的机 器
,
来 对 系 统输 出语 音 的质 量 进行 客观 评价
。
成 为近
年来的研 究热 点
基 于 输 出 的客观 评 价则仅 由输 出语 音 就 可 对语 音 的质
量 做 出评 估
。
二 (
一
、
语 音质 量 评 价 方 法
可 以分 为 主 观 评 价 和
。
音 质 的客 观 评 价是 指 用 机 器 自动 判别语 音 质 量
否 需 要 使 用 输 入 语 音 的角 度 可 分 为 两 类 : 基 于 输 入
,
按是
输出
客观 评 价 两 大 类
。
主 观 评 价 由人 来 完 成
。
它能 真实 反 映 人
一
收 听 语 音 时对 语 音 质 量 的满意 程 度 合 人 对语 音 质 量 的感觉
式
, ,
以 往 的音 质 客 观 评 价 研 究 大 多集 中于 输 入
一
输 出方
、
) 主 观评 价
该 类型 的评 价 方 法应 用 相 对 成熟
,
。
随 着技 术发 展
对
主 观 评 价 方 法 以人 为 主 体 上
,
在 某种 预 设 原 则 的基 础
通 信 服 务质 量 的 关注 等
基 于 输 出 的音 质评价 技术 正 得 到
常见 的主 观
,
效率高
、
,
具 有可 重 复性
,
且 可 实 时使 用
评 价 方法 有平 均意 见 分 ( M e 法 法
、
a n
O p in io
n
Sc
e
o re
MOS
)方 ) 方
。
判 断韵 字 测试 (
D ia g
n o s t ic
Rhy m
Te s t
,
DRT
n
三
语 音 质 量客 观 评 价 方 法 的 基 本 原 理
因 人 因 时 因地 而 异
。
,
主 观 评价 方 法 虽 然 符
,
方式 的客观 评价 和 基 于 输 出方 式 的客观 评 价 基于 输 入
一
。
但 它 费 时 费事
,
且 评价 结 果 可 能
输 出方 式 的客观 评 价 是 比 较 输 出 和 输 入 语
。
为此
使 用 以计算机 信 息 处 理 为 核心
、
用最 为 普遍
MOS
广 泛用 于 语 音编码
通 信 设 备性能测 试
,
语 音信 息传输 系 统等
,
。
由于 语 音 信 息 在传输 存储
、
法是 对语 音 整体满意度 的评价
,
它 以平 均 意 见 分
和处 理 过 程 中
要 经 历 编码
因此
,
、
合成
、
变换 及 传输 等
来衡 量 语 音 质 量
(
5
用 五 个 等级 来 表 示 语 音 的质 量 等 级 : 优
解 煮÷
摘
要 : 描述 了语 音质 量 主 客 观 评 价 方法 的基 本原 理 P E S Q ) 算法 S p e e c h Q u a lit y
, 。
,
重 点 介绍 了 语 音质 量 感 知 评 价 ( P e
rc e
p t u a l Ev
a lu a
t io
n
o
f
关键 词 :
浯 爵质量 _ 观评价 客 观 评价 = }三
PES
Q
P 862
.
DMO S
一
)
、
、
引言
。
判 断满意 度测试 方 法 ( D ia g n o s t ic A c
DA M
,
ห้องสมุดไป่ตู้c e
p t a b ility
Me
a s u re
,
)等
。
在 系统性能 评价 中
、
,
MO S
评分 法使
。
语 音 通 信 系 统在社会 公 共 安全 领 域 的应 用 十 分 广 泛 如 语 音 对讲
所 以不 管 真 正 的 主
,
观 测验 中是 否 使 用 IR S 或 改 进 的 IR S 滤 波
、
在 P E S Q 中使 用
。
预 处理 包 括输 入 分 帧等 处 理 步 骤
对语 音 的 质 量 作 出 主 观 的 等级 意 见 或 者 做 出 某种 比 较
,
越 来 越 多的关注
。
结果
它反 映 听评 者 对语 音 质 量 好坏 的 主观 印象
,
。
不同的
客观 评价 不 受人 为主 观 因 素 的影 响 性好
,
,
成本 低 廉
。
,
灵活
主 观 评价 方法对 语 音 质 量 考察 的侧 重 点 不 同
,
( 即差值 )
分 析扰 动 曲面 并提 取 出 两 个 失真参 数
,
,
然后
在 频 率 和 时 间上 累积 起 来 形 成 P E S Q 分 数
最 后 再 将 该分
。
数映射 到 主 观平 均意 见 分 的预 测值 ( M O S 值 )
1
.
电 平 调 整 和 IR S 滤 波
一
各 个待 测 系统 的增益
,
、
,
从 流 程 上 分 为预 处
P E S Q 方 法 的总 体 思 路 是
:
对 原 始信 号 ( 参 考信 号 )
,
、
客 观 失真 量 计算 和 质 量 等级 映射
。
和 通 过 测试 系 统 的 信 号 进 行 电平 调 整
使 之 达 到标 准 听 觉
。
四 大模块
其 基本 原 理 如 图 1 所 示
号 没 有确 定 的校准 电 平
,
般 差 别 比较 大
以有 必 要 将 二
,
而 且 对 参考信
一
所
者 调 整到 统
、
恒 定 的 电平 上 来
图 1 语 音质 量 客 观 评 价 的 基 本 原 理
1
.
。
P E S Q 假 定 主 观 听觉 级 是 7 9 d B
,
的常数
。
感知模 型 必 须 考 虑 人 听 到 的实 际 声音
多个 处 理 环 节
时
,
,
在评价 语 音 通 信 系 统 的 整 体 性 能
分 )
。
、
良 ( 4分 )
、
般 ( 3分 )
、
差 ( 2分 )
、
坏
通 常 将语 音 质 量 的 好 坏 作 为 最 直 接 反 映 系 统 性 能 的 技
。
1 【分 )
术指标
( 二 ) 客 观评 价
,
语 音质 量 评 价从 评 价 主 体 来说
一
、
失真 平 均意 见 分 ( D e g r a d a t io n M e
a n
O p in io
Sc
o re
基于 输 入
输 出 的客观 评价 是 在信 号 特征表 示 的基础
30
l瞀桑困
20 11年
第5 期
上 理
,
对 失真 语 音 和 原 始 语 音 进行 比 较 语 音信 号 特 征提 取
电平
。
再 用 输 入 滤波 器 模拟标准 电话 听筒进 行 滤 波
,
对通
过 电平 调 整和 滤 波 后 的两 个 信 号 在 时 间上 对 准 觉 变换
,
并进 行 听
这 个 变换 包 括 对 系 统 中线 性滤波 和 增益 变化 的 补
。
偿和均 衡
以 两 个 听觉 变换 后 的信 号 之 间的 不 同 作 为 扰 动
,
音 之 间 的差 异 ( 失真 ) 程 度
衡量 依 据
。
将 差异 量 值作 为语 音 质 量 的
的机 器
,
来 对 系 统输 出语 音 的质 量 进行 客观 评价
。
成 为近
年来的研 究热 点
基 于 输 出 的客观 评 价则仅 由输 出语 音 就 可 对语 音 的质
量 做 出评 估
。
二 (
一
、
语 音质 量 评 价 方 法
可 以分 为 主 观 评 价 和
。
音 质 的客 观 评 价是 指 用 机 器 自动 判别语 音 质 量
否 需 要 使 用 输 入 语 音 的角 度 可 分 为 两 类 : 基 于 输 入
,
按是
输出
客观 评 价 两 大 类
。
主 观 评 价 由人 来 完 成
。
它能 真实 反 映 人
一
收 听 语 音 时对 语 音 质 量 的满意 程 度 合 人 对语 音 质 量 的感觉
式
, ,
以 往 的音 质 客 观 评 价 研 究 大 多集 中于 输 入
一
输 出方
、
) 主 观评 价
该 类型 的评 价 方 法应 用 相 对 成熟
,
。
随 着技 术发 展
对
主 观 评 价 方 法 以人 为 主 体 上
,
在 某种 预 设 原 则 的基 础
通 信 服 务质 量 的 关注 等
基 于 输 出 的音 质评价 技术 正 得 到
常见 的主 观
,
效率高
、
,
具 有可 重 复性
,
且 可 实 时使 用
评 价 方法 有平 均意 见 分 ( M e 法 法
、
a n
O p in io
n
Sc
e
o re
MOS
)方 ) 方
。
判 断韵 字 测试 (
D ia g
n o s t ic
Rhy m
Te s t
,
DRT
n
三
语 音 质 量客 观 评 价 方 法 的 基 本 原 理
因 人 因 时 因地 而 异
。
,
主 观 评价 方 法 虽 然 符
,
方式 的客观 评价 和 基 于 输 出方 式 的客观 评 价 基于 输 入
一
。
但 它 费 时 费事
,
且 评价 结 果 可 能
输 出方 式 的客观 评 价 是 比 较 输 出 和 输 入 语
。
为此
使 用 以计算机 信 息 处 理 为 核心
、
用最 为 普遍
MOS
广 泛用 于 语 音编码
通 信 设 备性能测 试
,
语 音信 息传输 系 统等
,
。
由于 语 音 信 息 在传输 存储
、
法是 对语 音 整体满意度 的评价
,
它 以平 均 意 见 分
和处 理 过 程 中
要 经 历 编码
因此
,
、
合成
、
变换 及 传输 等
来衡 量 语 音 质 量
(
5
用 五 个 等级 来 表 示 语 音 的质 量 等 级 : 优
解 煮÷
摘
要 : 描述 了语 音质 量 主 客 观 评 价 方法 的基 本原 理 P E S Q ) 算法 S p e e c h Q u a lit y
, 。
,
重 点 介绍 了 语 音质 量 感 知 评 价 ( P e
rc e
p t u a l Ev
a lu a
t io
n
o
f
关键 词 :
浯 爵质量 _ 观评价 客 观 评价 = }三
PES
Q
P 862
.
DMO S
一
)
、
、
引言
。
判 断满意 度测试 方 法 ( D ia g n o s t ic A c
DA M
,
ห้องสมุดไป่ตู้c e
p t a b ility
Me
a s u re
,
)等
。
在 系统性能 评价 中
、
,
MO S
评分 法使
。
语 音 通 信 系 统在社会 公 共 安全 领 域 的应 用 十 分 广 泛 如 语 音 对讲
所 以不 管 真 正 的 主
,
观 测验 中是 否 使 用 IR S 或 改 进 的 IR S 滤 波
、
在 P E S Q 中使 用
。
预 处理 包 括输 入 分 帧等 处 理 步 骤
对语 音 的 质 量 作 出 主 观 的 等级 意 见 或 者 做 出 某种 比 较
,
越 来 越 多的关注
。
结果
它反 映 听评 者 对语 音 质 量 好坏 的 主观 印象
,
。
不同的
客观 评价 不 受人 为主 观 因 素 的影 响 性好
,
,
成本 低 廉
。
,
灵活
主 观 评价 方法对 语 音 质 量 考察 的侧 重 点 不 同
,
( 即差值 )
分 析扰 动 曲面 并提 取 出 两 个 失真参 数
,
,
然后
在 频 率 和 时 间上 累积 起 来 形 成 P E S Q 分 数
最 后 再 将 该分
。
数映射 到 主 观平 均意 见 分 的预 测值 ( M O S 值 )
1
.
电 平 调 整 和 IR S 滤 波
一
各 个待 测 系统 的增益
,
、
,
从 流 程 上 分 为预 处
P E S Q 方 法 的总 体 思 路 是
:
对 原 始信 号 ( 参 考信 号 )
,
、
客 观 失真 量 计算 和 质 量 等级 映射
。
和 通 过 测试 系 统 的 信 号 进 行 电平 调 整
使 之 达 到标 准 听 觉
。
四 大模块
其 基本 原 理 如 图 1 所 示
号 没 有确 定 的校准 电 平
,
般 差 别 比较 大
以有 必 要 将 二
,
而 且 对 参考信
一
所
者 调 整到 统
、
恒 定 的 电平 上 来
图 1 语 音质 量 客 观 评 价 的 基 本 原 理
1
.
。
P E S Q 假 定 主 观 听觉 级 是 7 9 d B
,
的常数
。
感知模 型 必 须 考 虑 人 听 到 的实 际 声音