说话人识别算法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人 发声和 人耳 听觉 的动 态 特性 , 用 MF C 的一 阶 采 C
话人个性的语音特征参数。目前常用的特征参数包 括 线 性 预 测 倒 谱 系 数 ( P C) 美 尔 倒 谱 系 数 LC 、
( ( ) 。L C MF 等 P C参数 和 MF C参数 分 别根 据人 C 的发声原 理和 听觉 感知 原 理 , 从人 的声 音 提取 出能 量 分布谱 , 中获得声 纹 的独 特特征 , 从 这两种 参数 在
实用 中得到 了较好 的效果 l 。 3 _
0 引言
建立 一个 说话 人 识别 系统 分为 两个 阶段 : 练 训 阶段 和识别 阶段 。在 训 练 阶段 , 统 的每 一 个使 用 系 者说 出若 干训练语 料 , 系统 根据 这些训 练语 料 , 通过
1 1 Me 倒谱参 数 ( C . l MF C) Me 频率倒谱 系数 ( C 是 在 频谱 上 采用 滤 l MF C)
训 练学习 建 立 每个 使 用 者 的模 板 或 模 型参 数 参 考 集 。而在识别 阶段 , 把从 待 识 别说 话人 说 出 的语 音 信号 中提取 的特征 参 数 , 在训 练 过 程 中得 到 的参 与 考参 量集 或模 型模 板 比较 , 且根 据 一定 相 似 性 准 并
则进行 判定 … 。说 话 人 辨识 时 , 与 测试 语 音 匹 配 取 距 离最小 的说话人 模型所 对应 的说话人 作为说 话人 辨识 的结 果 , 说话 人确认 时 , 用测 试语 音与所 声称 的
说 话人 识别 算 法 的研 究
郭春 霞
( 西安邮电学院 通信与信息工程学院,陕西 西安 7 02 ) 1 11
摘要 : 针对说话人识别 问题 , 于概率神经 网络 P N, 基 N 实验 比较 MF C, MF C+MF C分别 与 P N相 结合 时的 C △ C C N
识别率。仿真结果表明 , 在文本有关情况下, 当说话人说话 内容为 0 ~9的发音时 , F C+MF℃ 优 于 MF C, z C  ̄I ( C 使
作者简 介: 郭春霞 (97 , , 17 一)女 河南沁 阳人 , 邮电学院通信与信息工程学院助教。 西安
第 5期
郭春 霞: 说话人识 别算法的研究
・15 ・ 0
F aue D为 原 有 特 征 向量 序 列 的 一 阶 差 分 结 果 。 etr-
( ) 练容 易 , 敛 速 度快 , 而非 常 适 用 于 实 1训 收 从
MF C或 L C C P C特 征 , 之是 特 征 加权 、 征 差 分 、 随 特
特征 筛选 等 。 标准 的 MF C只反映 了语 音参 数 的静 态 特性 , C
1 特 征 提 取
说话 人识别技 术 的关键 问题之 一是提取 反 映说
而人 耳对语 音 的动态特性 更为 敏感 。为更好地 拟合
收稿 日期 :0 0—0 —0 21 3 3
பைடு நூலகம்
差分( AMF C C) Fe t r D( ) aue j : F tr( ) a e uej —F tr( a e uej一1 )
~
() 1
其 中 , =0 1 …P, i ,, J= 12 … , P为特征 阶数 , , , N,
N 为 特 征 向量 数 。Faue为 原 有 特 征 向 量 序 列 , etr
时处 理
增加 dl 系数 , ea t 即通 过 对 静 态 参 数 增 加 时 间差 , 可 以提 高说 话 人 识 别 系统 的性 能 。D l et 数 可 以通 a系 过下 面 的公 式计 算
( ) 以完 成任 意 的非线性 变换 , 形成 的判决 2可 所
曲面 与贝 叶斯 最 优 准则 下 的曲面相 接近
21 0 0年 9月 第1 5卷 第 5 期
西 安 邮 电 学 院 学 报 J UR ALOFX ’ N V R I Y O 0] A D TE E O O N IA UNI E ST FP s N L G MMU C I NS NIAT O
S p. 0 0 et 2 1 Vo.5No5 11 .
用 P N算 法的识别率能够满足说话人识别的 实际要 求。 N
关 键词 : 话人 识 别 ; 率神 经 网络 ; 征 提 取 ;Me频 率倒 谱 系数 ; 分 MF C 说 概 特 l 差 C 中 图 分 类 号 :P 0 T 31 文献 标 识 码 : A 文章 编 号 :0 7 2 42 1 )5 14—0 1 0 —36 (00 0 —0 0 3
法, 进一步 剥 离 出 隐藏 在 语 音 背 后 的说 话 人 特 征 。
二 次 特征 提 取 其第 一 步 是 提 取原 始 特征 向量 :
说话 人模 型进行 匹配 , 匹配 距离小 于规定 的 阀值 , 若 则该说 话人 得到证 实 , 否则 该 说话 人 不是 他 所声 称
的说话人[ 。 2 】
波器组 的方 法计算 出来 的 , 将语 音 频 率划 分 成一 系
列三 角形 的滤波器 序 列 , 组滤 波 器 在频 率 的美 尔 这 ( 1坐 标 上 是 等 带 宽 的 。这 是 因 为 人 类 在 对 Me) 10 Hz 0 0 以下 的声 音 频率 范 围的 感 知遵 循 近 似线 性
一) —一
∑ 臼 口一 旦 ( +
D, L— =
2
:1
() 3具有 很 强 的容 错 性
() 2
() 4 模式 层 的传 递 函数 可 以选 用 各 种 用来 估 计 概率 密 度 的核 函数 , 且 分 类 结果 对 核 函数 的形 式 并
关 系 ; 10 H 对 00 z以 上 的声 音 频 率 范 围 的感 知 不 遵
循线 性关 系 , 而是 遵循 在 对 数频 率 坐标 上 的近 似线
性关 系 。 12 差 分 MF C的提取 . C
二次特 征 提 取 l 是 对 原 始 特 征 向量 序 列 进 行 4 ]
再分析。通过对特征向量运用加权、 差分、 筛选等方
话人个性的语音特征参数。目前常用的特征参数包 括 线 性 预 测 倒 谱 系 数 ( P C) 美 尔 倒 谱 系 数 LC 、
( ( ) 。L C MF 等 P C参数 和 MF C参数 分 别根 据人 C 的发声原 理和 听觉 感知 原 理 , 从人 的声 音 提取 出能 量 分布谱 , 中获得声 纹 的独 特特征 , 从 这两种 参数 在
实用 中得到 了较好 的效果 l 。 3 _
0 引言
建立 一个 说话 人 识别 系统 分为 两个 阶段 : 练 训 阶段 和识别 阶段 。在 训 练 阶段 , 统 的每 一 个使 用 系 者说 出若 干训练语 料 , 系统 根据 这些训 练语 料 , 通过
1 1 Me 倒谱参 数 ( C . l MF C) Me 频率倒谱 系数 ( C 是 在 频谱 上 采用 滤 l MF C)
训 练学习 建 立 每个 使 用 者 的模 板 或 模 型参 数 参 考 集 。而在识别 阶段 , 把从 待 识 别说 话人 说 出 的语 音 信号 中提取 的特征 参 数 , 在训 练 过 程 中得 到 的参 与 考参 量集 或模 型模 板 比较 , 且根 据 一定 相 似 性 准 并
则进行 判定 … 。说 话 人 辨识 时 , 与 测试 语 音 匹 配 取 距 离最小 的说话人 模型所 对应 的说话人 作为说 话人 辨识 的结 果 , 说话 人确认 时 , 用测 试语 音与所 声称 的
说 话人 识别 算 法 的研 究
郭春 霞
( 西安邮电学院 通信与信息工程学院,陕西 西安 7 02 ) 1 11
摘要 : 针对说话人识别 问题 , 于概率神经 网络 P N, 基 N 实验 比较 MF C, MF C+MF C分别 与 P N相 结合 时的 C △ C C N
识别率。仿真结果表明 , 在文本有关情况下, 当说话人说话 内容为 0 ~9的发音时 , F C+MF℃ 优 于 MF C, z C  ̄I ( C 使
作者简 介: 郭春霞 (97 , , 17 一)女 河南沁 阳人 , 邮电学院通信与信息工程学院助教。 西安
第 5期
郭春 霞: 说话人识 别算法的研究
・15 ・ 0
F aue D为 原 有 特 征 向量 序 列 的 一 阶 差 分 结 果 。 etr-
( ) 练容 易 , 敛 速 度快 , 而非 常 适 用 于 实 1训 收 从
MF C或 L C C P C特 征 , 之是 特 征 加权 、 征 差 分 、 随 特
特征 筛选 等 。 标准 的 MF C只反映 了语 音参 数 的静 态 特性 , C
1 特 征 提 取
说话 人识别技 术 的关键 问题之 一是提取 反 映说
而人 耳对语 音 的动态特性 更为 敏感 。为更好地 拟合
收稿 日期 :0 0—0 —0 21 3 3
பைடு நூலகம்
差分( AMF C C) Fe t r D( ) aue j : F tr( ) a e uej —F tr( a e uej一1 )
~
() 1
其 中 , =0 1 …P, i ,, J= 12 … , P为特征 阶数 , , , N,
N 为 特 征 向量 数 。Faue为 原 有 特 征 向 量 序 列 , etr
时处 理
增加 dl 系数 , ea t 即通 过 对 静 态 参 数 增 加 时 间差 , 可 以提 高说 话 人 识 别 系统 的性 能 。D l et 数 可 以通 a系 过下 面 的公 式计 算
( ) 以完 成任 意 的非线性 变换 , 形成 的判决 2可 所
曲面 与贝 叶斯 最 优 准则 下 的曲面相 接近
21 0 0年 9月 第1 5卷 第 5 期
西 安 邮 电 学 院 学 报 J UR ALOFX ’ N V R I Y O 0] A D TE E O O N IA UNI E ST FP s N L G MMU C I NS NIAT O
S p. 0 0 et 2 1 Vo.5No5 11 .
用 P N算 法的识别率能够满足说话人识别的 实际要 求。 N
关 键词 : 话人 识 别 ; 率神 经 网络 ; 征 提 取 ;Me频 率倒 谱 系数 ; 分 MF C 说 概 特 l 差 C 中 图 分 类 号 :P 0 T 31 文献 标 识 码 : A 文章 编 号 :0 7 2 42 1 )5 14—0 1 0 —36 (00 0 —0 0 3
法, 进一步 剥 离 出 隐藏 在 语 音 背 后 的说 话 人 特 征 。
二 次 特征 提 取 其第 一 步 是 提 取原 始 特征 向量 :
说话 人模 型进行 匹配 , 匹配 距离小 于规定 的 阀值 , 若 则该说 话人 得到证 实 , 否则 该 说话 人 不是 他 所声 称
的说话人[ 。 2 】
波器组 的方 法计算 出来 的 , 将语 音 频 率划 分 成一 系
列三 角形 的滤波器 序 列 , 组滤 波 器 在频 率 的美 尔 这 ( 1坐 标 上 是 等 带 宽 的 。这 是 因 为 人 类 在 对 Me) 10 Hz 0 0 以下 的声 音 频率 范 围的 感 知遵 循 近 似线 性
一) —一
∑ 臼 口一 旦 ( +
D, L— =
2
:1
() 3具有 很 强 的容 错 性
() 2
() 4 模式 层 的传 递 函数 可 以选 用 各 种 用来 估 计 概率 密 度 的核 函数 , 且 分 类 结果 对 核 函数 的形 式 并
关 系 ; 10 H 对 00 z以 上 的声 音 频 率 范 围 的感 知 不 遵
循线 性关 系 , 而是 遵循 在 对 数频 率 坐标 上 的近 似线
性关 系 。 12 差 分 MF C的提取 . C
二次特 征 提 取 l 是 对 原 始 特 征 向量 序 列 进 行 4 ]
再分析。通过对特征向量运用加权、 差分、 筛选等方