汉语连续语音识别结果评价算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t l
。
t M
图1识别结果if问题  ̄l "
.
13 3
哼 逼 i o uan 西 怯 C am nts h mii n C c o
() 11V ,表 示 n个参考词被识 别为一个词 1 E : S 3 1 输 出 ( 2 ,如 参考 文本 的两个 词 [ 】应 】 识 n ) 是 [ 被 别为一个词 [ 适应 ] ,此时进行 匹配 ,会产生很多 的 虚假删除 、替代错误。 () 2 1 S ,表示 1 2E : Vn 个参考词被识别 为 n个词 输 出 ( 2 如 参考 文本 中 的一个 词 [ 踏 ] 识 n ) 践 被 别 为 两个词 [ Ⅱ他 ] 件 ,此 时进 行 匹配 ,会产 生很 b .路 径得分 多的虚假插入 、替代错误 。 图2匹配路径及路径得分 () 3 n s 表示 n个参考词被识别 为 n个词 3 E : vn 输 出 ( 2 , [ n ) 如 曾经 】使 】 [ 被识 别为 [ ]金石 】 曾 【 , 输 出 .其典型格式如 下所示 : Ov r l Re u t . ..... ... . e al s l ..... .... . s... .... ... 此时进行匹配 ,会增 加一些虚假的替代错误 。 ... ... .... 综上所述 在 汉语语音识 别的结果评价 中 采 S NT % Co rc= 57 『 l 7 2 =1 0 3 E : re t 5 .9 H= 2 1 ,S 0 7 , 用传统算 法进行基于词 的结果分 析时 ,会产生很 多 N=2 7 5 281 D,I ) ,s ,特别是 产生大量 的虚 W ORD: %Cor 8 .8 Ac = 64 H=l 5 6 , 虚假 的 匹配 错误 ( r= 7 5 , c 8 .7 f 5 8 6 假 D和 I 错误 。这也是 常见 汉语语音识 别结果评价 D 4 7 , = 7 2 ,= 9 8 N=I 7 6 1 = 8 4 S I2 3I 17 , 7 9 3 中匹配单 元采用字的原 因。
BR AD AN & DII N E T O B D GT CO T N AL
宽带 与数字 内容
。
引言
合Baidu Nhomakorabea评价算法 , 1 第 V部分 为算法实现 , 最后 为总结。 I 传统语音识 别结果评价算法 I .
连续语音识 别结果评价 ,主要用来 完成连续语 音识 别系统的性 能评 价 ,以及 为语 音识 别后 处理研 究( 如置信 度标 注 ) 供有 用 的信 息 。在 语音 识别 提 系统 性能评价 中.通 常只需要 得到正确 识 别率 ( 或 错误 识别率 ) 即可 ,而语 音识 别后处理 通 常需 要更 为详细 的信息 ,即确定 每个字或词 的具体识 别结果 评价 信息 ( 有 四种 情 况 : 共 正确 、插 入 错误 、删除 错误 、替代错误 ) 。 传统的语音识 别结果评价 算法 ,通常采用 动态 规划算法得 到识别输 出与参考文本 之间的最佳 匹配 结果 ,H K 中的 HR sl 工具是完成这一算法的典 T eu s t 型代表 [] 1。在进行匹配时 ,匹配 单元可 以是词 ,也 可 以是字 、音 素等 ,在汉语 连续语音 识别 中,通 常 采用字作为匹配单元 ,如 8 3 6 语音 识别评 测 [] 2 ,而 基于音素 的匹配通常是在 只需要评价 声学模型 性能 的时候使 用。基于词 的匹配 由于会产 生一些错误 匹 配 ,而很少使用 。 由于 语 音识 别 中通 常采 用基 于 词 的语 言 模 型 [ ,网络 搜索也是分 为词 内和词 间搜 索进行 的 [】 3 ] 1 因此很 多时候需要得 到基于词 的识别结 果分析 。例 如 在语音 识 别的置信 度研 究 中 ,相 对于音 节 来说 词 的置信 度特征更容 易获得 ,因此很 多置信 度研究 都是基于词来进行的 [] 4,但是由于基于词的语音识 4 别结果评价 不够准确 ,严 重影响 了置 信度评价 的性 能。 因此 .如何 得到基于词 的汉语语 音识别结 果评 价是一个值得研究 的问题 。 本 文 分 析 了基 于 词 的汉 语语 音 识 别 结果 评价 产 生 错 误 的 原 因 .对 HT 的 识 别 结 果 评 价 工 具 K HR sl 进 行 了改进 提 出一种基 于字词 混合 的语 eut s 音 识别结果评 价算 法。该算法 分 为三 个部分 : 基于 字词 混合的 匹配平 面定义 、多匹配路径及路 径得分 函数设 计。为 了给语 音识别后处理 提供 更多可用 的 信息 ,论文对传统算法的替代错误情况进行 了扩展 , 增加 了插入式 替代错 误和删 除式替代错误 ,并设计 了基 于 发音基 元 的得分 函数 进行 判 断。实验 表 明, 本文所提 算法可 以有 效降低传统评 价算法带 来的虚 假错误 ,提 高基于词 的汉语连续语 音识别结 果的评 价精 度 ,并可为语音识 别后 处理提供 更多可 用的信
持 USN S IT的匹配得分定义 (,3, ) 3 4。最佳 匹配结 果是具有最小 匹配得分 的路径 。 H eut 支持 w r snec 两个层次的结果 R sl s od和 et e n
R
r N
论 文安排如下 ,第 1部 分介绍传统语音识 别结 I 果评价算法 。第 1 部分介绍本文提 出的基于字词混 I I
息。
连续语音识 别结果 的评价 ,是通过将语音 识别 输 出序 列 和参考 文本序 列 ( 正确标 注文本 ) 进行 比 较得到 的。图 1 出了这一 问题 的描述 ,其 中横轴 给 T表示识 别输 出序列 (et,纵轴 R表示参考文本序 Ts ) 列 ,t表示识 别输 出序列 T中的第 i 匹配单元 ,r i 个 s 表示参 考序列 R中的第 , 匹配单元 。由于输 出序 个 列和参考序 列可 以是词 序列 、音节序列 或音素序列 等( 二者一般采用相 同的形式 ) ,因此匹配单元也可 以是词 、宇 、音 素等。语音识 别结果评价 算法就是 要在 R T平面上 找到一条最佳 的匹配路径 .使得沿 . 着这条路径 的匹配得分 最小 ,通 常采 用动态规划算 法进行匹配 ,H eut是 实现这一 算法的典 型工具 。 R sl s 在 该算法 中 ,匹配路径和 匹配得分 的定 义直接影 响 匹配的结果 ,下面结合 H eut进行说 明。 R sl s 2 1 H sl 简 介 . Reut s H K是 一个构建 隐马 尔可夫模型 ( MM) T H 的工 具包 ,主要用于语音识别研究 ,H eut 是 H K 中 R sl s T 用于语音识别结果评价 的工具 [ 。 1 ] 在 H eut 中 , 匹配 路 径 只 有 三 种 : 平 方 R sl s 水 向、对 角线 方 向 和垂 直 方 向。水 平 方 向表 示 插入 错误 ( ,垂直 方向表 示删除 错误 ( ) I ) D ,对 角线 方向 表示正 确 ( 别输 出与参考 文本 相 同,Ht 或替代 识 i ) ( 别输 出 与参考 文本不 同 ,s 错误 ,如 图 2a 所 识 ) () 示。针 对不 同的匹配路径采 用不 同的匹配得分 ,令 c o表 示 路 径 匹 配 得 分 ,则 有 C H = c s: O ( )0 () l . C D = ( = ,如图 2b 所 示。同时 ,H eu s 支 ( )C I 7 ) () R sl 也 t