口语对话管理综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
s( t + 1) = λ( s( t) , x( t) ) , y( t) = μ( s( t) , x( t) )
粤杂砸 NLU
DM Back轧end
User TTS
NLGΒιβλιοθήκη Baidu
x(t)
滓渊子冤
y(t)
图 员 系统结构图
图 圆 有限状态机
有限状态机的工作原理为: 给 定状 态集 S 和 输入 集 X, 并 且确定输入 x( t) 和状态 s( t) , 在映射 λ和 μ的作用 下, 有限 状 态机的下一状态为 s( t + 1) , 输出为 y( t) [ 4] 。在对话 系统中, x ( t) 为用户对系统的输入, y( t) 为系统对用户的输出。
( 3) 对话管理( Dialogue Management, DM) 。它是对话系统的中 心部分, 根据 NLU 分析出的用户语义控制整个对话过程的进行。
收稿日期: 2004- 10- 27; 修返日期: 2004- 12- 28 基金项目: 国家“863”计划资助项目( 2002AA117010-07)
2. 3 系统健壮性与校验
用户对话的自由度和整个 对话系 统的回 答的准 确度很 难 达到 统 一 。 用 户 在 口 语 的对 话 中 常 有 省 略 、重 复 和 一 些 感 叹 词 等, 这些都给对话系统的设计带来一些困难。其中最主要的是 系统在对话中要正确地推测出用户的省略, 这样就带来了信息 确认的问题。系统推测出来的信息没有经过用户的确认, 可信 度比较低, 在必要的时候就需要用户进行确认。在整个系统设 计策 略 制 定 的 时 候 这 也 是 必 要的 一 方 面 。
图 3 是 一个 简单 的范 例, state1 ~state 4 表示 对话 系统 存 在的四个状态, action1 ~action3 是 系统定 义用 户的 全部 动作。 该状态转移图表示了所有状态与动作之间的关系, 系统根据用 户的动作和当前状态转到下一个状态, 并根据每个状态的定义 对 用 户 作 出 反 应 。 整 个对 话 的 过 程 就 在 状 态 的 转 移中 实 现 。
有限状态机也可以采用 状态转 移图的 形式表 示。每个 对 话片段的情况可以看成是一个一个的状态, 将对话过程的每一 次交互都看作是一次状态的跳转, 即每一个状态节点都表示着 当时对话的信息状态和系统动作, 每一个连接弧表示用户的每 次操作。因此, 整个对话的过程, 从开始到结束可以看成是在 状 态 图 中 的 一 个 连 接 开 始 节点 和 结 束 节 点 的 状 态 转 移 的路 径 。
核心地位, 控制整个对话的进行, 负责对用户输入的理解以及根据领域内容决定系统对用户的反应。对话管理
的设 计主 要有 基于状 态图 的结 构( 有 限状 态机 ) 、填 充槽 结构 和 基 于任 务 的 结构 三 种 方法 , 提 出了 一 种 基于 逻 辑
表达式的结构, 并设计了状态图 /逻辑表达式双层结构。
第 10 期
王菁华等: 口语对话管理综述
·5·
口语对话管理综述*
王菁华, 钟义信, 王 枞, 刘建毅
( 北京 邮电 大学 智能 科学 技术 研究 中心 , 北京 100876)
摘 要: 主 要介 绍了 口语 对话 系统 中对话 管理 的作 用、基本 问题 和设 计方 法。 对话管 理在 整 个对 话 系 统中 处 于
一个对话管理系统要做到 能够在 与用户 多次交 互的情 况 下保持回答的连续性和合理性, 并且能够处理用户在交互过程 中转变提问目的的情况。在已 经实现 并应用 的对话 管理的 设 计中, 主要有基于状态图 的结构、填充 槽结构 和基于 任务的 结 构。
3. 1 基于状态图的结构(Graph-b as e d 或 Call-flo w-bas ed) 基 于状 态图 的结构 采用 有限 状态 机来控 制对 话的 进
2. 2 领域可移植性
领域可移植性是口语对话 系统设 计中需 要着重 考虑的 一 个问题。对话系统是在某一领域内回答用户的问题, 对话系统 需要具有该领域的专门数据或知识。例如电影服务, 系统必须 有各 个 电 影 院 所 放 映 的 电 影 时间 、电 影 内 容介 绍 和 电 影 院 的 介 绍等数据。每个领域都要 有不同 的控制 策略。在以 往的设 计 中, 系 统的 反应行 为被 直接 代码 化, 然而, 当 要移 植到 新领 域 时, 就需要完全重新设计对话管理器。一般的解决方法是将对 话管理分成领域相关和领 域无关 两个模 块。与领域 相关的 部 分被抽取出来单独设计, 将领域知识存储在配置文件, 如脚本、 数据库或知识库中; 与领 域无关 的模块 则被设 计成通 用模块, 此模块可以轻易地移植到 其他领 域。领域相 关的模 块和领 域 无关的模块通过 配置 文 件联 系起 来, 通 过调 用 不同 的配 置 文 件, 可以驱动不 同领 域 的对 话系 统。当 需要 移 植到 其他 领 域 时, 只需要修改配置文件即可。
另外, 在实际的交互过 程中, 用户输 入的内 容有的 时候 是 有错误或输 入 条件 之 间 有矛 盾 的, 如 误 输 入 “北 京 时 代 电 影 城”( 应为“首都时代电影城”) 、“八月十三 日星期六”( 应 为星 期五) 等, 系统均要能识别出来, 提示用户出错需要改正。
3 对话管理设计方法综述
行 [ 3] 。有限状态机系统可由图 2 表示。其中, S 表示状态的 集 合; X 表示输入集合; Y 表示输出 集合; λ, μ分 别表示 两种映 射 关系, 可表示为 λ: S×X→ S, μ: S ×X→ Y。因此, λ可 看作是 状 态迁移映射, 而 μ则可认为是输出映射, 在时序关系上, 又可表 示成如下形式:
1 引言
随着社会的发展, 人与计算机的交互存在于生活的方方面 面。在交互的过程中, 人 们通常 要通过 键盘、鼠标等 输入设 备 将自己的要求传达给计算机。人们在进行这些操作的时候, 通 常要参考说明书、帮助文 档等, 尤其是 对于没 有使用 经验的 人 来说, 这些都是一种 障碍。因此, 需要 一种计 算机与 人之间 的 智能的接口, 使人可以自然、方便地与计算机进行交流, 达到上 述目标的一个方 法 就是 人与 计 算机 采用 自 然语 言进 行 交互。 口语对话系统就是在人与计算机之间提供一个通信的桥梁, 计 算机能够自然、流利、正确地与人进行对话, 其中一个最为广泛 的应用就是信息查询, 用户可以使用口语来查询计算机中的数 据。人们从 20 世纪 60 年代就开始在这方面进行研究, 如 今已 经成 功 地 应 用 在 了 如 机 票 查 询、剧 院 订 票 等方 面 。
2. 1 对话策略 对话系统要对用户提出的问题进行回答, 所以通常需要系
统的引导使对话在某一个领域内进行; 当用户的回答模糊或者
· 6·
计算机应用研究
2005 年
缺少关键信息的时候, 也需要系统的提示。这样就使得在对话 的效率和用户的自由度方面存在矛盾, 所以需要采用适当的对 话策略使这个 问题 得 到折 中 的解 决。对 话策 略分 为 三种[ 1] : ①系统主导的会话是指由系统向用户提出一系列的问题, 根据 用户的回答来提供信息。直接的 提问( 如“你要问哪 个城市 的 天气? ”) 通常都可以得 到用 户的 明确、简 洁 的回 答, 从而 有 着 较好的查询效果, 但是系 统主导 的会话 束缚了 用户, 使对话 过 程不自然。②用户主导方式是指在对话过程中, 用户是对话的 主导者, 可以非常自由地按照自己的意愿来提问。③用户主导 和系统主导的混合使用, 即系统 可以提 问要求 用户回 答, 用 户 可以回答问题; 也可以按 照自己 的意愿 提出问 题, 要 求系统 回 答。该种方式具有更大的灵活性, 可以处理更加复杂的用户输 入, 与用户的交流更加流畅[ 2] , 因此是较好的对话策略。
关键词: 口语对话系统; 对话管理
中图 法分 类号 : TP315
文献标识码: A
文章 编号 : 1001- 3695( 2005) 10- 0005 - 04
Overview of Dialogue Management in Spoken Dialogue System
WANG Jing-hua, ZHONG Yi-xin, WANG Cong, LIU Jian-yi
2 对话管理的基本问题
对话管理在对话系统中处于核心地位, 其设计优秀与否关 系到整个对话系统性能。对话管理的任务是控制对话流程, 帮 助用户高效自然地完成对话。在对话过程中, 用户的回答或提 问可能是含糊不清或者是不完整的, 对话管理必须引导用户说 明自己的意图, 并提供完成任务所需要的信息。为了完成和用 户的交互行为, 对话管理应该根据对话历史建立对话上下文, 并根据对话上下文正确理解用户输入。在此基础上, 对话管理 需要决定如何响应用户, 并根据响应的内容修改上下文。对话 管理的基本问题主要有: 对话策略、领域的可移植性、系统健壮 性和校验。
一个对话系统要将用户输入的自然语言进行理解, 并根据 用户提出的要求在数据库中搜索结果, 最后将其转化为自然语 言反馈给用户。对话系统( 图 1) 一般包括:
( 1) 语音识别( Auto Speech Recognition, ASR) 。将用 户 输 入的 声 音 转 化 为 文 本 。
( 2) 自然语言分析( Natural Language Understanding, NLU) 。 对 ASR 输出的文本进行分析, 建立语义表示。
( 4) 后台数据库( Back-end) 。提供查询所需的数据。 ( 5) 自然语 言生 成 ( Nature Language Generator, NLG) 。 将 查 询 结 果 转 换 为 文 本 结 构 的自 然 语 言 。 ( 6) 语音合成 ( Test to Speech, TTS) 。将 文 本结 构的 回 答 合成为声音, 传递给用户。 从上面的结构分析可以看出, 对话管理模块的任务是从 NLU 服务器接收分 析出 来的 结果, 根据 保存 的 对话 状态 和 对 话历史判断对话流程, 组织回答 发送给 NLG, 如果查 询条件 满 足则组织后台数据库查询 并接收 查询结 果。 如果在 对话过 程 中出现差错或异常, 则进行差错处理使对话继续进行。
( Research Center of Intelligence Science & Technology, Beijing University of Posts & Telecommunications, Beijing 100876 , China)
Abstract: This paper gives an overview of dialogue management in spoken dialogue system in its function, design and other important problem. Dialogue management plays an important role in the whole system. It controls the process of the dialogue, interprets the input of the user and decides what to do next. There are three basic structures of dialogue management in dialogue system, which are graph-based, slot-filling and task-based. This paper designs the structure based on logic-expression, and designs graph/ logic-expression dialogue management structure. Key words: Spoken Dialog System; Dialog Management
粤杂砸 NLU
DM Back轧end
User TTS
NLGΒιβλιοθήκη Baidu
x(t)
滓渊子冤
y(t)
图 员 系统结构图
图 圆 有限状态机
有限状态机的工作原理为: 给 定状 态集 S 和 输入 集 X, 并 且确定输入 x( t) 和状态 s( t) , 在映射 λ和 μ的作用 下, 有限 状 态机的下一状态为 s( t + 1) , 输出为 y( t) [ 4] 。在对话 系统中, x ( t) 为用户对系统的输入, y( t) 为系统对用户的输出。
( 3) 对话管理( Dialogue Management, DM) 。它是对话系统的中 心部分, 根据 NLU 分析出的用户语义控制整个对话过程的进行。
收稿日期: 2004- 10- 27; 修返日期: 2004- 12- 28 基金项目: 国家“863”计划资助项目( 2002AA117010-07)
2. 3 系统健壮性与校验
用户对话的自由度和整个 对话系 统的回 答的准 确度很 难 达到 统 一 。 用 户 在 口 语 的对 话 中 常 有 省 略 、重 复 和 一 些 感 叹 词 等, 这些都给对话系统的设计带来一些困难。其中最主要的是 系统在对话中要正确地推测出用户的省略, 这样就带来了信息 确认的问题。系统推测出来的信息没有经过用户的确认, 可信 度比较低, 在必要的时候就需要用户进行确认。在整个系统设 计策 略 制 定 的 时 候 这 也 是 必 要的 一 方 面 。
图 3 是 一个 简单 的范 例, state1 ~state 4 表示 对话 系统 存 在的四个状态, action1 ~action3 是 系统定 义用 户的 全部 动作。 该状态转移图表示了所有状态与动作之间的关系, 系统根据用 户的动作和当前状态转到下一个状态, 并根据每个状态的定义 对 用 户 作 出 反 应 。 整 个对 话 的 过 程 就 在 状 态 的 转 移中 实 现 。
有限状态机也可以采用 状态转 移图的 形式表 示。每个 对 话片段的情况可以看成是一个一个的状态, 将对话过程的每一 次交互都看作是一次状态的跳转, 即每一个状态节点都表示着 当时对话的信息状态和系统动作, 每一个连接弧表示用户的每 次操作。因此, 整个对话的过程, 从开始到结束可以看成是在 状 态 图 中 的 一 个 连 接 开 始 节点 和 结 束 节 点 的 状 态 转 移 的路 径 。
核心地位, 控制整个对话的进行, 负责对用户输入的理解以及根据领域内容决定系统对用户的反应。对话管理
的设 计主 要有 基于状 态图 的结 构( 有 限状 态机 ) 、填 充槽 结构 和 基 于任 务 的 结构 三 种 方法 , 提 出了 一 种 基于 逻 辑
表达式的结构, 并设计了状态图 /逻辑表达式双层结构。
第 10 期
王菁华等: 口语对话管理综述
·5·
口语对话管理综述*
王菁华, 钟义信, 王 枞, 刘建毅
( 北京 邮电 大学 智能 科学 技术 研究 中心 , 北京 100876)
摘 要: 主 要介 绍了 口语 对话 系统 中对话 管理 的作 用、基本 问题 和设 计方 法。 对话管 理在 整 个对 话 系 统中 处 于
一个对话管理系统要做到 能够在 与用户 多次交 互的情 况 下保持回答的连续性和合理性, 并且能够处理用户在交互过程 中转变提问目的的情况。在已 经实现 并应用 的对话 管理的 设 计中, 主要有基于状态图 的结构、填充 槽结构 和基于 任务的 结 构。
3. 1 基于状态图的结构(Graph-b as e d 或 Call-flo w-bas ed) 基 于状 态图 的结构 采用 有限 状态 机来控 制对 话的 进
2. 2 领域可移植性
领域可移植性是口语对话 系统设 计中需 要着重 考虑的 一 个问题。对话系统是在某一领域内回答用户的问题, 对话系统 需要具有该领域的专门数据或知识。例如电影服务, 系统必须 有各 个 电 影 院 所 放 映 的 电 影 时间 、电 影 内 容介 绍 和 电 影 院 的 介 绍等数据。每个领域都要 有不同 的控制 策略。在以 往的设 计 中, 系 统的 反应行 为被 直接 代码 化, 然而, 当 要移 植到 新领 域 时, 就需要完全重新设计对话管理器。一般的解决方法是将对 话管理分成领域相关和领 域无关 两个模 块。与领域 相关的 部 分被抽取出来单独设计, 将领域知识存储在配置文件, 如脚本、 数据库或知识库中; 与领 域无关 的模块 则被设 计成通 用模块, 此模块可以轻易地移植到 其他领 域。领域相 关的模 块和领 域 无关的模块通过 配置 文 件联 系起 来, 通 过调 用 不同 的配 置 文 件, 可以驱动不 同领 域 的对 话系 统。当 需要 移 植到 其他 领 域 时, 只需要修改配置文件即可。
另外, 在实际的交互过 程中, 用户输 入的内 容有的 时候 是 有错误或输 入 条件 之 间 有矛 盾 的, 如 误 输 入 “北 京 时 代 电 影 城”( 应为“首都时代电影城”) 、“八月十三 日星期六”( 应 为星 期五) 等, 系统均要能识别出来, 提示用户出错需要改正。
3 对话管理设计方法综述
行 [ 3] 。有限状态机系统可由图 2 表示。其中, S 表示状态的 集 合; X 表示输入集合; Y 表示输出 集合; λ, μ分 别表示 两种映 射 关系, 可表示为 λ: S×X→ S, μ: S ×X→ Y。因此, λ可 看作是 状 态迁移映射, 而 μ则可认为是输出映射, 在时序关系上, 又可表 示成如下形式:
1 引言
随着社会的发展, 人与计算机的交互存在于生活的方方面 面。在交互的过程中, 人 们通常 要通过 键盘、鼠标等 输入设 备 将自己的要求传达给计算机。人们在进行这些操作的时候, 通 常要参考说明书、帮助文 档等, 尤其是 对于没 有使用 经验的 人 来说, 这些都是一种 障碍。因此, 需要 一种计 算机与 人之间 的 智能的接口, 使人可以自然、方便地与计算机进行交流, 达到上 述目标的一个方 法 就是 人与 计 算机 采用 自 然语 言进 行 交互。 口语对话系统就是在人与计算机之间提供一个通信的桥梁, 计 算机能够自然、流利、正确地与人进行对话, 其中一个最为广泛 的应用就是信息查询, 用户可以使用口语来查询计算机中的数 据。人们从 20 世纪 60 年代就开始在这方面进行研究, 如 今已 经成 功 地 应 用 在 了 如 机 票 查 询、剧 院 订 票 等方 面 。
2. 1 对话策略 对话系统要对用户提出的问题进行回答, 所以通常需要系
统的引导使对话在某一个领域内进行; 当用户的回答模糊或者
· 6·
计算机应用研究
2005 年
缺少关键信息的时候, 也需要系统的提示。这样就使得在对话 的效率和用户的自由度方面存在矛盾, 所以需要采用适当的对 话策略使这个 问题 得 到折 中 的解 决。对 话策 略分 为 三种[ 1] : ①系统主导的会话是指由系统向用户提出一系列的问题, 根据 用户的回答来提供信息。直接的 提问( 如“你要问哪 个城市 的 天气? ”) 通常都可以得 到用 户的 明确、简 洁 的回 答, 从而 有 着 较好的查询效果, 但是系 统主导 的会话 束缚了 用户, 使对话 过 程不自然。②用户主导方式是指在对话过程中, 用户是对话的 主导者, 可以非常自由地按照自己的意愿来提问。③用户主导 和系统主导的混合使用, 即系统 可以提 问要求 用户回 答, 用 户 可以回答问题; 也可以按 照自己 的意愿 提出问 题, 要 求系统 回 答。该种方式具有更大的灵活性, 可以处理更加复杂的用户输 入, 与用户的交流更加流畅[ 2] , 因此是较好的对话策略。
关键词: 口语对话系统; 对话管理
中图 法分 类号 : TP315
文献标识码: A
文章 编号 : 1001- 3695( 2005) 10- 0005 - 04
Overview of Dialogue Management in Spoken Dialogue System
WANG Jing-hua, ZHONG Yi-xin, WANG Cong, LIU Jian-yi
2 对话管理的基本问题
对话管理在对话系统中处于核心地位, 其设计优秀与否关 系到整个对话系统性能。对话管理的任务是控制对话流程, 帮 助用户高效自然地完成对话。在对话过程中, 用户的回答或提 问可能是含糊不清或者是不完整的, 对话管理必须引导用户说 明自己的意图, 并提供完成任务所需要的信息。为了完成和用 户的交互行为, 对话管理应该根据对话历史建立对话上下文, 并根据对话上下文正确理解用户输入。在此基础上, 对话管理 需要决定如何响应用户, 并根据响应的内容修改上下文。对话 管理的基本问题主要有: 对话策略、领域的可移植性、系统健壮 性和校验。
一个对话系统要将用户输入的自然语言进行理解, 并根据 用户提出的要求在数据库中搜索结果, 最后将其转化为自然语 言反馈给用户。对话系统( 图 1) 一般包括:
( 1) 语音识别( Auto Speech Recognition, ASR) 。将用 户 输 入的 声 音 转 化 为 文 本 。
( 2) 自然语言分析( Natural Language Understanding, NLU) 。 对 ASR 输出的文本进行分析, 建立语义表示。
( 4) 后台数据库( Back-end) 。提供查询所需的数据。 ( 5) 自然语 言生 成 ( Nature Language Generator, NLG) 。 将 查 询 结 果 转 换 为 文 本 结 构 的自 然 语 言 。 ( 6) 语音合成 ( Test to Speech, TTS) 。将 文 本结 构的 回 答 合成为声音, 传递给用户。 从上面的结构分析可以看出, 对话管理模块的任务是从 NLU 服务器接收分 析出 来的 结果, 根据 保存 的 对话 状态 和 对 话历史判断对话流程, 组织回答 发送给 NLG, 如果查 询条件 满 足则组织后台数据库查询 并接收 查询结 果。 如果在 对话过 程 中出现差错或异常, 则进行差错处理使对话继续进行。
( Research Center of Intelligence Science & Technology, Beijing University of Posts & Telecommunications, Beijing 100876 , China)
Abstract: This paper gives an overview of dialogue management in spoken dialogue system in its function, design and other important problem. Dialogue management plays an important role in the whole system. It controls the process of the dialogue, interprets the input of the user and decides what to do next. There are three basic structures of dialogue management in dialogue system, which are graph-based, slot-filling and task-based. This paper designs the structure based on logic-expression, and designs graph/ logic-expression dialogue management structure. Key words: Spoken Dialog System; Dialog Management