神经网络语言模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 1 ) C是 一 个 从 i ( i ∈v ) 到 实 向量 C( i ) ( C( i )∈R ) 的映射 ,
它 表 示 特 征 向量 的 分 布 与 词 ; r - 表 中的 每 个 词 对 应 。 实 际 上 , C 表 示 了一 个 自由参 数 的 l v l x m 的 矩 阵
1 B e n g i 0等人的神经概率语言模型
1 . 1 分布 式表示
B e n g i o等 人 【 。 1 建 议 通 过 学 习词 的 分 布 式表 示 来 避 免 维 数 灾难 .分 布 式 表 示 允许 每 一 个 句 子 形 成 关 于语 义 相近 句 子 的
l n f o r r l i n d e xf o r 1 2 l n 如x f’ 1
神 经 网络 , 输入 层 , 隐藏层 , 输 出层 , 随后 2 0 1 1 年 C & W… 在 神 经 网络 语 言 模 型 的 文 章 中提 出词 向 量 的 计 算 方 法 ( 句子 的 方 法和 窗 口的 方 法 ) , 并 且 用得 到 的词 向 量 训 练 自然 语 言 处理 中 的各种任务。 近 年 来 神 经 网络 语 言 模 型 不断 深 入 和 发 展 , 为 充 分 了解 深 度 学 习在 自然 语 言 处理 中 的 应 用 ,介 绍 这 及 神 经 网 络 语 言模 型 . 并 且 比较 它们 的 不 同 点
94 通 信 设 计 与 应 用
2 01 7年 5 月 } .
神 经 网络 语 言模 型
路佳 佳 , 李晓 芳 ( I 【 J 西工商学院, d J 太原 0 3 0 0 0 6 )
【 摘 要 】 神经网络语言模 型是 用神经网络估计 某一词序列 为 自然语言 的概率。本 文介绍 了 B e n g i c , 等人提 出的神经概率语言 模型 , 并 比较 了
率, 模型 的训练 集是一 个词序 列 w 1 …w r , W . ∈V, , 其 中词汇 V 是 一 个 大 的 并 且 有 限 集 , 目的 是 要 学 习 一 个 好 的模 型 . 即 f
( W 一 W 】 ) = P( W 1 w ) 。
h为 隐 单 元 的 数 量 . i n是 和 每 个词 相 关 的特 征 的 数 量 . 当 从 词 特 征 到 输 出没 有 直 接 的 连 接 是 理 想 的 时 。 矩阵W 设为( )
【 文章编号 】 1 0 0 6 — 4 2 2 2 ( 2 0 1 7 ) 0 9 — 0 0 9 4 — 0 2
引
2 0 0 0年 百 度 的 徐 伟 提 出 用 神 经 网 络 训 练 语 言 模 型 的 想
畦 l o u st P J
c o n r e , x t
法, 也 就 是 神 经 网络 语 言 模 型 训 练 语 言 模 型 的经 典 之 作 应 属 B e n g i o等 人 口 发 表 的 神 经 概 率语 言模 型 的 论 文 , 该 模 型 有 三 层
模 型 的 自 由参 数 是 输 出偏 置 b , 隐层的偏 置 为 d . 隐 藏 层 到 输 出层 的 权 重 为 U, 词 特 征 到 输 出层 的 权 重 为 W , 隐 藏 层 的权 重
为 H, 词 特 征 为 C, 即0 =( b, d, W, U, H, C) .
把f ( w ・ ・ w …. ) = P( w . 1 w ) 分解成两部分:
( 2) 词 汇 C上 的概 率 函 数 : 一 个 函数 g映 射 上 下 文 中词 的 特 征向 量的输入序 列( C( w + 。 ) , …, C( W ) ) 到 词 汇 V 中 下 一 个词 W 的 奈 件概 率 分 布 。 函数 g的 输 出是 一 个 向 量 , 它的第 i
图 1神经网络语言结构
指 数 数 量 的模 型 。该 模 型 可 以 同时 学 习每 一 个词 的 分 布 式 表 正 切 隐藏 层 . . 所 以, 神 经 网络 计 算 以 下 函 数 , 用一 个 s o f t ma x的 示和 词 序 列 的分 布 式 表 示的 概 率 函数 . . 输 出层 以确 保 正 的概 率 和 为 1 统 计 语 言模 型 可 以 通过 条 件 概 率 的 形 式 表 示 出来 ,在 给 y 定 先前 所 有 词 的条 件 下 求 下一 个词 的概 率 . 即:
y = b + Wx + Ut a n h ( d + Hx ) ( 5)
其 中 W 是 第 t个 词 , 是一个子序列 , W ( w , w + I 1 …, W j 一 ቤተ መጻሕፍቲ ባይዱ. , w ) 。这 种 方 法 已经 应 用 到 自然 语 言 处 理 的 许 多领 域 , 如 语 言 翻译 . 信 息检 索等
Mi n h &h i n t o n提 出 的 可 变 的层 次 分布 语 言 模 型 , 以及 S a i n a t h提 出 的深 层 神 经 网 络 语言 模 型 这 几 种 模 型 的优 缺 点 。
【 关键词 】 分布 式表示 ; g然语言 处理 【 中图分类号 】 T P 1 8 3 【 文献标识码 】 A
T f .
P( W 1 w . J , …, W …1 ) : !i
( 4 )
P( w: ) = 兀P( W. 1 w 。 )
( 1 )
∑e 其中Y . 是 对 于每 一 个 输 出词 i 的 非标 准 的 l o g概 率 . 用、 幻 参数 b , W, U, d , 和 H 构 成 的 下 面 的 公 式 来计 算 :
神 经 网络 语 言模 型 是 用神 经 网络 估 计 N 元 语 法 模 型 的概
其 中 W 可取 为 0 . X 是 词 特 征 层激 活 向 量 , 它 是 来 自矩 阵
C 的输 入 词 特征 的 连接 . 即:
x =( C( w_ _ 1 ) , C( w 【 _ 2 ) , …, C( w ~1 ) ) ( 6)
它 表 示 特 征 向量 的 分 布 与 词 ; r - 表 中的 每 个 词 对 应 。 实 际 上 , C 表 示 了一 个 自由参 数 的 l v l x m 的 矩 阵
1 B e n g i 0等人的神经概率语言模型
1 . 1 分布 式表示
B e n g i o等 人 【 。 1 建 议 通 过 学 习词 的 分 布 式表 示 来 避 免 维 数 灾难 .分 布 式 表 示 允许 每 一 个 句 子 形 成 关 于语 义 相近 句 子 的
l n f o r r l i n d e xf o r 1 2 l n 如x f’ 1
神 经 网络 , 输入 层 , 隐藏层 , 输 出层 , 随后 2 0 1 1 年 C & W… 在 神 经 网络 语 言 模 型 的 文 章 中提 出词 向 量 的 计 算 方 法 ( 句子 的 方 法和 窗 口的 方 法 ) , 并 且 用得 到 的词 向 量 训 练 自然 语 言 处理 中 的各种任务。 近 年 来 神 经 网络 语 言 模 型 不断 深 入 和 发 展 , 为 充 分 了解 深 度 学 习在 自然 语 言 处理 中 的 应 用 ,介 绍 这 及 神 经 网 络 语 言模 型 . 并 且 比较 它们 的 不 同 点
94 通 信 设 计 与 应 用
2 01 7年 5 月 } .
神 经 网络 语 言模 型
路佳 佳 , 李晓 芳 ( I 【 J 西工商学院, d J 太原 0 3 0 0 0 6 )
【 摘 要 】 神经网络语言模 型是 用神经网络估计 某一词序列 为 自然语言 的概率。本 文介绍 了 B e n g i c , 等人提 出的神经概率语言 模型 , 并 比较 了
率, 模型 的训练 集是一 个词序 列 w 1 …w r , W . ∈V, , 其 中词汇 V 是 一 个 大 的 并 且 有 限 集 , 目的 是 要 学 习 一 个 好 的模 型 . 即 f
( W 一 W 】 ) = P( W 1 w ) 。
h为 隐 单 元 的 数 量 . i n是 和 每 个词 相 关 的特 征 的 数 量 . 当 从 词 特 征 到 输 出没 有 直 接 的 连 接 是 理 想 的 时 。 矩阵W 设为( )
【 文章编号 】 1 0 0 6 — 4 2 2 2 ( 2 0 1 7 ) 0 9 — 0 0 9 4 — 0 2
引
2 0 0 0年 百 度 的 徐 伟 提 出 用 神 经 网 络 训 练 语 言 模 型 的 想
畦 l o u st P J
c o n r e , x t
法, 也 就 是 神 经 网络 语 言 模 型 训 练 语 言 模 型 的经 典 之 作 应 属 B e n g i o等 人 口 发 表 的 神 经 概 率语 言模 型 的 论 文 , 该 模 型 有 三 层
模 型 的 自 由参 数 是 输 出偏 置 b , 隐层的偏 置 为 d . 隐 藏 层 到 输 出层 的 权 重 为 U, 词 特 征 到 输 出层 的 权 重 为 W , 隐 藏 层 的权 重
为 H, 词 特 征 为 C, 即0 =( b, d, W, U, H, C) .
把f ( w ・ ・ w …. ) = P( w . 1 w ) 分解成两部分:
( 2) 词 汇 C上 的概 率 函 数 : 一 个 函数 g映 射 上 下 文 中词 的 特 征向 量的输入序 列( C( w + 。 ) , …, C( W ) ) 到 词 汇 V 中 下 一 个词 W 的 奈 件概 率 分 布 。 函数 g的 输 出是 一 个 向 量 , 它的第 i
图 1神经网络语言结构
指 数 数 量 的模 型 。该 模 型 可 以 同时 学 习每 一 个词 的 分 布 式 表 正 切 隐藏 层 . . 所 以, 神 经 网络 计 算 以 下 函 数 , 用一 个 s o f t ma x的 示和 词 序 列 的分 布 式 表 示的 概 率 函数 . . 输 出层 以确 保 正 的概 率 和 为 1 统 计 语 言模 型 可 以 通过 条 件 概 率 的 形 式 表 示 出来 ,在 给 y 定 先前 所 有 词 的条 件 下 求 下一 个词 的概 率 . 即:
y = b + Wx + Ut a n h ( d + Hx ) ( 5)
其 中 W 是 第 t个 词 , 是一个子序列 , W ( w , w + I 1 …, W j 一 ቤተ መጻሕፍቲ ባይዱ. , w ) 。这 种 方 法 已经 应 用 到 自然 语 言 处 理 的 许 多领 域 , 如 语 言 翻译 . 信 息检 索等
Mi n h &h i n t o n提 出 的 可 变 的层 次 分布 语 言 模 型 , 以及 S a i n a t h提 出 的深 层 神 经 网 络 语言 模 型 这 几 种 模 型 的优 缺 点 。
【 关键词 】 分布 式表示 ; g然语言 处理 【 中图分类号 】 T P 1 8 3 【 文献标识码 】 A
T f .
P( W 1 w . J , …, W …1 ) : !i
( 4 )
P( w: ) = 兀P( W. 1 w 。 )
( 1 )
∑e 其中Y . 是 对 于每 一 个 输 出词 i 的 非标 准 的 l o g概 率 . 用、 幻 参数 b , W, U, d , 和 H 构 成 的 下 面 的 公 式 来计 算 :
神 经 网络 语 言模 型 是 用神 经 网络 估 计 N 元 语 法 模 型 的概
其 中 W 可取 为 0 . X 是 词 特 征 层激 活 向 量 , 它 是 来 自矩 阵
C 的输 入 词 特征 的 连接 . 即:
x =( C( w_ _ 1 ) , C( w 【 _ 2 ) , …, C( w ~1 ) ) ( 6)