词向量

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Bengio的语言模型构建
U
Wx
d+Hx
X
y = b+Wx+U tanh(d+Hx)
Softmax:
功能函数g通过前馈神经网络和权重参数ω实现,整 体表示为参数集合θ=(C ω)
训练过程
寻找一个θ能够通过对数似然函数惩罚来最大限度的训练语料库
R(θ)是一个正则项,在这个实验中R就表示权重衰减
y = b+Wx+U tanh(d+Hx)
Distributed Representation
Hinton 在 1986 年的论文 《Learning distributed representations of concepts》 2000 年之后开始逐渐被人重视 Bengio 的经典之作:2003 年投到 JMLR 《A Neural Probabilistic Language Model》
个人感觉大致思想就是作者设立了一个迁移得分:用 于表示连续词之间的词向量每个标签i对于这两个词之 间的联系能力,之后加上各个词向量的标签值,最后 加权。
横轴:隐藏单元数 纵轴:F1值 节点:进行训练时 选择的单元数
训练过程
∑x∈X∑w∈Dmax{0,1−f(x)+f(x(w))}
pair-wise 的方法训练词向量
稀疏方式存储 配合上最大熵、SVM、CRF 等等算法
NLP领域中的主流任务
文本朗读 语音合成 语音识别 中文自动分词 句法分析
自然语言生成 文本分类 信息检索 信息抽取 文字校对
问答系统 机器翻译 自动摘要 文字蕴涵
词性标注Part-of-speech tagging(POS) 程序分块(Chunking) 命名实体识别:Named Entity Recognition (NER) 语义角色标注Semantic Role Labeling (SRL)
“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...] “麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]
“词汇鸿沟”
源自文库
Distributed Representation(主要内容)
表示的一种低维实数向量。这种向量一般长成这个样子: [0.792, −0.177, −0.107, 0.109, −0.542, ...]。维 度以 50 维和 100 维比较常见。
Distributed Representation
在实际操作中,他们并没有去求一个字符串的概率,而是 [A]i,j 求窗口连续 n 个词的打分 f(wt−n+1,…,wt−1,wt)。打 分 f 越高的说明这句话越是正常的话;打分低的说明这句 话不是太合理;如果是随机把几个词堆积在一起,那肯定 是负分(差评)。打分只有相对高低之分,并没有概率的 特性。(打分过程非常复杂)
《Three New Graphical Models for Statistical Language Modelling》 Andriy Mnih Geoffrey Hinton
FRBM(Factored RBM) Temporal FRBM
Log-Bilinear Language Model
隐藏层以及字特征到输出层的权重训练过程
通过反向梯度计算用于输出层的第i个单元
隐藏层权重H训练过程
反向传播更新隐藏层权重
在1和h之间进行k次循环
输入词特征向量训练过程
表示连接词序列X 的第k个块
模型优化
随机梯度上升
Distributed Representation
《Natural Language Processing (Almost) from Scratch》 Ronan Collobert 和 Jason Weston
中国 1:美国 俄罗斯 日本 缺 乏 对 词 语 的 理 解
2:北京 华盛顿 上海 台湾
神经语言程序学NLP:研究我们的大脑如何工作
将自然语言理解的问题转化为机器学习的问题
第一步肯定是要找一种方法把这些符号数学化。
NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...] “麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]
Log-Bilinear Language Model
X MY
T
C(wi)表示第i个词的词向量 Hi可以理解为第i个词经过Hi转变后对第t个词产生的贡献 h表示为根据前t-1个词获得的预测向量 Yj表示下一个词为j的log概率
w1,1 t 1 i 1
. .
i h w1,1 w1,1 i h wm,m wm,1 wm,1
LOGO
词向量
徐欣辰
北京 上海 橘子 中国 美国 俄罗斯 台湾 华盛顿 汽车 日 本 电影 学生 黑猫
方法? 基于概念路径的计算方法 基于概念信息量的计算方法
对词性进行了分类和标注
基于语料库的最短路径相似度计算
……
城市 北京 华盛顿 上海 台湾
国家 中国 美国 俄罗斯 日本
橘 子 汽 车 学 生 黑 猫
语言模型:N-GRAM
数据稀疏问题!假设词表中有20000个词, Bi-Gram模型:N-Gram为400000000个 Tri-Gram模型:N-Gram为8000000000000个
低维的词向量可以解决在构建语言模型中的 维数灾难问题
Distributed Representation词向量表示
语言模型
上海大学是一所知名大学。 上海大学是一所知名电影院。 上海大学是一所知名跑步。
语言模型其实就是看一句话是不是正常人说出来的。
语言模型
语言模型形式化的描述就是给定一个字符串,看它是 自然语言的概率 P(w1,w2,…,wt)。w1 到 wt 依次表 示这句话中的各个词。 P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w 2)×…×P(wt|w1,w2,…,wt−1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1) P(wt|wt−n+1,…,wt−1)
1、每个词与具有特征矢量的词表Rm相互关联 2、通过词序列中的词向量来表示词序列的联合概率分布 3、同时学习词的特征向量以及概率函数的参数
对一个具有正常含义的词语序列w1…wt能 够通过学习获得一个良好的模型,使样本 外的词也能符合这个模型。
模型分为两步: 1、同过映射函数C将每一个属于Rm的词向量映射入函数f中 2、选择词表中第i词作为wt,用于估计概率P(wt=i|w1…wt-1)
j w 1,1
h w1,1 . j . . w1,m . yj h wm ,1
内积基本上就可以反应相似度,如果各词向量的 模基本一致的话,内积的大小能直接反应两个向 量的 cos 夹角的大小。
相关文档
最新文档