知识图谱————2.机器学习基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 编号规则:请大家按编辑先后顺序编写自己的小组序号,先到先得,例如:第一个编辑的小组可以 选择1-18中的任意编号,第二个小组可以选择除了第一个小组以外的其它编号,如果后填写的小 组看到自己的小组号码或者文章题目和已经填写好的小组冲突,请后面的小组更换为不冲突的编号 和文章。 • 切记:这个协作笔记有操作记录,请大家只编辑自己小组的信息,不要更改其余小组的信 息!!!!!!
∑ L y (i ) , f x (i ) , θ
i =1
N
(
(
))
+λ θ
2
正则化项
λ 用来控制正则化的强度,正则化项也可以使用其它函数,比如 L1 范数
学习
在机器学习问题中,我们需要学习到参数 θ,使得风险函数最小化。
θ *= arg min R (θt )
θ
1 = arg min N θ
∑ L y ( ) , f x( ) ,θ
研讨课安排
• 分组办法
• 有道云协作:http://163.fm/4dMfuC4t • 请组长进群后填写本组相关信息 • 信息填写截止时间:2017年9月20日晚8:00(周三) • 文章下载地址:http://www.aclweb.org/anthology/ 以从其他期刊或者会议下载 只要Topic属于上述候选Topic即可,也可
损失函数
Hinge 损失函数 对于两类分类问题,假设 y 和 f (x,θ ) 的取值为 {−1,+1}。Hinge 损失函数(Hinge Loss Function)的定义如下:
L ( y, f ( x, θ ) ) = max ( 0,1 − yf ( x, θ ) ) = 1 − yf ( x, θ ) +
1 R (θ ) = N
(i ) (i ) L y , f x ,θ ∑
i =1 N
(
(
))
风险函数 R(θ ) 是在已知的训练样本(经验数据)上计算得来的,因此被称之为经验风险。 参数的求解其实就是寻求一组参数,使得经验风险函数达到最小值,就是我们常说的经验 风险最小化原则(Empirical Risk Minimization)
Logistic Regression
Logistic 回归 我们定义目标类别 y = 1 的后验概率为:
������ ������ = 1 ������ = ������ ������ / ������ =
1 1 + exp (−������ / ������)
其中,σ(· ) 为 logistic 函数,x 和 w 为增广的输入向量和权重向量。 y = 0 的后验概率为
无监督学习(Unsupervised Learning) 用来学习的数据不包含标注信息,需要学习算法自动学 习到一些有价值的信息,例如聚类(Clustering)
分类、回归和聚类
Clustering
机Biblioteka Baidu学习分类
• 主动学习(Active Learning) • 集成学习(Ensemble Learning) • 迁移学习(Transfer Learning) • 多任务学习(Multi-task Learning) • 强化学习(Reinforcement Learning) • 终生学习(Life-long Learning) • 课程学习(Curriculum Learning) • 零样本学习 (One/zero shot Learning) • ……
训练集
开发集
测试集
机器学习问题类型
回归(Regression) y 是连续值(实数或连续整数),f (x) 的输出也是连续值。 这种类型的问题就是回归问题。对于所有已知或未知的 (x, y),使得 f (x,θ ) 和 y 尽可能地一致。损函数通常定义为平方误差。 分类(Classification) y 是离散的类别标记(符号),就是分类问题。损失 函数有一般用 0-1 损失函数或负对数似然函数等。在分类问题中,通过学习 得到的决策函数 f (x,θ ) 也叫分类器。
AdaGrad(Adaptive Gradient)算法是借鉴 L2 正则化的思想。在第 t次迭代时,
θt = θt −1 −
ρ
∑τ
t
2 g τ =1
gt
其中,ρ 是初始的学习率,gτ ∈ R|θ| 是第 τ 次迭代时的梯度。随着迭代次数的增加,梯度逐渐缩小
开发集
在梯度下降训练的过程中,由于过拟合的原因,在训练样本上收敛的参数,并不一定在测 试集上最优。因此,我们使用一个验证集(ValidationDataset)(也叫开发集(Development Dataset))来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下 降,就停止迭代。如果没有验证集,可以在训练集上进行交叉验证
损失函数
交叉熵损失函数 对于分类问题,模型输出f (x, θ ) 为每个类 y 的条件概率。 假设 y ∈ {1,···,C},模型预测样本属于第 i 个类的条件概率P(y = i | x) = fi(x,θ ),则 f (x,θ ) 满足
fi ( x, θ ) ∈ [0,1] ,
∑ f ( x, θ ) = 1
i i i =1
N
(
(
))
如果用梯度下降法进行参数学习,
a t +1 =a t − λ ∂R (θ ) ∂θt
N
= at − λ ∑
i =1
∂R θt ; x ( ) , y ( )
i i
(
∂θ
)
搜索步长 λ 在机器学习中也叫作学习率(Learning Rate)。
梯度下降法
学习率
学习率设置:自适应法
特征表示:特征选择、特征抽取
• 主成分分析 • 流形学习 • 核方法 • 主题模型 • 度量学习 • Embedding • ….
线性分类
线性分类是机器学习中最常见并且应用最广泛的一种分类器。
T ⎧ ⎪1 if w x > 0 T y=⎨ = l w x) ( T ⎪ ⎩0 if w x ≤ 0 ∧
θ *= arg min R (θ )
θ
损失函数
如何度量错误的程度。 0-1 损失函数
⎧ ⎪0 if y = f ( x, θ ) L ( y , f ( x, θ ) ) = ⎨ ⎪ ⎩1 if y ≠ f ( x, θ ) = l ( y ≠ f ( x, θ ) )
平方损失函数
2 ⎛ ∧⎞ L ⎜ y , y ⎟ = ( y − f ( x, θ ) ) ⎝ ⎠
2
1 m ⋅ ∑ i =1 L( yi , f ( xi , θ )) m
奥卡姆剃刀原则
Q(θ ) + λ||θ ||2
机器学习
狭义地讲,机器学习是给定一些训练样本 (xi, yi),1 ≤ i ≤ N (其中 xi 是 输入,yi 是需要预 测的目标),让计算机自动寻找一个决策函数 f (· ) 来建立 x 和 y 之间的关系。
机器学习算法类型
有监督学习(Supervised Learning)是利用一组已知输入 x 和输出 y 的数据来学习模型的参数, 使得模型预测的输出标记和真实标记尽可能的一致
半监督学习(Semi-Supervised Learning)是利用少量已知输入 x 和输出 y 的数据以及未标注 的样本,来学习模型的参数
机器学习基础
刘康 中国科学院自动化研究所
研讨课安排
• 研讨课
• 第4章 知识图谱框架 (3学时)刘康(10月10日) • 第8章 研讨课:事件抽取(3学时)赵军(11月7日) • 第11章 研讨课:知识图谱构建(3学时)赵军(11月28日)
• 形式
• 分组汇报(每组:6-8人,15分钟汇报一篇相关的文章) • 候选Topic: • 知识融合(1-6组,内容可以参考OAEI评测相关文章) • 事件抽取(7-12组,内容可以包括事件抽取;事件关系预测;事件框架生成;事件预测) • 知识图谱构建(13-18组,内容可以包括实体识别;实体消歧;关系抽取)
损失函数
如果我们用 one-hot 向量������ 来表示目标类别 c,其中只有 yc = 1,其余向量元素都为 0。 则目标函数可以写为:
C
L ( y, f ( x, θ ) ) = −∑ yi log f i ( x, θ )
i =1
������) 是所标注真实类别的分布,上式恰好是交叉熵的形式。因此,损失函数也称之为交叉 熵损失函数(Cross Entropy Loss function)。
目录
• 机器学习基础理论与概念 • 神经网络与深度学习基础 • 卷积神经网络 • 循环神经网络
机器学习
• 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率 论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研 究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能 • 机器学习是人工智能的一个分支,其目的在于使得机器可以根据数据进 行自动学习,通过算法使得机器能从大量历史数据中学习规律从而对新 的样本做决策 • 它目前是人工智能的核心,是使计算机具有智能的根本途径,其应用 遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎
参考书籍
• 1. Knowledge Representation and Reasoning (Ronald J.Brachman, Hector J.Levesque) • 2. Artificial Intelligence: A Modern Approach (Stuart Russell, Peter Norvig) • 3. A Semantic Web Primer(Grigoris Antoniou等) • 4. Speech and Language Processing (Daniel Jurafsky,James H.Martin)

y = f (Φ ( x), θ )
这里,������ "是模型输出, ������为决策函数的参数,Φ(������)表示样本 x 对应的特征表示。 因为 x 不一定都是数值型的输入,因此需要通过 Φ(������) 将 x 转换为数值型的输入。
损失函数
在机器学习算法中,一般定义一个损失函数 L(y, f (x, θ )),在所有的训练样本上来评价决 策函数的好坏(风险)。
σ ( x) =
1 1 + e− x
其导数为
σ′ (x) = σ (x)(1 − σ (x))
当输入为 K 维向量 x = [x1, ··· , xK]T 时,其导数为
σ′ (x) = diag(σ (x) ⊙ (1 − σ (x)) )
exp(−������ / ������) ������ ������ = 0 ������ = 1 − ������ ������ = 1 ������ = 1 + exp (−������ / ������)
Logistic 函数
logistic 函数经常用来将一个实数空间的数映射到 (0,1) 区间,记为 σ (x)
过拟合 overfitting
结构风险最小化原则
为了解决过拟合问题,一般在经验风险最小化的原则上加参数的正则化(Regularization), 也叫结构风险最小化原则(Structure Risk Minimization)。
θ *= arg min R (θ ) + λ θ
θ
2
1 = arg min N θ
i =1 i
C
fy(x,θ ) 可以看作对于所标注类别 y 的似然函数。参数可以直接用最大似然估计来优化。考虑到 计算问题,我们经常使用最小化负对数似然,即负对数似然损失函数(Negative Log Likelihood function)。
L ( y, f ( x, θ ) ) = − log f y ( x, θ )
机器学习
机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据 (样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据 进行预测。目前,主流的机器学习算法是基于统计的方法,也叫统计机器学习
输入 x 训练样本 (x,y)
模型 学习算法
输出 y
机器学习概要
训练数据:(xi, yi),1 ≤ i ≤ m 模型: 线性方法:y = f (x) = wTx + b 非线性方法:神经网络 优化: 损失函数: L(y, f (x)) 经验风险最小化: Q(θ ) = 正则化: || θ || 优化目标函数:
相关文档
最新文档