对 数 运 算 法 则

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

负对数似然(negative log-likelihood)

negative log likelihood文章目录negative log likelihood似然函数(likelihood function)OverviewDefinition离散型概率分布(Discrete probability distributions)连续型概率分布(Continuous probability distributions)最大似然估计(Maximum Likelihood Estimation,MLE)对数似然(log likelihood)负对数似然(negative log-likelihood)Reference似然函数(likelihood function)Overview在机器学习中,似然函数是一种关于模型中参数的函数。“似然性(likelihood)”和"概率(probability)"词意相似,但在统计学中它们有着完全不同的含义:概率用于在已知参数的情况下,预测接下来的观测结果;似然性用于根据一些观测结果,估计给定模型的参数可能值。

Probability is used to describe the plausibility of some data, given a value for the parameter. Likelihood is used to describe the plausibility of a value for the parameter, given some data.

—from wikipedia[3] ^[3] [ 3]

其数学形式表示为:

假设X XX是观测结果序列,它的概率分布fx f_{x}f x? 依赖于参数θ thetaθ,则似然函数表示为

L(θ∣x)=fθ(x)=Pθ(X=x)

L(theta|x)=f_{theta}(x)=P_{theta}(X=x)L(θ∣x)=f θ? (x)=P θ? (X=x)

Definition似然函数针对**离散型概率分布(Discrete probability distributions)和连续型概率分布(Continuous probability distributions)**的定义通常不同.

离散型概率分布(Discrete probability distributions)假设X XX是离散随机变量,其概率质量函数p pp依赖于参数θ thetaθ,则有L(θ∣x)=pθ(x)=Pθ(X=x)

L(theta|x)=p_{theta}(x)=P_{theta}(X=x)L(θ∣x)=p θ? (x)=P θ? (X=x)

L(θ∣x) L(theta|x)L(θ∣x)为参数θ thetaθ的似然函数,x xx 为随机变量X XX的输出.

Sometimes the probability of "the value of for the parameter value " is written as P(X = x | θ) or P(X = x; θ).

连续型概率分布(Continuous probability distributions)假设X XX 是连续概率分布的随机变量,其密度函数(density function)f ff依赖于参数θ thetaθ,则有

L(θ∣x)=fθ(x) L(theta|x)=f_{theta}(x)L(θ∣x)=f θ? (x)

最大似然估计(Maximum Likelihood Estimation,MLE)假设每个观测结果x xx是独立同分布的,通过似然函数L(θ∣x) L(theta|x)L(θ∣x)求使观测结果X XX发生的概率最大的参数θthetaθ,即argmaxθf(X;θ) argmax_{theta}f(X;theta)argmax θ? f(X;θ) 。

在“模型已定,参数未知”的情况下,使用最大似然估计算法学习参数是比较普遍的。

对数似然(log likelihood)由于对数函数具有单调递增的特点,对数函数和似然函数具有同一个最大值点。取对数是为了方便计算极大似然估计,MLE中直接求导比价困难,通常先取对数再求导,找到极值点。

负对数似然(negative log-likelihood)实践中,softmax函数通常和负对数似然(negative log-likelihood,NLL)一起使用,这个损失函数非常有趣,如果我们将其与softmax的行为相关联起来一起理解.首先,让我们写下我们的损失函数:

L(y)=?log(y) L(y)=-log(y)L(y)=?log(y)

回想一下,当我们训练一个模型时,我们渴望能够找到使得损失函数最小的一组参数(在一个神经网络中,参数指权重weights和偏移biases).

对数函数如下图红线所示:

由于是对概率分布求对数,概率p pp的值为0≤p≤1 0leq{p}leq10≤p≤1,取对数后为红色线条在[0,1] [0,1][0,1]区间中的部分,再对其取负数,得到负对数似然函数如下图所示:

我们希望得到的概率越大越好,因此概率越接近于1,则函数整体值越接近于0,即使得损失函数取到最小值。

最大似然估计的一般步骤如下:(1) 写出似然函数;(2) 对似然函数取对数,得到对数似然函数;(3) 求对数似然函数的关于参数组的偏导数,并令其为0,得到似然方程组;(4) 解似然方程组,得到参数组的值.

Reference[1]王海良,李卓恒,林旭鸣.智能问答与深度学习[M].北京:电子工业出版社,2019:19-20.

[2]Lj Miranda.Understanding softmax and the negative

log-likelihood.2017.

[3]wikipedia-likelihood function

至此,单机的Pollard-Rho算法基本没有很大的优化空间了。然而即便如此,跑每组的第二组数据,运气不佳仍然需要大概五六个小时。一方面我找方法对底层运算进行优化,另一方面开始着手设计分布式Pollard-Rho法。篇幅留给(下)

for line in frTrain.readlines(): # 读取训练文本的每一行

为了描述对数的性质,我们还是先把对数的图像画出来,然后直接看图说话比较简单些。分a1 和 0a1两种情况

L(θ∣x) L(theta|x)L(θ∣x)为参数θ thetaθ的似然函数,x xx 为随机变量X XX的输出.

上面我们讨论了多个向量相加的问题。对数乘运算,假定现在有两个数c 和 d,都要和向量v进行数乘运算,那么运算的次序有关系吗?可以证明,数乘运算时,先用那个数进行数乘并不影响最终的结果,即有:c(dv) =d(cv) = (cd)v.

设EEE为有限域E(Fp)E(F_p)E(Fp?)上的椭圆曲线,PPP为数据域上的点,假设PPP具有质数阶n。于是由P生成的的循环子群E(Fp)E(F_p)E(Fp?)表示为:

return reminder(base * (expmod(base, (exp - 1), n)), n);

*sig, unsigned int *siglen, EC_KEY *eckey)

相似地,四元数都是由实数加上三个元素?i、j、k?组成,而且它们有如下的关系:

相关文档
最新文档