深度学习行业黑话集锦
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
深度学习行业黑话集锦
NLP:自然语言处理(Neuro-Linguistic Programming),根据处理信息层次和复杂性对NLP做分类,基本上是从三个层次不断深化:构词词态、语法处理过程(描述语言系统相对构成定义)、语义理解和处理(更加深入认知概念)组合后产生。
N (Neuro) 指的是神经系统,包括大脑和思维过程。
L (Linguistic) 是指语言,更准确点说,是指从感觉信号的输入到构成意思的过程。
P (Programming) 是指为产生某种后果而要执行的一套具体指令。
即指我们思维上及行为上的习惯,就如同电脑中的程序,可以透过更新软件而改变。
•OCR: 光学字符识别
(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
•API:应用程序编程接口是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
•序列标注:输入序列中的每个元素在输出序列中被赋予相应的标签,根据序列标注的结果可以得到实体边界和实体类别。
同样,诸如分词、词性标注、组块识别和语义角色标注等任务也可以通过序列标注来解决。
•词向量:自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,词向量就是用来将语言中的词进行数学化的一种方式
•Tensor:即张量,是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。
在PaddlePaddle 中,Tensor类来替换Vector和Matrix,并支持高维数据且更为随意的集合。
•过拟合:表现很好的学习器,能从训练样本中尽可能学出适用于所有潜在样本的“普遍规律“,这样才能在遇到新样本时做出正确的判别。
而如果学习器把训练样本自身的一些特点当成所有潜在样本具备的一般性质,就会导致泛化性能下降,此时即为过拟合的情况。
•收敛:在数学的函数中,指的是向某一值趋近。
而在机器学习中,收敛经常用于Visual可视化工具中,用于观察算法的收敛程度。
•训练集:帮助训练模型,让我们通过训练集的数据来确定拟合曲线的参数。
•测试集:为了测试已经训练好的模型的精确度。
在训练模型的时候,因为参数全是根据现有训练集里的数据进行修正、拟合,有可能会出现过拟合的情况,即这个参数仅对训练集里的数据拟合比较准确,这个时候再有一个数据需要利用模型预测结果,准确率或将变低。
•验证集:用于模型选择、模型最终优化和确定,用于辅助模型构建。
•内存溢出:一般来说,内存不够。
通常在运行大型软件或游戏时,软件或游戏所需的内存远远超过你的主机所安装的内存大小。
•Edl:弹性深度学习(Elastic deep learning)工业深度学习的挑战之一是需要大量的计算能力。
研究实验室和公司经常
构建由SLURM,MPI或SGE管理的GPU集群。
这些集群要么运行一个提交的作业(如果它需要的比闲置的资源要少)或者将作业挂起一段难以预估的时间。
这种方法有其缺点:在有99个可用节点和一个需要100个提交作业的例子中,作业必须等待而不能使用任何可用节点。
因而,Paddle Fluid通过弹性深度学习,能够有效提升GPU使用效能,这使得在Web服务器作业中运行更多的进程成为可能,而在网络开销较高的时间段内深度学习则更少,然后在网络流量较低时优先进行深度学习。
•Onnx:一种模型表示的规范。
如果每个框架都可以把模型转成onnx格式的,而且支持onnx格式模型的inference,那么深度学习模型可以不受框架限制的使用。
*为了方便大家使用PaddlePaddle,遇到问题可在中文社区提问,值班同学将在24小时内响应!更有精品案例、课程提供,让大家学习使用框架,轻松无忧!直达链接:
本文分享 CSDN - 飞桨PaddlePaddle。
如有侵权,请联系删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分。