信息检索16-神经网络方法ppt课件

合集下载

信息检索技术(讲授版)PPT课件

开始浏览，沿着专题链接层层查找，直至找到有关的内容为止。然后用“书签”
保存这个页面的URL，转向另一个分支。这种方法可以迅速获得较多的相关地
址，然后进行筛选。就使用引擎而言，国外专家也建议先用链接页面多、响应
时间快的引擎。
-
3
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系，引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索，往往包含了相似的观点、思路、方法，具有启发意义。
这里需要说明的是，在Windows 环境下，尤其是在中文数据库及网站中，逻辑检索可以用算符将检索要求编成综合表达式向计算机一次输入检索提问，也可以用窗口上的逻辑指令按钮（与、或、非）进行分步组配提问和检索。
-
36
案例
-
37
布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符，利用布
尔逻辑算符进行检索词或代码的逻辑组配，是计算机信息检索
例 2：《法国的邮电事业》的类号为“F635.65” ，“F63” 代表世界各国邮电事业，“565”为世界地区复分号，是法国的代号。如主表类目没有注明依世界地区表复分时，则在世界地区复分号上加国家区分号“（）”以示区别
例3：《上海市现代摄影作品集》是“J426.51”，“J426”代表现代摄影作品集，“51”为中国地区复分号，指上海市。
-
5
另一种较为普遍的查法是由近及远地追溯，这样由一变十，由十变百地获取更多相关文献，直到满足要求为止。这种方法适合于历史研究或对背景资料的查询，其缺点是越查材料越旧，追溯得到的文献与现在的研究专题越来越疏远。因此，最好是选择综述、评论和质量较高的专著作为起点，它们所附的参考文献筛选严格，有时还附有评论。

神经网络专题ppt课件

(4)Connections Science
(5)Neurocomputing
(6)Neural Computation
(7)International Journal of Neural Systems
7
3.2 神经元与网络结构
人脑大约由1012个神经元组成，而其中的每个神经元又与约102～ 104个其他神经元相连接，如此构成一个庞大而复杂的神经元网络。神经元是大脑处理信息的基本单元，它的结构如图所示。它是以细胞体为主体，由许多向周围延伸的不规则树枝状纤维构成的神经细胞，其形状很像一棵枯树的枝干。它主要由细胞体、树突、轴突和突触 (Synapse，又称神经键)组成。
15
4.互连网络
互连网络有局部互连和全互连两种。全互连网络中的每个神经元都与其他神经元相连。局部互连是指互连只是局部的，有些神经元之间没有连接关系。 Hopfield 网络和 Boltzmann 机属于互连网络的类型。
16
人工神经网络的学习
学习方法就是网络连接权的调整方法。人工神经网络连接权的确定通常有两种方法：
4
5. 20世纪70年代代表人物有Amari, Anderson, Fukushima, Grossberg, Kohonen
经过一段时间的沉寂后，研究继续进行
▪ 1972年，芬兰的T．Kohonen提出了一个与感知机等神经网络不同的自组织映射理论(SOM)。 ▪ 1975年，福岛提出了一个自组织识别神经网络模型。 ▪ 1976年C．V．Malsburg et al发表了“地形图”的自形成
6
关于神经网络的国际交流
第一届神经网络国际会议于1987年6月21至24日在美国加州圣地亚哥召开，标志着神经网络研究在世界范围内已形成了新的热点。

计算机信息检索基本概念及理论 ppt课件

既适用于手工检索，又适用于计算机检索。叙词就是指从自然语言中优选出来的、经过规范化的名词术语。
ppt课件
26
➢ 代码语言代码语言一般只是就事物的某一方面的特征，用某种代码
系统来加以标引和排列。例如，化合物的分子式索引系统、环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行标注法代码系统。
ppt课件
16
四、文献（literature）文献是记录有知识和信息的一切载体。
科技文献：是记录下科学技术信息或知识的载体。
文献的基本要素
• 知识信息内容：文献的核心与灵魂。 • 信息符号：揭示和表达知识信息的表示
符号,如文字、图形、数字、声频视频等。 • 载体材料：是记录知识信息符号的物质材料，如龟甲兽骨、纸张、胶片胶带、光盘磁盘等。
绪论
1. 学习信息检索的目的
➢ 加强信息素质的培养(信息素养)
信息知识是基础信息意识是动力信息能力是核心信息道德是准则
• 信息意识：一个人对信息活动的自觉认识和反应。
• 信息知识：了解检索的基本知识，熟悉信息源，熟悉常用数据库
• 信息能力：掌握信息检索技巧，会利用文献源获取
信息，学会加工获得的信息、利用信息
了MEDLARS ( Medical Literature Analysis and Retreived System ) 数据库
• 国际联机检索阶段 20世纪60年代末
• 光盘检索阶段
20世纪70年代（1983，美国人Bela Hatvany）
中国自建数据库，1992年《中国科技期刊篇名数据库》
• 信息道德：人们在信息活动中应遵循的道德规范
和法律法规等
➢ 学会信息检索方法和技巧

神经网络学习PPT课件

不断迭代，权重逐渐调整到最优解附近。
牛顿法
总结词
牛顿法是一种基于二阶泰勒级数的优化算法，通过迭代更新参数，以找到损失函数的极小值点。在神经网络训练中，牛顿法可以用于寻找最优解。
详细描述
牛顿法的基本思想是，利用二阶泰勒级数近似损失函数，并找到该函数的极小值点。在神经网络训练中，牛顿法可以用于寻找最优解。具体来说，根据二阶导数矩阵（海森矩阵）和当前点的梯度向量，计算出参数更新的方向和步长，然后更新参数。通过不断迭代，参数逐渐调整到最优解附近。与梯度下降法相比，牛顿法在迭代过程中不仅考虑了梯度信息，还考虑了二阶导数信息，因此具有更快的收敛速度和更好的全局搜索能力。
07
未来展望与挑战
深度学习的发展趋势
模型可解释性
随着深度学习在各领域的广泛应用，模型的可解释性成为研究热点，旨在提高模型决策的透明度和可信度。
持续学习与终身学习
随着数据不断增长和模型持续更新，如何实现模型的持续学习和终身学习成为未来的重要研究方向。
多模态学习
随着多媒体数据的普及，如何实现图像、语音、文本等多模态数据的融合与交互，成为深度学习的另一发展趋势。
深度学习
通过构建深层的神经网络结构，提高了对复杂数据的处理能力。
循环神经网络
适用于序列数据，如自然语言处理和语音识别等领域。
02
神经网络的基本结构
感知机模型
感知机模型是神经网络的基本单元，由一个输入层和一个输出层组成，通过一个或多个权重和偏
置项来计算输出。
感知机模型只能实现线性分类，对于非线性问题无法处理。
详细描述
反向传播算法的基本思想是，首先计算神经网络的输出层与实际值之间的误差，然后将误差逐层反向传播，并根据梯度下降法更新每一层的权重。通过不断迭代，权重逐渐调整，使得神经网络的输出逐渐接近实际值，从而降低误差。反向传播算法的核心是计算每一层的梯度，即权重的导数，以便更新权重。

神经网络方法-PPT课件精选全文完整版

信号和导师信号构成，分别对应网络的输入层和输出层。输
入层信号 INPi (i 1,根2,3据) 多传感器对标准试验火和各种环境条件
下的测试信号经预处理整合后确定，导师信号
Tk (k 1,2)
即上述已知条件下定义的明火和阴燃火判决结果，由此我们
确定了54个训练模式对，判决表1为其中的示例。
15
基于神经网络的融合算法
11
局部决策
局部决策采用单传感器探测的分析算法，如速率持续法，即通过检测信号的变化速率是否持续超过一定数值来判别火情。设采样信号原始序列为
X(n) x1 (n), x2 (n), x3 (n)
式中，xi (n) (i 1,2,3) 分别为温度、烟雾和温度采样信号。
12
局部决策
定义一累加函数 ai (m为) 多次累加相邻采样值的xi (差n) 值之和
样板和对应的应识别的结果输入人工神经网络，网络就会通过
自学习功能，慢慢学会识别类似的图像。
第二，具有联想存储功能。人的大脑是具有联想功能的。用人
工神经网络的反馈网络就可以实现这种联想。
第三，具有容错性。神经网络可以从不完善的数据图形进行学
习和作出决定。由于知识存在于整个系统而不是一个存储单元
中，一些结点不参与运算，对整个系统性能不会产生重大影响。
18
仿真结果
19
仿真结果
20
2
7.2 人工神经元模型—神经组织的基本特征
3
7.2 人工神经元模型—MP模型
从全局看，多个神经元构成一个网络，因此神经元模型的定义要考虑整体，包含如下要素：（1）对单个人工神经元给出某种形式定义；（2）决定网络中神经元的数量及彼此间的联结方式；（3）元与元之间的联结强度（加权值）。

计算机信息检索讲座PPT课件

信息检索算法
信息检索算法是实现信息检索的关键，常见的有匹配算法、排序算法、聚类算法等。
信息检索评价
信息检索评价是衡量信息检索效果的重要手段，常见的有查准率、查全率和F 值等。
03 计算机信息检索技术
布尔逻辑检索
布尔逻辑检索是计算机信息检索中最基本的技术之一，它通过使用逻辑运算符（如AND、OR、NOT）来组合检索词，以缩小或扩大检索范围。
计算机信息检索讲座
目录
• 引言 • 信息检索基础知识 • 计算机信息检索技术 • 信息检索评价与优化 • 信息检索应用与实践 • 未来信息检索技术展望
01 引言
讲座背景
信息技术的快速发展
随着计算机和互联网技术的迅速发展，信息检索在日常生活和工作中变得越来越重要。
信息过载问题
学术研究需求
在学术研究领域，如何有效地检索和利用学术资源对于科研人员来说至关重要。
信息检索优化
01
02
03
04
文本处理
对文本进行分词、去停用词、词干提取等处理，以提高信息
检索的准确性和效率。
索引构建
建立高效索引，提高信息检索的查准率和查全率。
查询处理
对用户查询进行语义分析和扩展，以提高信息检索的准确性
和全面性。
个性化推荐
根据用户历史查询和行为，为用户提供个性化的信息推荐和
04 信息检索评价与优化
信息检索评价
查准率
衡量检索结果中相关文档的比例，是评价检索系统性能的重要指标。
查全率
衡量检索结果中相关文档覆盖率，反映检索系统捕捉相关信息的全面
性。
响应时间
检索系统响应请求并返回结果所需的时间，是衡量检索效率的重要指

网络信息检索的方法与技术PPT课件

例：检索“唐宋诗歌”的有关信息。关键词：唐、宋、诗歌；检索表达式：（唐 OR 宋）AND 诗歌；唐 AND 诗歌 OR 宋 AND 诗歌；错误表达式：唐 OR 宋AND诗歌；唐 AND 宋AND诗歌；唐 OR 宋OR诗歌；唐AND 宋OR诗歌；
布尔逻辑算符具体使用
在不同的数据库中，所使用的逻辑符号可能是不同的，有的用“and、or、not” 有的用“*、+、-”。
一些检索工具会完全省略任何符号和关系，直接把布尔逻辑关系隐含在菜单中。
一些网络检索工具如搜索引擎甚至用“︺、，、-” （即空格、逗号、减号）来表示。
位置检索
位置运算符又称邻接算符，其主要作用是限定检索词间的间隔距离或前后顺序。从而提高检索深度和准确性，避免误检。
(W):表示在它两侧的两个检索词之间，不能插入任何检索词(空格和标点符号除外)，且前后检索词的位置不能颠倒。
作用：增加限制条件，即增加检索的专指性，以缩小提问范围，减少文献输出量，提高查准率。
computer AND network
计算机*网络
布尔逻辑检索
逻辑或：用“or”、“+”表示
组配方式：A OR B或者A＋B，表示检索含有A词，或含有B词，或同时包含A、B两词的文章。
作用：放宽提问范围，增加检索结果，起扩检作用，提高查全率。
（N）与（nN）算符
N是near的缩写
如：information（1N）retrieval
命中的记录中会有 “ information retrieval”或“retrieval of ion” 等形式
截词检索（* ？）
开放式截断：如*computer可表示 minicomputer、microcomputer 如work*，可表示work、 worker、working、worked等

神经网络ppt课件

神经元层次模型组合式模型网络层次模型神经系统层次模型智能型模型
通常，人们较多地考虑神经网络的互连结构。本节将按照神经网络连接模式，对神经网络的几种典型结构分别进行介绍
12
2.2.1 单层感知器网络
单层感知器是最早使用的，也是最简单的神经网络结构，由一个或多个线性阈值单元组成
这种神经网络的输入层不仅接受外界的输入信号，同时接受网络自身的输出信号。输出反馈信号可以是原始输出信号，也可以是经过转化的输出信号；可以是本时刻的输出信号，也可以是经过一定延迟的输出信号
此种网络经常用于系统控制、实时信号处理等需要根据系统当前状态进行调节的场合
x1
…… …… ……
…… yi …… …… …… …… xi
再励学习
再励学习是介于上述两者之间的一种学习方法
19
2.3.2 学习规则
Hebb学习规则
这个规则是由Donald Hebb在1949年提出的他的基本规则可以简单归纳为：如果处理单元从另一个处
理单元接受到一个输入，并且如果两个单元都处于高度活动状态，这时两单元间的连接权重就要被加强 Hebb学习规则是一种没有指导的学习方法，它只根据神经元连接间的激活水平改变权重，因此这种方法又称为相关学习或并联学习
9
2.1.2 研究进展
重要学术会议
International Joint Conference on Neural Networks
IEEE International Conference on Systems, Man, and Cybernetics
World Congress on Computational Intelligence
复兴发展时期 1980s至1990s

神经网络基本介绍PPT课件

神经系统的基本构造是神经元(神经细胞 )，它是处理人体内各部分之间相互信息传递的基本单元。
每个神经元都由一个细胞体，一个连接其他神经元的轴突和一些向外伸出的其它较短分支—树突组成。
轴突功能是将本神经元的输出信号(兴奋 )传递给别的神经元，其末端的许多神经末梢使得兴奋可以同时传送给多个神经元。
将神经网络与专家系统、模糊逻辑、遗传算法等相结合，可设计新型智能控制系统。
(4) 优化计算在常规的控制系统中，常遇到求解约束
优化问题，神经网络为这类问题的解决提供了有效的途径。
常规模型结构的情况下，估计模型的参数。 ② 利用神经网络的线性、非线性特性，可建立线
性、非线性系统的静态、动态、逆动态及预测模型，实现非线性系统的建模。
(2) 神经网络控制器神经网络作为实时控制系统的控制器，对不
确定、不确知系统及扰动进行有效的控制，使控制系统达到所要求的动态、静态特性。 (3) 神经网络与其他算法相结合
4 新连接机制时期（1986-现在）神经网络从理论走向应用领域，出现
了神经网络芯片和神经计算机。神经网络主要应用领域有：模式识别
与图象处理（语音、指纹、故障检测和图象压缩等）、控制与优化、系统辨识、预测与管理（市场预测、风险分析）、通信等。
神经网络原理神经生理学和神经解剖学的研究表明，人脑极其复杂，由一千多亿个神经元交织在一起的网状结构构成，其中大脑皮层约 140 亿个神经元，小脑皮层约 1000亿个神经元。人脑能完成智能、思维等高级活动，为了能利用数学模型来模拟人脑的活动，导致了神经网络的研究。
(2) 学习与遗忘：由于神经元结构的可塑性，突触的传递作用可增强和减弱，因此神经元具有学习与遗忘的功能。决定神经网络模型性能三大要素为：

信息检索(共40张PPT)

信息检索
本将主要内容
信息及相关概念
信息的分类
信息检索
信息检索语言
信息及相关概念
信息(Information)的概念
信息论的创始人克劳德·香农（Claude E. Shannon）从通信系统理论的角度把信息定义为:信息是用来
消除不确定性的东西。控制论的创始人、美国科学家维纳（N. Wiener）
对信息的含义做了进一步的阐述：信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中，同外部世界进行互相交换的内容的名称。中国学者钟义信对信息的解释：信息是事物运动的状态与方式，是物质的一种属性。
普遍认同的一个概念－－信息普遍存在于自然界、人类社会和思维领域中，它是客观世界中各种事物变化和特征的反映，是客观事物之间相互作用和联系的表征，是客观事物经过感知或认识后的再现。
优点：存储密度高，，出版周期短、易更新，传递信息迅速，存取速度快，可以融文本、图像、声音等多媒体信息于一体，信息共
享性好、易复制，识别和提取易于实现自动化
缺点：需借助计算机等先进技术设备才能阅读此类文献有：电子图书、电子期刊、联机数据库、网络数据库、光盘数据库
二、按加工层次分：
¨一次文献（Primary Document)：通常是指原始制作，即作者以
文献信息的分类
信息的外延是一个纷繁的体系。按照
不同的标准和方法有不同的分类形式
文献分类总示意图
文献信息
此类文献有：电子图书、电子期刊、联机数据库、网络数据库、光盘数据库
检索系统将用户的请求与信息集合按中的加信工息进层行匹次配分运算，再将命中信息反馈给用户。按出版类型分
按检索对象的性质划分：事实检索、数据检索、文献检索可检索（检索技术、规则等）

神经网络方法ppt课件

得多个信号参数如温度、烟雾等经过处理后判断火灾情况，然而如何由多种信号分析合成得到最终的判断结果，并能适应各种不同环境情况的有效算法还亟待研究。
2019/9/4
哈尔滨工程大学
9
神经网络实例(续)
2019/9/4
哈尔滨工程大学
10
局部决策
鉴于不同火情下多传感器系统测试的多个火情信息具有很大的相关不确定性，如： • 明火条件下伴随着温度和烟雾信号的急剧增大同时湿度的下降； • 阴燃火发生时则往往伴随着烟雾的增大同时温度和湿度的基本稳定； • 而一些典型的干扰信号如厨房内是烟雾、温度、湿度信号同时增大；因此分布式检测系统首先对一种传感器采集的单一信号进行局部决策，再送入融合中心根据其关联性得出最终决策。
2019/9/4
哈尔滨工程大学
2
7.2 人工神经元模型—神经组织的基本特征
2019/9/4
哈尔滨工程大学
3
7.2 人工神经元模型—MP模型
从全局看，多个神经元构成一个网络，因此神经元模型的定义要考虑整体，包含如下要素：（1）对单个人工神经元给出某种形式定义；（2）决定网络中神经元的数量及彼此间的联结方式；（3）元与元之间的联结强度（加权值）。
(2)神经网络可增加信息处理的容错性，当某个信源的数据出现差错时，神经网络的容错功能可以使系统正常工作，并输出可靠的信息;
(3)神经网络的自学习和自组织功能，使系统能适应环境的不断变化以及输入数据的不确定性;
(4)神经网络的并行结构和并行处理机制。使得信息处理速度快，能够满足信息的实时处理要求。
2019/9/4
哈尔滨工程大学
8
7.7 神经网络实例
• 火灾探测是一种特殊类型的信号检测，由传感器采集的火情

神经网络基础PPT课件

AlexNet
VGGNet
ResNet
DenseNet
由Yann LeCun等人提出，是最早的卷积神经网络之一，用于手写数字识别。
由Alex Krizhevsky等人提出，获得了2012年 ImageNet图像分类竞赛的冠军，引入了ReLU 激活函数和数据增强等技巧。
由牛津大学Visual Geometry Group提出，通过反复堆叠3x3的小型卷积核和2x2的最大池化层，构建了深度较深的网络结构。
内部表示。
隐藏层
通过循环连接实现信息的持久化，捕捉序列中
的动态信息。
输出层
将隐藏层的状态转化为具体的输出。
循环连接
将隐藏层的状态反馈到输入层或隐藏层自身，实现信息的循环传递。
序列建模与长短时记忆网络（LSTM）
序列建模
01
RNN通过循环连接实现对序列数据的建模，能够处理任意长度
的序列输入。
久化。
Jordan网络
与Elman网络类似，但将输出层的状态反馈到隐藏层。
LSTM网络
长短时记忆网络，通过引入门控机制实现对长期依赖信息的
有效处理。
GRU网络
门控循环单元网络，一种简化的LSTM结构，具有较少的参
数和较快的训练速度。
06 深度学习框架 TensorFlow使用指南
TensorFlow安装与配置教程
非线性可分问题
不存在一条直线（或超平面）能够将两类样本完全分开的问题。对于这类问题，需要使用非线性分类器或者核方法等技巧进行处理。
处理非线性可分问题的方法
包括使用多项式核、高斯核等核函数将数据映射到高维空间使其线性可分；或者使用神经网络等非线性模型对数据进行建模和分类。

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

I中nt国ro科du学ct院io大n t学o 2In01fo7r年m秋at季io课n R程e《tri现ev代al信息检索》
更新时间： 2017/10/09
现代信息检索 Modern Information Retrieval
第16讲 Neural IR 基于深度神经网络的IR模型
1
提纲
❶ 上一讲回顾 ❷ 深度神经网络(DNN)基础 ❸ 词向量 ❹ Neural IR Model
个样本 (x, y)，包含如下两个过程： ▪ 前向计算 (forward)：根据输入 x，计算网络的输出 y’； ▪ 反向计算 (backward)：计算网络预测 y’ 与标签 y 之间的误差 (损失) 关于
网络各参数的梯度；主要应用求导的链式法则。
▪ 梯度下降算法：BP算法只是得到了误差 (损失) 关于网络参数的梯度，而
算代价小；收敛速度快。
▪ 除了上述三种激活函数，还有其它一些激活函数，如Maxout， Leaky ReLU，ELU等。
▪ 激活函数对参数的学习过程影响较大，需要根据情况适当选择。
8
现代信息检索
神经元组合成为神经网络
▪ 最简单的多层神经网络—多层感知机 (Multi-Layer Perceptron, 简称MLP)
交叉熵损失与负对数似然是等价的；�� 取高斯分布就得到均方误差。
11
现代信息检索
参数的学习
▪ 目标：学习一组网络参数，使得预测 y’ 与实际标签y的误差 (损失)最小。 ▪ BP算法：即反向传播算法，是学习神经网络参数的一个重要方法，给定一
▪ 例：交叉熵损失
交叉熵损失是应用最为广泛的一种损失函数，即用训练数据与模型间的交叉熵来衡量预测分布于实际分布的差距，它的形式如下：
�� θ = −��,��~��෤�� log2 ��(��|��)
图中同一个蓝色环上的损失相同，中心点损失最小；红色环上模相等，原点处模最小，为0；黑色点为解，在黑色点处损失的减小与模的增加达到临界点，即损失的继续减小不能弥补模增加的部分，导致它们的和反而增加了。
12
现代信息检索
正则化
▪ 为什么需要正则化？
一般的学习算法都是通过最小化训练集上损失函数来得到的，若训练数据的数据量较小或者分布不均，对于容量较大的模型而言，则学习到的模型会过度拟合训练数据分布而与真实分布有一定的差距，所以需要正则化来防止学习到的模型过度拟合训练数据分布，从而增强模型的泛化能力。
梯度下降算法定义了网络参数的更新方式，如SGD：
θ
=θ-α
əJ(θ) əθ
▪ 其它常见的参数更新方式：Momentum，Adam，Adagrad，RMSprop等
▪ 在实际应用中，一般是同时使用一组样本 (一个batch) 来对网络参数进行更新。
▪ 另外还有一些二阶的方法：牛顿法，共轭梯度，BFGS
=
ቊ0��,,
��
> ≤
0 0
,
(0,1) (−1,1) [0, +∞)
7
现代信息检索
激活函数
▪ 上述激活函数特点
▪ Sigmoid：两端饱和区梯度极小；输出不以0为中心；指数函数计算代价大。
▪ Tanh：两端饱和区梯度极小；输出以0为中心；指数函数计算代价大。 ▪ ReLU：在激活值大于0时不存在梯度极小的情况；输出不以0为中心；计
▪ ��1, ��2, … , �� 即为归一化后的输出，满足值介于0和1之间且求和为1的要求。
10
现代信息检索
参数的学习
▪ 损失函数
为了衡量模型预测的效果，通常会定义一个关于模型预测y’与实际标签y的函数 L(y’, y) ，注意到 y’ 是模型参数 θ 的一个表达式，通过最小化 L(y’, y) 可以得到模型参数 θ 的一组值使得模型的预测 y’ 能够足够接近实际标签 y 。
2
提纲
❶ 上一讲回顾 ❷ 深度神经网络(DNN)基础 ❸ 词向量 ❹ Neural IR Model
3
现代信息检索
上一讲回顾（待）
4
提纲
❶ 上一讲回顾 ❷ 深度神经网络(DNN)基础 ❸ 词向量 ❹ Neural IR Model
5
现代信息检索
神经元
▪ 最简单的神经网络—神经元
对应的计算如下：
3
ℎ��,�� = �� = ��(෍ �� + ��)
��=1
其中��和��为需要学习的网络参数，��为激活函数。
6
现代信息检索
激活函数
▪ 激活函数：主要作用是引入非线性，增强网络的表示能力。
由多个神经元组成，一些神经元的输出作为另一些神经元的输入。
9
现代信息检索
Softmax归一化
▪ Softmax归一化是在使用神经网络进行分类时常用的方法，对于分类问题，通常需要给出可能属于每一个类别的概率，即需要输出介于0和1之间，且加和为1，对于未归一化输出 (��1, ��2, … , ��)，具体计算如下： �� = σ��==1��
若想要进一步了解，请参考偏差-方差分解理论。
▪ L1与L2正则
机器学习中常用的正则方法，通过在损失函数中增加模型参数的1-范数或2 范数项来约束模型参数的范围：
▪ 一般认为L1正则会使得模型参数的某些维度变为0，因此具有特征选择的作用；
13
现代信息检索
正则化
▪ L1与L2正则图解：L1正则（右），L2正则（左）
▪ Sigmoid函数
1
Hale Waihona Puke �� = 1 + ��−�� ,
▪ Tanh函数
�� − ��−��
�� = �� + ��−�� ,
▪ ReLU函数
��