AndrewNg机器学习笔记

合集下载

浅谈对机器学习的理解

浅谈对机器学习的理解人工智能大师西蒙曾说过：“学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高。

[1]”说到学习，我们自然会首先想到人。

学习是人类一种非常重要的智能行为。

可以说，人类进化史是一个漫长而优秀的学习过程。

一个经典问题：“假设有一幅彩色油画，画的是一片茂密的森林。

在森林远处的一棵歪脖子的树上，有一只猴子坐在树上吃东西。

如果我们让一个人找出猴子的位置，在正常情况下，我们可以在不到一秒钟的时间内指出猴子，有些人甚至可以看到猴子。

”一见钟情。

“为什么一个人能同时识别出由数百种颜色组成的多种图案的猴子呢？原因很简单，而经验告诉我们的所有信息都是通过之前的学习获得的。

例如，当我们提到猴子时，我们会在潜意识中出现我们以前见过的猴子的许多相关特征。

只要画中的图案与正在出现的猴子特征相似，我们可以认出图案是猴子。

当然，承认错误也是可能的。

这是因为对事物的特征识别不够准确，需要进一步研究。

机器学习，顾名思义，就是使机器模拟人类的这种学习能力。

在计算机界机器一般指计算机，传统意义上，如果我们想让一台计算机工作，只要给它输入一串指令，然后让它遵照这个指令一步步执行下去即可。

但机器学习是一种让计算机只能利用数据而不是遵循指令来进行各种工作的方法。

那么计算机能否像人一样具有学习能力呢？1959年美国的塞缪尔(samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。

4年后，这个程序战胜了设计者本人。

又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军[2]。

这个程序向人们展示了机器学习的能力，在计算机领域内造成了巨大的轰动。

通过以上分析，我们可以看出机器学习的过程类似于人类思维、基于经验的识别和归纳，但是它可以考虑更多的情况并执行更复杂的计算。

事实上，机器学习的主要目的之一就是将人类基于经验的思维、识别和归纳过程转化为一种方法，让计算机通过对现有数据的处理和计算，获得一定的规律模型，并根据该模型预测未来。

机器学习笔记19-----LDA主题模型（重点理解LDA的建模过程）

机器学习笔记19-----LDA主题模型（重点理解LDA的建模过程）1.主题模型主要内容及其应⽤(1)主要内容(2)主要应⽤2.共轭先验分布3.Dirichlet分布(狄利克雷分布)4.LDA的介绍LDA 在主题模型中占有⾮常重要的地位，常⽤来⽂本分类。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，⽤来推测⽂档的主题分布。

它可以将⽂档集中每篇⽂档的主题以概率分布的形式给出，从⽽通过分析⼀些⽂档抽取出它们的主题分布后，便可以根据主题分布进⾏主题聚类或⽂本分类。

主题模型，它称作为：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），是⼀种概率主题模型。

主题模型就是⼀种⾃动分析每个⽂档，统计⽂档中的词语，根据统计的信息判断当前⽂档包含哪些主题以及各个主题所占⽐例各为多少。

LDA 主题模型要⼲的事就是：根据给定的⼀篇⽂档，反推其主题分布。

主题模型是对⽂本中隐含主题的⼀种建模⽅法，每个主题其实是词表上单词的概率分布；主题模型是⼀种⽣成模型，⼀篇⽂章中每个词都是通过“以⼀定概率选择某个主题，并从这个主题中以⼀定概率选择某个词语”这样⼀个过程得到的。

LDA运⾏完会得到主题分布(θ)、词分布(Φ)(1)LDA是⼀个⽣成模型，下⾯介绍LDA⽣成⽂档的过程。

LDA 主题模型的⽣成过程图模型结构如下图所⽰：5.PLSA模型PLSA模型是最接近 LDA模型，所以理解PLSA模型有助于我们理解 LDA模型。

(1)pLSA模型下⽣成⽂档过程第⼀步：假设你每写⼀篇⽂档会制作⼀颗K⾯的“⽂档-主题”骰⼦（扔此骰⼦能得到K个主题中的任意⼀个），和K个V⾯的“主题-词项” 骰⼦（每个骰⼦对应⼀个主题，K个骰⼦对应之前的K个主题，且骰⼦的每⼀⾯对应要选择的词项，V个⾯对应着V个可选的词）。

例⼦：⽐如可令K=3，即制作1个含有3个主题的“⽂档-主题”骰⼦，这3个主题可以是：教育、经济、交通。

机器学习总结

sklearn 1.17. Neural network models (supervised)神经网络模型(监督学习)Warning :This implementation is not intended for large-scale applications. In particular, scikit-learn offers no GPU support. For much faster, GPU-based implementations, as well as frameworks offering much more flexibility to build deep learning architectures, see Related Projects.警告:此实现不适用于大规模应用。

特别是scikit-learn 不提供图形处理器支持。

有关更快、基于GPU 的实现，以及为构建深度学习架构提供更大灵活性的框架，请参见相关项目。

Deep neural networks etc.深度神经网络pylearn2: A deep learning and neural network library build on theano with scikit-learn like interface.pylearn2: 一个深度学习和神经网络库建立在具有scikit- learn 类接口的theano 之上。

sklearn_theano: scikit-learn compatible estimators, transformers, and datasets which use Theano internallysklearn_theano: sklearn 在内部使用theano 的兼容估计器、转换器和数据集.nolearn: A number of wrappers and abstractions around existing neural network librariesnolearn:围绕现有神经网络库的许多包装器和抽象keras : Deep Learning library capable of running on top of either TensorFlow or Theano.keras :能够在tensorflow 或thetano 上运行的深度学习库。

机器学习的知识重点

机器学习的知识重点机器学习是一门涵盖统计学、人工智能和计算机科学等多个领域的交叉学科，它研究如何设计和开发能够自动学习和改进的算法和模型。

在机器学习中，有一些重要的知识点需要特别关注和掌握。

本文将介绍机器学习的知识重点，帮助读者更好地理解和应用机器学习。

一、数据预处理在机器学习中，数据预处理是一个非常重要的步骤。

它包括数据清洗、特征选择、特征变换和数据集划分等过程。

数据清洗主要是处理缺失值、异常值和重复值等问题，确保数据的质量和完整性。

特征选择是从原始数据中选择最具代表性的特征，以提高模型的性能和泛化能力。

特征变换是将原始数据转化为适合模型输入的形式，如标准化、归一化和离散化等。

数据集划分是将数据集划分为训练集、验证集和测试集，用于模型的训练、调优和评估。

二、监督学习监督学习是机器学习中最常用的一种学习方式，它通过已有的标记数据来训练模型，然后对未知数据进行预测或分类。

在监督学习中，有一些重要的算法需要了解，如线性回归、逻辑回归、决策树、支持向量机和朴素贝叶斯等。

线性回归用于建立连续型变量之间的线性关系模型，逻辑回归用于建立二分类模型，决策树用于建立基于特征划分的分类模型，支持向量机用于建立最优间隔分类模型，朴素贝叶斯用于建立基于贝叶斯定理的分类模型。

三、无监督学习无监督学习是机器学习中另一种常用的学习方式，它通过未标记的数据来学习数据的结构和模式。

在无监督学习中，有一些重要的算法需要了解，如聚类、关联规则和降维等。

聚类是将相似的样本归为一类，不相似的样本归为不同类别，常用的聚类算法有K均值聚类和层次聚类等。

关联规则是挖掘数据集中的频繁项集和关联规则，常用的关联规则算法有Apriori算法和FP-growth算法等。

降维是将高维数据映射到低维空间，常用的降维算法有主成分分析和线性判别分析等。

四、模型评估与选择在机器学习中，模型的评估和选择是非常重要的，它决定了模型的性能和泛化能力。

常用的评估指标有准确率、精确率、召回率、F1值和ROC曲线等。

《机器学习》（周志华）西瓜书读书笔记（完结）

《机器学习》（周志华）西⽠书读书笔记（完结）⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器（带阈值）,最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。

基于深度学习的图像识别进展：百度的若干实践

基于深度学习的图像识别进展：百度的若干实践近年来在人工智能领域最受关注的，非深度学习莫属。

自2006年吉奥夫雷·辛顿(GeofferyHinton)等在《科学》(Science)杂志发表那篇著名的论文[1]开始，深度学习的热潮从学术界席卷到了工业界。

2012年6月，《纽约时报》披露“谷歌大脑(Google Brain)”项目，由著名的斯坦福大学机器学习教授吴恩达(Andrew Ng)和大规模计算机系统世界顶级专家杰夫·迪恩(Jeff Dean)共同主导，用1.6万个CPU核的并行计算平台训练深度神经网络(Deep Neural Networks, DNN)的机器学习模型，在语音和图像识别等领域获得巨大成功。

国内方面，2013年1月，百度成立深度学习研究院，公司CEO 李彦宏担任院长。

短短两年时间，深度学习技术被应用到百度的凤巢广告系统、网页搜索、语音搜索、图像识别等领域，涵盖几十项产品。

今天，用户在百度平台上的几乎每个服务请求，都被深度学习系统所处理。

人工智能的特征之一是学习的能力，即系统的性能是否会随着经验数据的积累而不断提升。

所以，大数据时代的到来给人工智能的发展提供前所未有的机遇。

在这个时代背景下，深度学习在包括图像识别等方面所取得的突破性进展并非偶然。

在百度的实践中，我们认识到深度学习主要在以下三个方面具有巨大优势：1.从统计和计算的角度看，深度学习特别适合处理大数据。

在很多问题上，深度学习是目前我们能找到的最好方法。

它集中体现了当前机器学习算法的三个大趋势：用较为复杂的模型降低模型偏差(model bias)，用大数据提升统计估计的准确度，用可扩展(scalable)的梯度下降算法求解大规模优化问题。

2.深度学习不是一个黑箱系统。

它像概率模型一样，提供一套丰富的、基于联接主义的建模语言（建模框架）。

利用这套语言系统，我们可以表达数据内在的丰富关系和结构，比如用卷积处理图像中的二维空间结构，用递归神经网络(Recurrent Neural Network, RNN)处理自然语言等数据中的时序结构。

神经网络——前向传播与反向传播公式推导

神经⽹络——前向传播与反向传播公式推导概述对于⼀个最原⽣的神经⽹络来说，BP反向传播是整个传播中的重点和核⼼，也是机器学习中的⼀个⼊门算法。

下⾯将以逻辑回归的分类问题为例，从最简单的单个神经元开始引⼊算法，逐步拓展到神经⽹络中，包括BP链式求导、前向传播和反向传播的向量化。

最后利⽤Python语⾔实现⼀个原始的神经⽹络结构作为练习。

需了解的预备知识：代价函数、逻辑回归、线性代数、多元函数微分参考：《ML-AndrewNg》神经元单个神经元是最简单的神经⽹络，仅有⼀层输⼊，⼀个输出。

【前向传播】\[z={{w}_{1}}\cdot {{x}_{1}}+{{w}_{2}}\cdot {{x}_{2}}+{{w}_{3}}\cdot {{x}_{3}}+b=\left[ \begin{matrix} {{w}_{1}} & {{w}_{2}} & {{w}_{3}} \\\end{matrix} \right]\left[ \begin{matrix} {{x}_{1}} \\ {{x}_{2}} \\ {{x}_{3}} \\ \end{matrix} \right]+b \]若激活函数为sigmoid函数，则\[\hat{y}=a =sigmoid(z) \]【代价函数】\[J(W,b)=-[y\log (a)+(1-y)\log (1-a)] \]【计算delta】\[deleta=a-y=\hat{y}-y \]【计算偏导数】\[\frac{\partial J}{\partial w}=\frac{\partial J}{\partial a}\cdot \frac{\partial a}{\partial z}=-(\frac{y}{a}+\frac{y-1}{1-a})a(a-1)=(a-y)x^T=(\hat{y}-y)x^T \]\[\frac{\partial J}{\partial b}=\frac{\partial J}{\partial a}\cdot \frac{\partial a}{\partial z}\cdot \frac{\partial z}{\partial b}=a-y=\hat{y}-y \]【更新权重】\[w = w-\alpha*\frac{\partial J}{\partial w} \]\[b = b-\alpha*\frac{\partial J}{\partial b} \]拓展到神经⽹络假设⽹络结构如上图所⽰，输⼊特征为2个，输出为⼀个三分类，隐藏层单元数均为4，数据如列表中所⽰，共20条。

machine learning for signal processing 笔记

machine learning for signal processing 笔记：一、信号处理中的机器学习应用概述信号分类：使用监督学习技术（如SVM、决策树、随机森林、神经网络）对不同类型的信号进行识别和分类，例如在音频、图像、雷达信号等领域。

特征提取：通过无监督学习或深度学习自动从原始信号中学习并提取有意义的特征，例如使用自编码器、深度信念网络、卷积神经网络（CNN）等来学习声音或图像信号的特征表示。

预测与滤波：基于时间序列数据，利用循环神经网络（RNN）、长短时记忆网络（LSTM）或门控循环单元（GRU）进行信号预测或滤波操作。

降维与可视化：利用主成分分析（PCA）、独立成分分析（ICA）或流形学习方法降低信号维度，实现高效存储和可视化。

异常检测：通过训练模型识别正常信号模式，并据此定义异常情况，适用于工业监控、医疗诊断等场景。

二、具体应用场景示例通信系统：在无线通信中，ML可用于信道估计、符号检测、干扰抑制等问题。

生物医学信号：心电图（ECG）、脑电图（EEG）等信号处理中，ML用于疾病诊断、睡眠分期、癫痫发作预测等。

图像信号：图像去噪、超分辨率重建、图像分割和目标检测中广泛应用CNN 和其他深度学习方法。

语音信号：语音识别、说话人识别、语音增强等领域利用了ML的强大功能。

三、算法与框架Keras、TensorFlow、PyTorch：这些深度学习框架常被用来构建复杂的信号处理模型。

Scikit-learn：对于传统机器学习算法，在信号处理中的预处理阶段和部分简单的分类、回归任务非常有用。

四、挑战与优化小样本学习：在信号处理中，如何在有限的数据下训练出泛化能力强的模型是一大挑战。

实时性要求：某些信号处理任务需要实时响应，因此算法的计算效率至关重要。

解释性和鲁棒性：提升模型的可解释性以及对噪声和恶意攻击的抵抗能力也是研究重点。

以上只是一个概要性的笔记提纲，实际的学习过程中应深入每个点进行详细探讨和实践。

EM笔记

维基百科说明：EM是一个在已知部分相关变量的情况下，估计未知变量的迭代技术。

EM的算法流程如下：初始化分布参数重复直到收敛：E步骤：估计未知参数的期望值，给出当前的参数估计。

M步骤：重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

应用于缺失值。

最大期望过程说明我们用表示能够观察到的不完整的变量值，用表示无法观察到的变量值，这样和一起组成了完整的数据。

可能是实际测量丢失的数据，也可能是能够简化问题的隐藏变量，如果它的值能够知道的话。

例如，在混合模型（Mixture Model）中，如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利（参见下面的例子）。

[编辑]估计无法观测的数据让代表矢量θ:定义的参数的全部数据的概率分布（连续情况下）或者概率聚类函数（离散情况下），那么从这个函数就可以得到全部数据的最大似然值，另外，在给定的观察到的数据条件下未知数据的条件分布可以表示为：百度百科：EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。

可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

EM 算法是Dempster，Laind，Rubin 于1977 年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行MLE 估计，是一种非常简单实用的学习算法。

这种方法可以广泛地应用于处理缺损数据，截尾数据，带有噪声等所谓的不完全数据(incomplete data)。

假定集合Z = (X,Y)由观测数据X 和未观测数据Y 组成，Z = (X,Y)和X 分别称为完整数据和不完整数据。

假设Z的联合概率密度被参数化地定义为P(X，Y|Θ)，其中Θ 表示要被估计的参数。

Θ 的最大似然估计是求不完整数据的对数似然函数L(X;Θ)的最大值而得到的：L(Θ; X )= log p(X |Θ) = ∫log p(X ,Y |Θ)dY ；EM算法包括两个步骤：由E步和M步组成，它是通过迭代地最大化完整数据的对数似然函数Lc( X;Θ )的期望来最大化不完整数据的对数似然函数，其中：Lc(X;Θ) =log p(X，Y |Θ) ；假设在算法第t次迭代后Θ 获得的估计记为Θ(t ) ，则在（t+1）次迭代时，记为Θ(t +1).E-步：计算完整数据的对数似然函数的期望，记为：Q(Θ |Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) }；M-步：通过最大化Q(Θ |Θ(t) ) 来获得新的Θ 。

机器学习资料整理

机器学习资料整理机器学习是一门涉及人工智能和数据科学的领域，它通过构建算法和模型，使计算机能够从数据中自动学习和改进。

在如今信息爆炸的时代，机器学习的重要性愈发凸显。

然而，由于机器学习领域的快速发展和不断涌现的新技术，学习和掌握机器学习变得越来越具有挑战性。

因此，整理和归纳机器学习资料是非常必要的。

本文将介绍一些优质的机器学习资料，并提供了一些整理和管理这些资料的方法。

一、机器学习书籍书籍是学习机器学习的重要资源之一。

下面是一些经典的机器学习书籍推荐：1. "机器学习"（周志华著）：这本书是机器学习领域的经典之作，内容全面而深入，适合初学者和有一定基础的学习者。

2. "Pattern Recognition and Machine Learning"（Christopher M. Bishop著）：这本书是机器学习领域的权威之作，对机器学习算法和模型有着深入的剖析和讲解。

3. "Deep Learning"（Ian Goodfellow、Yoshua Bengio和Aaron Courville著）：这本书是关于深度学习的权威之作，详细介绍了深度学习的理论和实践。

二、在线课程和教学视频除了书籍，在线课程和教学视频也是学习机器学习的重要资源。

以下是一些值得推荐的在线课程和教学视频：1. Coursera上的"Machine Learning"：由斯坦福大学的Andrew Ng教授主讲的这门课程是机器学习领域最受欢迎的课程之一。

课程内容涵盖了机器学习的基本概念和算法。

2. YouTube上的"Machine Learning by Andrew Ng"：这是Andrew Ng教授在YouTube上发布的机器学习教学视频系列，内容与Coursera上的课程相似，但是更加灵活和免费。

三、机器学习开源库和工具在机器学习领域，有许多优秀的开源库和工具可供使用。

Andrew Ng机器学习课程目录(带翻译)

I. Introduction (Week 1)一、引言（第1周）•Welcome (7 min)•欢迎（7分钟）•What is Machine Learning? (7 min)•机器学习是什么？（7分钟）•Supervised Learning (12 min)•监督学习（12分钟）•Unsupervised Learning (14 min)•无监督学习（14分钟）II. Linear Regression with One Variable (Week 1)二、一元线性回归（第1周）•Model Representation (8 min)•模型表示（8分钟）•Cost Function (8 min)•成本函数（8分钟）•Cost Function - Intuition I (11 min)•成本函数的直观理解I（11分钟）•Cost Function - Intuition II (9 min)•成本函数的直观理解II（9分钟）•Gradient Descent (11 min)•梯度下降（11分钟）•Gradient Descent Intuition (12 min)•梯度下降的直观理解（12分钟）•Gradient Descent For Linear Regression (10 min) •梯度下降的线性回归（10分钟）•What's Next (6 min)•接下来的内容（6分钟）III. Linear Algebra Review (Week 1, Optional)三、线性代数回顾（第1周，可选）•Matrices and Vectors (9 min)•矩阵和向量（9分钟）•Addition and Scalar Multiplication (7 min)•加法和标量乘法（7分钟）•Matrix Vector Multiplication (14 min)•矩阵向量乘法（14分钟）•Matrix MatrixMultiplication (11 min)•矩阵乘法（11分钟）•Matrix Multiplication Properties (9 min)•矩阵乘法的性质（9分钟）•Inverse and Transpose (11 min)•逆、转置（11分钟）IV. Linear Regression with Multiple Variables (Week 2)四、多变量线性回归（第2周）•Multiple Features (8 min)•多特征（8分钟）•Gradient Descent for Multiple Variables (5 min)•梯度下降的多变量（5分钟）•Gradient Descent in Practice I - Feature Scaling (9 min) •梯度下降法实践1-特征尺度（9分钟）•Gradient Descent in Practice II - Learning Rate (9 min)•梯度下降法实践2-学习速率（9分钟）•Features and Polynomial Regression (8 min)•特征和多项式回归（8分钟）•Normal Equation (16 min)•正规方程（16分钟）•Normal Equation Noninvertibility (Optional) (6 min)•正规方程不可逆性（可选）（6分钟）V. Octave Tutorial (Week 2)五、Octave教程（第2周）•Basic Operations (14 min)•基本操作（14分钟）•Moving Data Around (16 min)•移动数据（16分钟）•Computing on Data (13 min)•计算数据（13分钟）•Plotting Data (10 min)•绘图数据（10分钟）•Control Statements: for, while, if statements (13 min)•控制语句：for，while，if语句（13分钟）•Vectorization (14 min)•矢量化（14分钟）•Working on and Submitting Programming Exercises (4 min) •工作和提交的编程练习（4分钟）VI. Logistic Regression (Week 3)六、Logistic回归（第3周）•Classification (8 min)•分类（8分钟）•Hypothesis Representation (7 min)•假说表示（7分钟）•Decision Boundary (15 min)•决策边界（15分钟）•Cost Function (11 min)•成本函数（11分钟）•Simplified Cost Function and Gradient Descent (10 min) •简化的成本函数和梯度下降（10分钟）•Advanced Optimization (14 min)•Multiclass Classification: One-vs-all (6 min)•多类分类：一个对所有（6分钟）VII. Regularization (Week 3)七、正则化（第3周）•The Problem of Overfitting (10 min)•过拟合的问题（10分钟）•Cost Function (10 min)•成本函数（10分钟）•Regularized Linear Regression (11 min)•正则线性回归（11分钟）•Regularized Logistic Regression (9 min)•正则化的逻辑回归模型（9分钟）VIII. Neural Networks: Representation (Week 4)第八、神经网络：表述（第4周）•Non-linear Hypotheses (10 min)•非线性假设（10分钟）•Neurons and the Brain (8 min)•神经元和大脑（8分钟）•Model Representation I (12 min)•模型表示1（12分钟）•Model Representation II (12 min)•模型表示2（12分钟）•Examples and Intuitions I (7 min)•例子和直观理解1（7分钟）•Examples and Intuitions II (10 min)•例子和直观理解II（10分钟）•Multiclass Classification (4 min)•多类分类（4分钟）IX. Neural Networks: Learning (Week 5)九、神经网络的学习（第5周）•Cost Function (7 min)•成本函数（7分钟）•Backpropagation Algorithm (12 min)•反向传播算法（12分钟）•Backpropagation Intuition (13 min)•反向传播算法直观理解（13分钟）•Implementation Note: Unrolling Parameters (8 min) •实现注意：展开参数（8分钟）•Gradient Checking (12 min)•梯度检测（12分钟）•Random Initialization (7 min)•随机初始化（7分钟）•Putting It Together (14 min)•Autonomous Driving (7 min)•自主驾驶（7分钟）X. Advice for Applying Machine Learning (Week 6)十、应用机器学习的建议（第6周）•Deciding What to Try Next (6 min)•决定下一步做什么（6分钟）•Evaluating a Hypothesis (8 min)•评估一个假设（8分钟）•Model Selection and Train/Validation/Test Sets (12 min)•模型的选择和培训/测试集（12分钟）•Diagnosing Bias vs. Variance (8 min)•诊断偏差和方差（8分钟）•Regularization and Bias/Variance (11 min)•正则化和偏差/方差（11分钟）•Learning Curves (12 min)•学习曲线（12分钟）•Deciding What to Do Next Revisited (7 min)•决定下一步做什么（7分钟）XI. Machine Learning System Design (Week 6)十一、机器学习系统的设计（第6周）•Prioritizing What to Work On (10 min)•优先要做什么（10分钟）•Error Analysis (13 min)•误差分析（13分钟）•Error Metrics for Skewed Classes (12 min)•误差度量的偏斜类别（12分钟）•Trading Off Precision and Recall (14 min)•交易精度和召回（14分钟）•Data For Machine Learning (11 min)•数据的机器学习（11分钟）XII. Support Vector Machines (Week 7)十二、支持向量机（第7周）•Optimization Objective (15 min)•优化目标（15分钟）•Large Margin Intuition (11 min)•大边界的直观理解（11分钟）•Mathematics Behind Large Margin Classification (Optional) (20 min) •数学背后的大边界分类（可选）（20分钟）•Kernels I (16 min)核函数1（16分钟）•Kernels II (16 min)•核函数2（16分钟）•Using An SVM (21 min)•使用支持向量机（21分钟）XIII. Clustering (Week 8)十三、聚类（第8周）•Unsupervised Learning: Introduction (3 min)•无监督的学习：简介（3分钟）•K-Means Algorithm (13 min)•k-均值算法（13分钟）•Optimization Objective (7 min)•优化目标（7分钟）•Random Initialization (8 min)•随机初始化（8分钟）•Choosing the Number of Clusters (8 min)•选择簇的数量（8分钟）XIV. Dimensionality Reduction (Week 8)十四、降维（8周）•Motivation I: Data Compression (10 min)•动机1：数据压缩（10分钟）•Motivation II: Visualization (6 min)•动机2：可视化（6分钟）•Principal Component Analysis Problem Formulation (9 min)•主成分分析问题（9分钟）•Principal Component Analysis Algorithm (15 min)•主成分分析算法（15分钟）•Choosing the Number of Principal Components (11 min)•从主成分选择数（11分钟）•Reconstruction from Compressed Representation (4 min)•重建的压缩表示（4分钟）•Advice for Applying PCA (13 min)•主成分分析法的应用建议（13分钟）XV. Anomaly Detection (Week 9)十五、异常检测（第9周）•Problem Motivation (8 min)•问题的动机（8分钟）•Gaussian Distribution (10 min)•高斯分布（10分钟）•Algorithm (12 min)•算法（12分钟）•Developing and Evaluating an Anomaly Detection System (13 min) •开发和评价一个异常检测系统（13分钟）•Anomaly Detection vs. Supervised Learning (8 min)•异常检测与监督学习（8分钟）•Choosing What Features to Use (12 min)•选择使用什么特征（12分钟）•Multivariate Gaussian Distribution (Optional) (14 min)•多元高斯分布（可选）（14分钟）•Anomaly Detection using the Multivariate Gaussian Distribution (Optional) (14 min) 使用多变量的高斯分布进行异常检测（可选）（14分钟）XVI. Recommender Systems (Week 9)十六、推荐系统（第9周）•Problem Formulation (8 min)•问题（8分钟）•Content Based Recommendations (15 min)•基于内容的推荐（15分钟）•Collaborative Filtering (10 min)•协同过滤（10分钟）•Collaborative Filtering Algorithm (9 min)•协同过滤算法（9分钟）•Vectorization: Low Rank Matrix Factorization (8 min)•矢量化：低秩矩阵分解（8分钟）•Implementational Detail: Mean Normalization (9 min)•推行工作上的细节：均值归一化（9分钟）XVII. Large Scale Machine Learning (Week 10)十七、大规模机器学习（第10周）•Learning With Large Datasets (6 min)大型数据集的学习•（6分钟）•Stochastic Gradient Descent (13 min)•随机梯度下降（13分钟）•Mini-Batch Gradient Descent (6 min)•迷你批处理梯度下降（6分钟）•Stochastic Gradient Descent Convergence (12 min)•随机梯度下降法收敛（12分钟）•Online Learning (13 min)•在线学习（13分钟）•Map Reduce and Data Parallelism (14 min)•减少图和数据并行（14分钟）XVIII. Application Example: Photo OCR十八、应用实例：照片的OCR•Problem Description and Pipeline (7 min)•问题描述和传播途径（7分钟）•Sliding Windows (15 min)•滑动窗口（15分钟）•Getting Lots of Data and Artificial Data (16 min)•获取数据和大量人造数据（16分钟）•Ceiling Analysis: What Part of the Pipeline to Work on Next (14 min)•上限分析：哪部分管道的接下去做（14分钟）XIX. Conclusion十九、结论•Summary and Thank You (5 min)•总结和致谢（5分钟）。

机器学习实战课后习题答案

机器学习实战课后习题答案机器学习实战课后习题答案机器学习是一门应用广泛的学科，通过训练算法和模型来使计算机能够从数据中学习并做出预测和决策。

在机器学习实战这门课程中，学生们学习了各种机器学习算法和技术，并通过实践来巩固所学的知识。

在课后习题中，学生们需要运用所学的知识来解决一系列的问题。

下面是一些常见的机器学习实战课后习题及其答案。

1. 什么是监督学习和无监督学习？举例说明。

监督学习是一种通过给定输入和输出的训练数据来训练模型的学习方法。

在监督学习中，模型通过学习输入和输出之间的关系来进行预测和分类。

例如，给定一组房屋的特征（如面积、卧室数量等）和对应的价格，我们可以通过监督学习来训练一个模型，以预测给定房屋特征时的价格。

无监督学习是一种通过给定输入数据而没有对应输出的训练数据来训练模型的学习方法。

在无监督学习中，模型通过学习数据之间的内在结构和关系来进行聚类和降维等任务。

例如，给定一组顾客的购物记录，我们可以通过无监督学习来将顾客分成不同的群组，以便进行个性化的市场营销。

2. 什么是过拟合和欠拟合？如何解决这些问题？过拟合是指模型在训练数据上表现很好，但在测试数据上表现较差的现象。

过拟合通常发生在模型过于复杂或训练数据过少的情况下。

为了解决过拟合问题，可以采取以下方法：- 增加训练数据量：通过增加训练数据量，可以减少模型对训练数据的过度拟合。

- 简化模型：可以通过减少模型的复杂度来降低过拟合的风险。

例如，可以减少模型的参数数量或使用正则化方法来约束模型的复杂度。

- 使用交叉验证：通过使用交叉验证来评估模型在不同数据集上的性能，可以更好地了解模型的泛化能力。

欠拟合是指模型在训练数据和测试数据上都表现较差的现象。

欠拟合通常发生在模型过于简单或训练数据过多的情况下。

为了解决欠拟合问题，可以采取以下方法：- 增加模型复杂度：可以增加模型的复杂度，使其可以更好地拟合训练数据。

- 增加特征数量：通过增加特征数量，可以提供更多的信息给模型，从而改善模型的性能。

机器学习复习题及答案

一、单选题1、下列哪位是人工智能之父？（）A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案：A2、根据王珏的理解，下列不属于对问题空间W的统计描述是（）。

A.一致性假设B.划分C.泛化能力D.学习能力正确答案：D3、下列描述无监督学习错误的是（）。

A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案：C4、下列描述有监督学习错误的是（）。

A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案：C5、下列哪种归纳学习采用符号表示方式？（）A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案：A6、混淆矩阵的假正是指（）。

A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案：B7、混淆矩阵的真负率公式是为（）。

A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案：D8、混淆矩阵中的TP=16，FP=12，FN=8，TN=4，准确率是（）。

A.1/4B.1/2C.4/7D.4/6正确答案：B9、混淆矩阵中的TP=16，FP=12，FN=8，TN=4，精确率是（）。

A.1/4B.1/2C.4/7D.2/3正确答案：C10、混淆矩阵中的TP=16，FP=12，FN=8，TN=4，召回率是（）。

A.1/4B.1/2C.4/7D.2/3正确答案：D11、混淆矩阵中的TP=16，FP=12，FN=8，TN=4，F1-score是（）。

A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案：B12、EM算法的E和M指什么？（）A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案：A13、EM算法的核心思想是？（）A.通过不断地求取目标函数的下界的最优值，从而实现最优化的目标。

EM算法

EM算法（expectation-maximization algorithm）1简介EM(Expectation-Maximization)算法在机器学习和自然语言处理应用非常广泛，典型的像是聚类算法K-means和高斯混合模型以及HMM(Hidden Markov Model)。

笔者觉得讲EM算法最好的就是斯坦福大学Andrew Ng机器学习课的讲课笔记和视频。

本文总结性的给出普遍的EM算法的推导和证明，希望能够帮助接触过EM算法但对它不是很明白的人更好地理解这一算法。

EM算法的目标是找出有隐性变量的概率模型的最大可能性解，它分为两个过程E-step和M-step，E-step通过最初假设或上一步得出的模型参数得到后验概率，M-step重新算出模型的参数，重复这个过程直到目标函数值收敛。

在此先将问题抽象，已知模型为p(x|θ)，X=(x1,x2,…,xn)，求θ。

引入隐含变量Z=(z1,z2,…,zn)，使得模型满足公式(6)或公式(7)的关系。

由第1节的极大似然估计有，l(θ)满足公式。

和很多求极值的算法一样(NN的BP算法)，EM算法也是通过迭代计算l(θ) 的极值的。

假设第n轮迭代计算出的θ为θn，在新的迭代中，最简单的想法就是新的θ要优于θn即可，有l(θ)-l(θn)如下所示。

如公式描述，计算的的难度主要在于log函数中的求和，为解决这个问题和找到l(θ)-l(θn)的下界值，引入Jensen不等式。

而f(x)=log(x), f’’=-1/x2<0 就为一个典型的凹函数，满足关系。

公式中的l(θ)-l(θn)满足如下关系：进而有：可见l(θ)的下界为φ(θn,θ)，φ(θn,θ)值越大，l(θ)的下界也将越大(其中的θn为已知变量)，具体l(θ)和φ(θn,θ)的关系可从图2可看出：φ(θn,θ)增长的方向也是l(θ)增长的方向，也就是任意增长φ(θn,θ)值的θ，都将使l(θ)下界增大，从而迭代使l(θ)逼近理想值。

机器学习基础知识解析

机器学习基础知识解析机器学习是一个十分热门的研究方向，也是计算机科学中的重要领域之一。

在实践中，机器学习被广泛应用于图像处理、语音识别、自然语言处理、医学诊断等领域。

在本文中，我们将会介绍机器学习的基础知识，并分别从数据集、算法和模型这三个方面进行解析。

数据集数据集是机器学习算法的重要基础。

在数据集中，数据被分为输入与输出两部分，其中输入被称为特征，输出被称为标签。

对于给定的一个数据集，我们的目标是通过训练一个机器学习算法，预测出未知的标签。

为了训练机器学习算法，我们需要将数据集分成两部分：训练集和测试集。

训练集用于训练机器学习算法，而测试集则用于验证算法的准确性。

在数据集的选择和准备中，我们需要注意以下几点：1、数据集的大小：数据集的大小应足够大，以便机器学习算法能够充分学习数据集中的特征。

2、数据集的质量：数据集应尽可能地去除噪声和异常值，以免对机器学习算法造成不良影响。

3、数据集的分布：数据集应与现实生活中的情况相对应，以便对机器学习算法进行实际应用。

算法算法是解决机器学习问题的核心，同时也是机器学习中的一大挑战。

机器学习算法可以分为监督学习、无监督学习和强化学习三种。

1、监督学习：监督学习的目标是从已知的输入和输出中预测未知输出。

在监督学习中，我们需要通过训练集中的标签来训练机器学习模型，从而使模型能够在测试集上预测未知输出。

2、无监督学习：无监督学习的目标是从没有标签的数据中提取出数据的特征。

在无监督学习中，我们需要通过聚类、降维等方法将数据分成不同的类别，从而对数据进行处理。

3、强化学习：强化学习的目标是让机器学习算法通过与环境交互来学习最优策略。

在强化学习中，我们需要通过给予机器学习算法奖励或惩罚的方式，使其选择最佳策略。

模型模型是机器学习算法的体现。

在机器学习中，模型用于将输入数据映射成输出数据。

根据不同的数据类型和处理方式，机器学习模型可以分为神经网络模型、决策树模型、SVM模型、聚类模型等多种类型。

博士生计算机科学机器学习知识点归纳总结

博士生计算机科学机器学习知识点归纳总结随着信息时代的到来，计算机科学领域的机器学习（Machine Learning）变得越来越重要。

作为一门广泛应用于人工智能领域的学科，机器学习涉及到大量的知识点。

本文将对博士生在计算机科学领域的机器学习知识点进行归纳总结。

以下是一些重要的机器学习知识点：1. 概率论与统计学基础机器学习的基础是概率论与统计学。

博士生需要掌握概率分布、条件概率、贝叶斯定理等基本概念，了解假设检验、置信区间、参数估计等统计学的基本方法。

掌握这些基础知识可以帮助博士生理解机器学习算法的原理和应用。

2. 监督学习监督学习是机器学习中最常见也是最基础的学习方式。

博士生需要了解监督学习的基本概念、常见的分类算法（如逻辑回归、决策树、支持向量机等）以及回归算法（如线性回归、岭回归等）。

博士生还需要了解特征选择、模型评估与选择等相关技术。

3. 无监督学习无监督学习是指从无标签数据中发现隐藏的模式或结构。

博士生需要了解聚类算法（如K均值聚类、层次聚类等）和降维算法（如主成分分析、独立成分分析等）等无监督学习的基本方法。

此外，掌握异常检测和关联规则等其他无监督学习技术也是必要的。

4. 强化学习强化学习是通过观察和与环境的交互来学习最优策略的一种学习方式。

博士生需要了解强化学习的基本概念（如状态、动作、奖励和值函数等），并掌握常见的强化学习算法（如Q学习、深度强化学习等）以及策略评估和策略改进等相关技术。

5. 深度学习深度学习是机器学习领域最热门的研究方向之一。

博士生需要了解深度学习的基本概念（如神经网络、层次结构、损失函数等），并掌握深度学习常见的网络结构（如卷积神经网络、循环神经网络等）和优化算法（如梯度下降、Adam等）。

此外，对于自然语言处理、计算机视觉等领域的应用也需要有一定的了解。

6. 特征工程与模型调优在机器学习的实际应用中，特征工程和模型调优是关键的环节。

博士生需要掌握特征选择、特征提取、特征转换等技术，并了解模型评估与选择、超参数调优等相关方法。

吴恩达机器学课程笔记

吴恩达机器学课程笔记吴恩达Andrew Ng是人工智能领域的著名学者，他在Coursera上开设了一门叫做《机器学习》的课程，成为了世界各地很多学生学习机器学习知识的入门必修课程，在学习机器学习方面有重要的作用。

下面我将给大家分享一些我在学习这门课程期间的笔记和体验。

笔记这门课程教授了很多机器学习的基础知识和应用，包括线性回归、逻辑回归、神经网络、支持向量机、聚类等等。

我把这些知识点都记录在笔记本里，以便以后温习。

其中，我学的比较深入的有神经网络部分。

在课程视频中，吴恩达讲解了神经网络的原理、编程细节，以及如何使用神经网络来解决实际问题。

学习过程中我还发现机器学习包括很多数学和统计学知识，例如线性代数和概率论等等。

所以我也把这些基础知识记录在笔记本里进行复习。

体验通过学习这门课程，我感觉到自己的编程能力和机器学习知识都得到了很大的提高。

因为这门课程全程使用的是Matlab语言，而Matlab一直以来被广泛应用于科学计算中，特别是在数学分析和科学实验中。

在这门课程的内容比较复杂和有难度的情况下，吴恩达讲师的授课很亲切、易懂、讲解深入浅出，让人在学习中感到很放松。

他讲解的案例都基于真实的数据集，通过实例让学生更好的了解机器学习中的各个概念和方法。

总的来说，这门课程对于初学者来说是非常友好、易于理解的。

同时，这门课程也有相应的练习和课程作业，帮助学生锻炼实际操作能力，这也是学习的一大收获。

嘀嘀咕咕通过学习这门课程，我也认识了很多同行的朋友，跟他们交流讨论，收获很多。

课程在线上，学生只需要一个稳定的网络连接，通过视频播放就可以完整地学习知识。

得益于这个课程的普及度，机器学习也正慢慢地被认为是一个非常有前途的领域，目前也已广泛应用于许多行业和领域。

因此，这门课程也可以说是一个被广泛评价和认可的课程，在人工智能领域具有很高的参考价值。

结语笔者学完《机器学习》课程后受益匪浅。

这不仅仅在于知识的学习，还包括人脉和职业发展的机会。

梯度下降法解逻辑斯蒂回归

梯度下降法解逻辑斯蒂回归本⽂是Andrew Ng 在Coursera 的机器学习课程的笔记。

Logistic 回归属于分类模型。

回顾，输出的是连续的实数，⽽Logistic 回归输出的是[0,1]区间的概率值，通过概率值来判断因变量应该是1还是0。

因此，虽然名字中带着“回归”（输出范围常为连续实数），但Logistic 回归属于分类模型（输出范围为⼀组离散值构成的集合）。

整体步骤假如我们的⾃变量是“数学课和英语课的成绩”，x={x1,x2}，因变量是“能否被哥⼤录取”，y ∈{0,1}。

我们要通过这两个⾃变量的分布，来预测因变量的值。

Logistic 回归的步骤为：1. 设定拟合函数（hypothesis function ）：h θ(x)，其意义是给定参数θ，根据输⼊x ，给出输出h θ(x)，当输出值⼤于0.5时预测录取，否则预测被拒。

2. 设定代价函数（cost function ）：J(θ)，其意义是累加所有样本的预测结果h θ(x) 与真实结果y 之间的差距。

3. 利⽤梯度下降法，来调整参数θ，使得代价函数J(θ)的值最⼩。

⽐较线性回归与Logistic 回归，可以看出⼆者⾮常相似，但是Logistic 回归的拟合函数（步骤⼀）和代价函数（步骤⼆）的定义⽅法与线性回归有所不同。

Step 1：拟合函数线性回归的拟合函数为：h θ(x) = θTx ，输出范围为所有实数，⽽其因变量的取值范围也确实属于所有实数。

但是Logistic 回归的最终输出要么是0，要么是1，我们不能直接套⽤线性回归的拟合函数。

对于Logistic 回归，我们需要控制输出在[0,1]之间，因此借助函数g:g (z )=11+e −z 函数g 为S 型函数（Sigmoid function ），也称为Logistic function ，“Logistic 回归”就是得名于此。

最终的拟合函数为：h θ(x )=g (θT x )=11+e −θT x 这个拟合函数的输出范围在[0,1]之间，表⽰分类结果为1的可能性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编程练习1：线性回归机器学习介绍在这个练习中，您将实现线性回归，并能看到它的数据。

开始对这种编程练习之前，我们强烈建议观看视频讲座，并完成对相关主题的复习题。

要开始使用的练习中，您将需要的内容下载启动代码，并解压到你想要完成练习的目录。

如果需要，可使用光盘在八度/ MATLAB命令来开始这个练习前切换到该目录。

您也可以Fi，可在课程网站的“环境安装说明”安装八度/ MATLAB次指令。

文件包含在此锻炼ex1.m - 八度/ MATLAB程序，引导您完成练习EX1 multi.m - 八度/ MATLAB脚本演练的后面部分ex1data1.txt - 数据集用于与一个变量线性回归ex1data2.txt - 数据集用于与多个变量线性回归submit.m - 提交脚本发送您的解决方案，我们的服务器warmUpExercise.m [？] - 在八度/ MATLAB简单的例子功能plotData.m [？] - 功能来显示数据集computeCost.m [？] - 函数来计算线性回归的成本gradientDescent.m [？] - 函数运行梯度下降[ †] computeCostMulti.m - 多变量成本函数[ †] gradientDescentMulti.m - 梯度下降的多个变量[ †] featureNormalize.m - 功能正常化的功能[ †] normalEqn.m - 函数来计算法方程？表明科幻LES，你将需要完成† 表示可选演习在整个练习中，您将使用脚本 ex1.m 和 EX1 multi.m。

这些脚本建立数据集的问题，并作出你会写函数的调用。

你并不需要修改其中任何。

您只需要修改的功能在其他科幻LES，按照此任务的指示。

对于这种编程练习中，您只需要完成练习的第一个部分来实现线性回归一个变量。

运动，这是可选的第二部分，覆盖多变量线性回归。

从哪里获得帮助本课程的练习用八度 1 或MATLAB，一个高级语言非常适合于数字计算。

如果您尚未安装倍频或MATLAB有别，请参阅安装说明在课程网站的“环境设置说明”。

在八度/ MATLAB命令行，输入帮帮我随后是一个内置函数的函数名称显示的文档。

例如，帮助情节将弹出帮助信息绘制。

用于八度音功能的进一步文档可在找到八度文档页面。

MATLAB文档可以在找到 MATLAB文档页面。

我们还大力鼓励使用在线讨论讨论与其他学生练习。

但是，不看别人写的任何源代码或与他人分享你的源代码。

1个简单的八度/ MATLAB功能的第一个部分 ex1.m 为您提供了八度/ MATLAB语法和作业提交过程练习。

在网络连接文件 warmUpExercise.m，你会科幻ND的八度/ MATLAB功能的概要。

修改它以在下面的代码返回通过网络连接灌装的5×5单位矩阵：A =眼（5）;1 Octave是一个免费的替代MATLAB。

对于编程练习，您可以自由使用任何八度或MATLAB。

当你连接nished，运行 ex1.m（假设你是在正确的目录，键入“ EX1 ”在八度/ MATLAB提示），你应该看到类似以下的输出：ANS =对角矩阵1 0 0 0 0 01 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1现在 ex1.m 将暂停，直到你按任意键，然后将运行代码的分配的一个部分。

如果你想退出，打字 CTRL-C 将在其运行到一半时停止该程序。

1.1提交解决方案在完成工作的一部分后，您可以通过键入提交您的解决方案，为分级提交在八度/ MATLAB命令行。

提交脚本会提示你输入你的登录电子邮件和提交令牌，并问你科幻LES要提交哪些。

您可以从网页中的分配提交令牌。

现在，您应该提交您的解决方案。

你被允许多次提交您的解决方案，我们将只需要得分最高的考虑。

2线性回归用一个可变在这个练习中的这一部分，您将实现线性回归一个变量来预测亲科幻TS用于食品的卡车。

假设你是吴宗宪的CEO，并考虑双FF erent城市打开了新的出路。

这家连锁店已经在多个城市的卡车，你有从城市亲音响TS和人口数据。

你想用这个数据来帮助您选择扩大到下一哪个城市。

该网络文件 ex1data1.txt 包含我们的线性回归问题的数据集。

的第一列是一个城市的人口，第二列是在这个城市食品卡车的亲科幻吨。

亲科幻吨负值表示的损失。

该 ex1.m 剧本已经被设置为加载此数据为您服务。

2.1绘图数据在开始任何任务之前，常常是有用的可视化，理解数据。

对于这个数据集，你可以使用一个散点图以可视化的数据，因为它只有两个属性绘制（PRO网络连接T和人口）。

（你会在现实生活中遇到的诸多难题是多维，不能在2 d绘制曲线）。

在 ex1.m，数据集从数据网络连接到文件中的变量加载 X和 Y：数据=负载（ 'ex1data1.txt' ）; ％读取逗号分隔数据X =数据（：，1）; Y =数据（：，2）; M =长度（Y）;的训练实例数％接下来，脚本调用 plotData 函数来创建数据的散点图。

你的任务是完成 plotData.m 绘制情节; 修改下面的代码的网络文件和FI LL：积（X，Y， 'RX' ， 'MarkerSize' ，10）; ％绘制数据ylabel（ “利润$ 10,000s” ）; ％设定Y - 轴标签xlabel（ “城市的人口在10,000s” ）; ％设置X - 轴标签现在，当你继续运行 ex1.m，我们的最终结果应该像图1中，用相同的红色“X”标记和轴标签。

要了解更多关于绘图命令，你可以键入帮助情节在八度/ MATLAB命令提示符或用于绘图文档在网上搜索。

（要更改标记为红色的“X”，我们使用了选项“RX”的情节命令在一起，即，情节（.. [这里你的选择]，...， 'RX'）; ）46810 12 14 16 18 20 22 24-5 0510152025在10,000s市人口图1：训练数据的散点图2.2梯度下降在这一部分，你将科幻t时的线性回归参数 θ 我们的数据集采用梯度下降。

2.2.1更新方程线性回归的目标是最小化的成本函数Ĵ（θ）= 12 米米ΣI = 1（ H θ（ X（一世）） - Y（一世）） 2其中所述假设 H θ（ X）由线性模型给出H θ（ X）=θ Ť X =θ 0 + θ 1 X 1回想一下，你的模型的参数是 θ Ĵ 值。

这些都是你会调整将成本降至最低值 Ĵ（θ）。

要做到这一点的方法之一是使用批处理梯度下降算法。

在分批梯度下降，每次迭代执行更新利润$ 10,000sθ Y：= θ Ĵ - α 1米米ΣI = 1（ H θ（ X（一世）） - Y（一世）） X（一世）Ĵ（同时更新 θ Ĵ 对全部 j）的。

随着梯度下降，你的参数每一步 θ Ĵ 更接近最佳值，这将实现最低成本 Ĵ（θ）。

实现注意：我们每个示例存储为在该行 X矩阵在八度/ MATLAB。

考虑到截距项（ θ 0），我们添加一个额外的第一列到 X 并将其设置为全1。

这使我们能够治疗 θ 0 作为只是另一种“功能”。

2.2.2实施在 ex1.m，我们已经建立了线性回归的数据。

在下面的行，我们添加了另一个维度我们的数据，以适应θ 0 截距项。

我们还初始化的初始参数为0，学习速率 α 0.01。

X = [者（M，1），数据（：，1）]; ％加入那些与X的列THETA =零（2，1）; ％初始化参数拟合迭代= 1500; 阿尔法= 0.01;2.2.3计算成本 Ĵ（θ）当你进行梯度下降学习最小化成本函数 Ĵ（θ），它有助于通过计算成本来监视收敛。

在本节中，您将实现一个函数来计算 Ĵ（θ）这样你就可以检查你的梯度下降实现的融合。

你的下一个任务是完成代码的网络文件 computeCost.m，这是计算的函数 Ĵ（θ）。

当你这样做时，请记住变量 X 和 ÿ 不是标量的值，但其矩阵行表示从训练集中的例子。

一旦你完成的功能，下一步在 ex1.m 会跑computeCost 一旦使用 θ 初始化为零，你会看到显示在屏幕上的成本。

你应该会看到的成本 32.07。

现在，您应该提交您的解决方案。

2.2.4梯度下降接下来，您将实现在网络文件梯度下降 gradientDescent.m。

循环结构已经写了你，你只需要提供更新 θ 每个迭代内。

至于你的程序，确保你了解你们什么优化，什么正在更新。

请记住，成本 Ĵ（θ）由矢量参数 θ，不X 和年。

也就是说，我们尽量减少的值 Ĵ（θ）通过改变矢量的值 θ，不改变 X 要么年。

参考公式在这个讲义和视频讲座，如果你是不确定的。

验证梯度下降是否正常工作的一个好方法是看价值 Ĵ（θ）并检查它是否与每个步骤递减。

对于启动代码 gradientDescent.m 电话 computeCost 在每次迭代并打印成本。

假设你已经实现了梯度下降和computeCost 正确，你的价值 Ĵ（θ）不应该增加，并应通过算法结束收敛到一个稳定值。

之后你是科幻nished， ex1.m 将使用您的网络连接最终参数，绘制直线科幻吨。

结果应该类似于图2：为您的网络连接最终值 θ 也将被用来制作上亲科幻TS预测在35000和70000人的地方。

需要注意的方式，下面几行ex1.m 采用矩阵乘法，而不是明确的总和或循环，来计算预测。

这是在八度/ MATLAB代码矢量的一个例子。

现在，您应该提交您的解决方案。

predict1 = [1，3.5] *峰; predict2 = [1,7] *峰;2.3调试这里有一些事情要记住当你实现梯度下降：•八度/ MATLAB数组索引从一个，而不是从零开始。

如果你存储 θ 0 和 θ 1 在一个名为向量 θ表示该值将是 THETA（1）和THETA（2）。

•如果你在运行时看到了许多错误，检查你的矩阵运算，以确保你加法和乘法兼容维度的矩阵。

打印的变量与尺寸尺寸命令会帮你调试。

在10,000s市人口图2：用线性回归音响T个训练数据•默认情况下，八度/ MATLAB解释数学运算是矩阵运营商。

这是大小不兼容错误的常见原因。

如果你不想矩阵乘法，你需要添加“点”表示法指定这八度/ MATLAB。

例如， A * B 确实的矩阵相乘，而 A. * B 确实逐元素乘法。

2.4可视化 Ĵ（θ）要了解成本函数 Ĵ（θ）好，你现在将绘制在成本的2维网格 θ 0 和 θ 1 值。

您不需要为这部分代码什么新的东西，但你应该了解你已经编写的代码是创建这些图像。

在接下来的步骤 ex1.m，有代码设置为计算 Ĵ（θ）过使用值的格 computeCost 你写的功能。