机器学习期末复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习是怎样的学科:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。
机器学习所要研究的主要内容是关于计算机在从数据中产生“模型”的算法,即“学习算法”。(有了学习算法,我们把经验提供给它,他就能基于这些数据产生模型)。
学习的特点:数据驱动,以方法为中心,概率统计优化为基础。
从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,每一个样本称为“训练样本”,训练样本组成的集合称为“训练集”。
三要素:模型、策略、算法。
学得模型后,使用其进行预测得过程称为“测试”。被测样本称为“测试样本”。
机器学习的目标是使学得的模型能很好地适用于“新样本”。独立同分布
学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。
“奥卡姆剃刀”原则,是一种常用地、自然科学研究中最基础地原则,即“诺有多个假设与观察一致,则选最简单地那个”。(采用这个原则,则所描绘地曲线更平滑,更简单)。
20世纪50年代-70年代初,人工智能处于“推理期”。
20世纪70年代中期开始,人工智能进入“知识期”。
20世纪80年代:被研究最多的应用最广的是“从样本中学习”,其中的两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络的连接主义学习
20世纪90年代中期:统计学习:代表性技术,支持向量机
21世纪以来,连接主义学习“深度学习”即很多层的神经网络
1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。
同年《策略分析与信息系统》连出三期机器学习专辑。
1986年,第一本机器学习专业期刊Machine Learning创刊。
1989年,人工智能领域地权威期刊Artificial Intelligence出版机器学习专辑。
2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。
经验误差:学习器在训练集上的误差称为“训练误差”或“经验误差”。
泛化误差:在新样本上的误差称为“泛化误差”。
“测试误差”作为泛化误差的近似。
模型评估时用来测试模型的数据集叫什么集:
A训练集B测试集C评估集D验证集
(训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过验证集使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,最后再通过测试集来评估模型的性能。
将一个数据集D分为训练集S和测试集T的方法:
留出法:直接将数据集D划分为两个互斥的集合,其中一个作为S一个作为T。
注意点:训练/测试集的划分要尽可能保持数据分布一致。单次使用留出法得到的估计结果往往不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。常见做法是将大约2/3~4/5的样本用于训练剩余样本用于测试。
保留类别比例的采样方式通常称为“分层采样”。
交叉验证法:(可能大题)
将数据集D划分为k个大小相似的的互斥子集,每个子集尽可能保持数据分布的一致性,即通过分层采样得到。然后每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集并进行K次训练和测试。例如:5折交叉验证,D分为D1~D5,第一次取4个子集的并集,D2-D5作为训练集,D1作为测试集。第二次取D1、D3、D4、D5的并集作为训练集,D2作为测试集。以此类推,最后将5次测试结果平均得到返回结果。
其中,如果D一共有m个样本,k=m,则得到交叉验证法的特例:留一法。
因为m个样本只有唯一的划分方式,即划分为m个子集,每一个子集只有一个样本。这样所用的训练集只比原数据少一个样本。
留一法的优点:评估结果往往被认为比较精确(并非最精确),
缺点:数据集较大时,训练m个模型的计算开销可能难以忍受。
自助法:(这种方法有一些样本永远取不到)
建立一个新的数据集D’在D中随机取一个样本复制到D’中,进行m次后,D’中的样本数量和D一样,这时将D’作为训练集D\D’(表示D中不包括D’的部分)作为测试集。因为是复制到D’中所以D中的一部分样本会取不到,则不被取到的概率为(1-1/m)^m取极限得到=1/e≈0.368,即数据集D中约有36.8%的样本未出现在D’中。得到结果也称为“包外估计”。
在数据集较小、难以有效划分训练/测试集时很有用此外,自助法能从初始数据集中产生多个不同的训练集,对集成学习有很大好处。但是自助法改变了初始数据集的分布,这会引入估计偏差。所以数据足够多的时候其他两种方法更加常用。
错误率与精度
错误率:分类错误的样本占样本总数的比例。
精度:分类正确的样本数占样本总数的比例。
查准率、查全率与F1
认为是正例的样本中:真正例 TP 假正例 FP
认为是假例的样本中:假反例 FN 真反例 TN
查准率P:TP/(TP+FP) 即在查到的正例中正确的占比。
查全率R:TP/(TP+FN) 即在所有正确的例子中查到的正例的占比。
一般来说,查准率高,查全率偏低,查全率高,查准率偏低。
根据这一现象可以得到“P-R曲线”,当R(X轴)相同时,P(Y轴)越大越好。曲线和P=R 的直线的交点称为平衡点。越大越优。
因为平衡点过于简化,所以用F1来衡量优劣:
F1=(2*P*R)/(P+R)=(2*TP)/(样本总数+TP-TN)
=>1/F1=1/2*(1/P+1/R)
有时因为场景的需要,可能回偏向查全率或者查准率,则有了F1的变形:Fβ
Fβ=((1+β²)*P*R)/((β²*P)+R)
当β=1时,则为标准的F1;β>1时查全率有更大影响;β<1时查准率有更大影响。
线性模型:
给定d个描述x=(x1;x2x3...xd)(例如西瓜颜色、形状2个描述,d=2),xi是x在第i个属性上的取值(即颜色=x1;形状=x2)。
从而有线性模型的基本形式 f(x)=w T x+b 加粗表示向量
线性回归
这里的数据集为D={(x1,y1),(x2,y2),...,(x m,ym)},其中x i=(xi1,xi2,...,xid)即线性模型的描述。此处的y应该是判断结果,我猜测为正确答案。简单化xi,将其中的值缩减到1个,则D={(xi,yi)}i=1m。同时,若属性间存在“序”,并且为离散值,则可以将输入变为类似身高=>{1,0}其中1表示高,0表示矮。如果不存在“序”关系,k个属性就用k维向量表示。
线性回归目的是求出f(x)=w T x+b的函数使得带入的值经过函数计算后得到的f(x)与预测的y近似。所以为了近似,则需要做差最小。使用均方误差得到:
(w*,b*)=arg minΣ(i=1~m) (f(xi)-yi)²不方便同时做上下标简单表示
=arg minΣ(i=1~m) (yi-wxi-b)²这里我理解的是承接上面简化属性值仅有一个
分别对w和b做偏导得到书上P51的3.5和3.6,然后两个式子=0,解后得到3.7和3.8的解。(过程作业有写,需要熟悉)