机器学习笔记四

合集下载

机器学习与数据挖掘读书笔记

《机器学习与数据挖掘》读书笔记一、内容概要引言：简要介绍机器学习和数据挖掘的背景、应用领域以及它们的重要性。

概述机器学习和数据挖掘的基本概念及其在现代社会的广泛应用。

机器学习概述：阐述机器学习的基本原理、分类及关键要素。

包括监督学习、无监督学习、半监督学习、强化学习等不同类型的机器学习方法的介绍。

数据挖掘技术：详细介绍数据挖掘的基本概念、过程和方法。

包括数据预处理、特征选择、聚类分析、关联规则挖掘、分类与预测等内容。

常用算法解析：介绍机器学习和数据挖掘中常用的算法，包括决策树、神经网络、支持向量机（SVM）、随机森林等，并对各个算法的原理和应用进行解析。

实践案例分析：通过具体案例，展示机器学习和数据挖掘技术在各个领域的应用，包括金融、医疗、电商等行业的实际应用案例。

技术挑战与前沿趋势：分析机器学习和数据挖掘领域面临的技术挑战，如数据质量问题、模型泛化能力、计算资源限制等，并探讨当前领域的前沿趋势和未来发展方向。

应用前景展望：探讨机器学习和数据挖掘技术在未来的发展趋势，以及它们在不同领域的应用前景，如人工智能、物联网、自动驾驶等领域。

通过阅读本书，我对机器学习和数据挖掘有了更深入的了解，掌握了相关理论知识和技能，对实际应用有了更清晰的认知。

也认识到了该领域的挑战和发展趋势，对未来的学习和工作具有重要的指导意义。

1. 本书背景及简介在数字化时代，数据成为了一种宝贵的资源，如何有效地挖掘和利用这些数据，成为了各行各业所面临的共同挑战。

《机器学习与数据挖掘》一书正是在这样的背景下应运而生。

本书集结了机器学习与数据挖掘领域的最新理论与实践成果，旨在帮助读者深入理解和掌握这两个领域的核心技术与原理。

本书首先对机器学习和数据挖掘的起源、发展及现状进行了全面的介绍。

随着信息技术的飞速发展，尤其是大数据时代的到来，传统的数据处理和分析方法已经无法满足复杂多变的数据环境需求。

而机器学习和数据挖掘技术的崛起，为从海量数据中提取有价值信息、预测未来趋势、实现智能化决策提供了强有力的支持。

ai课程笔记

AI课程笔记
一、引言
1. 人工智能的定义和发展历程
2. 人工智能的应用领域
3. 人工智能的分类
二、基础知识
1. 数学基础：线性代数、概率论与数理统计、微积分等
2. 编程基础：Python、C++等
3. 数据结构与算法：树、图、链表、排序、搜索等
三、机器学习
1. 机器学习的定义和分类
2. 监督学习、无监督学习、强化学习等
3. 常见的机器学习算法：线性回归、逻辑回归、决策树、随机森林、支持向量机等
4. 机器学习的应用领域
四、深度学习
1. 深度学习的定义和分类
2. 神经网络的基本原理和结构
3. 常见的深度学习模型：卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）等
4. 深度学习的应用领域
五、自然语言处理
1. 自然语言处理的定义和分类
2. 文本挖掘、情感分析、机器翻译等
3. 常见的自然语言处理技术：词嵌入、词袋模型、TF-IDF等
4. 自然语言处理的应用领域
六、计算机视觉
1. 计算机视觉的定义和分类
2. 图像处理、目标检测、图像识别等
3. 常见的计算机视觉技术：卷积神经网络（CNN）、目标检测算法（YOLO、SSD等）等
4. 计算机视觉的应用领域
七、总结与展望
1. 人工智能的发展趋势和未来挑战
2. 人工智能与人类的未来关系。

《机器学习（周志华）》笔记--决策树（3）--剪枝处理：预剪枝、后剪枝、预剪枝与后剪枝优缺点比较

《机器学习（周志华）》笔记--决策树（3）--剪枝处理：预剪枝、后剪枝、预剪枝与后剪枝优缺点⽐较五、剪枝处理过拟合：在决策树学习过程中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分⽀过多，这时就可能会因训练样本学得太好，以致于把训练集⾃⾝的⼀些特点当作所有数据都具有的⼀般性质导致过拟合。

剪枝：对付过拟合的⼀种重要⼿段，通过主动去掉⼀些分⽀来降低过拟合的风险。

基本策略：预剪枝和后剪枝。

预剪枝：对每个结点划分前先进⾏估计，若当前结点的划分不能带来决策树的泛化性能的提升，则停⽌划分，并标记为叶结点。

后剪枝：现从训练集⽣成⼀棵完整的决策树，然后⾃底向上对⾮叶⼦结点进⾏考察，若该结点对应的⼦树⽤叶结点能带来决策树泛化性能的提升，则将该⼦树替换为叶结点。

如何评估：留出法，即预留⼀部分数据⽤作“验证集”以进⾏性能评估。

举例：我们将西⽠数据集随机分成两部分，如图5.0.1所⽰：图 5.0.1 假设我们采⽤信息增益准则来进⾏划分属性选择，则从图5.0.1的训练集中会⽣成⼀个决策树，如图5.0.2. 图5.0.2 划分前：5个正例，5个负例，拥有样本数最对的类别。

根据前⾯讲到的信息增益准则，得到了⼀个决策树。

进⾏了5次划分1、预剪枝基于信息增益准则，我们会选取属性“脐部”来对测试集进⾏划分，并产⽣三个分⽀。

然⽽，是否应该进⾏这个划分呢？预剪枝要对划分前后的泛化性能进⾏估计。

划分之前，所有样例集中在根结点，如图5.1.1 图5.1.1 在⽤属性“脐部”划分之后，如图5.1.2 图5.1.2 基于预剪枝策略从表5.0.1数据所⽣成的决策树如图5.1.3 图5.1.32、后剪枝后剪枝先从训练集中⽣成⼀棵完整的决策树，其验证集精度测得为 42.9%。

⾸先考虑结点⑥，若将其替换为叶结点，根据落在其上的训练样例{7，15}，将其标记为“好⽠”，测得验证集精度提⾼⾄ 57.1%，于是决定剪枝：然后考虑结点⑤，若将其替换为叶结点，根据落在其上的训练样例{6，7，15}，将其标记为“好⽠”，测得验证集精度仍为 57.1%，可以不剪枝：对结点②，若将其替换为叶结点，根据落在其上的训练样例{1，2，3，14}，将其标记为“好⽠”，测得验证集精度提升⾄ 71.4%，决定剪枝：对结点③和①，先后替换为叶结点，均未测得验证集精度提升，于是不剪枝：最终，后剪枝得到的决策树：3、预剪枝与后剪枝优缺点⽐较（1）时间开销 • 预剪枝：训练时间开销降低，测试时间开销降低 • 后剪枝：训练时间开销增加，测试时间开销降低（2）过/⽋拟合风险 • 预剪枝：过拟合风险降低，⽋拟合风险增加 • 后剪枝：过拟合风险降低，⽋拟合风险基本不变（3）泛化性能：后剪枝通常优于预剪枝。

李宏毅2021春机器学习课程笔记——生成对抗模型模型

李宏毅2021春机器学习课程笔记——⽣成对抗模型模型本⽂作为⾃⼰学习李宏毅⽼师2021春机器学习课程所做笔记，记录⾃⼰⾝为⼊门阶段⼩⽩的学习理解，如果错漏、建议，还请各位博友不吝指教，感谢！！概率⽣成模型概率⽣成模型（Probabilistic Generative Model）简称⽣成模型，指⼀系列⽤于随机⽣成可观测数据的模型。

假设在⼀个连续或离散的⾼维空间\(\mathcal{X}\)中，存在⼀个随机向量\(X\)服从⼀个未知的数据分布\(p_r(x), x \in\mathcal{X}\)。

⽣成模型根据⼀些可观测的样本\(x^{(1)},x^{(2)}, \cdots ,x^{(N)}\)来学习⼀个参数化的模型\(p_\theta(x)\)来近似未知分布\(p_r(x)\)，并可以⽤这个模型来⽣成⼀些样本，使得⽣成的样本和真实的样本尽可能地相似。

⽣成模型的两个基本功能：概率密度估计和⽣成样本（即采样）。

隐式密度模型在⽣成模型的⽣成样本功能中，如果只是希望⼀个模型能⽣成符合数据分布\(p_r(x)\)的样本，可以不显⽰的估计出数据分布的密度函数。

假设在低维空间\(\mathcal{Z}\)中有⼀个简单容易采样的分布\(p(z)\)，\(p(z)\)通常为标准多元正态分布\(\mathcal{N}(0,I)\)，我们⽤神经⽹络构建⼀个映射函数\(G : \mathcal{Z} \rightarrow \mathcal{X}\)，称为⽣成⽹络。

利⽤神经⽹络强⼤的拟合能⼒，使得\(G(z)\)服从数据分布\(p_r(x)\)。

这种模型就称为隐式密度模型（Implicit Density Model）。

隐式密度模型⽣成样本的过程如下图所⽰：⽣成对抗⽹络⽣成对抗⽹络（Generative Adversarial Networks，GAN）是⼀种隐式密度模型，包括判别⽹络（Discriminator Network）和⽣成⽹络（Generator Network）两个部分，通过对抗训练的⽅式来使得⽣成⽹络产⽣的样本服从真实数据分布。

《机器学习》（周志华）西瓜书读书笔记（完结）

《机器学习》（周志华）西⽠书读书笔记（完结）⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器（带阈值）,最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。

数据挖掘——学习笔记（机器学习--监督，非监督，半监督学习）

数据挖掘——学习笔记（机器学习--监督，⾮监督，半监督学习）在机器学习()领域，监督学习()、⾮监督学习()以及半监督学习()是三类研究⽐较多，应⽤⽐较⼴的学习技术，上对这三种学习的简单描述如下：监督学习：通过已有的⼀部分输⼊数据与输出数据之间的对应关系，⽣成⼀个函数，将输⼊映射到合适的输出，例如分类。

⾮监督学习：直接对输⼊数据集进⾏建模，例如聚类。

半监督学习：综合利⽤有类标的数据和没有类标的数据，来⽣成合适的分类函数。

以上表述是我直接翻译过来的，因为都是⼀句话，所以说得不是很清楚，下⾯我⽤⼀个例⼦来具体解释⼀下。

其实很多机器学习都是在解决类别归属的问题，即给定⼀些数据，判断每条数据属于哪些类，或者和其他哪些数据属于同⼀类等等。

这样，如果我们上来就对这⼀堆数据进⾏某种划分(聚类)，通过数据内在的⼀些属性和联系，将数据⾃动整理为某⼏类，这就属于⾮监督学习。

如果我们⼀开始就知道了这些数据包含的类别，并且有⼀部分数据(训练数据)已经标上了类标，我们通过对这些已经标好类标的数据进⾏归纳总结，得出⼀个 “数据-->类别” 的映射函数，来对剩余的数据进⾏分类，这就属于监督学习。

⽽半监督学习指的是在训练数据⼗分稀少的情况下，通过利⽤⼀些没有类标的数据，提⾼学习准确率的⽅法。

铺垫了那么多，其实我想说的是，在wiki上对于半监督学习的解释是有⼀点点歧义的，这跟下⾯要介绍的主动学习有关。

主动学习()，指的是这样⼀种学习⽅法：有的时候，有类标的数据⽐较稀少⽽没有类标的数据是相当丰富的，但是对数据进⾏⼈⼯标注⼜⾮常昂贵，这时候，学习算法可以主动地提出⼀些标注请求，将⼀些经过筛选的数据提交给专家进⾏标注。

这个筛选过程也就是主动学习主要研究的地⽅了，怎么样筛选数据才能使得请求标注的次数尽量少⽽最终的结果⼜尽量好。

主动学习的过程⼤致是这样的，有⼀个已经标好类标的数据集K(初始时可能为空)，和还没有标记的数据集U，通过K集合的信息，找出⼀个U的⼦集C，提出标注请求，待专家将数据集C标注完成后加⼊到K集合中，进⾏下⼀次迭代。

《机器学习（周志华）》笔记--决策树（1）--决策树模型、决策树简史、基本流程

《机器学习（周志华）》笔记--决策树（1）--决策树模型、决策树简史、基本流程⼀、决策树模型决策树(decision tree)是⼀种常⽤的机器学习⽅法，是⼀种描述对实例进⾏分类的树形结构。

决策树是⼀种常⽤的机器学习⽅法，以⼆分类为例，假设现在我们要对是否买西⽠进⾏判断和决策，我们会问⼀些问题，根据回答，我们决断是买还是不买，或者还拿补丁主意，这时会继续问问题，直到可以确定为⽌。

决策树基于“树”结构进⾏决策：（1）内部结点：属性（2）分⽀：属性值（3）p叶结点：分类结果学习过程：通过对训练样本的分析来确定“划分属性”（即内部结点所对应的属性）预测过程：将测试⽰例从根结点开始，沿着划分属性所构成的“判定测试序列”下⾏，直到叶结点学习的过程就是通过划分属性构建决策树的过程，预测过程就是将测试样本从根节点开始，沿着划分属性构成的“判定序列”下⾏，直到叶结点。

结构举例：从代码⾓度来看，决策树其实可以看成是⼀堆if-else语句的集合，例如引例中的决策树完全可以看成是如下代码：if isRed:if isCold:if hasSeed:print("buy")else:print("don't buy")else:if isCheap:print("buy")else:print("don't buy")else:print("don't buy") 由决策树的根结点(root node)到叶结点(leaf node)的每⼀条路径构建⼀条规则：路径上内部结点的特征对应着规则的条件，⽽叶结点的类对应着规则的结论。

决策树的路径或其对应的if-then规则集合具有⼀个重要的性质：互斥并且完备。

这就是说，每⼀个实例都被⼀条路径或⼀条规则所覆盖，⽽且只被⼀条路径或⼀条规则所覆盖。

机器学习-联邦学习学习笔记综述

联邦学习学习笔记综述摘要随着大数据的进一步发展，重视数据隐私和安全已经成为了世界性的趋势，同时，大多数行业数据呈现数据孤岛现象，如何在满足用户隐私保护、数据安全和政府法规的前提下，进行跨组织的数据合作是困扰人工智能从业者的一大难题。

而“联邦学习”将成为解决这一行业性难题的关键技术。

联邦学习旨在建立一个基于分布数据集的联邦学习模型。

两个过程：模型训练和模型推理。

在模型训练中模型相关的信息可以在各方交换（或者以加密形式交换）联邦学习是具有以下特征的用来建立机器学习模型的算法框架有两个或以上的联邦学习参与方协作构建一个共享的机器学习模型。

每一个参与方都拥有若干能够用来训练模型的训练数据在联邦学习模型的训练过程中，每一个参与方拥有的数据都不会离开参与方，即数据不离开数据拥有者联邦学习模型相关的信息能够以加密方式在各方之间进行传输和交换，并且需要保证任何一个参与方都不能推测出其他方的原始数据联邦学习模型的性能要能够充分逼近理想模型（指通过所有训练数据集中在一起并训练获得的机器学习模型）的性能。

一．联邦学习总览1.联邦学习背景介绍当今，在几乎每种工业领域正在展现它的强大之处。

然而，回顾AI的发展，不可避免地是它经历了几次高潮与低谷。

AI将会有下一次衰落吗？什么时候出现？什么原因？当前大数据的可得性是驱动AI上的public interest的部分原因：2016年AlphaGo使用20万个游戏作为训练数据取得了极好的结果。

然而，真实世界的情况有时是令人失望的：除了一部分工业外，大多领域只有有限的数据或者低质量数据，这使得AI技术的应用困难性超出我们的想象。

有可能通过组织者间转移数据把数据融合在一个公共的地方吗？事实上，非常困难，如果可能的话，很多情况下要打破数据源之间的屏障。

由于工业竞争、隐私安全和复杂的行政程序，即使在同一公司的不同部分间的数据整合都面临着严重的限制。

几乎不可能整合遍布全国和机构的数据，否则成本很高。

machine learning for signal processing 笔记

machine learning for signal processing 笔记：一、信号处理中的机器学习应用概述信号分类：使用监督学习技术（如SVM、决策树、随机森林、神经网络）对不同类型的信号进行识别和分类，例如在音频、图像、雷达信号等领域。

特征提取：通过无监督学习或深度学习自动从原始信号中学习并提取有意义的特征，例如使用自编码器、深度信念网络、卷积神经网络（CNN）等来学习声音或图像信号的特征表示。

预测与滤波：基于时间序列数据，利用循环神经网络（RNN）、长短时记忆网络（LSTM）或门控循环单元（GRU）进行信号预测或滤波操作。

降维与可视化：利用主成分分析（PCA）、独立成分分析（ICA）或流形学习方法降低信号维度，实现高效存储和可视化。

异常检测：通过训练模型识别正常信号模式，并据此定义异常情况，适用于工业监控、医疗诊断等场景。

二、具体应用场景示例通信系统：在无线通信中，ML可用于信道估计、符号检测、干扰抑制等问题。

生物医学信号：心电图（ECG）、脑电图（EEG）等信号处理中，ML用于疾病诊断、睡眠分期、癫痫发作预测等。

图像信号：图像去噪、超分辨率重建、图像分割和目标检测中广泛应用CNN 和其他深度学习方法。

语音信号：语音识别、说话人识别、语音增强等领域利用了ML的强大功能。

三、算法与框架Keras、TensorFlow、PyTorch：这些深度学习框架常被用来构建复杂的信号处理模型。

Scikit-learn：对于传统机器学习算法，在信号处理中的预处理阶段和部分简单的分类、回归任务非常有用。

四、挑战与优化小样本学习：在信号处理中，如何在有限的数据下训练出泛化能力强的模型是一大挑战。

实时性要求：某些信号处理任务需要实时响应，因此算法的计算效率至关重要。

解释性和鲁棒性：提升模型的可解释性以及对噪声和恶意攻击的抵抗能力也是研究重点。

以上只是一个概要性的笔记提纲，实际的学习过程中应深入每个点进行详细探讨和实践。

机器学习笔记：imblearn之SMOTE算法处理样本类别不平衡

机器学习笔记：imblearn之SMOTE算法处理样本类别不平衡⼀、业务背景⽇常⼯作、⽐赛的分类问题中常遇到类别型的因变量存在严重的偏倚，即类别之间的⽐例严重失调。

样本量差距过⼤会导致建模效果偏差。

例如逻辑回归不适合处理类别不平衡问题，会倾向于将样本判定为⼤多数类别，虽然能达到很⾼的准确率，但是很低的召回率。

出现样本不均衡场景主要有：异常检测：恶意刷单、黄⽜、欺诈问题（欺诈⽤户样本可能少于1%）；客户流失：流失⽤户占⽐也⾮常低；偶发事件：⽆法预判；低频事件：频率很⼤，例如：双11/618等⼤促活动；如果数据存在严重的不平衡，预测得出的结论往往也是有偏的，即分类结果会偏向于较多观测的类。

⼆、处理⽅法针对此类问题，有⼏种处理办法。

1.正负样本惩罚权重在算法实现过程中，对于分类不同样本数量的类别分别赋予不同的权重，再进⾏建模计算。

⼩样本量类别权重⾼，⼤样本权重低。

例如，XgBoost 算法提供参数 scale_pos_weight：xgb.XGBClassifier(learning_rate =0.1,n_estimators=1000,eval_metric=['logloss','auc','error'],max_depth=5,min_child_weight=1,gamma=0,subsample=0.8,colsample_bytree=0.8,objective= 'binary:logistic',nthread=4,scale_pos_weight=883, # 负样本/正样本之⽐seed=42)2.组合、集成每次⽣成训练集时，使⽤所有分类中的⼩样本量，⽽⼤样本量进⾏随机抽取，类似于随机森林的做法，进⾏ Bootstrap 采样。

3.抽样最简单的上采样⽅法可以直接将少数类样本复制⼏份后添加到样本集中，最简单的下采样则可以直接只取⼀定百分⽐的多数类样本作为训练集。

mathematics for machine learning 中文笔记

mathematics for machine learning 中文笔记以下是一份《Mathematics for Machine Learning》的中文笔记，供您参考：1.引言机器学习是一门利用计算机系统从数据中学习信息、模式或结构的科学。

它广泛应用于数据分类、模式识别、决策支持等众多领域。

数学是机器学习的基础，它为机器学习提供了理论支撑和算法实现。

2.线性代数线性代数是机器学习中的重要数学工具。

它涉及到向量、矩阵、线性方程组等概念。

在机器学习中，数据通常表示为向量，而模型参数和权重也常常以向量的形式出现。

矩阵运算在特征变换、数据转换等方面具有重要作用。

线性方程组在求解优化问题、分类问题等方面也有广泛应用。

3.概率论与数理统计概率论与数理统计是机器学习的另一个重要数学基础。

概率论用于描述随机现象，数理统计则提供了从数据中提取信息和推断的方法。

在机器学习中，概率论用于描述模型的随机性，如分类器的输出；数理统计则用于数据特征的统计分析和预测。

4.优化理论优化理论是机器学习中用于寻找最佳模型参数的关键数学工具。

机器学习中的许多问题都可以转化为优化问题，如最小化损失函数、最大化分类准确率等。

优化算法如梯度下降、牛顿法等被广泛应用于机器学习的参数优化中。

5.信息论与编码理论信息论与编码理论是机器学习的另一个重要数学分支。

信息论用于度量信息的量，编码理论则研究如何有效地传输和存储信息。

在机器学习中，信息论用于特征选择和模型选择，编码理论则用于深度学习和神经网络的训练中。

6.结论数学在机器学习中起着至关重要的作用。

为了更好地理解和应用机器学习，我们需要掌握相关的数学基础，包括线性代数、概率论与数理统计、优化理论以及信息论与编码理论等。

通过深入学习这些数学工具，我们可以更好地理解和应用机器学习算法，提高模型的性能和准确性。

机器学习笔记-Ridge回归、Lasso回归和弹性网回归

机器学习笔记-Ridge回归、Lasso回归和弹性⽹回归Ridge回归、Lasso回归和弹性⽹回归⽬录1.2.3.在处理较为复杂的数据的回归问题时，普通的线性回归算法通常会出现预测精度不够，如果模型中的特征之间有相关关系，就会增加模型的复杂程度。

当数据集中的特征之间有较强的线性相关性时，即特征之间出现严重的多重共线性时，⽤普通最⼩⼆乘法估计模型参数，往往参数估计的⽅差太⼤，此时，求解出来的模型就很不稳定。

在具体取值上与真值有较⼤的偏差，有时会出现与实际意义不符的正负号。

同时，当样本特征很多，⽽样本数相对较少时，模型很容易陷⼊过拟合。

此时权重系数就会⾮常的⼤。

岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规⽅程⽅法求解w的过程中出现的(X^TX)不可逆这两类问题的，这两种回归均通过在损失函数中引⼊正则化项来达到⽬的。

岭回归最先⽤来处理特征数多于样本数的情况，现在也⽤于在估计中加⼊偏差，从⽽得到更好的估计。

这⾥通过引⼊\lambda限制了所有w^2之和，通过引⼊该惩罚项，能够减弱不重要的参数，这个技术在统计学上也叫作缩减（shrinkage）。

和岭回归类似，另⼀个缩减⽅法LASSO也加⼊了正则项对回归系数做了限定。

为了防⽌过拟合(w过⼤)，在损失函数后添加复杂度惩罚因⼦，即正则项来防⽌过拟合。

正则项可以使⽤L1正则化(Lasso)、L2正则化(Ridge)，或结合L1和L2正则化(Elastic Net)。

1. Ridge回归给定数据集D=\{(\pmb x_1,y_1),(\pmb x_2,y_2),\dots,(\pmb x_m,y_m)\}，其中\pmb x_i = (x_{i1},x_{i2},\dots,x_{id})，y_i \in R。

在线性回归模型中，我们以平⽅误差作为损失函数，则优化⽬标为\smash{\min_{w}}\sum_{i=1}^m(y_i-w^Tx_i)^2 \tag{1}为了缓解过拟合问题，可以对上式引⼊正则化项。

吴恩达机器学习系列课程--个人笔记

吴恩达机器学习系列课程--个⼈笔记第⼀周⼀、引⾔1.1 欢迎1.2 机器学习是什么1.3 监督学习1.4 ⽆监督学习⼆、单变量线性回归2.1 模型表⽰2.2 代价函数2.3 代价函数的直观理解 I2.4 代价函数的直观理解 II2.5 梯度下降2.6 梯度下降的直观理解2.7 梯度下降的线性回归2.8 接下来的内容三、线性代数回顾3.1 矩阵和向量3.2 加法和标量乘法3.3 矩阵向量乘法3.4 矩阵乘法3-5 矩阵乘法特征（1）矩阵乘法不适⽤交换律（2）矩阵乘法满⾜结合律（3）单位矩阵是对⾓线（a11，a22，a33...）都等于1的矩阵3-6 逆和转置（1）逆矩阵只有m*m的矩阵有逆矩阵I是单位矩阵（2）转置aij的矩阵，变成aji第2周四、多变量线性回归4-1 多功能当⽤多个参数预测房价时，需使⽤多元线性回归，向量表⽰为：4-2 多元梯度下降法4-3 梯度下降法实践 1-特征缩放4-4 梯度下降法实践 2-学习率4-5 特征和多项式回归4-6 正规⽅程4-7 正规⽅程及不可逆性（可选）五、Octave教程5-1 基本操作~= 表⽰逻辑不等于5-2 移动数据5-3 计算数据5-4 数据绘制5-5 控制语句：for while if 语句5-6 ⽮量（没太看懂）第三周六、逻辑回归6-1 分类逻辑回归算法（logistics regression）——逻辑回归算法是个分类算法，它适⽤于y值取离散值得情况。

⼆元分类（0，1分类）6-2 假设陈述6-3 决策界限6-4 代价函数6-5 简化代价函数与梯度下降6-6 ⾼级优化学完本章需要实现：写⼀个函数，它能返回代价函数值、梯度值，因此要把这个应⽤到逻辑回归或者甚⾄线性回归中，你也可以把这些优化算法⽤于线性回归，你需要做的就是输⼊合适的代码来计算这⾥的这些东西。

6-7 多元分类——⼀对多y值是多个分类值七、正则化7-1 过拟合问题什么是过拟合正则化7-2 代价函数7-3 线性回归的正则化7-4 逻辑回归的正则化---------------------------------------⽬前⼤家对机器学习算法可能还只是略懂，但是⼀旦你精通了线性回归、⾼级优化算法和正则化技术，坦率地说，你对机器学习的理解可能已经⽐许多⼯程师深⼊了。

（一）《机器学习》（周志华）第4章决策树笔记理论及实现——“西瓜树”

（⼀）《机器学习》（周志华）第4章决策树笔记理论及实现——“西⽠树”参考书籍：《机器学习》（周志华）说明：本篇内容为读书笔记，主要参考教材为《机器学习》（周志华）。

详细内容请参阅书籍——第4章决策树。

部分内容参考⽹络资源，在此感谢所有原创者的⼯作。

=================================================================第⼀部分理论基础1. 纯度（purity）对于⼀个分⽀结点，如果该结点所包含的样本都属于同⼀类，那么它的纯度为1，⽽我们总是希望纯度越⾼越好，也就是尽可能多的样本属于同⼀类别。

那么如何衡量“纯度”呢？由此引⼊“信息熵”的概念。

2. 信息熵（information entropy）假定当前样本集合D中第k类样本所占的⽐例为p k（k=1,,2,...,|y|），则D的信息熵定义为：Ent(D) = -∑k=1 p k·log2 p k （约定若p=0，则log2 p=0）显然，Ent(D)值越⼩，D的纯度越⾼。

因为0<=p k<= 1,故log2 p k<=0，Ent(D)>=0. 极限情况下，考虑D中样本同属于同⼀类，则此时的Ent(D)值为0（取到最⼩值）。

当D中样本都分别属于不同类别时，Ent(D)取到最⼤值log2 |y|.3. 信息增益（information gain）假定离散属性a有V个可能的取值{a1,a2,...,a V}. 若使⽤a对样本集D进⾏分类，则会产⽣V个分⽀结点，记D v为第v个分⽀结点包含的D中所有在属性a上取值为a v的样本。

不同分⽀结点样本数不同，我们给予分⽀结点不同的权重：|D v|/|D|, 该权重赋予样本数较多的分⽀结点更⼤的影响、由此，⽤属性a对样本集D进⾏划分所获得的信息增益定义为：Gain(D,a) = Ent(D)-∑v=1 |D v|/|D|·Ent(D v)其中，Ent(D)是数据集D划分前的信息熵，∑v=1 |D v|/|D|·Ent(D v)可以表⽰为划分后的信息熵。

机器学习（周志华）读书笔记

机器学习（周志华）读书笔记机器学习（周志华）读书笔记序⾔从主流为符号机器学习发展到主流为统计机器学习，反映了机器学习从纯粹的理论研究和模型研究发展到以解决现实⽣活中实际问题为⽬的的应⽤研究。

问题⼀：现阶段，统计机器学习相对符号机器学习占据优势地位，未来的发展⽅向是怎样的？有三种答案：⼀是符号机器学习会退出历史舞台，⼆是单纯的统计机器学习已经⾛到了尽头，未来应该和知识的利⽤相结合，这是⼀种螺旋式的上升，进⼊更⾼级的形式。

三是符号机器学习还有翻⾝的机会。

会转向对更加基本的认知科学研究，把统计技术和认知科学结合起来。

问题⼆：由于统计机器学习算法是基于样本数据独⽴同分布的假设使得其应⽤遇到了障碍，那么“独⽴同分布”条件对于机器学习来讲真的有必要吗？⽆独⽴同分布条件下的机器学习也许只是⼀个难题，⽽不是⼀个不可解决的问题，或许迁移学习可能解决。

尽管现阶段的迁移学习也要求迁移双⽅具备“独⽴同分布”的条件，但是不同分布之间的迁移学习也许迟早会出现。

问题三：深度学习真的代表机器学习的新⽅向吗？深度学习在理论和技术⽅⾯并没有很⼤的创新，只不过是由于硬件技术的⾰命，使得⼈们可以采⽤⽐过去复杂度更⾼的算法，从⽽得到⽐原来更精细的结果。

虽然深度学习正在打压机器学习，但是并没有达到统计学习打压符号学习的强度。

原因有：⼀是深度学习理论创新不⾜，⼆是应⽤范围有限，三是统计学习仍然在机器学习中被普遍的采⽤。

数学与机器学习机器学习出现以来，从符号⽅法到统计⽅法的演变，⽤到的数学主要是概率统计，但是难道只有统计⽅法适合在机器学习上吗？例如微分⼏何在流⾏学习上的应⽤，微分⽅程在归纳学习上的应⽤，但是和统计学习相⽐，这些只能算是配⾓。

符号机器学习时代主要以离散⽅法处理问题，统计机器学习时代主要以连续⽅法处理问题，这两种⽅法之间应该没有鸿沟。

流⾏学习中的李群、李代数⽅法的引⼊给我们以很好的启⽰。

从微分流型到李群，再从李群到李代数，就是⼀个沟通连续和离散的过程。

机器学习数学笔记概率论基础常见概型分布期望与方差

机器学习数学笔记概率论基础常见概型分布期望与⽅差机器学习数学笔记|概率论基础常见概型分布期望与⽅差觉得有⽤的话,欢迎⼀起讨论相互学习~本博客为七⽉在线邹博⽼师机器学习数学课程学习笔记为七⽉在线打call!!概率论对概率的认识,x表⽰⼀个事件,则P(x)表⽰事件发⽣的概率,其中不可能发⽣的事件P(x)=0,⼀定会发⽣的事件P(x)=1.P(x)∈[0,1]但是事件出现的概率是0,并不意味着这个事件不可能发⽣.概率为1也并不意味着事件⼀定发⽣若x为离散/连续变量,则P(x=x0)表⽰X0发⽣的概率/概率分布机器学习中不刻意区别离散/连续变量∑F(x)和∫f(x)意义完全相同公式可以等价看待,前者表⽰离散变量,后者表⽰连续变量累计分布函数:ϕ(x)=P(x<=x0)计算的是x<=x0的概率值的和.因为P(x)∈[0,1],是正数,所以ϕ(x)⼀定是单增函数min(ϕ(x))=0,max(ϕ(x))=1因此可以将值域为[0,1]的单调递增函数y=f(x)看成x事件的累积概率(cumulative distribution function,CDF),若y=f(x)可导,则p(x)= f′(x)为概率密度函数(probabilitydensityfunction,pdf)古典概型如果⼀个随机试验所包含的单位事件是有限的，且每个单位事件发⽣的可能性均相等，则这个随机试验叫做拉普拉斯试验，这种条件下的概率模型就叫古典概型。

遇到古典概型的问题,⾸先计算出所有可能的情况,然后计算出满⾜条件的情况,将两者相除后得到的即为事件的概率.N(N−1)(N−2)(N−3)(N−4)...(N−n+1)=P n NP(A)=P n N N n概率公式贝叶斯概率公式以下内容部分或全部摘⾃百度词条定义--摘⾃百度贝叶斯的统计学中有⼀个基本的⼯具叫贝叶斯公式、也称为贝叶斯法则，尽管它是⼀个数学公式，但其原理⽏需数字也可明了。

《机器学习中的一阶与随机优化方法》随笔

《机器学习中的一阶与随机优化方法》阅读笔记目录一、内容概括 (2)1. 背景介绍 (3)2. 本书概述 (4)二、机器学习基础 (6)1. 机器学习概念及分类 (7)2. 数据集与模型表示 (8)3. 评估指标与方法 (9)三、一阶优化方法 (10)1. 梯度下降法 (11)1.1 基本概念及原理 (12)1.2 梯度下降法的变体 (13)1.3 梯度下降法的应用实例 (14)2. 其他一阶优化算法介绍 (15)2.1 共轭梯度法 (17)2.2 牛顿法及其改进 (18)四、随机优化方法 (19)1. 随机梯度下降法 (21)1.1 基本原理及特点 (21)1.2 随机梯度下降法的应用 (23)2. 其他随机优化算法 (24)一、内容概括本篇阅读笔记主要介绍了机器学习中一阶与随机优化方法的相关概念、原理及其在实际应用中的优劣比较。

一阶优化方法，如梯度下降等，通过计算目标函数关于参数的梯度来更新参数，从而快速收敛到最优解。

这类方法的优点在于收敛速度快，但需要计算完整的梯度信息，因此在处理大规模数据集或复杂模型时可能面临计算效率的问题。

随机优化方法则采用随机采样或小批量样本进行参数更新，从而降低了计算复杂度。

由于每次只利用部分数据的信息，随机优化方法的收敛速度通常较慢，并且可能陷入局部最优解。

在实际应用中，一阶和随机优化方法各有优劣。

对于大规模数据集或复杂模型，一阶优化方法可能更为适用，其高效的收敛速度有助于在有限的时间内获得较好的结果。

而对于小规模数据集或相对简单的模型，随机优化方法可能更具灵活性，尽管其收敛速度较慢，但可以通过调整学习率等超参数来优化性能。

研究人员还在不断探索将一阶与随机优化方法相结合的混合优化策略，以期在保持较高收敛速度的同时，提高求解质量。

这些策略包括自适应学习率调整、动量加速等，为机器学习模型的训练提供了更多的可能性。

《机器学习中的一阶与随机优化方法》为我们提供了关于这两种重要优化手段的全面了解。

机器学习算法与Python实践之(四)支持向量机(SVM)实现 - zouxy09的专栏 - 博客频道 - CSDN

7月推荐文章汇总得下载分
Android 精彩案例
【独具慧眼推荐有礼】找出您心中的技术大牛
博文大赛获奖名单公布
关注社区微信
机器学习算法与Python实践之（四）支持向量机（SVM）实现
分类：机器学习 C/C++编程
2013-12-13 00:12 8407人阅读评论(15) 收藏举报
机器学习算法与Python实践之（四）支持向量机（SVM）实现 zouxy09@
最里面语句的意思是固定除αi之外的所有αj(i不等于j)，这时W可看作只是关于αi的函数，那么直接对αi求导优化即可。这里我们进行最大化求导的顺序i是从1到m，可以通过更改优化顺序来使W能够更快地增加并收敛。如果W在内循环中能够很快地达到最优，那么坐标上升法会是一个很高效的求极值方法。
用个二维的例子来说明下坐标下降法：我们需要寻找f(x,y)=x2+xy+y2的最小值处的(x*, y*)，也就是下图的F*点的地方。
Opencv是下载的源码然后自己编译的运行tld时老是显示
假设要求解下面的优化问题：
capture devi...
机器学习中的范数规则化之（一）L0、L1与L2范数
xyy19920105: 博主大牛啊，这个
内容是挺充分的，只是有些东西
看的感觉有些不对啊.....望博主回头没事多看看，改掉些...
/zouxy09
访问： 1164586次积分： 10428分排名：第380名
原创： 108篇转载： 11篇译文： 1篇评论： 1823条
个人简介广州华南理工大学研二。关注：机器学习、计算机视觉、人机交互和人工智能等领域。邮箱：zouxy09@ 微博：Erik-zou

Deep-Learning(深度学习)学习笔记整理系列

Deep Learning（深度学习）学习笔记整理系列声明：1）该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。

具体引用的资料请看参考文献。

具体的版本声明也参考原文献。

2）本文仅供学术交流，非商用。

所以每一部分具体的参考资料并没有详细对应。

如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。

3）本人才疏学浅，整理总结的时候难免出错，还望各位前辈不吝指正，谢谢。

4）阅读本文需要机器学习、计算机视觉、神经网络等等基础（如果没有也没关系了，没有就看看，能不能看懂，呵呵）。

5）此属于第一版本，若有错误，还供学术交流，非商用。

所以每一部分具体的参考资料并没有详细对应。

如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。

需继续修正与增删。

还望大家多多指点。

大家都共享一点点，一起为祖国科研的推进添砖加瓦（呵呵，好高尚的目标啊）。

请联系：zouxy09@一、概述Artificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。

虽然计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生―自我‖的意识。

是的，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。

图灵（计算机和人工智能的鼻祖，分别对应于其著名的―图灵机‖和―图灵测试‖）在1950年的论文里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。

这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。

但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。

这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是―伪科学‖。

但是自2006年以来，机器学习领域，取得了突破性的进展。

图灵试验，至少不是那么可望而不可及了。

至于技术手段，不仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习笔记（四）
一.方差和偏差
1.引入
对于课程一开始所引入的实际拟合问题，我们当时仅仅定性的陈述了二次函数去刻画比较合理，而线性函数以及高阶函数刻画不合理这样的事实，但是并没有就事实背后的模型选择问题进行深入的探讨。

现在则是用数学公式去分析这个问题并且引入方差和偏差的概念。

2.概念
偏差：选取的模型的复杂度与实际的模型之间的差距。

方差：选取不同的训练样本点所得到的模型的变化程度
模型的评价指标：泛化误差，即从概率的角度定义的期望误差。

如下图所示：
左图选取线性模型取进行拟合，因此即使训练样本数目巨大，也还是无法刻画二次函数的特性。

因此，会导致训练的模型与实际的模型差别很大，也就是偏差很大，泛化误差也很大。

右图选取高阶多项式模型进行拟合，虽然对训练样本有着很好的拟合效果，但是模型的复杂度要高于实际的模型复杂度，因此也会有较大的泛化误差而且选取不同的训练数据集，所得到的模型参数往往相差很大，即有着较大的方差。

二.数学模型
我们实际关心的是泛化误差，泛化误差表示着训练模型对客观存在的实际模型的近似程度。

但是，我们对于实际模型是知之甚少的（有些情况是知道一点，比如上面的例子通过作图可知实际模型大致为二次函数），也就是无法定量的描述泛化误差。

但是训练误差是完全可以求出来的，如果可以通过训练误差来反映泛化误差的特性，那么我们就有了定量描述泛化误差的手段。

接下来主要就是建立训练误差与泛化误差之间的关系。

1.数学表达式
训练误差：
泛化误差：
相关前提假设：
训练数据和测试数据是独立同分布于D的。

选定一种模型，然后计算模型的参数，这个过程也可以视为是从模型空间H中选择一个模型出来。

最后建立的数学模型是：
给定模型空间H，我们的问题就归结为：
2.训练误差与泛化误差的关系
1）H是有限大小为k的模型空间
上式的推导详见讲义，上式的意义是用不等式与概率刻画出了泛化误差与训练误差之间的关系。

而上式更加直观的解释是：
给定和，可以求出样本数m的界限
上式引申出的结论是：
我们由训练误差最小化原则理论上可以求出模型,而使用这个模型时候的泛化误差又有上式来进行限定。

2)H是无限大小的模型空间
上式是无限维假设空间下的结论，d是假设空间的VC维，m是训练样本的数目。

不细究这个公式背后的数学证明与推导，接下来结合下面的图来理解欠拟合，过拟合及它们和VC维之间的关系。

对于一个实际的回归或者分类问题，我们的做法是生成训练数据集，选择模型空间，然后利用一定的准则（通常是训练误差最小化）来得到具体的模型。

在得到具体的模型之后，就要利用对得到的模型进行评估，评价指标则是泛化误差。

泛化误差并没有完备的数学表达式，我们是用概率，训练误差以及不等式来对泛化误差进行限定，从而对泛化误差也就是模型进行评估。

通常情况下，训练样本数目m是固定的，VC维的大小跟模型的复杂度（模型中的参数数目)是成正比的。

对于欠拟合问题，模型比较简单，因此VC维d比较小，因此泛化误差与训练误差比较接近。

但是此时的模型过于简单，导致训练误差较大，因此泛化误差也比较大。

如上图左半部分所示。

对于过拟合问题，模型比较复杂，因此VC维d比较大，因此泛化误差和训练误差差别较大。

虽然此时模型可以很好的描述训练数据的特性，训练误差比较小，但是泛化误差跟训练误差的差距较大，所以泛化误差还是比较大，如上图右半部分所示。

上面的这个公式具有很强的意义，因为它实实在在的给了我们评估模型好坏的手段。

直观上的欠拟合与过拟合问题也可以用这个公式很好的解释。