华南理工大学《人工智能》复习资料汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
FG,,
:初始状态的集合
:操作的集合
:目标状态的集合
07{}{}{}QabcQQ,,,,,
表:已生成但没考察的节点(待考察节点)
表:考察过的节点及节点间关系(搜索树)
/深度优先搜索特点】
:完备的(一定能找到最优解),搜索效率低,OPEN
:不能保证找到最优解,OPEN表为堆栈结构
:即使能求出解,也不一定是最优
:深度可变,每次深度超过阈值
(在CLOSED表中)
:考虑所有待考察节点
:只考虑当前节点的子节点 【A*算法】 f(x) =g(x)+h(x) g(x)为当前点的代价 h(x)为距离目标的距离 A*对A算法的改进: 对h(x)作限制,使其总是小于实际最小距离h(x) h* (x),具有完备性 【与或图】 Q与Q1,Q2与等价(即Q可以分解为Q1+Q2) Q1与{Q1i},{Q1i’}或等价(即Q1可以转换为{Q1i}或{Q1i’}) 【与或图中的概念】 本原问题:直接可解的问题。 终止节点:本原问题对应的节点 端节点: 无子节点的节点 与节点: 子节点为与关系 或节点: 子节点为或关系 【与或图的广度/深度搜索】 Step1:S0放入OPEN表 Step2:OPEN表第一个点(记为N)取出放入CLOSED表,冠以编号n。 Step3:若n可扩展: (1)扩展N,其子节点放入OPEN表(深度:尾部,广度:首部) (2)考查这些节点是否终止节点。若是,放入CLOSED表,标为可解节点,并对先辈点标示。若S0被标可解,得解。 (3)从OPEN表删除具有可解先辈的节点。转Step2。 Step4:若N不可扩展: (1)标示N为不可解。 (2)标示先辈节。若S0被标不可解,失败。 (3)从OPEN表删除具有不可解先辈的节点。转Step2。
函数值=子节点价值+子节点与父节
PP3 Ch3.P117-120
对手(MIN)力图干扰MAX的选择。因此站在我方
MAX)的立场,由MIN出棋的结点具有与结点的性质。
我方(MAX)力图通往取胜。MAX出棋的结点
,β剪枝】
剪枝:对MIN节点,若其倒推上确界β不大于MIN的父
α,即α≥β,则不必扩展该MIN节点其余
剪枝:对MAX节点,若其倒推下确界α不小于MAX的
β,即α≥β,则不必扩展该MAX节点
Ch 3. 【离散数学相关定义】 命题(proposition):具有真假意义的语句 谓词(predicate):刻画个体的性质、状态或个体间的关系,例如P(x,y): x是y的父亲 个体域:个体变元的变化范围。(如P(x,y)中,x,y是变元) 全总个体域:包揽一切事物的集合 函数:个体之间的对应关系,例如father(x): 值为x的父亲 项:个体常元和变元都是项。若t1,t2,,,tn是项,则f( t1,t2,,, tn )是项 原子公式:若t1,t2,,,tn为项,P(t1,t2,,,tn)称为原子谓词公式,简称原子或原子公式 谓词公式:原子公式是谓词公式。若A、B是谓词公式,则? A,A∪B等都是谓词公式 辖域:紧
接于量词之后被量词作用的谓词公式 指导变量:量词后的变量 约束变量:量词辖域中,与该量词的指导变元相同的变量 自由变量:除了约束变量之外的变量 一阶谓词:仅个体变元被量化的谓词 二阶谓词:个体变元、函数符号、谓词符号被量化 从谓词公式得到命题: (1)把谓词中的个体变元代入个体常元 (2)把谓词中的个体变元全部量化 如P(x)表示"x是素数", 则x P(x),P(a)都是命题 合取范式:B1 B2 … Bn,如 (()())(()())(()())PxQxQyRyPzSz8 析取范式:B1 B2 … Bn,如 (()())(DyLayPxCzPuLuv,(()())())(,)) 谓词公式永真性:P对个体域D全部成立,则P在D上永真。P在全总个体集成立,则P永真 谓词公式可满足性:P对个体域D至少有一个个体成立,则P在D上可满足。 【常用逻辑等价式】
【子句集】 文字:原子谓词公式及其否定 子句:任何文字的析取 【子句集特点】 1. 没有蕴含词、等值词 2. “?”作用原子谓词 3. 没有量词( 、 ) 4. 合取范式 5. 元素之间变元不同 6. 集合形式 【由谓词公式得到子句集】 (对应子句集特点的序号) 1. 根据蕴含等价式消去蕴含关系 2. 根据量词转换律、双重否定律、摩根定律转换 3. 存在量词:受x约束,则定义f(x)替换y (Skolem函数) 不受x约束,常量代替y (Skolem常量) 全称量词:直接消去 4. 根据分配率合取 5. 各个合取子句变量改名 6. 把合取符号替换为逗号,组成集合 【Skolem标准型】
,f(x)) ? R(x,g(x)) ]
标准型与原公式一般并不等价
:G是F1、F2 、… 、Fn的逻辑结论,当
I,如果F1、F2 、… 、Fn都为真,则
也为真。F1、F2 、… 、Fn为G的前提。
:L与?L
C1包含L1,C2包含L2,L1与L2互补。把L1和
删除,并把剩余部分析取,得到C12
:上例中C1与C2
:上例中L1与L2
谓词公式A不可满足当且仅当其子句集S不可满足。
G是公式F1、F2、…、Fn的逻辑结论,当且仅当
1 F2 … Fn => G
G是公式F1、F2、…、Fn的逻辑结论,当且仅当
1 F2 … Fn ? G不可满足
归结式是其亲本子句的逻辑结果
子句集S的C1,C2替换为C12得到S1,则
不满足=>S不满足
子句集S添加C12得到S2,则
不满足=>S不满足
G,? G加入到F1 F2 … Fn中,得到子
S。对S进行归结,并把归结结果并入S,直到得到
:{t1/x1, t2/x2, …, tn/xn}
:t1, t2, …, tn是项
:x1, x2, …, xn是互不相同的个体变元
不同,xi不循环出现在tj中,如{f(x)/y,g(y)/x}不是替换)
:t1, t2, …, tn是不含变元的项(称为基项)
:没有元素的替换,记作ε
:项、原子公式、文字、子句的统称
:没有变元的表达式
/特例:对公式E实施替换θ,记为Eθ,所得结果称
E在θ下的例
/乘积:
= {t1/x1, t2/x2, …, tm
/xm},
= {u1/y1, u2/y2, …, un/yn},
{t1λ/x1,t2λ/x2,…,tmλ/xm ,u1/y1,u2/y2,…,un/yn}中:
λ/xi 当tiλ= xi
当yi∈ {x1,…, xn}
θ 与λ 的复合或乘积,记为θ ?λ
= {a/x, f(u)/y ,y/z},λ ={b/u,z/y,g(x)/z}
{a/x,f(b)/y ,z/z,b/u,z/y,g(x)/z},删去:
/z,z/y,g(x)/z
θ·λ= {a/x, f(b)/y ,b/u}
合一:F1λ=F2λ=…=Fnλ则λ为F的合一,F为可合一的 (一个公式的合一一般不唯一) 最一般合一:σ为F的一个合一,如果对F任何合一θ都存在λ使得θ = σ ?λ,则σ为F的最一般合一,极为MGU(一个公式集的MGU不唯一) 差异集:S是具有相同谓词名的原子公式集,从各公式左边开始,同时向右比较,直到发现第一个不都相同的项为止,用这些项的差异部分组成的集合 【合一算法】 Step1:置k=0,Fk=F, σk =ε; Step2:若Fk只含有一个谓词公式,则算法停止, σk就是最一般合一; Step3:求Fk的差异集Dk; Step4:若Dk中存在元素xk和tk ,其中xk是变元, tk是项且xk不在tk中出现,则置Sk +1=Fk{tk/ xk} ,σk+1= σk ?{tk/ xk} ,k=k+1然后转Step2; Step5:算法停止,F的最一般合一不存在。 对任一非空有限可合一的公式集,一定存在最一般合 一,而且用合一算法一定能找到最一般合一 【合一算法例子】 求公式集F={Q(a,x,f(g(y))),Q(z,h(z,u),f(u))}的最一般合一 解: 解 k=0; F0=F,σ0=ε,D0={a,z} σ1= σ0·{a/z}= {a/z} F1= F0{a/z}= {Q(a,x,f(g(y))),Q(a,h(a,u),f(u))} k=1; D1={x, h(a,u)} σ2= σ1·{h(a,u) /x}= {a/z,h(a,u) /x} F2= F1{a/z, h(a,u) /x}= {P(a, h(a,u) ,f(g(y))),P(a,h(a,u),f(u))} k=2; D2={g(y),u} σ3= {a/z ,h(a, g(y)) /x ,g(y)/u} F3= F2{g(y)/u}= {P(a,h(a,g(y)),f(g(y)))} S3单元素集 , σ3为MGU。 【谓词逻辑中的归结原理定义】 二元归结式(二元消解式): (C1 σ -{L1 σ}) ∪ ( C2 σ- {L2 σ}),其中: 亲本子句:C1,C2为无相同变元的子句 消解文字:L1,L2 σ为L1和?L2的最一般合一 因子:C σ。其中σ为C的子句文字的最一般合一 单因子:C σ为单元句子
RSPC12
C
,C2归结式,是下列二元归结式之一:
1) C
和C2的二元归结式;
2) C
和C2的因子的二元归结式;
3) C
因子和C2的二元归结式;
4) C
的因子和C2的因子的二元归结式。
两个子句不能含有相同的变元
归结的子句内部含有可合一的文字,则需进行简化
/归结原理】
(归结)式是它的亲本子句的逻辑结果:
C2 =>(C1 σ -{L1 σ}) ∪ ( C2 σ- {L2 σ})
S是不可满足的,那么必存在一个由S推出空
:前提化为子句集S
:确定目标谓词,化为子句,并析取助谓词新子句,
S形成S’。
:对S’应用归结原理。
:当只剩辅助谓词时,归结结束。
例子见CH3 P105 )
:子句集S置入CLAUSES表
:若Nil在CLAUSES,归结成功
:若CLAUSES存在可归结子句对,则归结,并将归
CLAUSES表,step2
:归结失败
step3的搜索次序
:0层(原子句集S)两两进行归结,产生1层
:1层与0、1层两两进行归结,得到2层
:2层与0、1、2层两两进行归结,得到3层
Nil
如果对于不可满足的子句集,使
Nil。
1)简化性策略。
2)限制性策略。 (3)有序性策略(包含排序策略) 【归结策略类型】 删除策略 支持集策略 线性归结策略 单元归结策略 语义归结策略 祖先过滤型策略 【正向演绎推理--初始事实F0】 任意谓词公式 前束范式表示;消去量词,改名 与或图表示:析取部分用与节点表示 合取部分用或节点表示 【正向演绎推理-- F-规则】 形如 L=>W,L为单一文字 W为任意与或型谓词公式;(消去量词,改名) 【正向演绎推理—目标谓词】 文字的析取式(消去量词,改名) 【正向演绎推理图解】 012':()(()())':()()':()()':()()FPxQxRxFPySyFQzNzGSaNa ? P(x)∨(Q(x)∧R(x))Q(x)∧R(x)? P(x)Q(x)R(x)Q(z)? P(y)N(x)? S(x)F0F1 {x/z}F2 {x/y}{a/x}{a/x}N(a)? S(a) 【代换集一致性】 设有代换集{u1,u2,…,un},其中每个ui都是代换{ti1/ vi1, ti2/ vi2,…, tim(i)/ vim(i)} U1={v
, …, vim(1),…, vn1, …, vnm(n)}(所有下边的变量)
={t
, …, tim(1),…, tn1, …, tnm(n)} (所有上边的项)
,u2,…,un}是一致的,当且仅当U1和U2是可合一
:U1和U2的最一般合一
则该问题有解,最后的代换是
U
--目标公式】
(消去量词,改名)
--
-规则】
W=>L;
L为单一文字;
W为任意与或型谓词公式(消去量词,改名)
】
)MEOWSMYERTLE{x/x5}{MYRTLE/x}{FIDO/y}{y/x1}
FIDO/y}R1{FIDO/y}{x/y2,y/x2}()()(,)CATxDOGyAFRAIDxy()CATx()DOGy(,)AFRAIDxy22(,)AFRAIDyx5()CATx()MEOWSx()BARKSy()FRIENDLYy1()FRIENDLYx()WAGSTAILy()DOGyR2R5()BARKSFIDO
)WAGSTAILFEDO()DOGFIDO()DOGFIDO{FIDO/y}
/反向演绎对比】 【双向演绎推理】 分别从基于事实的F-规则正向推理出发,也从基于目标的B-规则逆向推理出发,同时进行双向演绎推理。 终止的条件:正向推理和逆向推理互相完全匹配。即所有得到的正向推理与或树的叶节点,正好与逆向推理得到的与或图的叶节点一一对应匹配 【不确定性知识分类】 随机不确定性(概率) 模糊不确定性(软概念) 不完全性(事物了解不充分) 不一致性(时间推移) 【逆概率方法公式】 1(|)()(|)(|)()iiinjjjPEHPHPHEPEHPH 【逆概率—多个证据】
2
2
2
(/)(/)(/)()(/)(/)(/)(/)()iimiiimnjjmjjjPEHPEHPEHPHPHEEEPEHPEHPEHPH
bayes公式。严格要求各证据独立。
)(])()|([)|(HPEPHEPEHP
E then H (CF(H, E))
CF(H, E)为可信度因子/规则强度
MB和MD】
(Measure Belief):
因证据E的出现使结论H为真的信任增
长度:
(1)()}(),|(max{1=)(当1),(HPHPHPEHPHPEHMB
(Measure Disbelief):
E的出现使H为真的不信任增长度:
()()}(),|(min{0=)(当1),(HPHPHPEHPHPEHMD
CF(H,E)为:
()|(当
()|()()(=)|(当0)()|(当)(1)()|(),(HPEHPHPEHPHPHPEHPHPEHPHPHPEHPEHCF
--不确定性传播】
E2 , En :
) ,CF(E2) , , CF(En)}
E2 , En :
) ,CF(E2) , , CF(En)}
E
:
)
CF值:
max { 0, CF(E) }
CF值:
E then (LS, LN) H ( P(H) )
((),(HPHELNLS
LS和LN】
:充分性量度,E 对H支持程度,范围为[ 0, ∞ ):
:必要性量度, E对H支持程度,范围为[ 0, ∞ ):
、LN>0,不独立,有如下约束关系:
LS>1时,LN<1;
LS<1时,LN>1;
LS=1时,LN=1; 通过LN,LS把先验概率转化为后验概率: LS= O(H|E)/ O(H) P(H|E) 越大,O(H|E)越大,则LS越大,表明E对H为真的支持越强,当 LS ∞ ,P(H|E) 1,E 的存在对 H 为真是充分的 LN=O(H| E) /O(H) P(H| E )越大,O(H| E)越大,则LN越大,表明 E 对 H 为真的支持越强。当 LN = 0 ,P(H| E) = 0,E 的不存在导致 H 为假,说明E对H是必要的 【几率函数】 【P(E|S)与P(H|S)】 其中C(E|S)由题目给出,用于刻画不确定性,值越大,证明在观察S下,E存在的可能性越大。 将两式结合,和得到CP公式: 【贝叶斯网络图示】 以随机变量为节点,以条件概率为节点间关系强度的有向无环图(Directed Acyclic Graph,DAG) 每个节点旁的条件概率表(简称CPT)中的值对应一个条件事件的概率
给定父节点,一个节点与它的非后代节点是条件独立的
给定一个节点的父节点、子节点以及子节点的父节点
,这个节点对于其它节点都是条件独立的
分离(d-separation):
y,x和z条件独立:(|,)(|)PzxyPzy
y,x和z条件独立:(|,)(|)PzxyPzy
y,x和z不条件独立:(,)()()PxzPxPz
自上而下的推理,例如已知L成立
P(M|L)
|)(,|)(,|)PMLPMBLPMBL
】
,自下而上的推理。例如已知?M成
P(?L|?M)
|)()
|)
)PMLPLPLMPM
】
?B,求P(?L)。这种情况下,可以说?B解释?M,
?L不确定。
,|)()
|,)
,)PMBLPLPLBMPMB
算法】
:
?”:可接受任何值
”:不接受任何值
将h初始化为H中最特殊假设
对每个正例x(循环)
对h的每个属性约束a
如果x满足ai 那么不做任何处理 否则 将h中ai替换为x满足的更一般的约束 3.输出假设h 【候选消除算法】 【BP算法误差项】 更新规则: 【BP算法权值更新】 The learning rule for the hidden-to-output units : The learning rule for the input-to-hidden units: Summary:
复制
根据个体适应度/总适应度,为每个个体分
(0~1),产生随机数,选择匹配的个体:
交叉
变异
1变为0,或由0变为1。
对参数的编码进行操作,而非参数本
身
因此可模仿自然界进化机制)
同时使用多个搜索点的搜索信息
搜索效率高、并行、不陷入局部最优)
直接以目标函数作为搜索信息
不需导数和其他辅助信息)
使用概率搜索技术
复制交叉变异基于概率,有很好灵活性)
在解空间进行高效启发式搜索
而非盲目搜索、完全随机搜索)
对待寻优的函数基本无限制
不要求连续、可微)
具有并行计算的特点
适合大规模复杂问题的优化)
染色体编码方法
个体适应度评价
J到个体适应度f之间的转换规则
遗传算子
选择运算:使用比例选择算子;
交叉运算:使用单点交叉算子;
变异运算:使用基本位变异算子或均匀变异算子
基本遗传算法的运行参数
4个运行参数需要提前设定:
M:群体大小,即群体中所含个体的数量,一般取
20~100;
G:遗传算法的终止进化代数,一般取为100~500;
Pc:交叉概率,一般取为0.4~0.99;
Pm:变异概率,一般取为0.0001~0.1。
十大算法 1.【C4.5】 【信息增益的计算】 期望信息: 设样本集合s含有si 个类为Ci 的元组, i = {1, …, m},则对一个给定的样本分类所需的期望信息是: 熵: 具有值 {a1,a2,…,av}的属性A的熵E(A)为属性A导致的s的划分的期望信息的加权平均和: 信息增益: 例子: 【信息增益比】 【C4.5算法】 1.创建根节点 2.若所有样本为类x,标记为类x 3.若Attribute为空,标记为最普遍的类 4.选择信息增益比最大的属性,每个可能值建立子节点,递归解决 2.【k-means】 【聚类目标】 聚类内部距离平方之和的最小化: 【k-means算法】 定义: k-means算法以k为输入参数,把n个对象的集合分为k个集,使得结果簇内的相似度高,而簇间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看做簇的质心或重心。
把对象划分成k 个非空子集;
计算当前的每个聚类的质心作为每个聚类的种子点;
把每一个对象分配到与它最近的种子点所在的聚类
返回到第2步, 当满足某种停止条件时停止。
:
当分配不再发生变化时停止;
当前后两次迭代的目标函数值小于某一给定的阈值;
当达到给定的迭代次数时。
O(nkt),其中n是对象的总数,k是簇的
t是迭代的次数
【
】
Margin】
is defined as the width that the boundary could
The linear discriminant function (classifier) with the
is the best.
support vectors.
Maximum Margin Classification】
Kernels】
implicitly map to a
Kernel must be equivalent to an inner product in
Solving of SVM】
maximum margin ->
==>
Nonlinear SVM】
original feature space can always be mapped to
higher-dimensional feature space where the
Optimization Problem】 Dual Problem for (ai is Lagrange multipli
er): Solution(Each non-zero ai indicates that corresponding xi is a support vector.): Classifying function (relies on an inner product between the test point x and the support vectors xi. involved computing the inner products xi‘ * xj between all training points): 【Slack variables】 Target: Dual Problem of the soft margin is the same for hard. Solution: Classifying function of the soft margin is the same. 【Kernel Trick】 * Map data points to higher dimensional space in order to make them linearly separable. * Since only dot product is used, we do not need to represent the mapping explicitly. Discriminant function: (No need to know this mapping explicitly, because we only use the dot product of feature vectors in both the training and test.) Kernel function: dot product of two feature vectors in some expanded feature spce :
Nonlinear SVM optimization】
【
】
A→C:
用Apriori算法挖掘强关联规则】
: {A B C …X} 和 {A B C …Y}可连接,生成
{A B C … X Y}
个数相同,只有最后一个元素不同)
k-项集L
的算法:
k-1项集L
,连接生成候选集Ck
C
中支持度大于min_sup的元素,构成Lk
从频繁项集产生关联规则 根据频繁项集I,生成全部非空子集。 对于每个子集m, 若sup(m→( I-m )) ≥ min_sup,输出此规 其中sup(m→( I-m )) = = 5.【EM】 在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。 最大期望算法经过两个步骤交替进行计算: 第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值; 第二步是最大化(M),最大化在 E 步上求得的最大似然值来计算参数的值。 M 步上找到的参数估计值被用于下一个 E 步计算中,这个过程不断交替进行。 总体来说,EM的算法流程如下: 1.初始化分布参数 2.重复直到收敛: E步骤:估计未知参数的期望值,给出当前的参数估计。 M步骤:重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。
【
】
】
PageRank将 网页x指向网页y的链接视为x给y的
然而PageRank 不仅仅考虑网页得票的绝对数目,它
.
来自权威网页的投票能够提升被投票网页的权威
链接是源网页对目标网页权威性的隐含表达.
网页i入边(in-links)越多,表示i的权威性值越高。
指向网页i的网页本身也有自己的权威性值
对于网页i的权威性得分而言,一个具有高分值的源
换言之,若其它权威性网页指向网页i,则i也可能是
PageRank优点与缺点】
防欺骗
.
ageRank 值独立于查询,是一种全局度量.
值是通过所有网页计算得到并加以存
.
Web图】
Web视为有向图 G = (V, E),V表示顶点(网页),一
(i, j) E当且仅当网页i指向
网页j,n为总的网页
网页P(i)定义为:
是网页j的出边数
是Web图的邻接矩阵表示:
PAPT,但是Web图不符
Aij 表示用户在状态i(网页i)转移到状态j(网页j)的概率。(公式和web图一致) k步转移后的概率分布: 【稳态概率分布】 对于任意初始概率向量P0, Pk 将收敛于一个稳定的概率向量, 即, 可作为PageRank 值向量,其合理性: - 它反映了随机冲浪的长期概率. - 一个网页被访问的概率越高,其权威性越高. 【收敛性】 一个有限马尔可夫链收敛于一个唯一的稳态概率分布:如果矩阵A是不可约(irreducible)和非周期的(aperiodic)。 条件1:随机矩阵 A不是一个随机矩阵,因为很多网页没有出边,导致A中某些行全为0. 解决方案1:删除没有出边的网页. 解决方案2:将没有出边的网页指向网络中所有其它网页 条件2:不可约 不可约意味着强连通(所有点对都有双向路径),A不符合。 条件3:非周期 从i到i的所有路径都是K的倍数(k>1),则成为周期的。 一个马尔科夫链所有状态都是非周期的,则为非周期。 解决方案:指定一个参数d,将每一个网页(状态)都以概率d指向其它所有网页。此方法顺便解决了不可约问题,处理后(原始文献阻尼因子d=0.85): 其中E = eeT(E=ones(n)),令 eTP = n:
【
】
Strength and weakness of AdaBoost】
AdaBoost Algorithm】
Reweighting】
【KNN】
9.【naive Bayes】 【Bayes formula】 【Bayes Decision Rule】 【Maximum Likelihood (ML) Rule】 When p(w1)=p(w2),the decision is based entirely on the likelihood p(x|wj) --> p(x|w)∝p(x|w) 【Error analysis】 Probability of error for multi-class problems: Error = Bayes Error + Added Error: 【Lost function】 Conditional risk (expected loss of taking action ai): Overall risk (expected loss): zero-one loss function is used to minimize the error rate 【Minimum Risk Decision Rule】
Normal Distribution】
ML Parameter Estimation】
Discriminant function】
【
】
】
1
ID3区别】
CART中用于选择变量的不纯性度量是Gini指数;
如果目标变量是标称的,并且是具有两个以上的类
CART可能考虑将目标类别合并成两个超类别
;
如果目标变量是连续的,则CART算法找出一组基于
分析步骤】
、从根节点t=1开始,从所有可能候选S集合中搜索使
S*,然后,使用划分S*将节点1
t=1)划分成两个节点t=2和t=3;
、在t=2和t=3上分别重复划分搜索过程。 【基尼系数】 例子: Calculate impurity: Build tree: 11.【Deep learning】 【核心思想】 把学习结构看作一个网络,则深度学习的核心思路如下: ①无监督学习用于每一层网络的pre-train; ②每次用无监督学习只训练一层,将其训练结果作为其高
一层的输入; ③用自顶而下的监督算法去调整所有层 【需要使用深度学习解决的问题的特征】 深度不足会出现问题。 人脑具有一个深度结构。 认知过程逐层进行,逐步抽象。
BP例子】