数据挖掘中的特征选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 条件信息熵:附加条件X=Xi后,Y的条件信息熵变为: Βιβλιοθήκη Baidu 信息增益:加入条件X前后的信息熵之差。
32
Filter-信息增益(2)
• 对于分类系统来说,类别C是变量,他可能的取值为 {C1,C2,…,Cn},而每个类别出现的概率是P(Ci),分类系统的 信息熵为:
• 当新加入一个特征Fj后,系统的信息熵变为:
19
过滤模型
• 过滤模型:根据训练集进行特征选择,在特征选 择的过程中并不涉及任何学习算法。即特征子集 在学习算法运行之前就被单独选定。但学习算法 用于测试最终特征子集的性能。
• 过滤模型简单且效率很高。由于过滤模型中的特 征选择过程独立于学习算法,这就容易与后面的 学习算法产生偏差,因此为了克服这个缺点提出 了封装模型。
• 增加F特征前后的信息增益为: • 假设存在特征子集A和特征子集B,分类变量为C,若
IG( C|A ) > IG( C|B ) ,则认为选用特征子集A的分类结果 比B好,因此倾向于选用特征子集A。
33
搜索策略
• 穷举算法:对特征空间进行穷举搜索(当然也会采用剪 枝等优化),搜索出来的特征集对于样本集是最优的。 这类算法的时间复杂度是指数级的。
特征提取 ( Feature extraction ) 是指利用已有的特征计算出一个抽 象程度更高的特征集。对已有特征 集合进行映射变换得到。 PCA、LDA
特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) 或属 性选择( Attribute Selection )。 特征选择实质是从原始数据集中选 取最优子集的过程。
27
混合模型
28
评价函数-Filter
• 距离或可分性度量:距离度量有时候也称作类别可分离 判据、离散度准则,在统计模式识别中对类别的可分离性 研究的比较深入。 --欧几里得距离、马氏距离、巴氏距离等
• 相关性度量:用来度量特征和类别之间的相关性。 --相关系数
• 信息论度量: --信息增益、最小描述长度、互信息
杂,其推广能力会下降。 特征选择能剔除不相关(irrelevant)或冗余(redundant )的特 征,从而达到减少特征个数,提高模型精确度,减少运行 时间的目的。另一方面,选取出真正相关的特征简化了模 型,使研究人员易于理解数据产生的过程。
14
特征选择和特征抽取区别?
模式识别中特征降维方法有两种:特征抽取和特征选择
基于核函数的主成分分析(KPCA),基于核函 数独立成分(KICA),基于核函数的判别分析 (KLDA) 。 • 基于特征值(流形)的非线性降维方法有:
ISOMAP(Isometric feature mapping),局部线 性嵌入(LLE),拉普拉斯特征映射(LE) 。
17
特征选择一般流程
A. 产生过程( Generation Procedure ):按一定的搜索策略产生候选特征子 集。
• 风险分析和管理
• 风险预测,客户保持,保险业的改良,质量控制,竞争分 析
• 欺骗检测和异常模式的监测 (孤立点)
• 其他的应用
• 文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 • 流数据挖掘 • DNA 和生物数据分析
2022/3/23
数据挖掘中的特征选择
5
数据挖掘: 数据库中的知识挖掘
选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规 则挖掘, 聚类分析等
2022/3/23
数据挖掘中的特征选择
7
选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示
可视化,转换,消除冗余模式等等
运用发现的知识
2022/3/23
数据挖掘中的特征选择
8
数据挖掘:多个学科的融合
2022/3/23
数据挖掘中的特征选择
11
特征降维在数据挖掘中的作用
因为在文本分类、信息检索和生物信息学等数据挖掘的应 用领域中,数据的维数往往是很高的。
高维的数据集中包含了大量的特征(属性)。比如一个文 本数据集中,每一个文本都可以用一个向量来表示,向量 中的每一个元素就是每一个词在该文本中出现的频率。在 这种情况下,这个数据集中就存在着成千上万的特征。这 种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。
• 可以使用线性相关系数(correlation coefficient) 来衡量向 量之间线性相关度。
31
Filter-信息增益(1)
• 通过计算特征的信息增益来对特征进行评价。 • 信息熵:假设存在离散变量Y,Y中可能的取值包括{y1,
y2,....,ym} ,yi出现的概率为Pi。则Y的信息熵定义为:
• 序列算法:前向顺序选择 后向顺序选择 增L去R算法 双向搜索算法 序列浮动选择算法
• 随机算法:随机产生序列选择算法 模拟退火算法 遗传算法
35
穷举搜索(ES)
• 穷举所有满足条件的特征子集,从中选取最优。如果有N
个特征,不限定选取特征的个数,则有 2N 个候选特
征子集。 • 从D个特征中选择d个,可能组合q
数据挖掘是一种从大量数据中寻找其规律的 技术。它综合了统计学、数据库技术和人工 智能技术
2022/3/23
数据挖掘中的特征选择
3
数据库越来越大
数据挖掘
海量的数据
有价值的知识
2022/3/23
数据挖掘中的特征选择
4
数据挖掘的应用
• 数据分析和决策支持
• 市场分析和管理
• 客户关系管理 (CRM),市场占有量分析,交叉销售,目 标市场
15
特征抽取
• 特征抽取是指通过线性或非线性映射将样本空间 从高维空间映射到低维空间。
• 降维方法主要分为两类:线性或非线性。而非线 性降维方法又可分为基于核函数和基于特征值的 方法。
16
特征抽取
• 线性降维方法有: 主成分分析(PCA),独立成分分析(ICA),线
性判别分析(LDA),局部特征分析(LFA) 。 • 基于核函数的非线性降维方法有:
20
过滤模型
21
过滤模型
• 基于过滤模型的算法主要有两类:特征权重和子 集搜索。
• 这两类算法的不同之处在于是对单个特征进行评 价还是对整个特征子集进行评价。
22
过滤模型
• 特征权重算法对每个特征指定一个权值,并按照 它与目标概念的相关度对其进行排序,如果一个 特征的相关度权值大于某个阈值,则认为该特征 优秀,并且选择该特征。该算法缺点在于:他们 可以捕获特征与目标概念间的相关性,却不能发 现特征间的冗余性。而经验证明除了无关特征对 学习任务的影响,冗余特征同样影响学习算法的 速度和准确性,也应尽可能消除冗余特征。 Relief算法是一个比较著名的特征权重类方法。
B. 评价函数( Evaluation Function ) :通过某个评价函数来评估特征子集的 优劣。
C. 停止准则( Stopping Criterion ):停止准则是与评价函数相关的,一般是 一个阈值,当评价函数值达到这个阈值后就可停止搜索。
D. 子集验证:用来验证最终所选子集的有效性。
18
(KDD)
• 数据挖掘—知识挖掘的核心
模式评估
数据挖掘 任务相关数据
数据仓库
选择
数据清理 数据集成
2022/3/23 数据库
数据挖掘中的特征选择
6
数据挖掘的步骤
了解应用领域
了解相关的知识和应用的目标
创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工
作量)
数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表 示
• 与过滤模型相比,封装模型具有更高的精度,但 效率较低,运行速度慢于过滤模型。
25
封装模型
26
混合模型
• 过滤模型与封装模型的根本区别在于对学习算法 的使用方式。
• 混合模型:由于过滤模型与封装模型之间的互补 性,混合模型把这两种模型进行组合,也就是先 用过滤模式进行初选,再用封装模型来获得最佳 的特征子集。
• 使用分支限界进行特征选择需要先引入一个单调性假设 (monotonicity assumption):J(Y) < J(Y+x),即任何 特征集的都优于其任何的子集。
• 如果初始特征集合中共有N个特征,现在需要进行特征选 择得到M个集合,分支界限法可以看作是去掉M = N-M个 特征。
• 分支限界法搜索过程可以表达为树状结构。
比如在识别苹果和橙子的系统中,我们可以抽取的特征很多 (体积、重量、颜色、高度、宽度、最宽处高度),在这些特 征中有用的是(颜色、高度、最宽处高度),其它特征对识别 意义不大,所以去掉。
13
为什么进行特征选择?
在机器学习的实际应用中,特征数量往往较多,其中可能 存在不相关的特征,特征之间也可能存在相互依赖,容易 导致如下的后果: • 特征个数越多,分析特征、训练模型所需的时间就越长。 • 特征个数越多,容易引起“维度灾难”,模型也会越复
29
Filter-距离度量
• 距离度量,是基于这样的假设:好的特征子集应该使得 属于同一类的样本距离尽可能小,属于不同类的样本之 间的距离尽可能远。 常见的有欧氏距离、马氏距离、巴 氏距离等等。
30
Filter-相关系数
• 运用相关性来度量特征子集的好坏是基于这样一个假设: 好的特征子集所包含的特征应该是与分类的相关度较高 (相关度高),而特征之间相关度较低的(冗余度低)。
数据库系统
统计学
机器学习
数据挖掘
可视化
算法
2022/3/23
其他学科
数据挖掘中的特征选择
9
数据挖掘的分类
预言(Predication):用历史预测 未来
描述(Description):了解数据中 潜在的规律
2022/3/23
数据挖掘中的特征选择
10
数据挖掘的主要方法
分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
• 计算所有可能的特征组合的J,选择J最大的那组为最优组 合。这种方法计算量大,只适用于特征个数比较少的情况, 运算量随着特征维数的增加呈指数递增,实际应用中经常 碰到几百甚至成千上万个特征,因此穷举法虽然简单却难 以实际应用。
36
分支限界法(B&B)
• 分支限界法是一种自上而下的搜索算法,采用剪枝策略 优化搜索过程,得到全局最优解。
数我据挖们掘毕中业的特啦征选择
其实是答辩的标题地方
1
为什么需要数据挖掘
• 数据爆炸问题
• 自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析。
• 我们拥有丰富的数据,但却缺乏有用的信息 • 数据爆炸但知识贫乏
数据挖掘的作用
数据挖掘:在大量的数据中挖掘感兴趣的知 识(规则,规律,模式,约束)
评价函数
• 评价函数通常用来评估某个特征或特征子集分类 的能力。
• 最优特征子集产生和评价函数是相关的,不同评 价函数可能产生不同的最优特征子集。
• 将评价函数分为两类:过滤模型(filter)、封装模 型(wrapper)和混合模型。
• 用符号J ( Y )来表示评价函数,其中Y是一个特 征集,J( Y )越大表示特征集Y越好。
23
过滤模型
• 子集搜索算法通过在一定的度量标准指导下遍历 候选特征子集,对每个子集进行优劣评价,当搜 索停止时即可选出最优(或近似最优)的特征子 集。
24
封装模型
• 封装模型:在此模型中,学习算法封装在特征选 择的过程中,用特征子集在学习算法上得到的挖 掘性能作为特征子集优劣的评估准则。在初始特 征空间内进行多次搜索,直至得到最佳的特征子 集。
2022/3/23
数据挖掘中的特征选择
12
什么是特征选择?
• 模式识别系统的输入时传感器对实物或过程进行测量所得到 的数据,其中有些数据可以直接作为特征,有一些需要经过 处理之后作为特征,这样的一组特征一般为原始特征。
• 在原始特征中,并不一定每个特征都有用,从原始特征集合 中选择对分类结果有用的特征的过程称为特征选择。
• 序列算法:这类算法实际上是一种贪心算法,算法时间 复杂度较低,但是可能会陷入局部最优值,不一定能找 到全局最优解。
• 随机算法:随机算法属于一种近似算法,能找出问题的 近似最优解。每个随机算法都需要设置一定的参数,这 些参数的选择很重要。
34
搜索策略
• 穷举算法:穷举搜索 Exhaustive Search (ES) 分支限界法 Branch and Bound (B&B) 集束搜索 Beam Search (BS)
32
Filter-信息增益(2)
• 对于分类系统来说,类别C是变量,他可能的取值为 {C1,C2,…,Cn},而每个类别出现的概率是P(Ci),分类系统的 信息熵为:
• 当新加入一个特征Fj后,系统的信息熵变为:
19
过滤模型
• 过滤模型:根据训练集进行特征选择,在特征选 择的过程中并不涉及任何学习算法。即特征子集 在学习算法运行之前就被单独选定。但学习算法 用于测试最终特征子集的性能。
• 过滤模型简单且效率很高。由于过滤模型中的特 征选择过程独立于学习算法,这就容易与后面的 学习算法产生偏差,因此为了克服这个缺点提出 了封装模型。
• 增加F特征前后的信息增益为: • 假设存在特征子集A和特征子集B,分类变量为C,若
IG( C|A ) > IG( C|B ) ,则认为选用特征子集A的分类结果 比B好,因此倾向于选用特征子集A。
33
搜索策略
• 穷举算法:对特征空间进行穷举搜索(当然也会采用剪 枝等优化),搜索出来的特征集对于样本集是最优的。 这类算法的时间复杂度是指数级的。
特征提取 ( Feature extraction ) 是指利用已有的特征计算出一个抽 象程度更高的特征集。对已有特征 集合进行映射变换得到。 PCA、LDA
特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) 或属 性选择( Attribute Selection )。 特征选择实质是从原始数据集中选 取最优子集的过程。
27
混合模型
28
评价函数-Filter
• 距离或可分性度量:距离度量有时候也称作类别可分离 判据、离散度准则,在统计模式识别中对类别的可分离性 研究的比较深入。 --欧几里得距离、马氏距离、巴氏距离等
• 相关性度量:用来度量特征和类别之间的相关性。 --相关系数
• 信息论度量: --信息增益、最小描述长度、互信息
杂,其推广能力会下降。 特征选择能剔除不相关(irrelevant)或冗余(redundant )的特 征,从而达到减少特征个数,提高模型精确度,减少运行 时间的目的。另一方面,选取出真正相关的特征简化了模 型,使研究人员易于理解数据产生的过程。
14
特征选择和特征抽取区别?
模式识别中特征降维方法有两种:特征抽取和特征选择
基于核函数的主成分分析(KPCA),基于核函 数独立成分(KICA),基于核函数的判别分析 (KLDA) 。 • 基于特征值(流形)的非线性降维方法有:
ISOMAP(Isometric feature mapping),局部线 性嵌入(LLE),拉普拉斯特征映射(LE) 。
17
特征选择一般流程
A. 产生过程( Generation Procedure ):按一定的搜索策略产生候选特征子 集。
• 风险分析和管理
• 风险预测,客户保持,保险业的改良,质量控制,竞争分 析
• 欺骗检测和异常模式的监测 (孤立点)
• 其他的应用
• 文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 • 流数据挖掘 • DNA 和生物数据分析
2022/3/23
数据挖掘中的特征选择
5
数据挖掘: 数据库中的知识挖掘
选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规 则挖掘, 聚类分析等
2022/3/23
数据挖掘中的特征选择
7
选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示
可视化,转换,消除冗余模式等等
运用发现的知识
2022/3/23
数据挖掘中的特征选择
8
数据挖掘:多个学科的融合
2022/3/23
数据挖掘中的特征选择
11
特征降维在数据挖掘中的作用
因为在文本分类、信息检索和生物信息学等数据挖掘的应 用领域中,数据的维数往往是很高的。
高维的数据集中包含了大量的特征(属性)。比如一个文 本数据集中,每一个文本都可以用一个向量来表示,向量 中的每一个元素就是每一个词在该文本中出现的频率。在 这种情况下,这个数据集中就存在着成千上万的特征。这 种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。
• 可以使用线性相关系数(correlation coefficient) 来衡量向 量之间线性相关度。
31
Filter-信息增益(1)
• 通过计算特征的信息增益来对特征进行评价。 • 信息熵:假设存在离散变量Y,Y中可能的取值包括{y1,
y2,....,ym} ,yi出现的概率为Pi。则Y的信息熵定义为:
• 序列算法:前向顺序选择 后向顺序选择 增L去R算法 双向搜索算法 序列浮动选择算法
• 随机算法:随机产生序列选择算法 模拟退火算法 遗传算法
35
穷举搜索(ES)
• 穷举所有满足条件的特征子集,从中选取最优。如果有N
个特征,不限定选取特征的个数,则有 2N 个候选特
征子集。 • 从D个特征中选择d个,可能组合q
数据挖掘是一种从大量数据中寻找其规律的 技术。它综合了统计学、数据库技术和人工 智能技术
2022/3/23
数据挖掘中的特征选择
3
数据库越来越大
数据挖掘
海量的数据
有价值的知识
2022/3/23
数据挖掘中的特征选择
4
数据挖掘的应用
• 数据分析和决策支持
• 市场分析和管理
• 客户关系管理 (CRM),市场占有量分析,交叉销售,目 标市场
15
特征抽取
• 特征抽取是指通过线性或非线性映射将样本空间 从高维空间映射到低维空间。
• 降维方法主要分为两类:线性或非线性。而非线 性降维方法又可分为基于核函数和基于特征值的 方法。
16
特征抽取
• 线性降维方法有: 主成分分析(PCA),独立成分分析(ICA),线
性判别分析(LDA),局部特征分析(LFA) 。 • 基于核函数的非线性降维方法有:
20
过滤模型
21
过滤模型
• 基于过滤模型的算法主要有两类:特征权重和子 集搜索。
• 这两类算法的不同之处在于是对单个特征进行评 价还是对整个特征子集进行评价。
22
过滤模型
• 特征权重算法对每个特征指定一个权值,并按照 它与目标概念的相关度对其进行排序,如果一个 特征的相关度权值大于某个阈值,则认为该特征 优秀,并且选择该特征。该算法缺点在于:他们 可以捕获特征与目标概念间的相关性,却不能发 现特征间的冗余性。而经验证明除了无关特征对 学习任务的影响,冗余特征同样影响学习算法的 速度和准确性,也应尽可能消除冗余特征。 Relief算法是一个比较著名的特征权重类方法。
B. 评价函数( Evaluation Function ) :通过某个评价函数来评估特征子集的 优劣。
C. 停止准则( Stopping Criterion ):停止准则是与评价函数相关的,一般是 一个阈值,当评价函数值达到这个阈值后就可停止搜索。
D. 子集验证:用来验证最终所选子集的有效性。
18
(KDD)
• 数据挖掘—知识挖掘的核心
模式评估
数据挖掘 任务相关数据
数据仓库
选择
数据清理 数据集成
2022/3/23 数据库
数据挖掘中的特征选择
6
数据挖掘的步骤
了解应用领域
了解相关的知识和应用的目标
创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工
作量)
数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表 示
• 与过滤模型相比,封装模型具有更高的精度,但 效率较低,运行速度慢于过滤模型。
25
封装模型
26
混合模型
• 过滤模型与封装模型的根本区别在于对学习算法 的使用方式。
• 混合模型:由于过滤模型与封装模型之间的互补 性,混合模型把这两种模型进行组合,也就是先 用过滤模式进行初选,再用封装模型来获得最佳 的特征子集。
• 使用分支限界进行特征选择需要先引入一个单调性假设 (monotonicity assumption):J(Y) < J(Y+x),即任何 特征集的都优于其任何的子集。
• 如果初始特征集合中共有N个特征,现在需要进行特征选 择得到M个集合,分支界限法可以看作是去掉M = N-M个 特征。
• 分支限界法搜索过程可以表达为树状结构。
比如在识别苹果和橙子的系统中,我们可以抽取的特征很多 (体积、重量、颜色、高度、宽度、最宽处高度),在这些特 征中有用的是(颜色、高度、最宽处高度),其它特征对识别 意义不大,所以去掉。
13
为什么进行特征选择?
在机器学习的实际应用中,特征数量往往较多,其中可能 存在不相关的特征,特征之间也可能存在相互依赖,容易 导致如下的后果: • 特征个数越多,分析特征、训练模型所需的时间就越长。 • 特征个数越多,容易引起“维度灾难”,模型也会越复
29
Filter-距离度量
• 距离度量,是基于这样的假设:好的特征子集应该使得 属于同一类的样本距离尽可能小,属于不同类的样本之 间的距离尽可能远。 常见的有欧氏距离、马氏距离、巴 氏距离等等。
30
Filter-相关系数
• 运用相关性来度量特征子集的好坏是基于这样一个假设: 好的特征子集所包含的特征应该是与分类的相关度较高 (相关度高),而特征之间相关度较低的(冗余度低)。
数据库系统
统计学
机器学习
数据挖掘
可视化
算法
2022/3/23
其他学科
数据挖掘中的特征选择
9
数据挖掘的分类
预言(Predication):用历史预测 未来
描述(Description):了解数据中 潜在的规律
2022/3/23
数据挖掘中的特征选择
10
数据挖掘的主要方法
分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
• 计算所有可能的特征组合的J,选择J最大的那组为最优组 合。这种方法计算量大,只适用于特征个数比较少的情况, 运算量随着特征维数的增加呈指数递增,实际应用中经常 碰到几百甚至成千上万个特征,因此穷举法虽然简单却难 以实际应用。
36
分支限界法(B&B)
• 分支限界法是一种自上而下的搜索算法,采用剪枝策略 优化搜索过程,得到全局最优解。
数我据挖们掘毕中业的特啦征选择
其实是答辩的标题地方
1
为什么需要数据挖掘
• 数据爆炸问题
• 自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析。
• 我们拥有丰富的数据,但却缺乏有用的信息 • 数据爆炸但知识贫乏
数据挖掘的作用
数据挖掘:在大量的数据中挖掘感兴趣的知 识(规则,规律,模式,约束)
评价函数
• 评价函数通常用来评估某个特征或特征子集分类 的能力。
• 最优特征子集产生和评价函数是相关的,不同评 价函数可能产生不同的最优特征子集。
• 将评价函数分为两类:过滤模型(filter)、封装模 型(wrapper)和混合模型。
• 用符号J ( Y )来表示评价函数,其中Y是一个特 征集,J( Y )越大表示特征集Y越好。
23
过滤模型
• 子集搜索算法通过在一定的度量标准指导下遍历 候选特征子集,对每个子集进行优劣评价,当搜 索停止时即可选出最优(或近似最优)的特征子 集。
24
封装模型
• 封装模型:在此模型中,学习算法封装在特征选 择的过程中,用特征子集在学习算法上得到的挖 掘性能作为特征子集优劣的评估准则。在初始特 征空间内进行多次搜索,直至得到最佳的特征子 集。
2022/3/23
数据挖掘中的特征选择
12
什么是特征选择?
• 模式识别系统的输入时传感器对实物或过程进行测量所得到 的数据,其中有些数据可以直接作为特征,有一些需要经过 处理之后作为特征,这样的一组特征一般为原始特征。
• 在原始特征中,并不一定每个特征都有用,从原始特征集合 中选择对分类结果有用的特征的过程称为特征选择。
• 序列算法:这类算法实际上是一种贪心算法,算法时间 复杂度较低,但是可能会陷入局部最优值,不一定能找 到全局最优解。
• 随机算法:随机算法属于一种近似算法,能找出问题的 近似最优解。每个随机算法都需要设置一定的参数,这 些参数的选择很重要。
34
搜索策略
• 穷举算法:穷举搜索 Exhaustive Search (ES) 分支限界法 Branch and Bound (B&B) 集束搜索 Beam Search (BS)