数据挖掘中的特征选择

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

孤立点) 欺骗检测和异常模式的监测 (孤立点孤立点
其他的应用
新闻组，文本挖掘 (新闻组，电子邮件，文档和Web挖掘新闻组电子邮件，文档) 挖掘流数据挖掘 DNA 和生物数据分析
2011-11-10 数据挖掘中的特征选择 5
数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘: 数据库中的知识挖掘(KDD)
33
数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。空间映射到低维空间。降维方法主要分为两类：线性或非线性。降维方法主要分为两类：线性或非线性。而非线性降维方法又可分为基于核函数和基于特征值的方法。方法又可分为基于核函数和基于特征值的方法。
2011-11-10 数据挖掘中的特征选择 9
典型数据挖掘系统
图形用户界面
模式评估数据挖掘引擎
数据库或数据仓库服务器
数据清洗数据集成过滤
知识库
数据库
2011-11-10
数据仓库
数据挖掘中的特征选择 10
数据挖掘: 数据挖掘:多个学科的融合
数据库系统统计学
机器学习
数据挖掘
可视化
算法
其他学科
商业分析家
可视化技术
数据挖掘
数据分析家
信息发现
数据探索
统计分析，查询和报告统计分析，
数据仓库/ 数据仓库/数据市场
在线分析处理（OLAP)，多维分析(MDA) 在线分析处理（OLAP)，多维分析(MDA
数据源
DBA
论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP) 论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP
数据挖掘中的特征选择
26
特征权重算法对每个特征指定一个权值，特征权重算法对每个特征指定一个权值，并按照它与目标概念的相关度对其进行排序，标概念的相关度对其进行排序，如果一个特征的相关度权值大于某个阈值，则认为该特征优秀，权值大于某个阈值，则认为该特征优秀，并且选择该特该算法缺点在于：征。该算法缺点在于：他们可以捕获特征与目标概念间的相关性，却不能发现特征间的冗余性。而经验证明除的相关性，却不能发现特征间的冗余性。了无关特征对学习任务的影响，了无关特征对学习任务的影响，冗余特征同样影响学习算法的速度和准确性，也应尽可能消除冗余特征。 Relief算法是一个比较著名的特征权重类方法。算法是一个比较著名的特征权重类方法。算法是一个比较著名的特征权重类方法
2011-11-10
ቤተ መጻሕፍቲ ባይዱ
数据挖掘中的特征选择
24
2011-11-10
数据挖掘中的特征选择
25
基于过滤模型的算法主要有两类：基于过滤模型的算法主要有两类：特征权重和子集搜索。这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。对整个特征子集进行评价。
2011-11-10
2011-11-10
数据挖掘中的特征选择
16
特征选择的过程 ( M. Dash and H. Liu 1997 )
2011-11-10
数据挖掘中的特征选择
17
特征选择大体上可以看作是一个搜索过程，特征选择大体上可以看作是一个搜索过程，搜索空间中的每一个状态都可以看成是一个可能特征子集。的每一个状态都可以看成是一个可能特征子集。法分为完全搜索全搜索(Complete) ，启发式搜索搜索的算法分为完全搜索 (Heuristic)，随机搜索(Random) 3大类。 (Heuristic)，随机搜索(Random) 3大类。大类
2011-11-10
数据挖掘中的特征选择
18
完全搜索分为穷举搜索与非穷举搜索两类。完全搜索分为穷举搜索与非穷举搜索两类。 (1) 广度优先搜索广度优先搜索(BFS ) (2) 分支限界搜索分支限界搜索(BAB) (3) 定向搜索 (BS) (4) 最优优先搜索最优优先搜索(Best First Search)
2011-11-10
数据挖掘中的特征选择
20
随机算法 (1) 随机产生序列选择算法随机产生序列选择算法(RGSS) (2) 模拟退火算法模拟退火算法(SA) (3) 遗传算法遗传算法(GA)
2011-11-10
数据挖掘中的特征选择
21
特征的评价函数
特征的评估函数分为五类：相关性，距离，信息增益，特征的评估函数分为五类：相关性，距离，信息增益，一致性和分类错误率。一致性和分类错误率。常用的有平方距离，欧氏距离，非线性测量， Minkowski 距离信息增益，最小描述长度， Minkowski距离，信息增益，最小描述长度，互信息距离，依赖性度量或相关性度量，一致性度量，，依赖性度量或相关性度量，一致性度量，分类错误率，分类正确率
数据挖掘— 数据挖掘—知识挖掘的核心
模式评估
数据挖掘任务相关数据数据仓库数据清理数据集成数据库选择
2011-11-10
数据挖掘中的特征选择
6
数据挖掘的步骤
了解应用领域
了解相关的知识和应用的目标
创建目标数据集: 创建目标数据集: 选择数据数据清理和预处理: (这个可能要占全过程60％这个可能要占全过程60 数据清理和预处理: (这个可能要占全过程60％的工作量) 数据缩减和变换找到有用的特征，维数缩减/变量缩减，不变量的表示找到有用的特征，维数缩减/变量缩减，选择数据挖掘的功能数据总结, 分类模型数据挖掘, 回归分析, 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等
2011-11-10
数据挖掘中的特征选择
19
启发式搜索 (1) 序列前向选择序列前向选择(SFS) (2) 序列后向选择序列后向选择(SBS) (3) 双向搜索双向搜索(BDS) (4) 增L去R选择算法 (LRS) 去选择算法 (5) 序列浮动选择序列浮动选择(Sequential Floating Selection) (6) 决策树决策树(DTM)
数据挖掘中的数据归约问题
为什么需要数据挖掘
数据爆炸问题
自动数据收集工具和成熟的数据库技术使得大量的数据被收集，存储在数据库、数据被收集，存储在数据库、数据仓库或其他信息库中以待分析。库中以待分析。
我们拥有丰富的数据，我们拥有丰富的数据，但却缺乏有用的信息数据爆炸但知识贫乏
数据挖掘的作用
数据挖掘：数据挖掘：在大量的数据中挖掘感兴趣的知识规则，规律，模式，约束）（规则，规律，模式，约束）数据挖掘是一种从大量数据中寻找其规律的技数据挖掘是一种从大量数据中寻找其规律的技它综合了统计学、术。它综合了统计学、数据库技术和人工智能技术
2011-11-10
数据挖掘中的特征选择
3
数据库越
2011-11-10 数据挖掘中的特征选择 7
选择挖掘算法数据挖掘: 数据挖掘: 寻找感兴趣的模式模式评估和知识表示可视化，转换，可视化，转换，消除冗余模式等等运用发现的知识
2011-11-10
数据挖掘中的特征选择
8
数据挖掘和商业智能
支持商业决策的潜能不断增长最终用户
决策支持数据表示
来越大数据挖掘
海量的数据
数据挖掘中的特征选择
有价值的知识
2011-11-10
4
数据挖掘的应用
数据分析和决策支持
市场分析和管理
客户关系管理 (CRM)，市场占有量分析，交叉销售，目标市，市场占有量分析，交叉销售，场
风险分析和管理
风险预测，客户保持，保险业的改良，质量控制，风险预测，客户保持，保险业的改良，质量控制，竞争分析
2011-11-10
数据挖掘中的特征选择
27
子集搜索算法通过在一定的度量标准指导下遍历候选特征子集，对每个子集进行优劣评价，征子集，对每个子集进行优劣评价，当搜索停止时即可选出最优（或近似最优）的特征子集。选出最优（或近似最优）的特征子集。
2011-11-10
数据挖掘中的特征选择
28
封装模型：在此模型中，封装模型：在此模型中，学习算法封装在特征选择的
2011-11-10
数据挖掘中的特征选择
29
2011-11-10
数据挖掘中的特征选择
30
过滤模型与包裹模型的根本区别在于对学习算法的使用方式。方式。
混合模型：由于过滤模型与封装模型之间的互补性，混合模型：
混合模型把这两种模型进行组合，也就是先用过滤模式进行初选，再用封装模型来获得最佳的特征子集。
数据挖掘中的特征选择 11
2011-11-10
数据挖掘的分类
预言（）：用历史预测预言（Predication）：用历史预测）：未来描述（）：了解数据中描述（Description）：了解数据中）：潜在的规律
2011-11-10
数据挖掘中的特征选择
12
数据挖掘的主要方法
分类（分类（Classification））聚类(Clustering) 聚类相关规则(Association Rule) 相关规则回归(Regression) 回归其他
2011-11-10
数据挖掘中的特征选择
31
2011-11-10
数据挖掘中的特征选择
32
数据降维
数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。空间映射到低维空间。降维方法主要分为两类：线性或非线性。降维方法主要分为两类：线性或非线性。
2011-11-10
数据挖掘中的特征选择
2011-11-10
数据挖掘中的特征选择
14
特征选择和特征降维是两类特征归约方法。特征选择和特征降维是两类特征归约方法。
2011-11-10
数据挖掘中的特征选择
15
特征选择
特征选择的一般过程包括：特征选择的一般过程包括：首先从特征全集中产生出一个特征子集，然后用评价函数对该特征子集进行评价，个特征子集，然后用评价函数对该特征子集进行评价，评价的结果与停止准则进行比较，评价的结果与停止准则进行比较，若评价结果比停止准则好就停止，否则就继续产生下一组特征子集，则好就停止，否则就继续产生下一组特征子集，继续进行特征选择。选出来的特征子集一般还要验证其有效性行特征选择。。
过程中，过程中，用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则。特征子集优劣的评估准则。在初始特征空间内进行多次搜索，直至得到最佳的特征子集。搜索，直至得到最佳的特征子集。与过滤模型相比，封装模型具有更高的精度，但效率较与过滤模型相比，封装模型具有更高的精度，低，运行速度慢于过滤模型。运行速度慢于过滤模型。
2011-11-10
数据挖掘中的特征选择
22
特征选择方法的模型
一般地，特征选择方法可以分为三种模型，分别是：一般地，特征选择方法可以分为三种模型，分别是：过滤模型、封装模型和混合模型。滤模型、封装模型和混合模型。
2011-11-10
数据挖掘中的特征选择
23
过滤模型：根据训练集进行特征选择，过滤模型：根据训练集进行特征选择，在特征选择的
2011-11-10
数据挖掘中的特征选择
13
特征归约在数据挖掘中的作用
因为在文本分类、因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中，数据的维数往往是很高的。应用领域中，数据的维数往往是很高的。高维的数据集中包含了大量的特征(属性。高维的数据集中包含了大量的特征属性)。比如一个文属性本数据集中，每一个文本都可以用一个向量来表示，向本数据集中，每一个文本都可以用一个向量来表示，量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下，这个数据集中就存在着成千上万的特在这种情况下，征。这种高维的数据给数据挖掘带来了“维灾难”(The 这种高维的数据给数据挖掘带来了“维灾难” Curse of Dimensionality)问题。问题。问题
过程中并不涉及任何学习算法。过程中并不涉及任何学习算法。即特征子集在学习算法运行之前就被单独选定。运行之前就被单独选定。但学习算法用于测试最终特征子集的性能。子集的性能。过滤模型简单且效率很高。由于过滤模型中的特征选择过滤模型简单且效率很高。过程独立于学习算法，过程独立于学习算法，这就容易与后面的学习算法产生偏差，因此为了克服这个缺点提出了封装模型。偏差，因此为了克服这个缺点提出了封装模型。