数据挖掘中的特征选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
孤立点) 欺骗检测和异常模式的监测 (孤立点 孤立点
其他的应用
新闻组, 文本挖掘 (新闻组,电子邮件,文档 和Web挖掘 新闻组 电子邮件,文档) 挖掘 流数据挖掘 DNA 和生物数据分析
2011-11-10 数据挖掘中的特征选择 5
数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘: 数据库中的知识挖掘(KDD)
33
数据降维是指通过线性或非线性映射将样本空间从高维 空间映射到低维空间。 空间映射到低维空间。 降维方法主要分为两类:线性或非线性。 降维方法主要分为两类:线性或非线性。而非线性降维 方法又可分为基于核函数和基于特征值的方法。 方法又可分为基于核函数和基于特征值的方法。
2011-11-10 数据挖掘中的特征选择 9
典型数据挖掘系统
图形用户界面
模式评估 数据挖掘引擎
数据库或数据仓库服务器
数据清洗 数据集成 过滤
知识库
数据库
2011-11-10
数据仓库
数据挖掘中的特征选择 10
数据挖掘: 数据挖掘:多个学科的融合
数据库系统 统计学
机器学习
数据挖掘
可视化
算法
其他学科
商业分析家
可视化技术
数据挖掘
数据分析家
信息发现
数据探索
统计分析,查询和报告 统计分析,
数据仓库/ 数据仓库/数据市场
在线分析处理(OLAP),多维分析(MDA) 在线分析处理(OLAP),多维分析(MDA
数据源
DBA
论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP) 论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP
数据挖掘中的特征选择
26
特征权重算法对每个特征指定一个权值, 特征权重算法对每个特征指定一个权值 , 并按照它与目 标概念的相关度对其进行排序, 标概念的相关度对其进行排序 , 如果一个特征的相关度 权值大于某个阈值, 则认为该特征优秀, 权值大于某个阈值 , 则认为该特征优秀 , 并且选择该特 该算法缺点在于: 征 。 该算法缺点在于 : 他们可以捕获特征与目标概念间 的相关性, 却不能发现特征间的冗余性 。 而经验证明除 的相关性 , 却不能发现特征间的冗余性。 了无关特征对学习任务的影响, 了无关特征对学习任务的影响 , 冗余特征同样影响学习 算法的速度和准确性,也应尽可能消除冗余特征。 Relief算法是一个比较著名的特征权重类方法。 算法是一个比较著名的特征权重类方法。 算法是一个比较著名的特征权重类方法
2011-11-10
ቤተ መጻሕፍቲ ባይዱ
数据挖掘中的特征选择
24
2011-11-10
数据挖掘中的特征选择
25
基于过滤模型的算法主要有两类: 基于过滤模型的算法主要有两类 : 特征权重和子集搜索 。 这两类算法的不同之处在于是对单个特征进行评价还是 对整个特征子集进行评价。 对整个特征子集进行评价。
2011-11-10
2011-11-10
数据挖掘中的特征选择
16
特征选择的过程 ( M. Dash and H. Liu 1997 )
2011-11-10
数据挖掘中的特征选择
17
特征选择大体上可以看作是一个搜索过程, 特征选择大体上可以看作是一个搜索过程 , 搜索空间中 的每一个状态都可以看成是一个可能特征子集。 的每一个状态都可以看成是一个可能特征子集。 法分为完全搜索 全搜索(Complete) , 启发式 搜索 搜索的算 法分为完 全搜索 (Heuristic),随机搜索(Random) 3大类。 (Heuristic),随机搜索(Random) 3大类。 大类
2011-11-10
数据挖掘中的特征选择
18
完全搜索分为穷举搜索与非穷举搜索两类。 完全搜索分为穷举搜索与非穷举搜索两类。 (1) 广度优先搜索 广度优先搜索(BFS ) (2) 分支限界搜索 分支限界搜索(BAB) (3) 定向搜索 (BS) (4) 最优优先搜索 最优优先搜索(Best First Search)
2011-11-10
数据挖掘中的特征选择
20
随机算法 (1) 随机产生序列选择算法 随机产生序列选择算法(RGSS) (2) 模拟退火算法 模拟退火算法(SA) (3) 遗传算法 遗传算法(GA)
2011-11-10
数据挖掘中的特征选择
21
特征的评价函数
特征的评估函数分为五类: 相关性,距离, 信息增益, 特征的评估函数分为五类 : 相关性 , 距离 , 信息增益 , 一致性和分类错误率。 一致性和分类错误率。 常用的有平方距离,欧氏距离,非线性测量, Minkowski 距离 信息增益, 最小描述长度, Minkowski距离 , 信息增益 , 最小描述长度 , 互信息 距离, 依赖性度量或相关性度量, 一致性度量, , 依赖性度量或相关性度量 , 一致性度量 , 分类错误率 ,分类正确率
数据挖掘— 数据挖掘—知识挖掘的核心
模式评估
数据挖掘 任务相关数据 数据仓库 数据清理 数据集成 数据库 选择
2011-11-10
数据挖掘中的特征选择
6
数据挖掘的步骤
了解应用领域
了解相关的知识和应用的目标
创建目标数据集: 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60% 这个可能要占全过程60 数据清理和预处理: (这个可能要占全过程60%的工作 量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示 找到有用的特征,维数缩减/变量缩减, 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖 掘, 聚类分析等
2011-11-10
数据挖掘中的特征选择
19
启发式搜索 (1) 序列前向选择 序列前向选择(SFS) (2) 序列后向选择 序列后向选择(SBS) (3) 双向搜索 双向搜索(BDS) (4) 增L去R选择算法 (LRS) 去 选择算法 (5) 序列浮动选择 序列浮动选择(Sequential Floating Selection) (6) 决策树 决策树(DTM)
数据挖掘中的数据归约问题
为什么需要数据挖掘
数据爆炸问题
自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析。 库中以待分析。
我们拥有丰富的数据, 我们拥有丰富的数据,但却缺乏有用的信息 数据爆炸但知识贫乏
数据挖掘的作用
数据挖掘: 数据挖掘:在大量的数据中挖掘感兴趣的知识 规则,规律,模式,约束) (规则,规律,模式,约束) 数据挖掘是一种从大量数据中寻找其规律的技 数据挖掘是一种从大量数据中寻找其规律的技 它综合了统计学、 术。它综合了统计学、数据库技术和人工智能 技术
2011-11-10
数据挖掘中的特征选择
3
数 据库 越
2011-11-10 数据挖掘中的特征选择 7
选择挖掘算法 数据挖掘: 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换, 可视化,转换,消除冗余模式等等 运用发现的知识
2011-11-10
数据挖掘中的特征选择
8
数据挖掘和商业智能
支持商业决策的 潜能不断增长 最终用户
决策支持 数据表示
来越大 数据挖掘
海量的数据
数据挖掘中的特征选择
有价值的知识
2011-11-10
4
数据挖掘的应用
数据分析和决策支持
市场分析和管理
客户关系管理 (CRM),市场占有量分析,交叉销售,目标市 ,市场占有量分析,交叉销售, 场
风险分析和管理
风险预测,客户保持,保险业的改良,质量控制, 风险预测,客户保持,保险业的改良,质量控制,竞争分析
2011-11-10
数据挖掘中的特征选择
27
子集搜索算法通过在一定的度量标准指导下遍历候选特 征子集,对每个子集进行优劣评价, 征子集,对每个子集进行优劣评价,当搜索停止时即可 选出最优(或近似最优)的特征子集。 选出最优(或近似最优)的特征子集。
2011-11-10
数据挖掘中的特征选择
28
封装模型:在此模型中, 封装模型:在此模型中,学习算法封装在特征选择的
2011-11-10
数据挖掘中的特征选择
29
2011-11-10
数据挖掘中的特征选择
30
过滤模型与包裹模型的根本区别在于对学习算法的使用 方式。 方式。
混合模型:由于过滤模型与封装模型之间的互补性, 混合模型:
混合模型把这两种模型进行组合,也就是先用过滤模式进 行初选,再用封装模型来获得最佳的特征子集。
数据挖掘中的特征选择 11
2011-11-10
数据挖掘的分类
预言( ):用历史预测 预言(Predication):用历史预测 ): 未来 描述( ):了解数据中 描述(Description):了解数据中 ): 潜在的规律
2011-11-10
数据挖掘中的特征选择
12
数据挖掘的主要方法
分类( 分类(Classification) ) 聚类(Clustering) 聚类 相关规则(Association Rule) 相关规则 回归(Regression) 回归 其他
2011-11-10
数据挖掘中的特征选择
31
2011-11-10
数据挖掘中的特征选择
32
数据降维
数据降维是指通过线性或非线性映射将样本空间从高维 空间映射到低维空间。 空间映射到低维空间。 降维方法主要分为两类:线性或非线性。 降维方法主要分为两类:线性或非线性。
2011-11-10
数据挖掘中的特征选择
2011-11-10
数据挖掘中的特征选择
14
特征选择和特征降维是两类特征归约方法。 特征选择和特征降维是两类特征归约方法。
2011-11-10
数据挖掘中的特征选择
15
特征选择
特征选择的一般过程包括: 特征选择的一般过程包括 : 首先从特征全集中产生出一 个特征子集, 然后用评价函数对该特征子集进行评价, 个特征子集 , 然后用评价函数对该特征子集进行评价 , 评价的结果与停止准则进行比较, 评价的结果与停止准则进行比较 , 若评价结果比停止准 则好就停止, 否则就继续产生下一组特征子集, 则好就停止 , 否则就继续产生下一组特征子集 , 继续进 行特征选择。 选出来的特征子集一般还要验证其有效性 行特征选择 。 。
过程中, 过程中 , 用特征子集在学习算法上得到的挖掘性能作为 特征子集优劣的评估准则。 特征子集优劣的评估准则 。 在初始特征空间内进行多次 搜索,直至得到最佳的特征子集。 搜索,直至得到最佳的特征子集。 与过滤模型相比,封装模型具有更高的精度, 但效率较 与过滤模型相比 , 封装模型具有更高的精度 , 低,运行速度慢于过滤模型。 运行速度慢于过滤模型。
2011-11-10
数据挖掘中的特征选择
22
特征选择方法的模型
一般地,特征选择方法可以分为三种模型, 分别是: 一般地 , 特征选择方法可以分为三种模型 , 分别是 : 过 滤模型、封装模型和混合模型。 滤模型、封装模型和混合模型。
2011-11-10
数据挖掘中的特征选择
23
过滤模型:根据训练集进行特征选择, 过滤模型:根据训练集进行特征选择,在特征选择的
2011-11-10
数据挖掘中的特征选择
13
特征归约在数据挖掘中的作用
因为在文本分类、 因为在文本分类、信息检索和生物信息学等数据挖掘的 应用领域中,数据的维数往往是很高的。 应用领域中,数据的维数往往是很高的。 高维的数据集中包含了大量的特征(属性 。 高维的数据集中包含了大量的特征 属性)。比如一个文 属性 本数据集中,每一个文本都可以用一个向量来表示,向 本数据集中,每一个文本都可以用一个向量来表示, 量中的每一个元素就是每一个词在该文本中出现的频率 。在这种情况下,这个数据集中就存在着成千上万的特 在这种情况下, 征。这种高维的数据给数据挖掘带来了“维灾难”(The 这种高维的数据给数据挖掘带来了“维灾难” Curse of Dimensionality)问题。 问题。 问题
过程中并不涉及任何学习算法。 过程中并不涉及任何学习算法 。 即特征子集在学习算法 运行之前就被单独选定。 运行之前就被单独选定 。 但学习算法用于测试最终特征 子集的性能。 子集的性能。 过滤模型简单且效率很高。 由于过滤模型中的特征选择 过滤模型简单且效率很高 。 过程独立于学习算法, 过程独立于学习算法 , 这就容易与后面的学习算法产生 偏差,因此为了克服这个缺点提出了封装模型。 偏差,因此为了克服这个缺点提出了封装模型。