【课件】数据挖掘中的特征选择PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征选择的过程 ( M. Dash and H. Liu 1997 )
特征选择大体上可以看作是一个搜索过程,搜索空间中 的每一个状态都可以看成是一个可能特征子集。
搜索的算 法分为完 全搜索 (Complete),启发式 搜索 (Heuristic),随机搜索(Random) 3大类。
选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示
可视化,转换,消除冗余模式等等
运用发现的知识
数据挖掘和商业智能
支持商业决策的 潜能不断增长
决策支持
最终用户
数据表示 可视化技术 数据挖掘 信息发现
商业分析家 数据分析家
数据探索 统计分析,查询和报告
数据仓库/数据市场
基于过滤模型的算法主要有两类:特征权重和子集搜索 。
这两类算法的不同之处在于是对单个特征进行评价还是 对整个特征子集进行评价。
特征权重算法对每个特征指定一个权值,并按照它与目 标概念的相关度对其进行排序,如果一个特征的相关度 权值大于某个阈值,则认为该特征优秀,并且选择该特 征。该算法缺点在于:他们可以捕获特征与目标概念间 的相关性,却不能发现特征间的冗余性。而经验证明除 了无关特征对学习任务的影响,冗余特征同样影响学习 算法的速度和准确性,也应尽可能消除冗余特征。 Relief算法是一个比较著名的特征权重类方法。
完全搜索分为穷举搜索与非穷举搜索两类。 (1) 广度优先搜索(BFS ) (2) 分支限界搜索(BAB) (3) 定向搜索 (BS) (4) 最优优先搜索(Best First Search)
启发式搜索 (1) 序列前向选择(SFS) (2) 序列后向选择(SBS) (3) 双向搜索(BDS) (4) 增L去R选择算法 (LRS) (5) 序列浮动选择(Sequential Floating Selection) (6) 决策树(DTM)
欺骗检测和异常模式的监测 (孤立点)
其他的应用
文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 流数据挖掘 DNA 和生物数据分析
数据挖掘: 数据库中的知识挖掘(KDD)
数据挖掘—知识挖掘的核心
模式评估
数据挖掘 任务相关数据
数据仓库
选择
数据清理 数据集成
ຫໍສະໝຸດ Baidu数据库
数据挖掘的步骤
特征选择方法的模型
一般地,特征选择方法可以分为三种模型,分别是:过 滤模型、封装模型和混合模型。
过滤模型:根据训练集进行特征选择,在特征选择的
过程中并不涉及任何学习算法。即特征子集在学习算法 运行之前就被单独选定。但学习算法用于测试最终特征 子集的性能。
过滤模型简单且效率很高。由于过滤模型中的特征选择 过程独立于学习算法,这就容易与后面的学习算法产生 偏差,因此为了克服这个缺点提出了封装模型。
在线分析处理(OLAP),多维分析(MDA) 数据源
DBA
论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP)
典型数据挖掘系统
图形用户界面
模式评估 数据挖掘引擎
数据库或数据仓库服务器
数据清洗
数据集成
过滤
数据库
数据仓库
知识库
数据挖掘:多个学科的融合
数据库系统
统计学
机器学习
数据挖掘
特征选择和特征降维是两类特征归约方法。
特征选择
特征选择的一般过程包括:首先从特征全集中产生出一 个特征子集,然后用评价函数对该特征子集进行评价, 评价的结果与停止准则进行比较,若评价结果比停止准 则好就停止,否则就继续产生下一组特征子集,继续进 行特征选择。选出来的特征子集一般还要验证其有效性 。
随机算法 (1) 随机产生序列选择算法(RGSS) (2) 模拟退火算法(SA)
(3) 遗传算法(GA)
特征的评价函数
特征的评估函数分为五类:相关性,距离,信息增益, 一致性和分类错误率。
常用的有平方距离,欧氏距离,非线性测量, Minkowski距离,信息增益,最小描述长度,互信息 ,依赖性度量或相关性度量,一致性度量,分类错误率 ,分类正确率
了解应用领域
了解相关的知识和应用的目标
创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作
量) 数据缩减和变换
找到有用的特征,维数缩减/变量缩减,不变量的表示 选择数据挖掘的功能
数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖 掘, 聚类分析等
可视化
算法
其他学科
数据挖掘的分类
预言(Predication):用历史预测 未来
描述(Description):了解数据中 潜在的规律
数据挖掘的主要方法
分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
特征归约在数据挖掘中的作用
因为在文本分类、信息检索和生物信息学等数据挖掘的 应用领域中,数据的维数往往是很高的。
高维的数据集中包含了大量的特征(属性)。比如一个文 本数据集中,每一个文本都可以用一个向量来表示,向 量中的每一个元素就是每一个词在该文本中出现的频率 。在这种情况下,这个数据集中就存在着成千上万的特 征。这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。
数据挖掘是一种从大量数据中寻找其规律的技 术。它综合了统计学、数据库技术和人工智能 技术
数据库越来越大
数据挖掘
海量的数据
有价值的知识
数据挖掘的应用
数据分析和决策支持
市场分析和管理
客户关系管理 (CRM),市场占有量分析,交叉销售,目标市 场
风险分析和管理
风险预测,客户保持,保险业的改良,质量控制,竞争分析
数据挖掘中的数据归约问题
为什么需要数据挖掘 2019/10/25
数据爆炸问题
数据挖掘中的特征选择
自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析。
我们拥有丰富的数据,但却缺乏有用的信息
数据爆炸但知识贫乏
数据挖掘的作用
数据挖掘:在大量的数据中挖掘感兴趣的知识 (规则,规律,模式,约束)