数据挖掘中的特征选择分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据集成
过滤
2022/3/23
数据库
数据仓库
数据挖掘中的特征选择
知识库
10
数据挖掘:多个学科的融合
数据库系统
统计学
机器学习
数据挖掘
可视化
算法
其他学科
2022/3/23
数据挖掘中的特征选择
11
数据挖掘的分类
预言(Predication):用历史预测 未来
描述(Description):了解数据中 潜在的规律
数据探索 统计分析,查询和报告
数据仓库/数据市场
在线分析处理(OLAP),多维分析(MDA) 数据源
DBA
论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP)
2022/3/23
数据挖掘中的特征选择
9
典型数据挖掘系统
图形用户界面
模式评估 数据挖掘引擎
数据库或数据仓库服务器
数据清洗
高维的数据集中包含了大量的特征(属性)。比如一个文 本数据集中,每一个文本都可以用一个向量来表示,向 量中的每一个元素就是每一个词在该文本中出现的频率。 在这种情况下,这个数据集中就存在着成千上万的特征。 这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。
数据库
2022/3/23
数据挖掘中的特征选择
6
数据挖掘的步骤
了解应用领域
了解相关的知识和应用的目标
创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作
量)
数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示
选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖 掘, 聚类分析等
2022/3/23
数据挖掘中的特征选择
7
选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示
可视化,转换,消除冗余模式等等
运用发现的知识
2022/3/23
数据挖掘中的特征选择
8
数据挖掘和商业智能
支持商业决策的 潜能不断增长
决策支持
最终用户
数据表示 可视化技术 数据挖掘 信息发现
商业分析家 数据分析家
数据挖掘中的数据归约问题
为什么需要数据挖掘
数据爆炸问题
自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析。
我们拥有丰富的数据,但却缺乏有用的信息
数据爆炸但知识贫乏
www.hzdi yan.com www.sys mk120.com http://sj.39.net/dx/150630/464761 6.ht ml http://sj.39.net/dx/150630/464762 5.ht ml http://sj.39.net/dx/150630/464762 7.ht ml http://sj.39.net/dx/150630/464763 1.ht ml http://sj.39.net/dx/150630/464763 2.ht ml http://sj.39.net/dx/150630/464763 3.ht ml http://sj.39.net/dx/150630/464763 4.ht ml http://sj.39.net/dx/150630/464763 7.ht ml http://sj.39.net/dx/150630/464764 1.ht ml http://sj.39.net/dx/150630/464764 3.ht ml http://sj.39.net/dx/150630/464764 4.ht ml http://sj.39.net/dx/150701/464826 9.ht ml http://sj.39.net/dx/150701/464827 3.ht ml http://sj.39.net/dx/150701/464827 4.ht ml http://sj.39.net/dx/150701/464827 9.ht ml http://sj.39.net/dx/150701/464828 9.ht ml http://sj.39.net/dx/150701/464829 0.ht ml http://sj.39.net/dx/150701/464829 5.ht ml http://sj.39.net/dx/150701/464829 8.ht ml http://sj.39.net/dx/150701/464830 0.ht ml
2022/3/23
数据挖掘中的特征选择
3
数据库越来越大
数据挖掘
海量的数据
有价值的知识
2022/3/23
Biblioteka Baidu数据挖掘中的特征选择
4
数据挖掘的应用
数据分析和决策支持
市场分析和管理
客户关系管理 (CRM),市场占有量分析,交叉销售,目标市 场
风险分析和管理
风险预测,客户保持,保险业的改良,质量控制,竞争分析
2022/3/23
数据挖掘中的特征选择
12
数据挖掘的主要方法
分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
2022/3/23
数据挖掘中的特征选择
13
特征归约在数据挖掘中的作用
因为在文本分类、信息检索和生物信息学等数据挖掘的 应用领域中,数据的维数往往是很高的。
欺骗检测和异常模式的监测 (孤立点)
其他的应用
文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 流数据挖掘 DNA 和生物数据分析
2022/3/23
数据挖掘中的特征选择
5
数据挖掘: 数据库中的知识挖掘(KDD)
数据挖掘—知识挖掘的核心
模式评估
数据挖掘 任务相关数据
数据仓库
选择
数据清理 数据集成
2022/3/23
数据挖掘中的特征选择
14
特征选择和特征降维是两类特征归约方法。
2022/3/23
www.qcxgqt.com www.tcsac.com
http://sj.39.net/dx http://www.tul outours.com/ www.1rsp.com
数据挖掘的作用
数据挖掘:在大量的数据中挖掘感兴趣的知识 (规则,规律,模式,约束)
数据挖掘是一种从大量数据中寻找其规律的技 术。它综合了统计学、数据库技术和人工智能 技术