数据挖掘技术概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘步骤
Ø 数据预处理 ü数据清理(消除噪音或不一致数据,补缺) ü数据集成(多种数据源可以组合在一起) ü数据变换(规范化) ü数据规约(数据简化)
Ø 数据挖掘算法(使用智能方法提取数据模式) ü分类、聚类、关联分析、回归预测、文本挖掘
Ø 质量评估(识别提供知识的真正有趣模式) Ø 知识表示(可视化和知识表示技术)
电子商务 ➢ 网上商品推荐;个性化网页;自适应网站…
生物制药、基因研究 ➢ DNA序列查询和匹配;识别基因序列的共发生性 …
电信 ➢ 欺诈甄别;客户流失…
保险、零售
数据挖掘应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
聚类分析 Clustering
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2 factor n
factor 1 factor 2
数据挖掘技术概述
2020年4月22日星期三
提纲
Ø 数据挖掘概览 Ø 数据预处理 Ø 分类(Classification) Ø 聚类(Cluster) Ø关联规则(Association Rule) Ø 回归(Regression)
数据挖掘概览
ØWhat?
ü数据挖掘的定义
ØWhy?
ü数据挖掘的动机
模式有效性度量
Ø Simplicity
ü E.g., (association) rule length, (decision) tree size
Ø Certainty
ü E.g., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc.
数据挖掘预处理的主要任务
Ø数据清理
ü 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
Ø数据集成
ü 集成多个数据库、数据立方体或文件
Ø数据变换
ü 规范化和聚集
Ø数据归约
ü 得到数据集的压缩表示,它小得多,但可以得到相同或相近 的结果
Ø数据离散化
ü 数据归约的一部分,通过概念分层和数据的离散化来规约数 据,对数字型数据特别重要
ØHow?
ü哪些数据可以用来挖掘? ü数据挖掘的主要内容
数据挖掘定义
Ø 什么是数据挖掘(Data Mining)?
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
Yes
NO
Debt=0% NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
Ø Utility
ü Potential usefulness, e.g., support (association), noise threshold (description)
Ø Novelty
ü Not previously known, surprising (used to remove redundant rules)
数据质量:为何需要数据预处理 ?
Ø 数据质量衡量:
ü准确度:correct or wrong, accurate or not ü完整度:not recorded unavailable ü一致性:some modified but some not, dangling ü时效性:timely update? ü可信度:how trustable the data are correct? ü可解释性:how easily the data can be understood?
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选wenku.baidu.com 在哪儿做广告 销售的地理位置
数据挖掘的意义
股票趋势分析
智能交通
数据挖掘应用
银行 ➢ 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在 美国商业银行的应用增长率是14.9%。 ➢ 分析客户使用分销渠道的情况和分销渠道的容量 ;建 立利润评测模型;客户关系优化;风险控制等
其他称谓:
Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc.
为何需要数据挖掘?
1. 数据量大 2. 缺乏理论知识 3. 数据挖掘可以帮助
产生新的假说或者 使数据变得有意义
为何需要数据挖掘?
Ø We are drowning in data, but starving in knowledge
ü Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories.