数据挖掘技术概述.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ Utility
✓ Potential usefulness, e.g., support (association), noise threshold (description)
➢ Novelty
✓ Not previously known, surprising (used to remove redundant rules)
银行 ➢ 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在 美国商业银行的应用增长率是14.9%。 ➢ 分析客户使用分销渠道的情况和分销渠道的容量 ;建 立利润评测模型;客户关系优化;风险控制等
电子商务 ➢ 网上商品推荐;个性化网页;自适应网站…
生物制药、基因研究 ➢ DNA序列查询和匹配;识别基因序列的共发生性 …
电信 ➢ 欺诈甄别;客户流失…
保险、零售
数据挖掘应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Yes
NO
Debt=0% NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
raw data
Data preprocessing
Data mining
postprocessing
knowledge
Feature selection Dimension reduction Normalization Data subsetting
Filtering patterns Visuaralization Pattern interpretation
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
数据挖掘的意义
辅助社 会管理
推动科 技进步
股票趋势分析
数据挖掘
支持商 业决策
促进民 生改善
智能交通
数据挖掘应用
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2 factor n
factor 1 factor 2
数据挖掘步骤
➢ 数据预处理 ✓数据清理(消除噪音或不一致数据,补缺) ✓数据集成(多种数据源可以组合在一起) ✓数据变换(规范化) ✓数据规约(数据简化)
其他称谓:
Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc.
为何需要数据挖掘?
1. 数据量大 2. 缺乏理论知识 3. 数据挖掘可以帮助
产生新的假说或者 使数据变得有意义
为何需要数据挖掘?
➢ We are drowning in data, but starving in knowledge
✓ Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories.
✓数据挖掘的动机
➢How?
✓哪些数据可以用来挖掘? ✓数据挖掘的主要内容
数据挖掘定义
➢ 什么是数据挖掘(Data Mining)?
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
➢ 数据挖掘来自百度文库法(使用智能方法提取数据模式) ✓分类、聚类、关联分析、回归预测、文本挖掘
➢ 质量评估(识别提供知识的真正有趣模式) ➢ 知识表示(可视化和知识表示技术)
数据质量:为何需要数据预处理?
➢数据质量衡量:
✓准确度:correct or wrong, accurate or not ✓完整度:not recorded unavailable ✓一致性:some modified but some not, dangling ✓时效性:timely update? ✓可信度:how trustable the data are correct? ✓可解释性:how easily the data can be understood?
大数据分析和内存计算
第4讲 数据挖掘技术概述
李国良 清华大学计算机系
提纲
➢数据挖掘概览 ➢数据预处理 ➢分类(Classification) ➢聚类(Cluster) ➢关联规则(Association Rule) ➢回归(Regression)
数据挖掘概览
➢What?
✓数据挖掘的定义
➢Why?
Data Mining Process
模式有效性度量
➢ Simplicity
✓ E.g., (association) rule length, (decision) tree size
➢ Certainty
✓ E.g., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc.
✓ Potential usefulness, e.g., support (association), noise threshold (description)
➢ Novelty
✓ Not previously known, surprising (used to remove redundant rules)
银行 ➢ 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在 美国商业银行的应用增长率是14.9%。 ➢ 分析客户使用分销渠道的情况和分销渠道的容量 ;建 立利润评测模型;客户关系优化;风险控制等
电子商务 ➢ 网上商品推荐;个性化网页;自适应网站…
生物制药、基因研究 ➢ DNA序列查询和匹配;识别基因序列的共发生性 …
电信 ➢ 欺诈甄别;客户流失…
保险、零售
数据挖掘应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Yes
NO
Debt=0% NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
raw data
Data preprocessing
Data mining
postprocessing
knowledge
Feature selection Dimension reduction Normalization Data subsetting
Filtering patterns Visuaralization Pattern interpretation
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
数据挖掘的意义
辅助社 会管理
推动科 技进步
股票趋势分析
数据挖掘
支持商 业决策
促进民 生改善
智能交通
数据挖掘应用
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2 factor n
factor 1 factor 2
数据挖掘步骤
➢ 数据预处理 ✓数据清理(消除噪音或不一致数据,补缺) ✓数据集成(多种数据源可以组合在一起) ✓数据变换(规范化) ✓数据规约(数据简化)
其他称谓:
Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc.
为何需要数据挖掘?
1. 数据量大 2. 缺乏理论知识 3. 数据挖掘可以帮助
产生新的假说或者 使数据变得有意义
为何需要数据挖掘?
➢ We are drowning in data, but starving in knowledge
✓ Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories.
✓数据挖掘的动机
➢How?
✓哪些数据可以用来挖掘? ✓数据挖掘的主要内容
数据挖掘定义
➢ 什么是数据挖掘(Data Mining)?
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
➢ 数据挖掘来自百度文库法(使用智能方法提取数据模式) ✓分类、聚类、关联分析、回归预测、文本挖掘
➢ 质量评估(识别提供知识的真正有趣模式) ➢ 知识表示(可视化和知识表示技术)
数据质量:为何需要数据预处理?
➢数据质量衡量:
✓准确度:correct or wrong, accurate or not ✓完整度:not recorded unavailable ✓一致性:some modified but some not, dangling ✓时效性:timely update? ✓可信度:how trustable the data are correct? ✓可解释性:how easily the data can be understood?
大数据分析和内存计算
第4讲 数据挖掘技术概述
李国良 清华大学计算机系
提纲
➢数据挖掘概览 ➢数据预处理 ➢分类(Classification) ➢聚类(Cluster) ➢关联规则(Association Rule) ➢回归(Regression)
数据挖掘概览
➢What?
✓数据挖掘的定义
➢Why?
Data Mining Process
模式有效性度量
➢ Simplicity
✓ E.g., (association) rule length, (decision) tree size
➢ Certainty
✓ E.g., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc.