清华大学大数据课程第4次课数据挖掘技术

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

编辑ppt
5
为何需要数据挖掘?
1. 数据量大 2. 缺乏理论知识 3. 数据挖掘可以帮助
产生新的假说或者 使数据变得有意义
编辑ppt
6
为何需要数据挖掘?
➢ We are drowning in data, but starving in knowledge
✓ Data explosion: Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories.
大数据分析和内存计算
第4讲 数据挖掘技术概述
李国良 清华大学计算机系
编辑ppt
1
提纲
➢数据挖掘概览 ➢数据预处理 ➢分类(Classification) ➢聚类(Cluster) ➢关联规则(Association Rule) ➢回归(Regression)
编辑ppt
2
数据挖掘概览
➢What?
✓数据挖掘的定义
➢Why?
✓数据挖掘的动机
➢How?
✓哪些数据可以用来挖掘? ✓数据挖掘的主要内容
编辑ppt
3
数据挖掘定义
➢ 什么是数据挖掘(Data Miniபைடு நூலகம்g)?
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
电信 ➢ 欺诈甄别;客户流失…
保险、零售
编辑ppt
9
数据挖掘应用
决策树 Decision Trees
Income>$40K • 倾向性分析
Yes
NO
Debt<10% of Income
Yes
NO
Debt=0% NO Yes
Good Credit Risks
Bad Credit Risks
Good Credit Risks
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列 编辑ppt
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
7
数据挖掘的意义
辅助社 会管理
推动科 技进步
股票趋势分析
数据挖掘
支持商 业决策
编辑ppt
促进民 生改善
➢ 数据挖掘算法(使用智能方法提取数据模式) ✓分类、聚类、关联分析、回归预测、文本挖掘
➢ 质量评估(识别提供知识的真正有趣模式) ➢ 知识表示(可视化和知识表示技术)
编辑ppt
11
数据质量:为何需要数据预处理?
➢数据质量衡量:
✓准确度:correct or wrong, accurate or not ✓完整度:not recorded unavailable ✓一致性:some modified but some not, dangling ✓时效性:timely update? ✓可信度:how trustable the data are correct? ✓可解释性:how easily the data can be understood?
智能交通
8
数据挖掘应用
银行 ➢ 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在 美国商业银行的应用增长率是14.9%。 ➢ 分析客户使用分销渠道的情况和分销渠道的容量 ;建 立利润评测模型;客户关系优化;风险控制等
电子商务 ➢ 网上商品推荐;个性化网页;自适应网站…
生物制药、基因研究 ➢ DNA序列查询和匹配;识别基因序列的共发生性 …
Data Min编i辑npgpt Process
4
模式有效性度量
➢ Simplicity
✓ E.g., (association) rule length, (decision) tree size
➢ Certainty
✓ E.g., confidence, P(A|B) = #(A and B)/ #(B), classification reliability or accuracy, rule strength, etc.
raw data
Data preprocessing
Data mining
postprocessing
knowledge
Feature selection Dimension reduction Normalization Data subsetting
Filtering patterns Visuaralization Pattern interpretation
其他称谓:
Knowledge discovery(mining) in database(KDD), data/pattern analysis, business intelligence, decision-support system, knowledge extraction, data archeology, data dredging and information harvesting etc.
神经网络 Neural Networks
Q5 Q6 Q3 Q4
• 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
I1
I2 factor n
factor 1 factor 2
编辑ppt
10
数据挖掘步骤
➢ 数据预处理 ✓数据清理(消除噪音或不一致数据,补缺) ✓数据集成(多种数据源可以组合在一起) ✓数据变换(规范化) ✓数据规约(数据简化)
序列分析 Sequence Analysis
Open Accn’t
Add New Product
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
聚类分析 Clustering
• 客户细分 • 市场细分
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
➢ Utility
✓ Potential usefulness, e.g., support (association), noise threshold (description)
➢ Novelty
✓ Not previously known, surprising (used to remove redundant rules)
相关文档
最新文档