1-数据挖掘简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
资产组合 (Portfolio) 1、根据历史,预测将来 2、目标是一个分类变量 3、预测结果是一个统计意义下的概率
1、哪些人可以发卡,额度是多少。 2、持卡人拖欠的概率是多少 3、该对谁催收
分类过程
NAME Mike Mary Bill Jim Dave Anne RANK YEARS TENURED Assistant Prof 3 no Assistant Prof 7 yes Professor 2 yes Associate Prof 7 yes Assistant Prof 6 no Associate Prof 3 no
Databases KDD
AI
数据挖掘的发展历程
1960s
1990s
数据搜集
数据统计
磁带、软盘、 硬盘、…
数据仓库 (OLAP)
1980s
2000s
数据查询
数据分析
数据库 (SQL语言)
数据挖掘
几个基本概念
Baidu Nhomakorabea
模型(Model) vs 模式(Pattern)
数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到 总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间 中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间 的一个子集,例如关联分析
NAME Tom Merlisa George Joseph
RANK YEARS TENURED Assistant Prof 2 no Associate Prof 7 no Professor 5 yes Assistant Prof 7 yes
训练集
分类学习
训练集
分类器
NAME RANK Jef Professor
市场
聚类示意
基于欧氏距离的三维空间中的聚类
d (i, j) (| x x |2 | y y |2 | z z |2 ) i j i j i j
基于质心的聚类算法 (K-Means)
B1
z
A1
A2
x
y
发现商品间的关联规则
buy(x,”diapers”) buy(x,”beers”)
YEARS TENURED 4 ?
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
Jef is YES!
物以类聚,人以群分
人为地选取细分维度
– – – – 客户价值 地域 活跃程度 ……
维度灾难的发生
– 维度增长 – 细分数目指数增长 – 人脑仅能处理有限 的维度
名称 支持度 期望可信度 置信度 改善度
描述 X、Y同时出现的频率 Y出现的频率 X出现的前提下,Y出现的频率 置信度对期望可信度的比值
公式 P(X∩Y) P(Y) P(Y|X) P(Y|X)/P(Y)
关联规则的度量
顾客购买两者
顾客购买尿布
发现具有最小置信度和支持度的全部 规则 X ^ Y Z
小测验
下列何种算法可以帮助我们做数值的预测(Prediction)? (1) Apriori (2) Decision Tree (3) Naive Bayes (4) EM 若你的老板想要知道,会来我们店里消费的顾客有那几种类型? 你应该利用下列那一个算法,来解答你老板的困惑? (1) Apriori (2) EM (3) Neural Network (4) Logistic Regression 罗吉斯回归(Logistic Regression)算法,可用来解决何种问题? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 序列型样(Sequential Pattern)
在战略上使用Crisp_DM方法论,
小测验
下列何组是属于分类算法?(A:Decision Tree;B:Neural Network;C:K-Means;D:EM;E:Apriori)? (1) AB (2) ACD (3) BCD (4) ABE 数据挖掘的发展历程,下列何者是正确的(A:数据统计;B:数 据挖掘;C:数据查询;D:数据搜集)? (1) D→C→A→B (2) A→B→C→D (3) D→A→C→B (4) C→D→A→B 在数据库中知识发掘(Knowledge Discovery in Database)过程 的执行顺序,下列何者是正确的(A:数据清理;B:数据选择; C:数据编码;D:数据扩充;E:数据挖掘;F:结果呈现)? (1) D→C→A→B→E→F (2) A→B→C→D→E→F (3) D→A→C→B→E→F (4) B→A→D→C→E→F
令最小支持度为50%, 最小置信度为 50%, 则有
A C (50%, 66.6%) C A (50%, 100%)
数据挖掘方法论
CRISP_DM (Cross Industry Standard Process for DM)
1998年,由NCR、 Clementine、OHRA和 Daimler-Benz的联合项目组提 出
支持度(support), s, 事务中包含{X & Y & Z}的概率 置信度(confidence), c, 事务中包 含{X & Y}的条件下, 包含Z的条件概 率
顾客购买啤酒
Transaction ID 2000 1000 4000 5000
Items Bought A,B,C A,C A,D B,E,F
数据挖掘 = 模型 + 算法
分类预测
Logistic Regression 决策树 神经网络
聚类
K-Means K-Mode SOM(自组织图) Apriori FP-Growth
关联规则
孤立点探测
基于统计 基于距离 基于偏差
你使用过信用卡吗?
卡应该发给谁? 哪些持卡人会拖欠? 哪些拖欠的客户会还款? 影响
什么是数据挖掘?
数据挖掘
Data Mining
定义
William Frawley & Gregory Piatetsky Shapiro, 1991 从现有的大量数据中,撷取不明显、之前未知、可能有用的 信息
目标
建立起决策模型
哪一类的用户对我的产品有兴趣?
根据过去的行动来预测未来的行为
什么是数据挖掘?
大量的数据
信用卡消费数据:假设每人平均有1.5张信用卡, 每月平均消费10笔,该行约有150万的客户。 就数据量而言,每月约有2,250万笔消费记录, 每年约有2亿7千万笔消费记录
型态或规则
里面要有矿!
客户的消费型态或规则
多学科的融合
Statistics Pattern Neurocomputing Recognition Machine Data Mining Learning
关联规则的量度
支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率 期望可信度:Support(A)=#A/#N,表示A出现的概率 置信度:Confidence(A=>B)=Support(A=>B)/Support(B) 改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)
小测验
[答案(1)] 下列何组是属于分类算法?(A:Decision Tree;B:Neural Network;C:K-Means;D:EM;E:Apriori)? (1) AB (2) ACD (3) BCD (4) ABE [答案(1)] 数据挖掘的发展历程,下列何者是正确的(A:数据统计;B:数 据挖掘;C:数据查询;D:数据搜集)? (1) D→C→A→B (2) A→B→C→D (3) D→A→C→B (4) C→D→A→B [答案(4)] 在数据库中知识发掘(Knowledge Discovery in Database)过程 的执行顺序,下列何者是正确的(A:数据清理;B:数据选择; C:数据编码;D:数据扩充;E:数据挖掘;F:结果呈现)? (1) D→C→A→B→E→F (2) A→B→C→D→E→F (3) D→A→C→B→E→F (4) B→A→D→C→E→F
小测验
[不分类:答案(2)] 下列何种算法可以帮助我们做数值的预测(Prediction)? (1) Apriori (2) Decision Tree (3) Naive Bayes (4) EM [不分类:答案(2)] 若你的老板想要知道,会来我们店里消费的顾客有那几种类型? 你应该利用下列那一个算法,来解答你老板的困惑? (1) Apriori (2) EM (3) Neural Network (4) Logistic Regression [不分类:答案(1)] 罗吉斯回归(Logistic Regression)算法,可用来解决何种问题? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 序列型样(Sequential Pattern)
海量
多样性
特征
数据被创建和移动的 速度越来越快。 大数据具有多层结构, 意味着大数据会呈现 出多变的形式和类型。
高速
易变性
什么是数据挖掘?
数据挖掘是大数据应用的一项关键技术。然而当人类还 在茹毛饮血的上古时代早已进行着数据挖掘的行为
为了快速并准确捕获猎物,人类的祖先必须细心观察猎物的 习性、预测猎物的行为,才能战胜猎物、存活下去
小测验
[不分类:答案(4)] 线性回归(Linear Regression)算法,可用来解决何种问题? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 预测(Prediction) [不分类:答案(3)] Apriori算法,可用来解决何种问题? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 预测(Prediction) [不分类:答案(3)] 亚马逊(Amazon)网站中所做的书籍推荐(Also Bought), 是利用下列何种算法? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 预测(Prediction)
算法(Algorithm):一个定义完备(well-defined)的过程,它以 数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive)
描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段
数据挖掘
DATA MINING
从运筹帷幄到决胜千里…
……
樯谈羽 橹笑扇 灰间纶 飞 巾 烟 灭 ......
舌战群儒 巧借东风 草船借箭 火烧赤壁
赤 壁 怀 古 苏 轼
观日月之行,察天地之变
云 风
雷
云多会下雨 刮风会下雨 下雨会闪电 闪电会打雷 ……
换成它呢???
电
雨
什么是大数据?
数据量的规模以前所 未有的增幅增长。 互联网搜索、手机通 话记录及传感器网络 等造成了数据的多样 性。
小测验
线性回归(Linear Regression)算法,可用来解决何种问题? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 预测(Prediction) Apriori算法,可用来解决何种问题? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 预测(Prediction) 亚马逊(Amazon)网站中所做的书籍推荐(Also Bought), 是利用下列何种算法? (1) 分类(Classification) (2) 分群(Clustering) (3) 关联(Association) (4) 预测(Prediction)