大数据时代的数据挖掘与商务智能(五)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
D中的项目 I1 I2 I2 I1 I1 I2 I1 I1 I1 I2 I5 I4 I3 I2 I4 I3 I3 I3 I2 I3 I5 I2 I3
5
6
1.关联规则
起因:从零售商店引起,后推广到许多行业。
一个顾客购买一些商品可能会购买另一些商品 买(面包,水果)还会买(牛奶 ,鸡蛋)
第一有多少人会同时购买,这样人占整个人群的比例。 第二 买了(面包,水果)的人中有多少还会买(牛奶,鸡蛋)
14
2. 分类与预测方法
自动分类: 用特定的方法把一些数据对象归于某类,或预测 某对象的未来值或趋势。 这些特定方法是通过对数据的学习得到的模型或 函数。 分类是有指导的学习。 分类方法是用得最多,发展最为成熟的方法,应 用也是较多的方法。借鉴了机器学习,统计推理, 模式识别…等领域的成果。
15
自动分类分为两步: 第一步:
关联规则就是一事物发生可能性,发生概率的大小 (支持度s support) 一事物发生另一事物跟着发生的可能性 (臵信度c confidence)。 如 (面包,水果)→(牛奶 ,鸡蛋)(1%,40%)
(收入高,大学毕业)
→(旅游,购股票)(5%,30%)
7
用 Xwk.baidu.com→Y(s, c)表示。
22
决策树
算法 ID3, C4.5…… 信息量大 ID3用信息增益
v si si S 1 j S 2 j ... Smj log 2 I ( S 1 j , S 2 j ,... Smj ) s j 1 S i 1 s m
C4.5用信息增益比
23
神经元网络
18
决策树
决策树构造思路: 1.给一个带有类标签的数据集
2.选择信息量大的属性作为根结点 3.根据根结点属性的取值对数据集进行划 分,形成一个二叉(或多叉)树。 4.根据分叉将数据又分成几个数据集。 5.再递归用其余属性对几个数据集进行划 分,直到分类属性为止,或规定的层次 (剪枝)。
19
决策树例子
28
BP(Back Propagation)是多层前馈神经网络结构
输入层( i )
x1 x2
隐藏层( j )
输出层( k ) O1 O2 结点 Ok
. . . .
xi
oi
wij
. . . .
oj
wjk
. . . .
ok
前馈是指信号先前传播,输入 →隐层→ 输出 误差信号向后传播;BP算法称反传算法
32
神经元网络
BP算法它适用的范围: 1.样本由“属性-值”对表示,很多问题都属于此。 2.目标函数输出可为离散值,实数,向量。 3.训练允许时间长。 4.数据可含噪声。 5.输出快速。 6.不要求理解目标函数(神经元网络)(黑箱 问题)
25
汽车驾驶
输入单元30×32=960,隐单元4, 输出单元30(代表从最左到最右方向) 960×4×30 的网路。
26
手写体数字识别
0 1 9
输出结果 人工神 经网络
输入
手写数字
27
神经元网络
人工神经网络提供了一种普遍且实用的分类方 法,从样本中学习值为实数、离散值或向量的 函数。 神经网络学习对于逼近实数值、离散值或向量 值的目标函数提供了一种健壮性很强的方法。 反向传播算法,使用梯度下降来调节网络参数 以最佳拟合由 输入-输出对 组成的训练集合, 是最普遍使用的算法。 人工神经网络对于训练数据中的错误健壮性很 好 人工神经网络已被成功应用到很多领域,例如 视觉场景分析,语音识别,机器人控制,数据 挖掘,汉字识别,经济分析预测,股票分析。
12
1.关联规则
典型算法 Apriori 算法及其改进算法 FP-树频繁模式增长法
13
2. 分类与预测方法
对分类与预测给一个非形式通俗的说明:
人类根据其对一些问题的要求把事物(包括抽象和 具体)分成不同类别。如客户分类。根据什么来分, 要根据对象的特性(属性,变量)。 分类就是预先定好一个分类体系,然后把一个事 务定属于那一类。 如一个人是不是买计算机,买或不买(2类) 一个人信用卡评级(好,中,差3类) 一个企业信贷评级(1,2,3,4,5级,5类) 数字识别(10类) 指纹识别,人脸识别,汉字识别… 预测就是预测一个事务将是哪类或什么值。
通过带有类别标记的样本集来学习f(模型, 映射,函数),由于样本的标记是人给定的, 故称有指导的学习。这个样本集称训练样本集。 训练样本集的样本典型(有代表性),量多,学 到的模型就会好。
第二步:
任意给定一个没有标记样本,用学到的模型对 其进行分类,即给出其类标记。
为了测试模型的准确性,可用一个测试样本集。
16
分类方法
训练例 未被分类的数据 训练例
分 类
训练例
………
分类器 模 型
过 程
学习器(训练器)
类1
类2
类m
学习(训练)过程
17
分类与预测方法
决策树 神经元网络 K-近邻 根据具体问题和具体要求 贝叶斯方法 来选择不同的方法。 支持向量机 粗糙集方法 模糊方法 基于案例推理 遗传算法 组合方法 预测方法有:回归方法(线性和多元线性回归, 非线性回归)。
想模仿人(或动物)脑的物理(或计算) 模型。从外部的环境中学习来的。 作为分类和预测,在给定一批已分类好 的数据,经过学习,得到一个网络。 学好的网络,可以对外来数据分类。 在人脸识别,汽车驾驶,文字识别,经 济数据分析,股票分析等均有很好的应 用。
24
人脸识别
输入30×32=960,隐单元3,输出4, 960×3×4的网路。
例子: “buys_computer”由决策树生成规则
IF “age<=30” AND student=“ no” THEN buys_computer =“ no” , OR IF “age<=30” AND student=“ yes” THEN buys_computer =“ yes” , OR IF “age<=30…40” THEN buys_computer =“ yes” , OR IF “age>40” AND credit_rating=“excellent” THEN buys_computer =“ no” , OR IF “agee>40” AND credit_rating=“fair” THEN buys_computer =“ yes”
9
3、若事务T,其中 X T , Y T ,X∩Y= , X∪Y T, X、Y也为项目集;则形如 XY 的规则称关联规则; (即购物事务,购买X、 也购买Y); 4、在数据库D中,若s% 的事务包含X∩Y,则关联 规则XY的支持率为s%(P(X∩Y));在数据库 D 中,若包含项目集X的事务的c%,也包含项目 集Y,则关联规则XY的臵信度为c%(P(Y|X))。
一个食品店购物数据库例子
编号 1 2 3 4 5 6
7
购买的物品项集 面包,水果,牛奶,鸡蛋 面包,糖果,牛奶 面包,蔬菜,鸡蛋,猪肉 面包,黄油,牛奶 蔬菜,牛排,鱼,牛奶 鲤鱼,鸡,白菜
大米,水果, 花生油
面包 5 牛奶 4 水果 3
占 62.5% 占 50% 占 37.5%
面包,牛奶 3 占 37.5% 面包,水果 2 占 25% 面包,水果,牛奶 1占12.5% 面包,水果, 鸡蛋1占12.5%
选哪个属性为类属性由关心的问题而定,可为buys_computer,
20
例子: “buys_computer”的决策树
age? <=30 overcast 30..40 yes yes yes >40
student?
no no
credit rating?
excellent no fair yes
21
规则 XY(s,c) 含义:购买X、又购买Y, 支持度S和可信度C。
10
5、对任意的项目集X,若数据库D中s%的事务包含 项目集X,则项目集X的支持率为s,记为 Support(X)=s,其中包含项目集X的事务数称为 项目集X的频度,记为count(X)=σX。若项目集X 的支持率大于或等于用户指定的最小支持率 (minsupport)则项目集X为频繁项目集(或大 项目集),否则项目集X为非频繁项目集(或小 项目集)
购买计算机 “buys_computer”
1 2 3 4 5 6 7 8 9 10 11 12 13 14
age <=30 <=30 31…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 income high high high medium low low low medium low medium medium medium high medium student no no no no yes yes yes no yes yes yes no yes no credit_rating fair excellent fair fair fair excellent excellent fair fair fair excellent excellent fair excellent buys_computer no no yes yes yes no yes no yes yes yes yes yes no
8
面包,水果
支持度 : 购买物占总数的比例, 购买面包支持度为 62.5% , 购买面包和牛奶 为37.5% 臵信度: 购买面包中又购买牛奶的比例, 支持度37.5%,臵信 8 度60%
1.关联规则
1、数据集合 I={i1,i2,…im} 为标识符的集 合(总货物集),其中m为正整数(总 货物数),ik称为项目(一种货物) (k=1,2,…m) ,I 称为项目集; 2、挖掘关联规则的数据库记为 D,事务数 据库D中的每个元组称为事务 T (记录), 一条事务T是I中项目的子集,TI.
6、若关联规则XY的支持率和臵信度分别大于或 等于用户指定的最小支持率(min_support)和 最小臵信度(min_confidence),则称关联规 则XY为强关联规则;否则称关联规则XY为 弱关联规则。
11
1.关联规则
关联规则挖掘就是找出强关联规则,一 般分为两步进行: 1、找频繁(大)项目集 大于最小支持度项集 2、在频繁(大)项目集的基础上找强关 联规则,大于最小臵信度关联规则。
大数据时代的 数据挖掘与商务智能
1
第五部分
数据挖掘技术
2
数据挖掘技术概览
数据库技术: 1. 海量数据的存储 2. 海量数据的检索 统计技术: 1. 相关分析; 2. 回归分析(线性,非线性、多元等回归) 3. 关联规则; 4. 贝叶斯分析(贝叶斯分类,贝叶斯网络) 5. 序列分析、时间序列分析 机器学习技术: 1.归纳学习 2. 神经网络 3. 遗传算法 4. 基于示例的学习(推理) 5. 聚类 数学方法: 1. 粗糙集(Rough Sets) 2. 模糊逻辑方法; 网络技术: 1. 有效的搜索引擎 2. 有效的文本(信息)检索 Web Mining(网络挖掘) Text Mining (文本挖掘) 可视化技术
29
神经元(神经细胞)
30
隐藏层和输出层结点 1 I j wij Oi j O
i
j
1 e
I j
Oi
Ij
隐藏层和输出层每个结点都是非线性变换单元
31
BP算法工作原理
一组给定的数据,每个数据由一系列属性组成,其 中有一个决策属性,其余为条件属性。 每个数据的条件属性作为神经元网络的输入(构成 输入节点),决策属性作为输出(构成输出节点), 中间给出适当的隐节点。就形成一个多层前馈BP网 络。网络结构确定。 人为给出初始参数:连接权值,学习率,偏值和终 止条件。 利用给的数据不断学习,对给定数据能正确分类。 学习的结果是就是一个经过修正案权值和偏值的神 经元网络。
3
数据挖掘的基本技术
1. 2. 3.
4.
关联规则 分类与预测方法 聚类方法 异常点分析
4
1 关联规则
事务数据库D
用 X →Y(s, c)表示。 X:一些事务 Y:另一些事务 X →Y:X,Y 事务之间 存在关联 s: 存在X,Y 事务占整 个事务的比例 c: 存在X事务,有多少 还存在Y。
TID T100 T200 T300 T400 T500 T600 T700 T800 T900