数据分析方法及模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用方法:粗糙集中的属性约简、决策树
记录规约:用少量记录代表或替换原有记录,从而减小数据集 常用方法: 抽样、数据概化
9
数据规约
数据概化:采用面向属性归纳,根据属性的概念分层,通过阈值 控制,将属性的低层属性值用相应高层概念替换,并合并由此得 到的相同记录 概念分层一般用树结构描述,称为概念层次树
E([100,100], 26) 79 21 E([100, 26]) E([26,100]) 1.3323 100 100
G([-100, 100], -3)=2.0378-2.0378=0
最佳划分: V1=[-100, 22) (<T=22)
G([-100, 100], 6)= 2.0378-1.7465=0.2913
介绍离散属性与连续属性自动生成概念分层的方法 离散属性概念分层的自动生成
概念层次树中高层的概念个数一般少于低层的概念个数
首先统计各个概念的不同值个数,个数最少的概念在最高层,依 次类推,然后根据结构的从属关系,确定各层的概念及从属关系
地址 国家 中国 中国 中国 中国 中国 省 云南省 云南省 四川省 贵州省 云南省 市 昆明市 大理市 成都市 贵阳市 玉溪市
E([100,100], 3)
E([100,100],6)
0 100 E([100, 3]) E([3,100]) 2.0378 100 100
15
6 94 E([100,6]) E([6,100]) 1.7465 100 100
属性概念分层的自动生成
连续属性概念分层的自动生成 划分区间[-100,100]
全部事务的2%同时购买了牛奶和面包,购买牛奶的顾客60% 也购买面包
关联规则挖掘有助于许多商务决策的制定,如分类设计、交叉 购物和贱卖分析
主要介绍关联规则概念、常用关联规则挖掘算法
18
基本概念
关联分析
设I={i1,i2,…,im}是项集合,T={t1,t2,…,tn}是事务集合
t j I (1≤ j ≤ n)
属性A、B之间的相关性计算:rA, B
( A A)(B B) (n 1) A B
A
( A A)
n 1
2
rA,B>0,A与B正相关,A的值随着B的值的增加而增加 rA,B<0,A与B负相关,A的值随着B的值的增加而减少 rA,B=0,A与B独立。因此,|rA,B|很大时,A与B可以去除一个
8
数据规约
数据归约技术可以用来得到数据集的归约表示,它小得多,但仍 接近于保持原数据集的完整性
在归约后的数据集上分析将更有效,并产生相同(或几乎相同) 的分析结果 归约方法主要有:属性归约 、记录归约 属性规约:删除不相关的或冗余的属性减小数据集,目标是找出 最小属性集, 使得数据在其上的概率分布尽可能地接近在原属性 集上的概率分布
14
属性概念分层的自动生成
连续属性概念分层的自动生成 设‚气温‛属性是目标属性,取值区间为[-100,100]
属性值及记录数如表所示
划分区间[-100,100]
E ([100,100]) (
属性值 -3 记录数 6
6 9
18 36
22 28
26 21
6 6 9 9 36 36 28 28 21 21 log 2 log 2 log 2 log 2 log 2 ) 100 100 100 100 100 100 100 100 100 100 ( 0.2435 0.3127 0.5306 0.5142 0.4728) 2.0378
箱2:9, 12, 15
箱3:16, 18, 21
箱2:12, 12, 12
4
箱3:18.3, 18.3, 18.3
数据清理
数据不完整可以使用下列方法消除: 1)使用一个全局常量填充 2)使用属性平均值填充 3)使用相同类的属性平均值填充 4)使用最可能的值填充 的最可能的值并填充 需要采用预测算法,预测给定样本
13
属性概念分层的自动生成
连续属性概念分层的自动生成 3)对在V上的每个划分v1(<v)、v2(≥v),计算在此划分下S的 信息增益
G ( S , v) E ( S ) E ( S , v)
4)选择使S的信息增益最大的划分作为最佳划分,记为V1(<T)、 V2(≥T)(T是使S的信息增益最大的v) 5)递归地应用步骤1)~4)于V1、V2及S1、S2上,直至满足一定 的结束条件,例如,最大信息增益小于某个阈值 属性A的取值区间V作为其概念层次树的根,形成最高层 第一次划分区间V1、V2是根的两个子结点,形成次高层 递归地应用步骤1)~4)就可以得到各层结点
阈值控制面向属性归纳过程,每个属性都有概念层次树及阈值 首先根据属性A的概念层次树,将关系表中A的属性值转换为最低 层的相应概念(叶概念),统计关系表中A的不同叶概念个数 如果A的不同叶概念个数大于A的属性阈值,再根据A的概念层次 树,将关系表中A的叶概念转换为上一层的相应概念 如此重复,直至关系表中A的不同概念个数小于等于A的属性阈值; 10 最后合并相同记录,并统计重复记录数目
[-100,22)
[22,100]
16
分析技术及模型 ——关联分析
17
关联分析
用于发现大量数据中项集之间有趣的关联关系或相关关系
牛奶、面包 谷类 牛奶、面包 糖、鸡蛋 牛奶、面包 黄油 糖、鸡蛋 哪些商品频繁 地被顾客同时 购买?
关联关系用关联规则表示 牛奶 面包 (支持度=2%,臵信度=60%)
0~20 10~20 20~30
30~40+
面向属性归纳后气温表
属性阈值均为4
地名 玉溪地区 昆明市 曲靖地区
气温 10~20 10~20 10~20 2 2 2
count
记录由6个归约为3个
count的值表示重复记录数目
11
属性概念分层的自动生成
概念分层一般由系统用户、领域专家提供,但非常耗时、乏味
E ([100,100],18)
属性值 -3 记录数 6 6 9 18 36 22 28 26 21
15 85 E([100,18)) E([18,100]) 1.464 100 100 51 49 E([100,100], 22) E([100, 22]) E([22,100]) 1.0741 100 100
t4
t5 t6 t7
i1,i2,i4
i 1, i 3 i 2, i 3 i 1, i 3
support(A B) P(A B) s
19
基本概念
关联分析
关联规则A B的的臵信度:在事务集合D中,包含A的事务同 时也包含B的百分比,记为 confidence(A B) P(B | A) c 强规则:同时满足最小支持度阈值(min_sup)和最小臵信度阈 值(min_conf)的规则 项集:项的集合 k-项集Ik:包含k个项的项集 { i1i2}是2项集
国家
中国
省
四川省
云南省
贵州省
市
成都市
昆明市
大理市 玉溪市 曲靖市
贵阳市
中国
云南省
曲靖市
12
属性概念分层的自动生成
连续属性概念分层的自动生成 连续属性可以通过离散化递归地自动生成概念分层
离散化可以基于熵完成,主要步骤:
1)计算关系表r中在属性A的取值区间V上的记录Fra Baidu bibliotek合S的熵
E ( S ) |c| |c| log2 |S| |S|
|c|:S中属于目标类c的记录数
|S|:S中的记录数
2)对A在V上取的每个v,用v划分V为v1(<v)、v2(≥v),划分S 为S1,S2,计算在此划分下S的熵
| S1 | | S2 | E ( S , v) E ( S1 ) E (S 2 ) |S| |S|
E(S1)、E(S2)分别为S1、S2的熵
数据规约
云南省
气温表
玉溪地区 昆明市 曲靖地区 宣威市
地名 玉溪市 气温 18 18 17 16 15 14
玉溪市
通海县
五华区
安宁市
曲靖市
通海县 五华区
-40+~40 + -40+~0 -40 ~-20 -40+~-30 -30~-20
+ +
安宁市
0~40
曲靖市 宣威市
20~40
+
-20~0 -20~-10 -10~0 0~10
G([-100, 100], 18)= 2.0378-1.464=0.5738 G([-100, 100], 22)= 2.0378-1.0741=0.9637 G([-100, 100], 26)= 2.0378-1.3323=0.7055
V2=[22, 100](≥T=22)
[-100,100]
Ik的支持计数(出现频率 sup_count(Ik) ) :事务集合T中,包含 某k-项集Ik的事务数 项集Ik满足最小支持度min_sup:项集Ik的出现频率大于或等于T 中事务总数与min_sup的乘积 sup_count(Ik)≥n×min_sup
20 频繁k-项集:满足最小支持度的Ik T中的频繁k-项集集合记为L k
设A是一个项的集合,事务t包含A当且仅当A t
事务 项
t1
t2 t3
i1,i2,i5
i 2, i 4 i 2, i 3
关联规则是形如A B的蕴涵式,其中AI, BI,且AB= i5 i1i2 关联规则A B的支持度:在事务集合D中, 包含 A的事务占全部事务的百分比,记 B 为
66 80 v' 0.56 25 小数定标规格化 :
数值属性A的最大绝对值为max|A|A,j为满足 10 j 1的最小整数 v v' j 将A的值v规格化为值v’ 10 A的最大绝对值为120,j为3
规格化 [-100,100]中的66
max| A|
66 v' 3 0.066 10
6
数据变换
将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0或0.0到1.0 最小-最大规格化: [minA,maxA]为数值属性A规格化前的取值区间 [new_ minA,new_ maxA] 为A规格化后的取值区间,最小-最大 规格化根据下式将A的值v规格化为值v’ v min A v' (new_maxA new_minA ) new_minA max A min A
数据不一致可以通过元数据消除(描述数据的数据)
5
数据集成
数据集成是将多个数据源中的数据结合起来存放在一个一致的 数据存储(如数据仓库)中 这些数据源可能包括多个数据库、数据立方体或一般文件 在数据集成时,需要消除冗余——能够由另外的属性‚导出‛、 命名的不一致的属性
平均值 方差
冗余可以通过相关分析进行检测
3
数据清理
数据清理用于消除噪声、数据不一致及数据不完整 噪声可以通过平滑、识别孤立点等方法进行消除
每个箱中的 数据个数或 取值区间相 等
分箱技术:将数据排序,根据等深或等宽分布规则将数据分布 到不同箱中,将同一箱中的数据用用该箱中数据的平均值或中 值、边界值替换(平均值平滑、中值平滑、边界平滑)
设某属性的值为18,12,3,9,7,6,15,21,16,采用分箱技术平滑数据 消除噪声。分布规则为等深、深度为3,平滑规则为平均值平滑 首先,将属性的值排序为3, 6, 7, 9, 12, 15, 16, 18, 21 箱1:3, 6, 7 箱1:5.3, 5.3, 5.3
采用最小-最大规格化方法将[-100,100]中的66规格化到区间[0,1]
v' 66 (100) (1 0) 0 0.83 100 (100)
7
数据变换
零-均值规格化: 对均值为 A 、方差为的数值属性A
v'
v A
将A的值v规格化为值v’
A
设某属性的平均值、标准差分别为80、25,采用零-均值规格化66
分析技术及模型
数据预处理 关联分析技术 聚类分析技术 分类分析技术 异常分析技术 贝叶斯网 影响图
1
分析技术及模型 ——数据预处理
2
数据预处理
各种数据分析技术的对象是数据源中的数据 数据源中的数据可能不完整(如某些属性的值不确定或空缺)、 含噪声和不一致(如同一个属性在不同表中的名称不同) 、量 纲不同 如果直接在这些未经处理的数据上进行分析,结果不一定准确, 效率也可能较低 需要使用清理、集成、变换、归约等预处理方法改善数据质量, 从而提高数据分析的效率与质量 主要介绍数据清理、集成、变换、规约等预处理技术