第3章数据泛化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章数据泛化
第3章数据综合分类数据挖掘
描述性挖掘:以简明扼要的方式描述数据,并提供有意义的数据一般属性
预测数据挖掘:通过分析数据建立一个或一组模型,并尝试预测新数据集的行为概念描述(一般化):为数据表征和比较生成描述(当所描述的概念涉及类对象时,也称为类描述)
表征:提供给定数据集的简明摘要例如,它可以根据专业表现分布表来区分:它可以提供两个或更多数据集的比较描述。例如,男孩和女孩之间的比较面向属性的
综合:这是一种数据综合方法,它可以在大量数据中找出一般规律。什么是数据一般化?数据库中的数据和对象通常包含原始概念层的详细信息。数据泛化是将数据库中的数据集从较低的概念层抽象到较高的概念层的过程用更高层次的概念替换更低层次的概念。例如:将(XXXX年龄范围值)分别替换为老年人、中年人和年轻人
面向属性归纳的基本步骤,如用省、
1代替地、市两级的概念,数据聚焦,获取初始数据关系2,进行面向属性归纳
是数据归纳。对于具有大量不同值的属性,执行以下操作:属性删除、属性泛化属性泛化控制:控制泛化过程、确定有多少不同值被视为具有大量不同值的属性泛化阈值控制:如果属性的不同值的数量大于属性泛化阈值,则应该进一步删除或泛化该属性广义(广义)关系阈值控
制:如果广义关系中不同元组的数量超过广义(广义)关系阈值,则应该进一步广义化
属性删除适用规则:对于初始工作关系中有大量不同值的属性,满足以下条件。应该使用属性删除:该属性没有泛化运算符(例如,该属性没有定义相关的概念层次结构)。并且该属性的更高级概念由其他属性
表示,例如:名称:要删除的属性电话号码:要删除的属性的属性一般化控制的两种常用方法:属性一般化阈值控制:为所有属性设置一般化阈值或为每个属性设置阈值(通常为2到8)
一般化关系阈值控制:为一般化关系设置阈值以确定一般化关系中不同元组的最大数量(通常为10到30,第4章关联规则挖掘:从事务数据库、关系数据库和其他信息存储中的大型数据项目集中发现有趣且频繁出现的模式,项目之间的关联
应用:购物篮分析、分类设计、捆绑销售和亏损销售分析、病理分析、文本挖掘、网络故障分析和其他
经典关联规则挖掘算法:Apriori算法和FP-growth算法
集I = {i1,I2,...im}作为一组m个不同的项目,每个ik(k=1,2,...,m)称为项目项目集称为项目集,简称为项目集。其元素的数量称为项集的长度,长度为k的项集称为k项集。
我= {面包、奶油、牛奶、茶、蛋糕、啤酒}这家超市卖6种商品。项目集一包含6个项目,项目集一的长度为6。对于项目集{蛋糕,啤酒}包含2个项目,成为2个项目集
每个事务T(事务)是项集I的子集,即T?我,但通常是t?ⅰ每个交易都有一个唯一的标识符——交易号。所有记录为TID的交易构成交易数据库d,或交易记录集d,
简称为交易集d事务集D中包含的事务数记录为|D|表4.1中显示的事务记录集D包含10个事务t1-T10,那么|D|=10在每次交易中,顾客购买的商品集合(即项目集)是所有商品的项目集I的子集
表示项目集x,x?设置计数(X?t)是事务集d中包含X的事务数,那么支持(X)的项集X是项集X出现的概率,从而描述了X的重要性计数(X?支持(十)?项集x的支持度为:|D |
项集最小支持度和频繁项集,为了找到有意义的关联规则,用户给定的项集必须满足的最小支持度阈值称为项集最小支持度,记录为supmin从统计上来说,它表示用户所关心的关联规则必须满足的最小重要性。只能为满足最低支持级别的项目集生成关联规则。
大于或等于supmin的项集称为频繁项集,否则称为非频繁项集。通常,如果k-项集满足supmin,它被称为k-频繁项集,并被记录为lk。关联规则
关联规则可以表示为:r: x?y(读:x与y相关,或y与x相关)其中:x?ⅰ,Y?我,和X∨Y =?
如果r: x?Y是一个关联规则,那么{X,Y}就是一个项目集相反,如果{X,Y}是一个项集,那么X?可以形成一个关联规则例如,{面包,牛奶}是项集,那么R1:{面包}?{milk}是一个关联规则关联规则不一定有意义支持关联规则
关联规则r: x?y,x在哪?ⅰ,Y?我,还有x?Y=?规则r的支持是事务集中同时包含x和y的事务数与所有事务数的比率。计数(X?支持(X?y)?|D|关联规则的可信度
关联规则r: x?y,x在哪?ⅰ,Y?我,还有x?Y=?规则r的可信度是指包含X和y的事务数量与包含X
支持的事务数量的比率(X?信心?y)?支持度(X)
关联规则的最小支持度和最小置信度
关联规则的最小支持度也是度量频繁集的最小支持度,表示为supmin,用于度量规则需要满足的最小重要性。最小置信度为
的规则被记录为confmin,这表示关联规则需要满足的最小可靠性。强关联规则
如果规则x?满意:支持(X?y)?Supmin和确认(x?y)?称为关联规则x。y是一个强关联规则,否则它被称为关联规则x?y是弱关联规则
在挖掘关联规则时,生成的关联规则必须由supmin和confmin来度量,筛选出的强关联规则可以用来指导商家的决策
Apriori属性:频繁项集的所有非空子集也必须是频繁的
(即,如果某个K-项集a是频繁的,则a的所有非空子集都是频繁的)Apriori算法是反单调的,即,如果一个集不能通过测试,则该集的所有超集不能通过与
相同的测试例如,如果{B,C,E}是频繁的,那么它的所有非空子集{B,C}、{B,E}、{C,E}、{B}、{C}、{E}都必须是频繁的。假
设{A,C}不频繁,{A,B,C}也必须不频繁。
因此,对于一个项目集,如果一个子集不频繁,那么该项目集也必须不频繁。从频繁项集
生成的强关联规则同时满足最小支持度和最小置信度。从频繁项集生成的规则满足支持度要求,置信度可以通过以下公式计算: support_count(A?信心?b)?P(A|B)?
第5章数据分类和分类的定义:根据交易特征将给定的交易个体分配到指定的类别把不正常的事情分成正常的过程。分类与预测的区别分类:预测分类标签(离散值),根据训练数据集和类别标签属性建立分类模型,对新数据进行分类。例如,信任度预测的分类问题:预测函数值(连续值),根据训练数据集建立连续函数值模型,然后用该模型计算
分类与新数据聚类之间的差异。1)分类:引导学习2)聚类:无监督学习描述属性可以是连续属性或离散属性。类别属性必须是离散的1、尝试描述数据挖掘的步骤(给出步骤的标题并给出简要说明)
数据挖掘的步骤是:1)数据收集;2)数据预处理;3)数据挖掘;4)评价和表达
2和ODS是什么意思?它的功能是什么?
1)正式文件系统都称为操作数据存储,即操作数据存储。
2)函数:操作数据存储是普通数据仓库体系结构中的可选组件,它与数据仓库
起着补充作用