数据挖掘导论第一二章_924
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征加权(通过赋予某个特征一定的权值来表示器重要性)是另一种保留或删除特征的办法。特征越重要,所赋予的权值越大,而不太重要的特征赋予较小的权值。
2.3.4特征创建
常常可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。三种创建新属性的相关方法:特征提取、映射数据到新的空间和特征构造。
特征提取(feature extraction):由原始数据数据创建新的特征集称作特征提取。最常用的特征提取技术都是高度针对具体领域的。因此,一旦数据挖掘用于一个相对较新的领域,一个关键任务就是开发新的特征和特征提取方法。
首先定义测量误差和数据收集错误,然后进一步考虑涉及测量误差的各种问题:噪声、伪像、偏倚、精度和准确度。最后讨论可能同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致值、重复数据。
测量误差(measurement error)指测量过程中导致的问题。
数据收集错误(data collection error)指诸如遗漏数据对象或属性值,或不当的包含了其他数据对象等错误。
过滤方法(filter approach):使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择。
包装方法(wrapper approach):这些方法将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常不枚举所有可能的子集来找出最佳属性子集。
过滤方法和包装方法唯一的不同是它们使用了不同的特征子集评估方法。对于包装方法,子集评估使用目标数据挖掘算法;对于过滤方法,子集评估技术不同于目标数据挖掘算法。搜索策略可以不同,但是计算花费应当较低,并且应当找到最优或近似最优的特征子集。通常不可能同时满足这两个要求,因此需要这种权衡。搜索的一个不可缺少的组成部分是评估步骤,根据已经考虑的子集评价当前的特征子集。这需要一种评估度量,针对诸如分类或聚类等数据挖掘任务,确定属性特征子集的质量。对于过滤方法,这种度量试图预测实际的数据挖掘算法在给定的属性集上执行的效果如何;对于包装方法,评估包括实际运行目标数据挖掘应用,子集评估函数就是通常用于度量数据挖掘结果的判断标准。
这些是去重复(deduplication)需要考虑的问题。
注意:在某些情况下,两个或多个对象在数据库的属性度量上是相同的,但是仍然代表不同的对象。这种重复是合法的。
2.2.2关于应用
2.3
这一节主要讲采用哪些预处理步骤,让数据更加适合挖掘。下面就是我们要谈到的一些主要的方法:
●聚集
●抽样
●维规约
●特征子集选择
3.基于图形的数据
4.有序数据
2.2
数据挖掘使用的数据常常是为其他用途收集的,或者在收集是未明确其目的。因此,数据挖掘常常不能“在数据源头控制质量”。所以,数据挖掘着眼于两个方面:
1.数据质量问题的纠正和检测和纠正,通常也称作数据清理(data cleaning)
2.使用可以容忍低质量数据的算法
2.2.1测量和
数据挖掘导论前两
第一章绪论
本章主要就是从全局的角度来介绍一下数据挖掘的概念、数据额挖掘要解决的问题、数据挖掘的起源、数据额挖掘的任务、以及数据挖掘的应用前景。
第二章数据
数据对数据挖掘的成败至关重要。本章就是主要讨论一些数据相关的问题。
1.数据类型——数据的类型决定我们应使用何种工具和技术分析数据。还有:数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。
2.3.5离散化
有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二原属性(二元化,binarization)。另外,如果一个分类属性具有大量不同值(类别),或者某些值出现不频繁,则对于某些数据任务,通过合并某些值减少类别的数目可能是有益的。
用于分类的离散化方法之间的根本区别在于是否使用类信息。如果不适用类信息,我们称之为非监督(unsupervised)离散化,主要方法有:等宽(equal width)和等深(equal depth)或称等频率(equal frequency)。等宽将属性的值域划分成具有相同宽度的区间。等深和等频率将相同数量的对象放进每个区间。前者可能受离群点的影响而性能不佳。
注意:使用诸如K均值等聚类算法也是非监督离散化的另一种思路。目测检查数据有时也可能是一个有效的方法。
监督离散化:记住最终目的并使用附加的信息(类标号)常常能够产生更好的结果。因为未使用类标号知识所构造的区间常常包含混合的类标号。一种概念上简单的方法是以极大化区间纯度的方式确定分割点。但是,实践中这种方法可能需要人为确定区间的纯度和最小区间的大小。为了解决这一问题,一些基于统计学的方法用每个属性值来分隔区间,并通过合并类似于根据统计检验得出的相邻区间来创建较大的区间。另外,基于熵的方法是最有前途的离散方法之一。在此简单介绍一下。
映射数据到新的空间:使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。如对于时间序列和其他类型的数据,傅里叶变换(Fourier transform)和小波变换(wavelet transform)都非常有用。
特征构造:有时,原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法。在这种情况下,一个或多个由原特征构造的新特征可能比原特征更有用。比如:在区分材料时,密度(质量/体积)比质量和体积本身都有意义。
最佳的离散化和二元化方法是“对于用来分析数据的数据挖掘算法,产生最好结果”的方法。但直接使用这种标准是不实际的。离散化和二元化要满足的判别标准与所考虑的数据挖掘任务的性能好坏直接相关。
二元化:一种分类属性二元化的简单技术如下,如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数。如果属性是有序的,则赋值必须保持序关系。(注意:即使属性原来用整数表示,但如果这些整数不在区间[0,m-1]中,则该过程也是必须的。)然后,将这m个整数的每一个都变换为二进制数。由于需要 个二进制位表示这些Байду номын сангаас数,因此需要使用n个二元属性表示这些二进制数。这样的变化可能导致复杂化,如无意中建立了转换后的属性之间的联系。
属性
1.什么是属性
数据集可以看作数据对象的集合。数据对象用一组刻画对象基本特性的属性来描述。属性是对象的性质或特性,它因对象而异,或随时间而变化。
2.属性类型
属性的类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。
3.用值的个性描述属性
离散的、连续的
噪声是测量误差的随机部分。
伪像(artifact)是数据错误造成的一种确定的现象的结果。(不是随机的)
精度(precision):(同一个量的)重复测量值之间的接近程度。通常以标准差度量。
偏倚(bias):测量值与被测量之间的系统的变差。通常以均值度量。
准确率(accuracy):被测量的测量值与实际值之间的接近程度。有效数字(significant digit)是准确率的一个重要方面。
4.非对称属性
只有非零值重要的属性才是非对称性的属性,我的理解就是属性的值的重要性不是对称。
数据集的
1.数据集的一般特性
维度(dimensionality)、稀疏性(sparsity)、分辨率(resolution)。
2.记录数据
许多数据挖掘的任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。
2.3.2抽样
1.抽样方法
1)无放回抽样
2)有放回抽样
2.渐进抽样
合适的样本容量可能很难确定,因此有时需要使用自适应抽样或者渐进抽样方法。这些方法从一个小样本开始然后增加样本容量直至得到足够容量的样本,尽管这种技术不需要在开始就确定样本容量,但是需要评估样本的方法,确定它是否足够大。
例如,假定使用渐进抽样来学习一个预测模型。尽管预测模型的准确率随着样本容量增加,但是在某一点的准确率的增加趋于稳定。我们希望在稳定点停止增加样本容量。通过掌握模型准确率岁样本增大的变化情况,并通过选取接近于当前样本容量的其他的样本,我们可以估计出于稳定点的接近程度,从而停止抽样。
2.数据质量——原始数据必须加以处理才能适合与分析。处理一方面是要提高数据的质量,另一方面要让数据更好地适应特定的数据挖掘技术或工具。
3.根据数据联系分析数据——数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身来进行其余的分析。有一点必须要强调的是在我们进行分析数据时,要深入了解数据,多观察数据,这个步骤在分析完数据得到实验结果之后更要回过头去观察数据,这一点特别重要!
不一致的值:无论造成不一致值得原因是什么,重要的是能检测出来,并且可能的话,纠正这种错误。
重复数据:数据集可能包含重复或几乎重复的数据对象。为了检测并删除这种重复,必须处理两个主要问题:
1.如果两个对象实际代表同一个对象,则对应的属性值必然不同(否则它们是完全相同的一条记录),必须解决不一致的值。
2.需要避免意外地将两个相似但并非重复的数据对象合并在一起。
2.3.3维规约
违规约有许多方面的好处。关键的好处是,如果维度(数据属性的个数)较低,许多数据挖掘算法的效果就会更好。这一部分是因为维规约可以删除不相关的特征并降低噪声,一部分是因为维规约可以删除不相关的特征并降低噪声,一部分是因为维灾难。
1.维灾难
随着数据维度的增加,许多数据分析变得非常困难。特别是随着维度增加,数据在它所占据的空间中越来越稀疏。对于分类,这可能意味没有足够的数据对象来常见模型,将所有可能的对象可靠的指派到一个类。对于聚类,点之间的密度和距离的定义失去了意义。结果是,对于高维数据,许多分类和聚类算法的结果都不理想(分类准确率降低,聚类质量下降)。
特征选择的理想方法是:将所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取产生最好结果的子集。但是,由于涉及n个属性子集多达 个。因此,需要其他策略。有三种标准的特征选择方法:嵌入、过滤和包装。
嵌入方法(embedded approach):在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式进行。
离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值,也可称为异常(anomalous)对象或异常值。
注意:离群点可以是合法的数据对象或值,它与噪声不同。它本身有时是人们感兴趣的对象。
遗漏值会造成信息收集不全的情况。有介绍三种处理遗漏值的基本策略:删除数据对象或属性、估计遗漏值以及在分析时忽略遗漏值。三种策略各有优劣,具体情况具体分析。
2.维规约的线性代数技术(相关性表示)
2.3.4
降低维度的另一种方法是仅使用特征的一个子集。虽然这种方法可能丢失信息,但是如果存在冗余或不相关的特征的时候,情况并非如此。冗余特征重复了包含在一个或多个其它属性中的许多或所有信息。不相关特征包含对于手头的数据挖掘任务几乎完全没有用的信息。冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。
连续属性的离散化:一般来说,离散化的效果取决于所使用的算法,以及用到的其他属性。通常,离散化应用于在分类或关联分析中使用到的属性上。连续属性变换成分类属性涉及两个子任务:1. 决定需要几个分类值;2. 确定如何将连续属性值映射到这些分类值。处理两个子任务的基本思路:在第一步中,将连续属性值排序后,通过指定n-1个分割点(split point)把它们分成n个区间。在第二步中,将一个区间中的所有值映射到相同的分类值。因此,离散化问题就是决定选择多少个分割点和确定分割点位置的问题。
●特征创建
●离散化和二元化
●变量变换
粗略的来说,这些项目分为两类,即选择分析所需要的数据对象和属性以及创建/改变属性。其目的都是改善数据挖据分析工作,减少时间,降低成本和提高质量。
2.3.1聚集
聚集将两个或者多个对象合并成单个对象。聚集的动机有多种。首先,数据规约导致的较小数据集需要较少的内存和处理时间,因此可以用于开销更大的数据挖掘算法。其次,通过高层而不是底层数据视图,聚集起到范围或标度转换的作用。聚集的特点是有可能丢失有趣的细节。例如把一个商店的事务按照同一天(或者按月)标准进行聚集,聚集后的对象是每个商店每一天的事务。聚集可以减少事务的个数,按月的聚集就会丢失星期几具有最高销售额的信息。
2.3.4特征创建
常常可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。三种创建新属性的相关方法:特征提取、映射数据到新的空间和特征构造。
特征提取(feature extraction):由原始数据数据创建新的特征集称作特征提取。最常用的特征提取技术都是高度针对具体领域的。因此,一旦数据挖掘用于一个相对较新的领域,一个关键任务就是开发新的特征和特征提取方法。
首先定义测量误差和数据收集错误,然后进一步考虑涉及测量误差的各种问题:噪声、伪像、偏倚、精度和准确度。最后讨论可能同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致值、重复数据。
测量误差(measurement error)指测量过程中导致的问题。
数据收集错误(data collection error)指诸如遗漏数据对象或属性值,或不当的包含了其他数据对象等错误。
过滤方法(filter approach):使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择。
包装方法(wrapper approach):这些方法将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常不枚举所有可能的子集来找出最佳属性子集。
过滤方法和包装方法唯一的不同是它们使用了不同的特征子集评估方法。对于包装方法,子集评估使用目标数据挖掘算法;对于过滤方法,子集评估技术不同于目标数据挖掘算法。搜索策略可以不同,但是计算花费应当较低,并且应当找到最优或近似最优的特征子集。通常不可能同时满足这两个要求,因此需要这种权衡。搜索的一个不可缺少的组成部分是评估步骤,根据已经考虑的子集评价当前的特征子集。这需要一种评估度量,针对诸如分类或聚类等数据挖掘任务,确定属性特征子集的质量。对于过滤方法,这种度量试图预测实际的数据挖掘算法在给定的属性集上执行的效果如何;对于包装方法,评估包括实际运行目标数据挖掘应用,子集评估函数就是通常用于度量数据挖掘结果的判断标准。
这些是去重复(deduplication)需要考虑的问题。
注意:在某些情况下,两个或多个对象在数据库的属性度量上是相同的,但是仍然代表不同的对象。这种重复是合法的。
2.2.2关于应用
2.3
这一节主要讲采用哪些预处理步骤,让数据更加适合挖掘。下面就是我们要谈到的一些主要的方法:
●聚集
●抽样
●维规约
●特征子集选择
3.基于图形的数据
4.有序数据
2.2
数据挖掘使用的数据常常是为其他用途收集的,或者在收集是未明确其目的。因此,数据挖掘常常不能“在数据源头控制质量”。所以,数据挖掘着眼于两个方面:
1.数据质量问题的纠正和检测和纠正,通常也称作数据清理(data cleaning)
2.使用可以容忍低质量数据的算法
2.2.1测量和
数据挖掘导论前两
第一章绪论
本章主要就是从全局的角度来介绍一下数据挖掘的概念、数据额挖掘要解决的问题、数据挖掘的起源、数据额挖掘的任务、以及数据挖掘的应用前景。
第二章数据
数据对数据挖掘的成败至关重要。本章就是主要讨论一些数据相关的问题。
1.数据类型——数据的类型决定我们应使用何种工具和技术分析数据。还有:数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。
2.3.5离散化
有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二原属性(二元化,binarization)。另外,如果一个分类属性具有大量不同值(类别),或者某些值出现不频繁,则对于某些数据任务,通过合并某些值减少类别的数目可能是有益的。
用于分类的离散化方法之间的根本区别在于是否使用类信息。如果不适用类信息,我们称之为非监督(unsupervised)离散化,主要方法有:等宽(equal width)和等深(equal depth)或称等频率(equal frequency)。等宽将属性的值域划分成具有相同宽度的区间。等深和等频率将相同数量的对象放进每个区间。前者可能受离群点的影响而性能不佳。
注意:使用诸如K均值等聚类算法也是非监督离散化的另一种思路。目测检查数据有时也可能是一个有效的方法。
监督离散化:记住最终目的并使用附加的信息(类标号)常常能够产生更好的结果。因为未使用类标号知识所构造的区间常常包含混合的类标号。一种概念上简单的方法是以极大化区间纯度的方式确定分割点。但是,实践中这种方法可能需要人为确定区间的纯度和最小区间的大小。为了解决这一问题,一些基于统计学的方法用每个属性值来分隔区间,并通过合并类似于根据统计检验得出的相邻区间来创建较大的区间。另外,基于熵的方法是最有前途的离散方法之一。在此简单介绍一下。
映射数据到新的空间:使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。如对于时间序列和其他类型的数据,傅里叶变换(Fourier transform)和小波变换(wavelet transform)都非常有用。
特征构造:有时,原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法。在这种情况下,一个或多个由原特征构造的新特征可能比原特征更有用。比如:在区分材料时,密度(质量/体积)比质量和体积本身都有意义。
最佳的离散化和二元化方法是“对于用来分析数据的数据挖掘算法,产生最好结果”的方法。但直接使用这种标准是不实际的。离散化和二元化要满足的判别标准与所考虑的数据挖掘任务的性能好坏直接相关。
二元化:一种分类属性二元化的简单技术如下,如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数。如果属性是有序的,则赋值必须保持序关系。(注意:即使属性原来用整数表示,但如果这些整数不在区间[0,m-1]中,则该过程也是必须的。)然后,将这m个整数的每一个都变换为二进制数。由于需要 个二进制位表示这些Байду номын сангаас数,因此需要使用n个二元属性表示这些二进制数。这样的变化可能导致复杂化,如无意中建立了转换后的属性之间的联系。
属性
1.什么是属性
数据集可以看作数据对象的集合。数据对象用一组刻画对象基本特性的属性来描述。属性是对象的性质或特性,它因对象而异,或随时间而变化。
2.属性类型
属性的类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。
3.用值的个性描述属性
离散的、连续的
噪声是测量误差的随机部分。
伪像(artifact)是数据错误造成的一种确定的现象的结果。(不是随机的)
精度(precision):(同一个量的)重复测量值之间的接近程度。通常以标准差度量。
偏倚(bias):测量值与被测量之间的系统的变差。通常以均值度量。
准确率(accuracy):被测量的测量值与实际值之间的接近程度。有效数字(significant digit)是准确率的一个重要方面。
4.非对称属性
只有非零值重要的属性才是非对称性的属性,我的理解就是属性的值的重要性不是对称。
数据集的
1.数据集的一般特性
维度(dimensionality)、稀疏性(sparsity)、分辨率(resolution)。
2.记录数据
许多数据挖掘的任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。
2.3.2抽样
1.抽样方法
1)无放回抽样
2)有放回抽样
2.渐进抽样
合适的样本容量可能很难确定,因此有时需要使用自适应抽样或者渐进抽样方法。这些方法从一个小样本开始然后增加样本容量直至得到足够容量的样本,尽管这种技术不需要在开始就确定样本容量,但是需要评估样本的方法,确定它是否足够大。
例如,假定使用渐进抽样来学习一个预测模型。尽管预测模型的准确率随着样本容量增加,但是在某一点的准确率的增加趋于稳定。我们希望在稳定点停止增加样本容量。通过掌握模型准确率岁样本增大的变化情况,并通过选取接近于当前样本容量的其他的样本,我们可以估计出于稳定点的接近程度,从而停止抽样。
2.数据质量——原始数据必须加以处理才能适合与分析。处理一方面是要提高数据的质量,另一方面要让数据更好地适应特定的数据挖掘技术或工具。
3.根据数据联系分析数据——数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身来进行其余的分析。有一点必须要强调的是在我们进行分析数据时,要深入了解数据,多观察数据,这个步骤在分析完数据得到实验结果之后更要回过头去观察数据,这一点特别重要!
不一致的值:无论造成不一致值得原因是什么,重要的是能检测出来,并且可能的话,纠正这种错误。
重复数据:数据集可能包含重复或几乎重复的数据对象。为了检测并删除这种重复,必须处理两个主要问题:
1.如果两个对象实际代表同一个对象,则对应的属性值必然不同(否则它们是完全相同的一条记录),必须解决不一致的值。
2.需要避免意外地将两个相似但并非重复的数据对象合并在一起。
2.3.3维规约
违规约有许多方面的好处。关键的好处是,如果维度(数据属性的个数)较低,许多数据挖掘算法的效果就会更好。这一部分是因为维规约可以删除不相关的特征并降低噪声,一部分是因为维规约可以删除不相关的特征并降低噪声,一部分是因为维灾难。
1.维灾难
随着数据维度的增加,许多数据分析变得非常困难。特别是随着维度增加,数据在它所占据的空间中越来越稀疏。对于分类,这可能意味没有足够的数据对象来常见模型,将所有可能的对象可靠的指派到一个类。对于聚类,点之间的密度和距离的定义失去了意义。结果是,对于高维数据,许多分类和聚类算法的结果都不理想(分类准确率降低,聚类质量下降)。
特征选择的理想方法是:将所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取产生最好结果的子集。但是,由于涉及n个属性子集多达 个。因此,需要其他策略。有三种标准的特征选择方法:嵌入、过滤和包装。
嵌入方法(embedded approach):在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式进行。
离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值,也可称为异常(anomalous)对象或异常值。
注意:离群点可以是合法的数据对象或值,它与噪声不同。它本身有时是人们感兴趣的对象。
遗漏值会造成信息收集不全的情况。有介绍三种处理遗漏值的基本策略:删除数据对象或属性、估计遗漏值以及在分析时忽略遗漏值。三种策略各有优劣,具体情况具体分析。
2.维规约的线性代数技术(相关性表示)
2.3.4
降低维度的另一种方法是仅使用特征的一个子集。虽然这种方法可能丢失信息,但是如果存在冗余或不相关的特征的时候,情况并非如此。冗余特征重复了包含在一个或多个其它属性中的许多或所有信息。不相关特征包含对于手头的数据挖掘任务几乎完全没有用的信息。冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。
连续属性的离散化:一般来说,离散化的效果取决于所使用的算法,以及用到的其他属性。通常,离散化应用于在分类或关联分析中使用到的属性上。连续属性变换成分类属性涉及两个子任务:1. 决定需要几个分类值;2. 确定如何将连续属性值映射到这些分类值。处理两个子任务的基本思路:在第一步中,将连续属性值排序后,通过指定n-1个分割点(split point)把它们分成n个区间。在第二步中,将一个区间中的所有值映射到相同的分类值。因此,离散化问题就是决定选择多少个分割点和确定分割点位置的问题。
●特征创建
●离散化和二元化
●变量变换
粗略的来说,这些项目分为两类,即选择分析所需要的数据对象和属性以及创建/改变属性。其目的都是改善数据挖据分析工作,减少时间,降低成本和提高质量。
2.3.1聚集
聚集将两个或者多个对象合并成单个对象。聚集的动机有多种。首先,数据规约导致的较小数据集需要较少的内存和处理时间,因此可以用于开销更大的数据挖掘算法。其次,通过高层而不是底层数据视图,聚集起到范围或标度转换的作用。聚集的特点是有可能丢失有趣的细节。例如把一个商店的事务按照同一天(或者按月)标准进行聚集,聚集后的对象是每个商店每一天的事务。聚集可以减少事务的个数,按月的聚集就会丢失星期几具有最高销售额的信息。