预处理方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据清理:

1.含噪声数据:处理此类数据,目前最广泛的是应用数据平滑技术。

①分箱技术:检测周围相应属性值进行局部数据平滑。

②聚类技术,根据要求选择模糊聚类分析或灰色聚类分析技术检测孤立点数据,并进行修正,还可结合使用灰色数学或粗糙集等数学方法进行相应检测;

③利用回归函数或时间序列分析的方法进行修正;

④计算机和人工相结合的方式等

对此类数据,尤其对于孤立点或异常数据,是不可以随便以删除方式进行处理的2.错误数据.对带有错误的数据元组,结合数据所反映的实际问题,进行分析、更改或删除或忽略.同时也可结合模糊数学的隶属函数寻找约束函数,根据前一段历史数据趋势对当前数据进行修正。

3.缺失数据.

①若数据属于时间局部性缺失,则可采用近阶段数据的线性插值法进行补缺;若时间段较长,则应该采用该时间段的历史数据恢复丢失数据;若属于数据的空间缺损,则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用;

②使用一个全局常量或属性的平均值填充空缺值;

③使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复;

④忽略元组

4.冗余数据.包括属性冗余和属性数据的冗余.若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据即可,其余属性则可删除.若某属性的部分数据足

以反映该问题的信息,则其余的可删除.若经过分析,这部分冗余数据可能还有他用则先保留并作备注说明

数据集成和数据融合(定义)数据集成是将多个数据源中的数据(数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。数据集成方法1.模式匹配2.数据冗余3.数据值冲突

常见数据融合方法

数据融合方法分类具体方法

静态的融合方法贝叶斯估值,加权最小平方等

动态的融合方法递归加权最小平方,卡尔曼滤波、小波变换的分布式滤波等基于统计的融合方法马尔可夫随机场、最大似然法、贝叶斯估值等. 信息论算法聚集分析、自适应神经网络、表决逻辑、信息熵等模糊集理论灰色理论灰色关联分析、灰色聚类等

数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异.这类方法虽然对原始数据都有一定的损害。

数据变换方法分类

数据变换方法分类作用

数据平滑去噪,将连续数据离散化,增加粒度

数据聚集对数据进行汇总

数据概化减少数据复杂度,用高层概念替换

数据规范化使数据按比例缩放,落入特定区域

属性构造构造出新的属性

数据归约:数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得多的数据,并将数据以合乎要求的方式。

常见数据规约方法

数据规约方法分类具体方法

数据立方体聚集数据立方体聚集等

维规约属性子集选择方法等

数据压缩小波变换、主成分分析、分形技术等

数值压缩回归、直方图、聚类等

离散化和概念分层分箱技术、直方图、基于熵的离散化等

相关文档
最新文档