知识发现和数据挖掘

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

模式集成:
整合不同数据源中的元数据
实体识别问题:匹配来自不同数据源的现实世界
的实体,比如:A.cust-id=B.customer_no

检测并解决数据值的冲突
对现实世界中的同一实体,来自不同数据源的属
性值可能是不同的 可能的原因:不同的数据表示,不同的度量等等
处理数据集成中的冗余数据
KDD过程
数据准备 数据挖掘 结果表达和解释 结果表达和解释
数据挖掘
数据转换 预处理 数据选择 数据集成 目标数据 数据 数据源 模式 知识
预处理后 转换数据 数据
知识发现的步骤

数据准备 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取
数据并不总是完整的
例如:数据库表中,很多条记录的对应字段没有相应值,
比如销售表中的顾客收入

引起空缺值的原因
设备异常 与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据应为得不到重视而没有被输入 对数据的改变没有进行日志记载

空缺值要经过推断而补上
如何处理空缺值

集成多个数据库时,经常会出现冗余数据
同一属性在不同的数据库中会有不同的字段名
一个属性可以由另外一个表导出,如“年薪”

有些冗余可以被相关分析检测到
rA , B ( A A)( B B ) ( n 1) A B

仔细将多个数据源中的数据集成起来,能够 减少或避免结果数据中的冗余与不一致性, 从而可以提高挖掘的速度和质量。
在可能获得相同或相似结果的前提下,对数据的容量进行有效

的缩减

数据归约的方法
数据立方体聚集:聚集操作作用于立方体中的数据
数据归约的提出
减少数据维度(维归约):可以检测并删除不相关、弱相关或
者冗余的属性或维
数据压缩:使用编码机制压缩数据集 数值压缩:用替代的、较小的数据表示替换或估计数据
或判定树这样的基于推断的方法
噪声数据


噪声:一个测量变量中的随机错误或偏差 引起不正确属性值的原因
数据收集工具的问题 数据输入错误
数据传输错误
技术限制 命名规则的不一致

其它需要数据清理的数据问题
重复记录 不完整的数据
不一致的数据
如何处理噪声数据

分箱(binning):

为什么需要数据预处理 ?

在现实社会中,存在着大量的“脏”数据
不完整性(数据结构的设计人员、数据采集设备和数据录入人员)
缺少感兴趣的属性 感兴趣的属性缺少部分属性值
仅仅包含聚合数据,没有详细数据
噪音数据(采集数据的设备、数据录入人员、数据传输)
数据中包含错误的信息
存在着部分偏离期望值的孤立点
数据归约(在获得相同或者相似结果的前提下)
为什么需要数据预处理?

没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须基于高质量的数据基础上
数据仓库是在高质量数据上的集成
数据预处理的主要任务

数据清理
填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性




wk.baidu.com
忽略元组:当类标号缺少时通常这么做(假定挖掘 任务设计分类或描述),当每个属性缺少值的百分 比变化很大时,它的效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用unknown 或- ∞ 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用像Bayesian公式
数据变换




平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集:汇总,数据立方体的构建 数据概化:沿概念分层向上汇总 规范化:将数据按比例缩放,使之落入一个小的特 定区间 属性构造
通过现有属性构造新的属性,并添加到属性集中;以增加
对高维数据的结构的理解和精确度
数据归约的提出

在数据仓库中可能保存TB级的数据,大数据量的数 据挖掘,可能需要大量的时间来完成整个数据的数据 挖掘。 数据归约
数据挖掘时,需要 明确任务如数据总结、分类、聚类、关联规则发现、序 列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知 识)。 根据具体的数据集合,选取有效的挖掘算法。

数据预处理
为什么要预处理数据? 数据清理 数据集成 数据变换 数据归约 数据离散化
数据集成
多个数据库、Data Cube和文件系统的集成
数据转换
规范化、聚集等
数据归约
在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减
数据离散化
对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划
分成若干区间,以区间值来代替实际数据值,以减少属性值的个数.
空缺值

5.5.1 知识发现与数据挖掘概念
知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算
法从数据中抽取模式(patterns)。
KDD过程定义: 从大量数据中提取出可信的、新颖的、有用的并能被人理 解的模式的高级处理过程。 “模式”可以看成是“知识”的雏形,经过验证、完善后 形成知识。
不一致性(数据结构的设计人员、数据录入人员)
数据结构的不一致性
Label的不一致性
数据值的不一致性
为什么需要数据预处理 ?

数据挖掘的数据源可能是多个互相独立的数据源
关系数据库 多维数据库(Data Cube) 文件、文档数据库

数据转换
为了数据挖掘的方便

海量数据的处理
首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、按
箱的边界平滑等等

聚类:
监测并且去除孤立点
计算机和人工检查结合
计算机检测可疑数据,然后对它们进行人工判断

回归
通过让数据适应回归函数来平滑数据
数据集成

数据集成:
将多个数据源中的数据整合到一个一致的存储中
用于数据归约的时间不应当超过或“抵消”在归约后的数据 上挖掘节省的时间。
离散化和概念分层

离散化
对于一个特定的连续属性,可以把属性值划分成若干区
相关文档
最新文档