数据挖掘第一章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.4.5 离群点分析
它们与数据的一般行为或模型不一致,这些数据对象是离群点。 大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在 一些应用中(如,欺诈检测)这些离群单更令人感兴趣,离群点数 据的分析称作离群点分析或异常挖掘。
1.4.6 所有模式都是有趣的吗
“所有模式都是有趣的吗”答案通常是否定的。一个模式是 有趣的,如果:
为了便于决策,数据仓库中数据围绕主题组织。数据存 储从历史的角度提供信息,并且通常是汇总的。 通常数据仓库用称做数据立方体的多维数据结构建模。其中 每个维对应模式中的一个或一组属性,而每个单元存放某种 聚集度量值。(例1.3 p32) 数据仓库非常适合联机分析处理,允许在不同的抽象层 提供数据。OLAP操作的例子包括下钻和上卷,他们允许用 户从不同的汇总级别观察数据。
关系数据库是表的汇集,每个表被赋予一个唯一的名字。 每个表都包含一组属性(列或字段),并且通过存放大量元 组(行或记录)。每个元组代表一个对象,被唯一的关键字 标识,并被一组属性值描述。通常关系数据库构建语义数据 模型,如实体-联系(ER)数据模型。ER数据模型将数据库 表示成一组实体和他们之间关系的联系。(例1.2 p30) 关系数据可以通过数据库查询访问。使用如SQL这样的关 系查询语言,或借助于图形用户界面书写。关系查询语言可 以包含聚集函数,如sum、avg、count、max和min。 当数据挖掘应用于关系数据库时,可以进一步探索趋势 或数据模式。 1.3.2 数据仓库 数据仓库是一个从多个数据源收集的信息存数库,存放 在一致的模式下,并且通常驻留在单个站点上。数据仓库通 过数据清理、数据变换、数据集成、数据装入和定期数据刷 新来构造。
包含单个为此的关联规则称作单维关联规则,去掉谓词符号,可以 简写成:
涉及多个属性或谓词的关联,可以成为多维关联规则,如:
2%的年龄是20~29岁,年收入为40 000~49 000美元,并且购买便 携式计算机,这个年龄和收入组的顾客购买便携机的概率是60%。
不能同时满足最小支持度阀值和最小置信区间阀值是被 视为无趣的而被丢弃。
1.3 可以挖掘什么类型的数据
数据最基本的形式是数据库数据、数据仓库数据和事务 数据。
1.3.1 数据库数据
数据库系统,也称数据库管理系统(DBMS),由一组内 部相关的数据(数据库)和一组管理和存储数据的软件程序 组成。软件程序提供如下的机制:定义数据库结构和数据存 储,说明和管理并发、共享或分布式数据访问,面对系统瘫 痪或未经授权的访问,确保存储的信息的一致性和安全性。
如下图1.12
如果我们不考虑未标记的实例,则虚线是分隔正实例和负实例 的最佳决策边界,使用未标记的实例,我们可以把该决策边界改 进为实线边界,此外,我们能够检测出右上角的两个正实例可能 中噪声或离群点,尽管他们被标记了。 • 主动学习:一种机器学习方法,让用户在学习过程中扮演主要 的色。目的是通过主动地从用户获取知识来提高模型质量。 数据挖掘和机器学习有许多相似之处。机器学习通常关注准确 率,除准确率外,数据挖掘研究非常强调数据挖掘方法在大型数 据集上的有效性和可伸缩性?。
尽管客观度量有助于 识别有趣的模式,但是仅有这些还 不够,还要结合反映特定用户需要和兴趣的主观度量。 “数据挖掘系统能够产生所有有趣的模式吗?”--涉及 数据挖掘算法的完全性。 “数据挖掘系统能够进产生有趣的模式吗?”--是数据 挖掘的优化问题。
1.5 使用什么技术
1.5.1 统计学
统计学研究数据的收集、分析、解释和表示。统计模型是 一组数学函数,它们用随机变量及其概率分布刻画目标类对象的 行为。广泛应用与对数据和数据类建模。统计学研究开发一些使 用数据和统计模型进行预测和预报的工具。统计学方法可以用来 汇总或描述数据集。统计学方法夜可以用来验证数据挖掘的结果。
1.3.4 其他类型的数据
时间相关或序列数据、数据流(如视频监控和传感器数 据,它们连续播送)、空间数工程设计数据(如建筑数据、 系统部件或集成电路)、超文本和多媒体数据和万维网。
1.4 可以挖掘什么类型的模式
存在大量数据挖掘功能,包括特征化与区分,频繁模式、 关联和相关性挖掘,分类与回归,聚类分析,离群点分析。 一般而言。数据挖掘任务可分为两类:描述性和预测性。描 述性任务刻画目标数据的一般性质,预测性任务在当前的数 据上进行归纳,以便做出预测。
(1)易于被人理解; (2)在某种确信度上,对于新的或检测数据是有效的; (3)是潜在有用的; (4)是新颖的;
模式兴趣度的客观度量:支持度和置信度。支持度表示事务 数据库中满足规则的事务所占的百分比。支持度可以取概率 P(XUY),表示同时包含X和Y 的事务,即项集 X和Y的并。置信 度,它评估所发现的规则的确信程度,可以取条件概率P(Y/X), 即包含X的事务也 包含Y的概率。 一般地,每个兴趣度度量都与一个阀值相关联,该阀值可以 由用户自己控制。 其他兴趣度量包括分类规则的准确率和覆盖率。准确率告 诉我们被一个规则正确分类的数据所占的百分比,覆盖率类似 于支持率,告诉我们规则可以作用的数据所占的百分比。
1.4.1 类/概念描述:特征化和区分
用汇总的、简洁的、精确的表达方式描述每个类和概念 是有用的。这种描述可通过下述方法得到:(1)数据特征 化,一般的汇总所研究类(目标类)的数据;(2)数据区 分,将目标类与一个或多个可比较类(对比类)进行比较; (3)数据特征化和区分。
将数据特征化和汇总有一些有效的方法,基于统计度量 和图的简单数据汇总,基于数据立方体的OLAP上卷操作可 以用来执行用户控制的、沿着指定维的数据汇总,面向属性 的归纳技术可以用来进行数据的泛化和特征化。特征化的输 出形式,如,饼图、曲线、多维数据立方体和包含交叉表在 内的多维表?。结果描述可以用广义关系或规则(特征规则) 形式提供。 数据区分的输出可以类似特征描述,但是应当包含比较 度量,以便帮助区分目标类和比较类。
1.4.3 用于预测分析的分类与回归
分类,它找出描述和区分数据类或概念的模型,以便能 够使用模型预测类标号未知的对象的类标号。导出模型是基 于对训练数据集的分析。 “如何提供导出的模型?”分类规则(即IF-THEN规则)、 决策树、数学公式或神经网络。决策树类似于流程图的树结 构。其中每一个结点代表在一个属性值上的测试,每一个分 支代表测试的一个结果,而树叶代表类或类分布。决策树与 分类规则之间容易转换。用于分类时,神经网络是一组类似 神经元的处理单元,单元之间加权连接。如下图:
1.1. 2 数据挖掘是信息技术的进化
数据库和数据管理产业在一些关键功能的开发上不断发 展(见图1.1):数据收集和数据库创建、数据管理(包括数 据存储和检索、数据库事物处理)和高级数据分析(包括数 据仓库和数据挖掘)。 数据收集和数据库创建机制是数据存储和检索以及查询 和事物处理的有效机制开发的必备基础。 数据库和信息技术已经系统的从开始的文件处理演变成 复杂的、功能强大的数据库系统。数据库的系统的研究和开 发已经从开发层次和网状数据库发展到开发关系数据库系统、 数据建模工具、索引和存取方法。此外,用户通过查询语言、 用户界面、查询处理优化和事务管理,可以方便灵活的访问 数据。 最近出现的一种数据存储是数据仓库,这是一种多个异 构数据源在单个站点以统一的模式组织的存储,以支持管理 决策。数据仓库技术包括数据清理、数据集成和联机分析处 理(OLAP)。(OLAP是一种分析技术,具有汇总、合并和聚集以及从不
同的角度观察数据的能力。)
由于决策者缺乏从海量的量数据中提取有价值的知识的工具, 这就要求我们必须系统的开发数据挖掘的工具。
1.2 什么是数据挖掘
数据中的知识发现(KDD) 有以下步骤的迭代序列组成:
(1)数据清理(消除噪声和删除不一致数据) (2)数据集成(多种数据源可以组合在一起) (3)数据选择(从数据库里提取与分析任务相关的数据) (4)数据变换(通过汇总或聚集?操作,把数据变换和统一成适合 挖掘的形式) (5)数据挖掘(基本步骤,使用智能方法提取数据模式) (6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的 模式) (7)知识表达(使用可视化和知识表示技术,向有户提供挖掘的知 识)
为流感活动的指示器。它发现了搜索流感相关信息的人数与 实际具体流感症状的人数之间的紧密联系。当与流感相关的 所有搜索聚集在一起时,一个模式就出现了。 使用聚集的搜 索数据,Googel的Flu Trends可以比传统的系统早两周对流 感活动作出评估。这个例子表明,数据挖掘如何把大型数据 集转化成知识,帮助我们应对当代的全球性挑战。
1.3.3 事务数据
事务数据库的每一个记录代表一个事务,如顾客的一次 购物、一个用户的网页点击。通常,一个事务有唯一的事务 标识号(trans-ID),以及一个组成事务的项(如,交易中 购买的商品)的列表。(例1.4p33) 传统的数据库系统不能进行购物数据篮数据分析,但事 务数据上的数据挖掘可以通过挖掘频繁项集来做这件事。频 繁项集就是频繁的一起销售的商品的集合。
步骤 1~4是数据挖掘预处理的不同形式,为挖掘准备数 据,数据挖掘步骤可以与用户界或知识库交互。有趣的模式 提供给用户,或作为新的知识存放在知识库中。 该观点把数据挖掘看做知识发现的过程中的一个步骤, 但是通常人们人们把他看做知识发现的整个过程,数据挖掘 是从大量的数据中挖掘有趣的模式和知识的过程。
1.4.2 挖掘频繁模式、关联和相关性
频繁模式包含多种类型:频繁项集、频繁子序列和频繁 子结构。
(1)频繁项集:频繁的在事务数据中一起出现的商品的集合; (2)频繁子序列集:频繁出现的子序列,先购买,再购买; (3)频繁子结构?:涉及不同的形式(图、树和格)可以与项集或子 序列结合在一起;
关联分析,变量、置信度和支持度。如,50%的置信度,如果 一位顾客购买计算机,则购买软件的可能性是50%,1%的支持度, 所分析的所有事物的1%显示计算机与软件一起被购买。
1.5.3 数据库系统与数据仓库
数据库系统研究关注为单位和最终用户创建、维护和使用数据 库。已经建立了数据建模、查询语言、查询处理与优化方法、数 据存储以及索引和存取方法的公认原则。数据库系统因其在处理 非常大的、相对结构化的数据集方面的高度可伸缩性而闻名。 数据仓库集成来自多种数据源和各个时间段的数据。它在多维 空间合并数据ຫໍສະໝຸດ Baidu形成部分物化?的数据立方体。数据立方体不仅 有利于多维数据库的OLAP,而且推动了多维数据挖掘。
1.5.2 机器学习
机器学习考察计算机如何基于数据学习(提高它们的性能)。 主要领域是,计算机程序基于数据自动地学习识别复杂的模式, 并作出智能的决断。 下面介绍一些与数据挖掘高度相关的、经典的机器学习问题: • 监督学习:分类的同义词; • 无监督学习:聚类的同义词,因为输入的实例没有类标记; • 半监督学习:一类机器学习技术,在学习模型时,它使用标记 的和未标记的实例,标记的实例用来学习类模型,而未标记的 实例用来进一步改进类边界。对于两类问题,把一类看做正实 例,另一类看做负实例。
第一 章 引 论 1.1 为什么进行数据挖掘 1.2 什么是数据挖掘 1.3 可以挖掘什么类型的数据 1.4 可以挖掘什么类型的模式 1.5 使用什么技术 1.6 面向什么类型的应用 1.7 数据挖掘的主要问题
1.1.为什么进行数据挖掘 1.1.1 迈向信息时代
数据的爆炸式增长、广泛可用和巨大数量使得我 们的时代成为真正的数据时代。急需功能强大和通 用的工具,以便从这些海量的数据中发现有价值的 信息,把这些数据转化成有组织的知识。这种需求 导致了数据挖掘的诞生。 例如:Googel的Flu Trends(流感趋势)使用特殊的搜索项作
分类预测类别(离散的、无序的)标号,而回归建立连续值函 数模型。回归用于预测缺失的或难以获得的数值数据值。 相关分析可能需要在分类和回归之前进行,它试图识别与分类 和回归过程显著相关的属性。
1.4.4 聚类分析
聚类分析数据对象,而不考虑类标号。对象根据最大化类内相 似性、最小化类间相似性的原则进行聚类和分组。所形成的每个簇 都可以看做一个对象类,由它可以导出规则。类似于分类法形成, 即将观测数据组织成类分层结构,把类似的事件组织在一起。
相关文档
最新文档