数据挖掘第一章

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.4.5 离群点分析
它们与数据的一般行为或模型不一致，这些数据对象是离群点。大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而，在一些应用中（如，欺诈检测）这些离群单更令人感兴趣，离群点数据的分析称作离群点分析或异常挖掘。
1.4.6 所有模式都是有趣的吗
“所有模式都是有趣的吗”答案通常是否定的。一个模式是有趣的，如果：
为了便于决策，数据仓库中数据围绕主题组织。数据存储从历史的角度提供信息，并且通常是汇总的。通常数据仓库用称做数据立方体的多维数据结构建模。其中每个维对应模式中的一个或一组属性，而每个单元存放某种聚集度量值。（例1.3 p32）数据仓库非常适合联机分析处理，允许在不同的抽象层提供数据。OLAP操作的例子包括下钻和上卷，他们允许用户从不同的汇总级别观察数据。
关系数据库是表的汇集，每个表被赋予一个唯一的名字。每个表都包含一组属性（列或字段），并且通过存放大量元组（行或记录）。每个元组代表一个对象，被唯一的关键字标识，并被一组属性值描述。通常关系数据库构建语义数据模型，如实体-联系（ER）数据模型。ER数据模型将数据库表示成一组实体和他们之间关系的联系。（例1.2 p30）关系数据可以通过数据库查询访问。使用如SQL这样的关系查询语言，或借助于图形用户界面书写。关系查询语言可以包含聚集函数，如sum、avg、count、max和min。当数据挖掘应用于关系数据库时，可以进一步探索趋势或数据模式。 1.3.2 数据仓库数据仓库是一个从多个数据源收集的信息存数库，存放在一致的模式下，并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
包含单个为此的关联规则称作单维关联规则，去掉谓词符号，可以简写成：
涉及多个属性或谓词的关联，可以成为多维关联规则，如：
2%的年龄是20~29岁，年收入为40 000~49 000美元，并且购买便携式计算机，这个年龄和收入组的顾客购买便携机的概率是60%。
不能同时满足最小支持度阀值和最小置信区间阀值是被视为无趣的而被丢弃。
1.3 可以挖掘什么类型的数据
数据最基本的形式是数据库数据、数据仓库数据和事务数据。
1.3.1 数据库数据
数据库系统，也称数据库管理系统（DBMS）,由一组内部相关的数据（数据库）和一组管理和存储数据的软件程序组成。软件程序提供如下的机制：定义数据库结构和数据存储，说明和管理并发、共享或分布式数据访问，面对系统瘫痪或未经授权的访问，确保存储的信息的一致性和安全性。
如下图1.12
如果我们不考虑未标记的实例，则虚线是分隔正实例和负实例的最佳决策边界，使用未标记的实例，我们可以把该决策边界改进为实线边界，此外，我们能够检测出右上角的两个正实例可能中噪声或离群点，尽管他们被标记了。 • 主动学习：一种机器学习方法，让用户在学习过程中扮演主要的色。目的是通过主动地从用户获取知识来提高模型质量。数据挖掘和机器学习有许多相似之处。机器学习通常关注准确率，除准确率外，数据挖掘研究非常强调数据挖掘方法在大型数据集上的有效性和可伸缩性？。
尽管客观度量有助于识别有趣的模式，但是仅有这些还不够，还要结合反映特定用户需要和兴趣的主观度量。 “数据挖掘系统能够产生所有有趣的模式吗？”--涉及数据挖掘算法的完全性。 “数据挖掘系统能够进产生有趣的模式吗？”--是数据挖掘的优化问题。
1.5 使用什么技术
1.5.1 统计学
统计学研究数据的收集、分析、解释和表示。统计模型是一组数学函数，它们用随机变量及其概率分布刻画目标类对象的行为。广泛应用与对数据和数据类建模。统计学研究开发一些使用数据和统计模型进行预测和预报的工具。统计学方法可以用来汇总或描述数据集。统计学方法夜可以用来验证数据挖掘的结果。
1.3.4 其他类型的数据
时间相关或序列数据、数据流（如视频监控和传感器数据，它们连续播送）、空间数工程设计数据（如建筑数据、系统部件或集成电路）、超文本和多媒体数据和万维网。
1.4 可以挖掘什么类型的模式
存在大量数据挖掘功能，包括特征化与区分，频繁模式、关联和相关性挖掘，分类与回归，聚类分析，离群点分析。一般而言。数据挖掘任务可分为两类：描述性和预测性。描述性任务刻画目标数据的一般性质，预测性任务在当前的数据上进行归纳，以便做出预测。
（1）易于被人理解；（2）在某种确信度上，对于新的或检测数据是有效的；（3）是潜在有用的；（4）是新颖的；
模式兴趣度的客观度量：支持度和置信度。支持度表示事务数据库中满足规则的事务所占的百分比。支持度可以取概率 P(XUY)，表示同时包含X和Y 的事务，即项集 X和Y的并。置信度，它评估所发现的规则的确信程度，可以取条件概率P(Y/X)，即包含X的事务也包含Y的概率。一般地，每个兴趣度度量都与一个阀值相关联，该阀值可以由用户自己控制。其他兴趣度量包括分类规则的准确率和覆盖率。准确率告诉我们被一个规则正确分类的数据所占的百分比，覆盖率类似于支持率，告诉我们规则可以作用的数据所占的百分比。
1.4.1 类/概念描述：特征化和区分
用汇总的、简洁的、精确的表达方式描述每个类和概念是有用的。这种描述可通过下述方法得到：（1）数据特征化，一般的汇总所研究类（目标类）的数据；（2）数据区分，将目标类与一个或多个可比较类（对比类）进行比较；（3）数据特征化和区分。
将数据特征化和汇总有一些有效的方法，基于统计度量和图的简单数据汇总，基于数据立方体的OLAP上卷操作可以用来执行用户控制的、沿着指定维的数据汇总，面向属性的归纳技术可以用来进行数据的泛化和特征化。特征化的输出形式，如，饼图、曲线、多维数据立方体和包含交叉表在内的多维表？。结果描述可以用广义关系或规则（特征规则）形式提供。数据区分的输出可以类似特征描述，但是应当包含比较度量，以便帮助区分目标类和比较类。
1.4.3 用于预测分析的分类与回归
分类，它找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集的分析。 “如何提供导出的模型？”分类规则（即IF-THEN规则）、决策树、数学公式或神经网络。决策树类似于流程图的树结构。其中每一个结点代表在一个属性值上的测试，每一个分支代表测试的一个结果，而树叶代表类或类分布。决策树与分类规则之间容易转换。用于分类时，神经网络是一组类似神经元的处理单元，单元之间加权连接。如下图：
1.1. 2 数据挖掘是信息技术的进化
数据库和数据管理产业在一些关键功能的开发上不断发展（见图1.1）：数据收集和数据库创建、数据管理（包括数据存储和检索、数据库事物处理）和高级数据分析（包括数据仓库和数据挖掘）。数据收集和数据库创建机制是数据存储和检索以及查询和事物处理的有效机制开发的必备基础。数据库和信息技术已经系统的从开始的文件处理演变成复杂的、功能强大的数据库系统。数据库的系统的研究和开发已经从开发层次和网状数据库发展到开发关系数据库系统、数据建模工具、索引和存取方法。此外，用户通过查询语言、用户界面、查询处理优化和事务管理，可以方便灵活的访问数据。最近出现的一种数据存储是数据仓库，这是一种多个异构数据源在单个站点以统一的模式组织的存储，以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理（OLAP）。（OLAP是一种分析技术，具有汇总、合并和聚集以及从不
同的角度观察数据的能力。）
由于决策者缺乏从海量的量数据中提取有价值的知识的工具，这就要求我们必须系统的开发数据挖掘的工具。
1.2 什么是数据挖掘
数据中的知识发现（KDD）有以下步骤的迭代序列组成：
（1）数据清理（消除噪声和删除不一致数据）（2）数据集成（多种数据源可以组合在一起）（3）数据选择（从数据库里提取与分析任务相关的数据）（4）数据变换（通过汇总或聚集？操作，把数据变换和统一成适合挖掘的形式）（5）数据挖掘（基本步骤，使用智能方法提取数据模式）（6）模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）（7）知识表达（使用可视化和知识表示技术，向有户提供挖掘的知识）
为流感活动的指示器。它发现了搜索流感相关信息的人数与实际具体流感症状的人数之间的紧密联系。当与流感相关的所有搜索聚集在一起时，一个模式就出现了。使用聚集的搜索数据，Googel的Flu Trends可以比传统的系统早两周对流感活动作出评估。这个例子表明，数据挖掘如何把大型数据集转化成知识，帮助我们应对当代的全球性挑战。
1.3.3 事务数据
事务数据库的每一个记录代表一个事务，如顾客的一次购物、一个用户的网页点击。通常，一个事务有唯一的事务标识号（trans-ID），以及一个组成事务的项（如，交易中购买的商品）的列表。（例1.4p33）传统的数据库系统不能进行购物数据篮数据分析，但事务数据上的数据挖掘可以通过挖掘频繁项集来做这件事。频繁项集就是频繁的一起销售的商品的集合。
步骤 1~4是数据挖掘预处理的不同形式，为挖掘准备数据，数据挖掘步骤可以与用户界或知识库交互。有趣的模式提供给用户，或作为新的知识存放在知识库中。该观点把数据挖掘看做知识发现的过程中的一个步骤，但是通常人们人们把他看做知识发现的整个过程，数据挖掘是从大量的数据中挖掘有趣的模式和知识的过程。
1.4.2 挖掘频繁模式、关联和相关性
频繁模式包含多种类型：频繁项集、频繁子序列和频繁子结构。
（1）频繁项集：频繁的在事务数据中一起出现的商品的集合；（2）频繁子序列集：频繁出现的子序列，先购买，再购买；（3）频繁子结构？：涉及不同的形式（图、树和格）可以与项集或子序列结合在一起；
关联分析，变量、置信度和支持度。如，50%的置信度，如果一位顾客购买计算机，则购买软件的可能性是50%，1%的支持度，所分析的所有事物的1%显示计算机与软件一起被购买。
1.5.3 数据库系统与数据仓库
数据库系统研究关注为单位和最终用户创建、维护和使用数据库。已经建立了数据建模、查询语言、查询处理与优化方法、数据存储以及索引和存取方法的公认原则。数据库系统因其在处理非常大的、相对结构化的数据集方面的高度可伸缩性而闻名。数据仓库集成来自多种数据源和各个时间段的数据。它在多维空间合并数据ຫໍສະໝຸດ Baidu形成部分物化？的数据立方体。数据立方体不仅有利于多维数据库的OLAP，而且推动了多维数据挖掘。
1.5.2 机器学习
机器学习考察计算机如何基于数据学习（提高它们的性能）。主要领域是，计算机程序基于数据自动地学习识别复杂的模式，并作出智能的决断。下面介绍一些与数据挖掘高度相关的、经典的机器学习问题： • 监督学习：分类的同义词； • 无监督学习：聚类的同义词，因为输入的实例没有类标记； • 半监督学习：一类机器学习技术，在学习模型时，它使用标记的和未标记的实例，标记的实例用来学习类模型，而未标记的实例用来进一步改进类边界。对于两类问题，把一类看做正实例，另一类看做负实例。
第一章引论 1.1 为什么进行数据挖掘 1.2 什么是数据挖掘 1.3 可以挖掘什么类型的数据 1.4 可以挖掘什么类型的模式 1.5 使用什么技术 1.6 面向什么类型的应用 1.7 数据挖掘的主要问题
1.1.为什么进行数据挖掘 1.1.1 迈向信息时代
数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具，以便从这些海量的数据中发现有价值的信息，把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生。例如：Googel的Flu Trends(流感趋势)使用特殊的搜索项作
分类预测类别（离散的、无序的）标号，而回归建立连续值函数模型。回归用于预测缺失的或难以获得的数值数据值。相关分析可能需要在分类和回归之前进行，它试图识别与分类和回归过程显著相关的属性。
1.4.4 聚类分析
聚类分析数据对象，而不考虑类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类和分组。所形成的每个簇都可以看做一个对象类，由它可以导出规则。类似于分类法形成，即将观测数据组织成类分层结构，把类似的事件组织在一起。