华南理工大学数据挖掘第一章

合集下载

《数据挖掘教学课件》数据挖掘期末考题（答案）

华南理工大学计算机科学与工程学院2012—2013学年度第二学期期末考试《数据仓库与数据挖掘技术》试卷(假的)专业：计算机科学与技术年级：2010 姓名：学号：注意事项：1. 本试卷共四大题，满分100分，考试时间120分钟；2. 所有答案请直接答在试卷上；题号一二三四总分得分一.填空题（每空1分，共20分）1.数据仓库的特征包括_面向主题________、___集成_________、__时变_________和非易失性。

2.数据仓库的三种数据模式包括_星形模式_、__雪花形模式__________、___事实星座形模式________。

3.仓库数据库服务器、_LOAP服务器________、__前端客户__________为数据仓库的多层结构。

4. OLAP技术多维分析过程中，多维分析操作包括 __上卷___、__下钻____、___切片____、__切块__________、__转轴_________等。

5. 知识发现过程的主要步骤有：数据清理、__数据集成__________、__数据选择___、数据交换、_数据挖掘________、___模式评估_________、__知识表示_______。

6. 数据仓库的视图的分类有:自顶向下视图、_数据源视图________、数据仓库视图、_商务视图_________。

二.简答题(每题6分，共42分)1.简述处理空缺值的方法。

1、忽略该记录2、手工填写空缺值3、使用默认值4、使用属性平均值5、使用同类样本平均值6、使用最可能的值2.挖掘的知识类型。

1、概念/类描述：特征化和区分2、挖掘频繁模式、关联和相关3、分类和预测4、聚类分析5、离群点分析6、演变分析3.何为OLTP与OLAP及他们的主要区别。

联机事务处理OLTP (on-line transaction processing)；联机分析处理OLAP (on-line analytical processing)；OLTP和OLAP的区别：用户和系统的面向性:OLTP面向顾客，而OLAP面向市场；数据内容：OLTP系统管理当前数据，而OLAP管理历史的数据；数据库设计：OLTP系统采用实体-联系（ER)模型和面向应用的数据库设计，而OLAP系统通常采用星形和雪花模型；视图：OLTP系统主要关注一个企业或部门内部的当前数据，而OLAP 系统主要关注汇总的统一的数据；访问模式：OLTP访问主要有短的原子事务组成，而OLAP系统的访问大部分是只读操作，尽管许多可能是复杂的查询。

《数据挖掘入门》PPT课件

依存性和关联性，如果两个事物或者多个事物之间存在
一定的关联关系，那么其中一个事物就能够通过其他事
物预测到。
6.
人们希望在海量的商业交易记录中发现感兴趣
的数据关联关系，用以帮助商家作出决策。例如：
7.
面包 2% 牛奶 1.5% （占超市交易总数）
8.
2%和1.5%表明这两种商品在超市经营中的重要程度，
8. 模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释。通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取。
9. 知识评价：将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查，以确信本次发现的知识不会与以前发现的知识相抵触。
05.06.2021
精选ppt
10
什么是数据挖掘
1. 数据挖掘（从数据中发现知识）从海量的数据中抽取感兴趣的（有价值的、隐含的、
以前没有用但是潜在有用信息的）模式和知识。
2. 其它可选择的名字数据库中知识挖掘、知识提取、数据/模式分析、数据
考古、数据捕捞、信息获取、事务智能等。
3. 广义观点数据挖掘是从存放在数据库、数据仓库中或其它信息
24
6，分类与预测分类和预测是两种重要的数据分析方法，在商业上
的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。
分类的目的是提出一个分类函数或分类模型（即分类器）通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。第二步是用模型对数据对象进行分类。
05.06.2021

数据挖掘课件

07
数据挖掘实践案例
电商用户行为分析
1 2
用户购买行为分析
分析用户的购买记录，识别用户的购买习惯和偏好，为电商企业提供精准的产品推荐和营销策略。
用户活跃度分析
分析用户的登录、浏览、搜索等行为，评估用户的活跃度和兴趣，优化网站内容和结构。
3
用户满意度分析
通过用户评价和反馈，了解用户对产品的满意度和需求，及时调整产品和服务，提高用户满意度和忠诚度。
层次聚类算法的优缺点
层次聚类算法能够得到完整的聚类树，但计算复杂度高，且需要预先确定簇的数量或截断线。
05
分类与回归
决策树算法
决策树算法概述
ID3算法
决策树是一种常见的分类与回归算法，通过树形结构来表达决策过程。
ID3算法是决策树学习算法的一种，它根据信息增益来选择划分属性。
C4.5算法
CART算法
C4.5算法是ID3算法的改进版，它引入了增益率的概念，解决了ID3算法对可取值数目较多的属性有所偏好的问题。
CART算法是一种采用二叉树结构的决策树学习算法，概述
距离度量
K近邻算法是一种基本的分类与回归算法，它根据距离来衡量样本之间的相似性。
信用卡欺诈检测
01
异常交易检测
监测信用卡交易记录，及时发现异常交易，如大额交易、异地交易等，防止欺诈行为。
02
欺诈模式识别
03
实时监控与警报
通过对历史欺诈行为进行分析，发现欺诈模式和特征，建立欺诈检测模型。
实时监测信用卡交易，触发警报机制，及时通知银行和持卡人，防止欺诈行为。
股票价格预测
填充缺失值
对于缺失的数据，可以采用不同的方法进行填充，如用平均值、中位数或模式匹配等方法。

数据挖掘概述PPT课件

还有很多案例都可以印证，现在的社会是一个信息爆炸的社会。是在信息的潮流中随波逐流还是“到中流击水，浪遏飞舟”？
第5页/共63页
数据挖掘技术的另一个产生动力 2.数据过量而知识贫乏现代人了解古代的主要方式主要是通过前人留下的记录，但是这些记录往往是零碎的、不完全的。例如？
想象一下，如果后人希望了解现在人们的生活状况，他们面临的已不再是信息缺失，而是需要从浩如烟海的资料中有选择性的收集他们认为有用的信息，若没有一定技术支持，其难度恐怕可以用“浪里淘金”或“大海捞针”来形容。
一、引例例1。如果你在当当的购书网站并购买过书籍或音像制品，以后再浏览该网站时经常看到类似的提示： “欢迎你，下面是我们给您推荐的新书和VCD。” 然后就可以在网页的某个位置看到几本新书或VCD 的名字及其相关链接。网站怎么知道读者可能会对这些物品干兴趣？
这是因为网站采用了新的技术来了解顾客的潜在需求，比如：网站从顾客的购买清单中发现你买的书与张三买过的书有几本是相同的，但是还有些书张三已经买了，而你却还没买，网站会据此认为你们的阅读偏好相近，从而你会对那些书也干兴趣。
6
鲑鱼，尿布，啤酒
7
面包，茶，糖鸡蛋
8
咖啡，糖，鸡，鸡蛋
9
面包，尿布，啤酒，盐
10
茶，鸡蛋，小甜饼，尿布，啤酒
从这个销售数据中可以得出什么结论？
第2页/共63页
简单分析发现，有6个顾客买了啤酒，而其中5个人买了尿布，或说，5个买了尿布的顾客都买了啤酒。
从数据挖掘的角度就是得到了如下的很强的关联规则：
第18页/共63页
则S2与S6之间的相异度为10，而相似度为1/11, 有min_d=2,max_d=29,因此，也可以定义相似度为1-(10-2)/(29-2)=19/27。

《数据挖掘》课程PPT-聚类分析

图像处理
1 2 3
图像分割
在图像处理中，聚类分析可以用于将图像分割成多个区域或对象，以便进行更细致的分析和处理。
特征提取
通过聚类分析，可以提取图像中的关键特征，如颜色、形状、纹理等，以实现图像分类、识别和检索。
图像压缩
通过聚类分析，可以将图像中的像素进行聚类，从而减少图像数据的维度和复杂度，实现图像压缩。
03 推荐系统
利用聚类分析对用户和物品进行分类，为用户推荐相似或相关的物品或服务。
02
聚类分析的常用算法
K-means算法
• 概述：K-means是一种基于距离的聚类算法，通过迭代将数据划分为K个集群，使得每个数据点与其所在集群的中心点之间的距离之和最小。
• · 概述：K-means是一种基于距离的聚类算法，通过迭代将数据划分为K个集群，使得每个数据点与其所在集群的中心点之间的距离之和最小。
03 基于模型的聚类
根据某种模型对数据进行拟合，将数据点分配给不同的模型，常见的算法有EM算法、高斯混合模型等。
聚类分析的应用场景
01 客户细分
将客户按照其特征和行为划分为不同的细分市场，以便更好地了解客户需求并提供定制化服务。
02 异常检测
通过聚类分析发现数据中的异常值或离群点，以便及时发现潜在的问题或风险。
生物信息学
基因表达分析
在生物信息学中，聚类分析可以用于分析基因表达数据，将相似的基因聚类在一起，以揭示基因之间的功能关联和调控机制。
蛋白质组学分析
通过聚类分析，可以研究蛋白质之间的相互作用和功能模块，以深入了解生物系统的复杂性和动态性。
个性化医疗
通过聚类分析，可以根据个体的基因型、表型等特征进行分类，为个性化医疗提供依据和支持。

数据挖掘概念与技术(第三版)课后答案——第一章

数据挖掘概念与技术（第三版）课后答案——第⼀章1.1 什么是数据挖掘？在你的回答中，强调以下问题：(a)它是⼜⼀种⼴告宣传吗？(b)它是⼀种从数据库、统计学、机器学习和模式识别发展⽽来的技术的简单转换或应⽤吗？(c)我们提出了⼀种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这⼀观点吗？针对统计学和模式识别领域，做相同的事。

(d)当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：数据挖掘不是⼀种⼴告宣传，它是⼀个应⽤驱动的领域，数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、⾼性能计算和许多应⽤领域的⼤量技术。

它是从⼤量数据中挖掘有趣模式和知识的过程。

数据源：包括数据库、数据仓库、Web、其他信息存储库或动态的流⼊系统的数据等。

当其被看作知识发现过程时，其基本步骤主要有：1. 数据清理：清楚噪声和删除不⼀致数据；2. 数据集成：多种数据源可以组合在⼀起；3. 数据选择：从数据库中提取与分析任务相关的数据；4. 数据变换：通过汇总或者聚集操作，把数据变换和统⼀成适合挖掘的形式；5. 数据挖掘：使⽤智能⽅法或者数据挖掘算法提取数据模式；6. 模式评估：根据某种兴趣度量，识别代表知识的真正有趣的模式。

7. 知识表⽰：使⽤可视化和知识表⽰技术，向⽤户提供挖掘的知识。

1.2 数据仓库与数据库有什么不同？它们有哪些相似之处？答：不同：数据仓库是多个异构数据源在单个站点以统⼀的模式组织的存储，以⽀持管理决策。

数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。

数据库系统也称数据库管理系统，由⼀组内部相关的数据（称作数据库）和⼀组管理和存取数据的软件程序组成，是⾯向操作型的数据库，是组成数据仓库的源数据。

它⽤表组织数据，采⽤ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

数据挖掘PPT

任务：根据花的特征预测花的种类数据集：iris数据集 (/ml/datasets/Iris) 数据描述：鸢尾花(iris)数据集包含150种鸢尾花的信息，每50种取自三个鸢尾花种之一：setosa,versicolour和virginica,每个花的特征用下面5种属性描述： 1、萼片长度（厘米） 2、萼片宽度（厘米） 3、花瓣长度（厘米） 4、花瓣宽度（厘米） 5、类（setosa,versicolour,virginica）
KDD过程（续）
9.知识评价：将发现的知识以用户能了解的方式呈现给用户。在上述步骤中，数据挖掘占据非常重要的地位，它主要是利用某些特定的知识发现算法，在一定的运算效率范围内，从数据中发现出有关知识，决定了整个KDD过程的效果与效率。
Topic 2:数据挖掘任务举例
任务分类
数据挖掘任务有两类：第一类是预测性挖掘任务：在当前数据上进行推断，以进行预测；第二类是描述性挖掘任务：刻划数据库中数据的一般特性（相关、趋势、聚类、异常…）。
KDD过程（续）
3.数据预处理：对步骤2中选出的数据进行再处理，检查数据的完整性及数据一致性，消除噪声，滤除与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。 4.数据变换：根据知识发现的任务对经过预处理的数据进行再处理，主要是通过投影或利用数据库的其他操作减少数据量。
高级算法多处理器计算机海量数据库
提供预测性的信息
KDD的出现
基于数据库的知识发现（KDD）一词首次出现在1989年举行的国际人工智能联合大会 IJCAI-89 Workshop。 1995年在加拿大蒙特利尔召开了第一届 1995 KDD国际学术会议（KDD’95）。由Kluwers Publishers出版，1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。

华南理工大学《数据挖掘》复习资料全

华南理工大学《数据挖掘》复习资料【英文缩写】BI(商务智能): Business IntelligenceOLAP(联机分析处理): Online Analytical Processing OLTP(联机事务处理): Online Transaction Processing ETL(提取/变换/装入): Extraction/Transformation/LoadingKDD(数据中的知识发现):Knowledge Discovery in DatabasesLecture 1.【知识发现的主要过程】(1)数据清理（消除噪声和不一致的数据）(2)数据集成（多种数据源可以组合在一起）(3)数据选择（从数据库中提取与分析任务相关的数据）(4)数据变换（数据变换或同意成适合挖掘的形式，如通过汇总或聚集操作）(5)数据挖掘（基本步骤，使用只能方法提取数据模式）(6)模式评估（根据某种兴趣度度量，识别表示只是的真正有趣的模式）(7)知识表示（使用可视化和只是表示技术，向用户提供挖掘的知识）【挖掘的知识类型】(1)概念描述：特征划与区分(概化、摘要、以及对比数据特征)(2)关联（相关性或者因果关系）(3)分类与预测：对类或概念构造模型或函数以便对未来数据进行预测(4)聚类分析：类标识符是未知的，把数据分成不同的新类，使得同一个类中的元素具有极大的相似性，不同类元素的相似性极小。

(5)趋势与偏差分析：序列模式挖掘(6)孤立点分析：孤立点，不符合该类数据的通用行为的数据，不是噪声或异常。

【数据挖掘在互联网、移动互联网的应用】(1)Web用法挖掘（Web日志挖掘）：在分布式信息环境下捕获用户访问模式(2)权威Web页面分析：根据Web页面的重要性、影响和主题，帮助对Web页面定秩(3)自动Web页面聚类和分类：给予页面的内容，以多维的方式对Web页面分组和安排(4)Web社区分析：识别隐藏的Web社会网络和社团，并观察它们的演变Lecture 2.【为什么需要数据预处理】现实世界中的数据很“脏”，具有以下特性：(1)不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据(2)含噪声的: 包含错误或存在孤立点(3)不一致的: 在名称或代码之间存在着差异数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。

1数据挖掘每章知识

第一章1.数据发掘定义：从大批的、不完好的、有噪声的、模糊的、随机的数据中，提取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程。

2.不可以在原数据库上做决议而要建筑数据库房的原由：传统数据库的办理方式和决议剖析中的数据需求不相当，主要表此刻：⑴决议办理的系统响应问题⑵决议数据需求的问题⑶决议数据操作的问题3.数据库房的定义W.H.Inmon 的定义：数据库房是一个面向主题的、集成的、非易失的且随时间变化的数据会合，用来支持管理人员的决议。

公认的数据库房看法基本上采纳了W.H.Inmon 的定义：数据库房是面向主题的、集成的、不行更新的（稳固性）随时间不停变化（不一样时间）的数据会合，用以支持经营管理中的决议拟订过程。

4.数据库房与数据发掘的关系：⑴数据库房系统的数据能够作为数据发掘的数据源。

数据库房系统能够知够数据发掘技术对数据环境的要求，能够直接作为数据发掘的数据源。

⑵数据发掘的数据源不必定一定是数据库房系统。

数据发掘的数据源不必定一定是数据库房，可以是任何数据文件或格式，但一定早先进行数据预办理，办理成适合数据发掘的数据。

5.数据发掘的功能—— 7 个方面：⑴看法描绘：对某类对象的内涵进行描绘，并归纳这种对象的有关特点。

①特点性描绘②差异性描绘⑵关系剖析：若两个或多个变量间存在着某种规律性，就称为关系。

关系剖析的目的就是找出数据中隐蔽的关系网。

⑶分类与展望①分类②展望⑷聚类剖析：客观的按被办理对象的特点分类，将有相同特点的对象归为一类。

⑸趋向剖析：趋向剖析——时间序列剖析，从相当长的时间的发展中发现规律和趋向。

⑹孤立点剖析：孤立点：数据库中包含的一些与数据的一般行为或模型不一致的数据。

⑺偏差剖析：偏差剖析——比较剖析，是对差异和极端特例的描绘，揭露事物偏离惯例的异样现象。

6.数据发掘常用技术：⑴数据发掘算法是数据发掘技术的一部分⑵数据发掘技术用于履行数据发掘功能。

⑶一个特定的数据发掘功能只合用于给定的领域。

华南理工大学《信息检索与web挖掘》复习资料

【Boolean Queries】
OR, AND, BUT. (Take union intersection difference) Merging step take O(x+y) opeartions, so postings should be sorted by docID.
Precision (查准率)：How much of what was found is relevant Recall (查全率)：How much of what is relevant was found
若符合要求，则加入到结果集
【Automatic Evaluation Model】
【Interpolating a Recall/Precision Curve】
Interpolate at 11 standard recall levels(0.0,0.1,…,1.0) Precision at the j-th level is maximum known precision at any
(9) B c
(10)B c
(11) B c
IR 02.
【a】【a】【a】【a】【a】【a】【a】【a】
(12)B c
(13)B c
(14)B c
(15)B c
(16)B c
(17)B c
(18)B c
(19)B c
(20)B c
(21)B c
(22) B c
(23) B c
(24) B c
(25) B c
(26) B c
【a】【a】【a】【a】【a】【a】【a】【a】【a】【a】【a】【a】【a】【a】【a】

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章
为什么要提出数据挖掘?
面临的挑战：
●数据太多，信息太少
●难以发掘潜在的规则
●难以交互分析了解各种组合
●难以追溯历史数据成为孤岛
●随着数据量的增大，难度越来越大
解决的问题：
●数据挖掘找出潜在规则，辅助决策
●OLAP、数据分析提供了更及时、更丰富的信息
●报表系统提供了最基本的信息
应用：
●市场分析与管理
●风险分析与管理
●欺诈检测与异常模式检测
●文本挖掘(news group, email, documents)，Web 挖掘
●流数据挖掘
●生物信息学与生物数据分析
什么是数据挖掘?
从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。

⏹非平凡（的过程）：有一定的智能性、自动性（仅仅给出所有数据之和不能
算做一个发现过程）。

⏹有效性：所发现的模式对新的数据仍保持一定的可信度。

⏹潜在有用性：所发现的模式将来有实际的效用。

⏹新颖性：所发现的模式应该是新的。

⏹最终可理解性：能被用户理解，如：简洁性
⏹有趣性：有效性、新颖性、潜在有用性、最终可理解性的综合
数据挖掘过程：
数据清洗：消除噪音和不一致数据
数据集成：多种数据源可以组合在一起
数据选择：从数据库中提取与分析任务相关的数据
数据变换：数据变换或统一成适合挖掘的形式，如通过汇总或聚集操作
数据挖掘：基本步骤，使用智能方法提取数据模式
模式评估：根据某种兴趣度度量，识别表示知识的真正有趣的知识
知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识
数据挖掘: 哪些数据类型?
关系数据库、数据仓库、事务数据库、空间数据、工程设计数据、超文本或多媒体数据、时间相关的数据、流数据和万维网
数据挖掘的功能
一般功能
●描述性的数据挖掘
●预测性的数据挖掘
数据挖掘可以挖掘哪些模式？
⏹概念/类描述: 特性化和区分（定性与对比）
概念描述(concept description)：对含有大量数据的数据集合进行概述性的
总结并获得简明、准确的描述。

特征化：目标类数据的一般特征或特征的汇总。

（归类）
区分：将目标类数据对象的一般特征与一个或多个对比类对象的一般特征的
汇总描述
⏹关联分析
关联规则挖掘：发现大量数据中项集之间有趣的关联
基本表示形式：前提条件⇒结论[支持度, 置信度]
buys(x, “diapers”) ⇒buys(x, “beers”) [0.5%, 66%]
major(x, “CS”) takes(x, “DB”) ⇒grade(x, “A”) [1%, 75%]
⏹分类和预测
分类过程:找出描述和区分数据类或概念的模型（或函数），以便能够使用
模型预测类标号未知的对象类
预测: 多用于连续的数值数据
⏹聚类分析
聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类
是未知的，故此，这是一个“无指导的学习”（unsupervised learning）过程
⏹孤立点分析
与数据的一般行为或模式不一致。

多数为噪声或异常数据，常被剔除。

⏹趋势和演变分析
对随时间变化的数据对象的变化规律和演化趋势进行建模分析。

（时序数
据库）
方法：
趋势和偏差: 回归分析
序列模式匹配：周期性分析
基于类似性的分析
数据挖掘系统分类
Top-10 数据挖掘算法
⏹#1: C4.5 (61 votes)
⏹#2: K-Means (60 votes)
⏹#3: SVM (58 votes)
⏹#4: Apriori (52 votes)
⏹#5: EM (48 votes)
⏹#6: PageRank (46 votes)
⏹#7: AdaBoost (45 votes)
⏹#7: kNN (45 votes)
⏹#7: Naive Bayes (45 votes)
⏹#10: CART (34 votes)
数据挖掘的主要问题
1、数据挖掘技术和用户交互问题
a)挖掘数据库中不同类型的知识
b)多个抽象层的交互知识挖掘
c)结合背景知识
d)数据挖掘查询语言和特定的数据挖掘
e)数据挖掘结果的表示和可视化
f)处理噪声和不完全数据
g)模式评估即兴趣度问题
2、关于数据库类型的多样性问题
a)关系的和复杂的数据类型的处理
b)从异构数据库和全球信息系统挖掘信息
3、性能问题
a)数据挖掘算法的有效性和可伸缩性
b)并行、分布和增量数据挖掘算法
总结
数据库技术已经从原始的数据处理，发展到开发具有查询和事务处理能力的数据库管理系统。

进一步的发展导致越来越需要有效的数据分析和数据理解工具。

这种需求是各种应用收集的数据爆炸性增长的必然结果；这些应用包括商务和管理、行政管理、科学和工程、环境控制。

数据挖掘是从大量数据中发现有趣模式，这些数据可以存放在数据库、数据仓库或其它信息存储中。

这是一个年青的跨学科领域，源于诸如数据库系统、数据仓库、统计、机器学习、数据可视频化、信息提取和高性能计算。

其它有贡献的领域包括神经网络、模式识别、空间数据分析、图象数据库、信号处理和一些应用领域，包括商务、经济和生物信息学。

知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模式评估和知识表示。

数据模式可以从不同类型的数据库挖掘；如关系数据库，数据仓库，事务的、对象-关系的和面向对象的数据库。

有趣的数据模式也可以从其它类型的信息存储中提取，包括空间的、时间相关的、文本的、多媒体的和遗产数据库，以及万维网。

数据仓库是一种数据的长期存储，这些数据来自多数据源，是有组织的，以便支持管理决策。

这些数据在一种一致的模式下存放，并且通常是汇总的。

数据仓库提供一些数据分析能力，称作OLAP（联机分析处理）。

数据挖掘功能包括发现概念/类描述、关联、分类、预测、聚类、趋势分析、偏差分析和类似性分析。

特征和区分是数据汇总的形式。

模式提供知识，如果它易于被人理解、在某种程度上对于测试数据是有效的、潜在有用的、新颖的，或者它验证了用户关注的某种预感。

模式兴趣度度量，无论是客观的还是主观的，都可以用来指导发现过程。

数据挖掘系统可以根据所挖掘的数据库类型、所挖掘的知识类型、或所使用的技术加以分类。

大型数据库中有效的数据挖掘对于研究者和开发者提出了大量需求和巨大的挑战。

问题涉及数据挖掘技术、用户交互、性能和可规模性、以及大量不同数据类型的处理。

其它问题包括数据挖掘的应用开发和它们的社会影响。