数据挖掘第1章引言PPT课件
数据挖掘课件汇总

发现知识的使用
有些人将数据挖掘视为数据库中知识发现的一 个基本步骤,如图
Data
mining: 知识 发现过程的核心过 程.
Task-relevant Data Data Warehouse
Pattern Evaluation
Data Mining
Selection
Data Cleaning Data Integration Databases
天文学
类星体
Web应用
通过分析web访问日志,发现客户的偏好和行为模式,
分析网上市场的效果,改进网站的组织。
Data Mining: Concepts and Techniques
一些具体例子
Data Mining: Concepts and Techniques
一些具体例子
例1:医生给一个病人看病(模式识别的完 整过程)。 测量病人的体温和血压,化验血沉,询问 临床表现; 通过综合分析,抓住主要病症; 医生运用自己的知识,根据主要病症,作 出正确的诊断。
Data Mining: Concepts and Techniques
典型数据挖掘系统的结构
Graphical user interface
Pattern evaluation Data mining engine
Database or data warehouse server
Data cleaning & data integration
发现有用特征, 维和变量约简.转化成适合挖掘的形式 摘要, 分类, regression(回归), 关联, 聚类.
数据挖掘功能选择
第1章 《数据挖掘》PPT绪论

Knowledge
Information
Data
3 of 43
1.1数据挖掘基本概念
第一章 绪论
1.1.1 数据挖掘的概念
数据挖掘、数据库、人工智能
• 数据挖掘是从数据中发掘知识的过程,在这个过程中人工智能和数据库技术可以作 为挖掘工具,数据可以被看作是土壤,云平台可以看作是承载数据和挖掘算法的基 础设施 。在挖掘数据的过程中需要用到一些挖掘工具和方法,如机器学习的方法。 当挖掘完毕后,数据挖掘还需要对知识进行可视化和展现。
21 of 43
1.3数据挖掘常用工具
第一章 绪论
1.3.2 开源工具
• WEKA WEKA 是一个基于JAVA 环境下免费开源的数据挖掘工作平台,集合了大量能承担数据 挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及 在新的交互式界面上的可视化。
22 of 43
1.3数据挖掘常用工具
•R • Weka • Mahout • RapidMiner • Python • Spark MLlib
第一章 绪论
20 of 43
1.3数据挖掘常用工具
第一章 绪论
1.3.2 开源工具
•R R是用于统计分析和图形化的计算机语言及分析工具,提供了丰富的统计分析和数据挖 掘功能,其核心模块是用C、C++和Fortran编写的。
为了提高系统的决策支持能力,像ERP、SCM、HR等一些应用系统也逐渐与数据 挖掘集成起来。多种理论与方法的合理整合是大多数研究者采用的有效技术。
12 of 43
1.2 数据挖掘起源及发展历史
第一章 绪论
3 数据挖掘面临的新挑战
随着物联网、云计算和大数据时代的来临,在大数据背景下数据挖掘要面临的挑 战,主要表现在以下几个方面:
数据挖掘概念与技术第一章PPT课件

数据淹没,但却缺乏知识
信息技术的进化
···
数据挖掘的自动化分析的海量数据集 文件处理->数据库管理系统->高级数据库:系统高级数据分析
2021
3
定义:从大量的数据中提取有趣的(非平凡的,隐 含的,以前未知的和潜在有用的)模式或知识。
“数据中发现知识”(KDD)
2021
4
选择和变换
评估和表示
第一章 引论
2021
1
1.1 为什么进行数据挖掘 1.2 什么是数据挖掘 1.3 可以挖掘什么类型的数据 1.4 可以挖掘什么类型的模式 1.5 使用什么技术 1.6 面向什么类型的应用 1.7 数据挖掘的主要问题 1.8 小结
2021
2
数据爆炸
海量数据,爆炸式增长
来源:网络,电子商务,个人 类型:图像,文本···
设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:
一、更新客户所购商品的库存信息 二、保存客户付款信息--可能包括与银行系统的交互 三、生成订单并且保存到数据库中 四、更新用户相关信息,例如购物数量等等
2021
9
其他类型的数据
股票交易数据 文本 图像 音频视频 未知的
2021
10
1.4.1 类/概念描述:特征化与区分
类/概念
数据特征化
目标数据的一般特性或特征汇总
数据区分
将目标类数据对象的一般性与一个或多个 对比类对象的一般特性进行比较
特征化和区分
2021
11
1.4.2 挖掘频繁模式、关联和相关性
频繁模式是在数据中频繁出现的模式
1.频繁项集、频繁子序列、频繁子结构 2.挖掘频繁模式可以发现数据中的关联和相关性 例如:单维与多维关联
数据挖掘第一与第二章PPT课件

预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.
数据挖掘基础 数据挖掘概念ppt课件

层次聚类树树状图
A
B
C
D
E
1.1 数据挖掘概述
1.1.2 数据挖掘常用算法概述
第一章 数据挖掘概念
在面对海量数据时,需要使用一定的算法,才能从中挖掘出有用的信息,下面介绍数 据挖掘中常用的算法。
1. 分类算法 (1) 决策树算法 决策树算法是一种典型的分类算法,首先利用已知分类的数据构造决策树,然后利用 测试数据集对决策树进行剪枝,每个决策树的叶子都是一种分类,最后利用形成的 决策树对数据进行分类。决策树的典型算法有ID3,C4.5,CART等。
1.1 数据挖掘概述
1.1.3 数据挖掘常用工具概述
第一章 数据挖掘概念
2. Clementine(SPSS) 软件 Clementine是SPSS所发行的一种资料探勘工具,集成了分类、聚类和关联规则
等算法,Clementine提供了可视化工具,方便用户操作。其通过一系列节点来执行 挖掘过程,这一过程被称作一个数据流,数据流上面的节点代表了要执行的操作。 Clementine的资料可视化能力包含散布图、平面图及Web分析。
1.1 数据挖掘概述
第一章 数据挖掘概念
1.1.3 数据挖掘常用工具概述
1. Weka软件
Weka(Waikato Environment for Knowledge Analysis)的全名是怀卡托智能 分析环境,是一款免费与非商业化的数据挖掘软件,基于Java环境下开源的机器学 习与数据挖掘软件。Weka的源代码可在其官方网站下载。它集成了大量数据挖掘算 法,包括数据预处理、分类、聚类、关联分析等。用户既可以使用可视化界面进行 操作,也可以使用Weka提供的接口,实现自己的数据挖掘算法。图形用户界面包括 Weka Knowledge Flow Environment和Weka Explorer。用户也可以使用Java语 言调用Weka提供的类库实现数据挖掘算法,这些类库存在于weka.jar中。
数据挖掘概念与技术ppt课件

用户 GUI API 数据立方体 API
挖掘结果
第4层 用户界面
OLAP 引擎
第3层 OLAP/OLAM
21.05.2020
.
17
KDD过程的步骤(续)
选择挖掘算法 数据挖掘: 搜索有趣的模式 模式评估和知识表示
可视化, 变换, 删除冗余模式, 等.
发现知识的使用
21.05.2020
.
18
数据挖掘和商务智能
提高支持商务决策的潜能
制定决策
数据表示 可视化技术
数据挖掘 信息发现
21.05.2020
我们正被数据淹没,但却缺乏知识 解决办法: 数据仓库与数据挖掘
数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模
式, 限制等)
21.05.2020
.
6
数据处理技术的演进
1960s: 数据收集, 数据库创建, IMS 和网状 DBMS
1970s: 关系数据库模型, 关系 DBMS 实现
顾客分类(Customer profiling)
数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)
识别顾客需求
对不同的顾客识别最好的产品 使用预测发现什么因素影响新顾客
提供汇总信息
各种多维汇总报告 统计的汇总信息 (数据的中心趋势和方差)
21.05.2020
.
11
法人分析和风险管理
搜索有趣的模式可视化变换删除冗余模式发现知识的使用2105202019提高支持商务决策的潜能最终用户商务分析人员数据分析人员dba制定决策数据表示可视化技术数据挖掘信息发现数据探查olapmda统计分析查询和报告数据仓库数据集市数据源文字记录文件信息提供者数据库系统oltp系统2105202020数据仓库数据清理数据集成过滤数据库数据库或数据仓库数据挖掘引擎模式评估图形用户界面知识库21052020www21052020概念描述
《数据挖掘入门》PPT课件

依存性和关联性,如果两个事物或者多个事物之间存在
一定的关联关系,那么其中一个事物就能够通过其他事
物预测到。
6.
人们希望在海量的商业交易记录中发现感兴趣
的数据关联关系,用以帮助商家作出决策。例如:
7.
面包 2% 牛奶 1.5% (占超市交易总数)
8.
2%和1.5%表明这两种商品在超市经营中的重要程度,
8. 模式解释:对在数据挖掘步骤中发现的模式 (知识)进行解释。通过机器评估剔除冗余或 无关模式,若模式不满足,再返回到前面某些 处理步骤中反复提取。
9. 知识评价:将发现的知识以用户能了解的方式 呈现给用户。其中也包括对知识一致性的检查, 以确信本次发现的知识不会与以前发现的知识 相抵触。
05.06.2021
精选ppt
10
什么是数据挖掘
1. 数据挖掘(从数据中发现知识) 从海量的数据中抽取感兴趣的(有价值的、隐含的、
以前没有用但是潜在有用信息的)模式和知识。
2. 其它可选择的名字 数据库中知识挖掘、知识提取、数据/模式分析、数据
考古、数据捕捞、信息获取、事务智能等。
3. 广义观点 数据挖掘是从存放在数据库、数据仓库中或其它信息
24
6,分类与预测 分类和预测是两种重要的数据分析方法,在商业上
的应用很多。分类和预测可以用于提取描述重要数据类 型或预测未来的数据趋势。
分类的目的是提出一个分类函数或分类模型(即分 类器)通过分类器将数据对象映射到某一个给定的类别 中。数据分类可以分为两步进行。第一步建立模型,用 于描述给定的数据集合。通过分析由属性描述的数据集 合来建立反映数据集合特性的模型。第二步是用模型对 数据对象进行分类。
05.06.2021
[理学]厦门大学数据挖掘之第1章 数据挖掘概述PPT课件
![[理学]厦门大学数据挖掘之第1章 数据挖掘概述PPT课件](https://img.taocdn.com/s3/m/b36211b0856a561252d36f9a.png)
11.08.2020
3
教学目的
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统 计学、人工智能、数据库管理及数据可视化等学科的边缘学科。
用统计的观点看,它可以看成是通过计算机对大量的复杂数据 集的自动探索性分析。作为一种独立于应用的技术,一经出现立即受 到广泛的关注。
第七章理解一些其它的数据挖掘技术。模糊聚类、神 经网络、时序稠密数据集的挖掘技术等。
为了满足实际的需要,我们将利用所讲授的方法, 对某地区中国移动通讯用户消费数据库、某大学大学生 隐形教育调查资料和上证指数收盘价信息进行剖析,以 便让学生充分地领悟到数据挖掘的理论和实际价值。
11.08.2020
11.08.2020
7
第六章介绍挖掘大型数据库中的关联规则。讲授关 联规则的意义和量度,维布尔关联规则,多层关联规则, 由关联规则到相关分析。另外,引入相应分析作为数据 挖掘中关联规则的提升,介绍相应分析适应性检验的基 本思想及方法,及相应分析适应性的分层量度方法。利 用可视化方法对所多度相应分析方法进行了验证。
第四章介绍Rough集的基本模型及有关概念。这一章讲授知识的分 类观点和概念的边界观点,知识的约简和决策表的约简。以统计 思想与Rough集理论相结合,介绍对事务性数据库的统计描述,对 事务性数据库事务项及属性项压缩的方法,构建事务性数据库列 联表示的模型的思想。并利用所介绍的方法进行实证分析。
第五章重点介绍数据挖掘中的聚类问题。讲授数据的排序与有向 聚类问题。介绍聚类分析数据类型衍生的思想,并对聚类分析方 法进行了比较和检验。让学生在实际应用中认识到其方法的可靠 性与稳定性。
数据挖掘课件.

欺骗性检测和管理(1)
应用
广泛应用于医疗系统, 零售系统,信用卡服务, 电信(电 话卡欺骗行为), 等等. 利用历史性数据建立欺骗性行为模型并使用数据挖掘 帮助识别同类例子 汽车保险:检测出那些故意制造车祸而索取保险金的 人 来路不明钱财的追踪: 发现可疑钱财交易(美国财政部 的财政犯罪执行网) 医疗保险: 检测出潜在的病人,呼叫医生和证明人
了解应用领域:
相关的预备知识和应用目标
创建一个目标数据集:数据选择 数据清理和预加工(可能占用60%精力) 数据变换:
发现有用的特征,维/变量的变换,常量的表示
汇总,分类,关联,聚集
选择数据挖掘功能
选择挖掘算法 数据挖掘:搜索兴趣模式 模式评估和知识表达
可视化,变形,去掉冗余模式等等
其他应用
文本挖掘(新闻组,电子邮件,文件) 和WEB分 析 智能询问回答
市场分析和管理(1)
用于分析的数据从何来?
信用卡交易,信誉卡,折扣券,用户投诉电话,公众 生活方式调查。 找出具有相同特征(兴趣,收入水平,消费习惯等等) 的“模式”顾客群。 从单独银行账户向联合银行账户的转变。例如:结婚 不同产品之间的销售关联关系 在此关联信息上进行预测
数据挖掘功能(2)
分类和预测
找出描述并区分数据类和概念的模型(或函数)以便 能够使用模型预测类标记未知的对象类。 例如:依据气候划分国家类型或者依据每里的耗油量 划分汽车类型。 表示形式:判定树,分类规则,神经网络。 预测:预测某些未知的或空缺的数据值。 类标记未知:把数据聚类或分组成新的类,例如:把 房子聚类来找出房子的分布模式。 聚类依据以下原则:最大化类内的相似性和最小化类 间的相似性。
《数据挖掘》课件

。
Python的易读性和灵活性使得 它成为一种强大的工具,可以 快速地开发原型和实现复杂的 算法。
Python在数据挖掘中主要用于 数据清洗、特征工程、机器学 习模型训练和评估等任务。
R在数据挖掘中的应用
01
等。
02
数据挖掘技术
聚类分析
聚类分析的定义
聚类分析是一种无监督学习方法 ,用于将数据集中的对象分组, 使得同一组(即聚类)内的对象 尽可能相似,而不同组的对象尽
可能不同。
常见的聚类算法
包括K-means、层次聚类、 DBSCAN等。
聚类分析的应用
在市场细分、模式识别、数据挖 掘、统计学等领域有广泛应用。
04
Spark提供了Spark SQL、Spark MLlib和Spark GraphX等组件,可以进行结构化和非结构化数据的 处理、机器学习、图计算等任务。
Tableau在数据可视化中的应用
01 02 03 04
Tableau是一款可视化数据分析工具,能够帮助用户快速创建各种图 表和仪表板。
Tableau提供了直观的界面和强大的功能,支持多种数据源连接和数 据处理方式。
03
到了广泛应用。
数据挖掘的应用场景
商业智能
通过数据挖掘技术,企业可以 对市场趋势、客户行为等进行 深入分析,从而制定更好的商
业策略。
金融
金融机构可以利用数据挖掘技 术进行风险评估、客户细分和 欺诈检测等。
医疗
数据挖掘在医疗领域的应用包 括疾病诊断、药物研发和患者 管理等。
科学研究
数据挖掘在科研领域的应用包 括基因组学、天文学和气候学
数据挖掘CHAPTER1引言

第一章引言本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。
书中的材料从数据库角度提供,特别强调发现隐藏在大型数拯集中有趣数据模式的数据挖掘基本概念和技术。
所讨论的实现方法主要而向可规模化的、有效的数据挖掘工具开发。
本章,你将学习数据挖掘如何成为数据库技术自然进化的一部分,为什么数据挖掘是重要的,以及如何左义数据挖掘。
你将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的数据类型,以及什么样的模式提供有用的知识。
除学习数据挖掘系统的分类之外,你将看到建立未来的数据挖掘工具所面临的挑战性问题。
1.1什么激发数据挖掘?为什么它是重要的?需要是发明之母。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用.并且迫切需要将这些数据转换成有用的信息和知识。
获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制.市场分析、工程设计和科学探索等。
数据挖掘是信息技术自然进化的结果。
进化过程的见证是数据库工业界开发以下功能(图1.1):数据收集和数据库创建,数据管理(包括数拯存储和提取.数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘)。
例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和提取、査询和事务处理有效机制开发的必备基础。
随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。
自60年代以来,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数拯库系统。
自70年代以来,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数据库系统(数据存放在关系表结构中;见1・3・1小节)、数据建模工具、索引和数据组织技术。
此外,用户通过查询语言、用户界面・优化的査询处理和事务管理,可以方便、灵活地访问数据。
联机事务处理(0LTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、提取和管理的主要工具作出了重要贡献。
数据挖掘章引言-PPT文档资料

6
数据仓库的我国的发展
前景:随着计算机技术的发展,尤其是分布式技术 的发展, 数据仓库在我国有着广阔的发展空间和良 好的发展前景。例如:
由于银行商业化的步伐正在加大,各大中型银行在入世的 机遇和挑战下,开始重新考虑自身的业务,特别是信贷风 险管理方面特别注意,因而有关信贷风险管理和风险规章 的基于数据仓库的决策支持系统的需求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开 始考虑如何将数据仓库应用于商品销售分析、顾客的诚信 度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以 及数据仓库规划。
5
数据仓库的我国的发展
现状:数据仓库的概念已经被国内用户接受多年, 但在应用方面的收效不理想 原因:
现有的数据库系统不健全,数据积累还不够,无法提 出决策支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重 任的复合型人才; 没很好使用数据仓库前端工具(如OLAP工具、数据 挖掘工具等)。
数据仓库的适用范围
信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能 而降低精度要求
9
支持管理决策
数据仓库支持OLAP(联机分析处理)、数据挖掘和 决策分析。 OLAP从数据仓库中的综合数据出发,提供面向分析 的多维模型,并使用多维分析的方法从多个角度、多 个层次对多维数据进行分析,使决策者能够以更加自 然的方式来分析数据。 数据挖掘则以数据仓库和多维数据库中的数据为基础, 发现数据中的潜在模式和进行预测。 因此,数据仓库的功能是支持管理层进行科学决策, 而不是事务处理。 10
《数据挖掘导论》教材配套教学PPT——第1章 认识数据挖掘

• 数据实例(Instance)
– 用于有指导学习的样本数据
• 训练实例(Training Instance)
– 用于训练的实例
• 检验实例(Test Instance)
– 分类模型建立完成后,经过检验实例进行检验,判断模型是否 能够很好地应用在未知实例的分类或预测中。
2022年3月23日星期三
第10页,共65页
Knowledge)
2022年3月23日星期三
第21页,共65页
1.4 专家系统
清华大学出版社
专家系统(Expert System)
• 一种具有“智能”的计算机软件系统。 • 能够模拟某个领域的人类专家的决策过程,解决那些需要人类专家
处理的复杂问题。 • 一般包含以规则形式表示的领域专家的知识和经验,系统就是利用
• 决策树有很多算法(第2章)
Sore-throat Yes Cooling-effect
Not good
Unknown Good
No
Cold Type=Viral (3/0)
Cold Type=Bacterial (4/1)
Cold Type=Viral (2/0)
Cold Type=Bacterial (1/0)
Sore-
throat 咽痛
Cooling-
effect 退热效果
Group 群体发病
Cold-type 感冒类型
1
Yes
2
No
3
Yes
4
Yes
5
No
6
No
7
No
8
Yes
9
Yes
10
Yes
No
Yes
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
Evolution of Database Technology
1960s:
P2
Data collection, database creation, IMS and network DBMS
1970s:
Relational data model, relational DBMS implementation
1980s:
RDBMS, advanced data models (extended-relational, OO, deductive, etc.)
1950s-1990s, computational science Over the last 50 years, most disciplines have grown a third, computational branch (e.g. empirical, theoretical, and computational ecology, or physics, or linguistics.) Computational Science traditionally meant simulation. It grew out of our inability to find closed-form solutions for complex mathematical models.
We are drowning in data, but starving for knowledge! “Necessity is the mother of invention”—Data mining—Automated
analysis of massive data sets
2020/9/29
2020/9/29
Data Mining: Concepts and Techniques
3
Why Data Mining?
The Explosive Growth of Data: from terabytes to petabytes Data collection and data availability Automated data collection tools, database systems, Web, computerized society Major sources of abundant data Business: Web, e-commerce, transactions, stocks, … Science: Remote sensing, bioinformatics, scientific simulation, … Society and everyone: news, digital cameras, YouTube
Jim Gray and Alex Szalay, The World Wideence, Comm. ACM, 45(11): 50-54, Nov. 2002
2020/9/29
Data Mining: Concepts and Techniques
1990-now, data science The flood of data from new scientific instruments and simulations The ability to economically store and manage petabytes of data online The Internet and computing Grid that makes all these archives universally accessible Scientific info. management, acquisition, organization, query, and visualization tasks scale almost linearly with data volumes. Data mining is a major new challenge!
Data Mining: Concepts and Techniques
4
Evolution of Sciences
Before 1600, empirical science 1600-1950s, theoretical science
Each discipline has grown a theoretical component. Theoretical models often motivate experiments and generalize our understanding.
1
2020/9/29
Data Mining: Concepts and Techniques
2
Chapter 1. Introduction
Motivation: Why data mining? What is data mining? Data Mining: On what kind of data? Data mining functionality Classification of data mining systems Top-10 most popular data mining algorithms Major issues in data mining Overview of the course
Data Mining: Concepts and Techniques
— Chapter 1 — — Introduction —
© 2006 Jiawei Han and Micheline Kamber. All rights reserved.
2020/9/29
Data Mining: Concepts and Techniques