大数据算法综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

据的相似性很小,跨类的数据关联性很低。
数据挖掘算法分类
关联
神经网络
Web 数据挖掘
隐藏在数据项之间的关联或相互关系,即可以根据一个 数据项的出现推导出其他数据项的出现。
一种先进的人工智能技术,具有自行处理、分布存储和
高度容错等特性。非常适合处理非线性的以及那些以模糊、 不完整、不严密的知识或数据。
数据挖掘算法分类
分类
回归分析
找出数据库中的一组数据对象的共同特点并按照分类模 式将其划分为不同的类,其目的是通过分类模型,将数据 库中的数据项映射到摸个给定的类别中。
反映了数据库中数据的属性值的特性,通过函数表达数 据映射的关系来发现属性值之间的依赖关系。
聚类
针对数据的相似性和差异性将一组数据分为几个类别。 属于同一类别的数据间的相似性很大,但不同类别之间数
数据挖掘 算法综述
张娴 16210720133 2017.04.28
CONTENTS
1 2 3
大数据概述 数据挖掘算法分类 经典算法简介
PART ONE
大数据概述
大数据概述
大数据是指无法在一定时间范围内用常规的软件工 具进行捕捉、管理和处理的数据集合。是由于目前存
储和计算模式与能力不能满足存储与处理现有数据集
PART TWO
数据挖掘 算法分类
数据挖掘
大数据的挖掘是从海量、不完全的、有噪声的、模 糊的、随机的大型数据库中发现隐含在其中有价值的、
潜在有用的信息和知识的过程,也是一种决策支持过
程。 大数据的挖掘常用的方法有分类、回归分析、聚类、 关联规则、神经网络方法、Web 数据挖掘等。这些方 法从不同的角度对数据进行挖掘。
3、重复:对于每种水平的项集一直重复计算,直到我们 之前定义的项集大小为止。
LISTENING
FOR YOUR
百度文库
THANKS
Q&A
库。
关联规则学习是学习数据库中不同变量中的相互关 系的一种数据挖掘技术。
Apriori 关联算法
基本的 Apriori 算法有三步: 1、参与:扫描一遍整个数据库,计算1-itemsets 出现的 频率。 2、剪枝:满足支持度和可信度的这些1-itemsets移动到
下一轮流程,再寻找出现的2-itemsets。
规模的需求而产生的相对概念。
大数据平台的设计
平台层
大数据分布式存储系统: 研究大规模、非结构化数 据的存储问题,突破大数 据的存储、管理和高效访 问关键技术
功能层
高可扩展性大数据挖掘算法: 基于云计算的分布式大数据 处理与挖掘算法,构建高可 扩展的大数据处理与挖掘算 法库
服务层
基于 Web 的大数据挖掘技术: Web 的大数据挖掘方法和流程, 实现易于使用的基于Web 的大 数据挖掘技术,构建基于 Web 的大数据分析环境。
K-Means算法
K-Means算法是聚类算法,k在在这里指的是分类 的类型数,所以在开始设定的时候非常关键,算法的
原理是首先假定k个分类点,然后根据欧式距离计算分
类,然后取同分类的均值作为新的聚簇中心,循环操 作直到收敛。
K-Means算法
Apriori 关联算法
Apriori算法学习数据的关联规则(association rules),适用于包含大量事务(transcation)的数据
该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
ID3算法
ID3算法
ID3算法
C4.5算法
C4.5相比于ID3改进的地方有: 1、用信息增益率来选择属性。
2、在树构造过程中进行剪枝,在构造决策树的时
候,那些挂着几个元素的节点,不考虑最好,不然容 易导致overfitting。 3、对非离散数据也能处理。 4、能够对不完整数据进行处理。
Web 从文档结构和使用的集合C 中发现隐含的模式P,
如果将C看做是输入,P 看做是输出,那么Web 挖掘过程
就可以看做是从输入到输出的一个映射过程。
PART THREE
经典算法 简介
ID3算法
决策树是一种依托决策而建立起来的一种树。在机 器学习中,决策树是一种预测模型,代表的是一种对 象属性与对象值之间的一种映射关系,每一个节点代 表某个对象,树中的每一个分叉路径代表某个可能的
属性值,而每一个叶子节点则对应从根节点到该叶子
节点所经历的路径所表示的对象的值。决策树仅有单 一输出,如果有多个输出,可以分别建立独立的决策 树以处理不同的输出。
ID3算法
ID3算法是决策树的一种,它是基于奥卡姆剃刀原
理的,即用尽量用较少的东西做更多的事。在信息论 中,期望信息越小,那么信息增益就越大,从而纯度 就越高。ID3算法的核心思想就是以信息增益来度量属 性的选择,选择分裂后信息增益最大的属性进行分裂。
相关文档
最新文档