分布式数据挖掘-LAMDA-南京大学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面临的问题
– 算法方面
• 数据预处理Байду номын сангаас实现各种数据挖掘算法。 • 结合系统所处的分布式计算环境。
– 系统方面
• 能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分 布式平台上实现。 • 结点间负载平衡、减少同步与通讯开销、异构数据集成等 。
分布式数据挖掘-续
系统分类 –根据结点间数据分布情况
分布式数据挖掘
张敏灵 陈兆乾 周志华 zml@ai.nju.edu.cn
南京大学软件新技术国家重点实验室 2002.10.11
提纲
简介 – 数据挖掘 – 分布式数据挖掘 研究现状 – 同构与异构 – 分布式数据挖掘算法 – 应用实例
进一步的工作
简介-数据挖掘
什么是数据挖掘? –数据挖掘是指从巨量数据中获取有效的、新颖的、 潜在有用的、最终可理解的模式的非平凡过程。 (From U. Fayyad et al.’s definition at KDD96) –巨量的:对于少量数据的分析不需要使用数据挖掘。 –有效的:所获得的模式必须是正确的。 –新颖的:对于已知知识的投资收益不大。 –潜在有用的:所得的模式应能提供相关的决策支持。 –最终可理解的:所得的模式是提交给决策制定者的。 数据挖掘的研究领域 –数据挖掘是一门涉及机器学习、统计学、数据库、 可视化技术、高性能计算等诸多方面的交叉学科。
–分布式数据挖掘正是在这一背景下产生的,它是数 据挖掘技术与分布式计算的有机结合,主要用于分 布式环境下的数据模式发现。
分布式数据挖掘-续
分布式数据挖掘的优点
– 出于对安全性、容错性、商业竞争以及法律约束等多方面因 素的考虑,在许多情况下,将所有数据集中在一起进行分析 往往是不可行的。分布式数据挖掘系统则可以充分利用分布 式计算的能力对相关的数据进行分析与综合。 – 在传统的数据挖掘系统中,如果能将数据合理地划分为若干 个小模块,并由数据挖掘系统并行地处理,最后再将各个局 部处理结果合成最终的输出模式,则可节省大量的时间和空 间开销。
数据挖掘-续
数据挖掘的应用范围 – 描述性规则发现(Characterization) – 对比性规则发现(Discrimination) – 关联规则发现(Association) – 分类分析(Classification) – 预测(回归)分析(Prediction) – 聚类分析(Clustering) – 异常分析(Outlier analysis) – ……
• 同构:结点间数据的属性空间相同 • 异构:结点间数据具有不同的属性空间
–按照数据模式的生成方式
• 集中式:先把数据集中于中心点,再生成全局数据模式 (模型精度较高,但只适合于数据量较小的情况)。 • 局部式:先在各结点处生成局部数据模式,然后再将局部 数据模式集中到中心结点生成全局数据模式(模型精度较 低,但效率较高)。 • 数据重分布式 :首先将所有数据在各个结点间重新分布, 然后再按照与局部式系统相同的方法生成数据模式。
简介-分布式数据挖掘
产生背景 – 各相关学科的飞速发展,各种网络尤其是Internet的 广泛使用。 – 实际应用要求数据挖掘系统具有更好的可扩展性。 – 实例
• 研究某种疾病在某地的发病情况与气候的关系(疾病控制 数据库+环境数据库) • 金融组织间通过合作防止信用卡欺诈(数据共享) • 大型跨国公司营销策略的制定(销售点分散,数据仓库构 造十分耗时)
图2 一个典型的垂直分划数据集
CDM-续
CDM –研究结果表明,如果简单地将同构系统所采用的数 据挖掘方法应用于异构分布式数据挖掘系统,那么 为了得到一个精确的预测模型往往需要很大的系统 开销,有时甚至是不可行的。 – 为了能够在结点异构的情况下有效地进行数据挖掘, Kargupta等人提出了CDM (Collective Data Mining) 的概念,其基本思想是任一函数f都可以由一组基函 数所表示,即 f ( x) wk k 。
k I
–最近,Kargupta等人结合传统的ID3决策树学习算法 以及小波变换技术,成功地将CDM技术应用于分布 式决策树生成以及回归分析中,取得了令人满意的 结果。
元学习-续
元学习的具体过程
图1 元学习的具体过程
元学习-续
基分类器输出的集成方式 – 投票(Voting): 绝对(相对)多数投票,加权投票。 – 决策(Arbitration): 指定特殊的“决策者”,当各基 分类器的输出无法达成一致时,采用“决策者”的 输出。 – 结合(Combining): 使用相关的先验与领域知识指导 各输出的集成。
– 按系统功能、通讯与合作方式等情况划分……
研究现状
结点的同构与异构性 – 元学习(Meta-learning) – CDM(Collective data mining) 分布式数据挖掘算法 – 分布式决策树生成 – 分布式关联规则发现
应用系统实例
结点的同构与异构性-元学习
同构结点间的数据挖掘 –在同构分布式数据挖掘系统中,各个结点存储的数 据都具有相同的属性空间。 – 为了实现同构结点的数据挖掘,研究者们先后提出 了 元 学 习 (meta-learning) 、 合 作 学 习 (coactive learning)等方法,其中元学习方法最具代表性。 –元学习的概念是由Prodromidis等人于2000年首先提 出的,该方法采用集成学习 (ensemble learning) 的 方式来生成最终的全局预测模型(即元分类器)。 该方法的基本思想是从已经获得的知识中再进行学 习,从而得到最终的数据模式。
元学习的优点 –在基学习阶段,各个结点可以自主地选择合适的学 习算法来生成局部的基分类器。与此同时,各结点 间不存在任何通讯与同步开销,因此系统效率较高。 –在元学习阶段,由于系统可灵活采用各种集成策略,
结点的同构与异构性-CDM
异构结点间的数据挖掘 –在异构分布式数据挖掘系统中,各个结点存储的数 据具有不同的属性空间,一般而言,异构分布式数 据挖掘系统所要处理的数据集称为垂直分划数据集。
相关文档
最新文档