课件07haloop大数据机群迭代处理
最新大数据时代ppt课件
公共安全监控
利用大数据技术对公共安 全领域进行实时监控和预 警,提高应对突发事件的 能力。
企业经营管理与决策支持应用
市场分析与预测
通过大数据分析市场趋势、竞争 对手和消费者行为等信息,为企 业制定市场策略提供决策支持。
客户关系管理
整合客户数据资源,实现客户画像 、需求分析和精准营销,提高客户 满意度和忠诚度。
战。
数据安全法规
各国政府加强对数据安全的监管 ,企业需要遵守相关法规,确保
数据合规性。
技术创新与人才培养问题
技术更新换代
01
大数据技术发展迅速,企业需要不断跟进新技术,提高数据处
理效率和分析能力。
人才短缺
02
大数据领域人才需求旺盛,但当前市场上合格的大数据人才相
对匮乏。
培养体系不完善
03
目前大数据人才培养体系尚不完善,需要加强高校、培训机构
区块链技术在大数据领域应用前景
数据安全与隐私保护
区块链技术通过去中心化、分布式存储等特性,保障大数据的安 全性和隐私性。
数据追溯与审计
区块链技术可实现数据全生命周期的追溯和审计,提高数据的可信 度和透明度。
跨域数据共享与交换
区块链技术可打破数据孤岛,实现跨域数据的安全共享和交换。
边缘计算推动大数据处理能力提升
特点
大数据具有5V特点,即Volume(大量)、Velocity(高速)、Variety(多样 )、Value(低价值密度)、Veracity(真实性)。
大数据发展历程
萌芽期
20世纪90年代至2008年,大数据概 念开始萌芽,主要关注数据存储和计 算能力的提升。
发展期
2009年至2012年,大数据概念逐渐 受到关注,出现了一批大数据创业公 司,同时Hadoop等开源技术也开始 得到广泛应用。
大数据处理技术简介(PPT 37张)
本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mb
学习 · 创造
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。
数据源 任务1
任务2.1
计算单元3 任务2.1
计算单元2 任务2 任务3.1 任务2.2
任务3.2 基于文件/消息传输的 分布式并行计算
应用 普通集群 云计算 数据流 实时云计算
计算模型与通信机制 基于消息传递的分布式模型 基于文件传输的并行计算模型 基于消息(封装文件)传输的 并行计算
数据规模 TB级/百台 PB级/千台 PB级/千台
3、海量异构的数据(包括文本、图像、声音等)。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)
3
学习 · 创造
大数据处理技术的应用
近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用
括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流
据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海 动数据建模并处理,产生了一些新的基础性研究问题。
计算模型 MPI
MapReduc
Online MapReduc
11
学习 · 创造
实时计算系统的改造
• • • • •ຫໍສະໝຸດ • • • • • • •
第一类方法,Hadoop改造: [1] Yingyi Bu等在Hadoop MapReduce工作的基础上设计了HaLoop,主要克服了Hadoo 迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点; [2] 伯克利大学的Tyson Condie等对Hadoop进行改进,设计了Hadoop Online Prototype 系统,支持连续查询、事件监测以及流处理等功能; [3] Facebook在SIGMOD’ 2011上发表了利用Hbase/Hadoop进行实时处理数据的论文,通 些实时性改造,力图使hadoop批处理计算平台也具备实时计算的能力。 [4] Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据 系统Percolator,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处 遍整个系统。 [5] Wang Lam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet; 第二类方法,实时云计算系统: [6] MIT等三所高校的研究人员联合研发了第二代分布式流处理系统Borealis; [7] Sheheryar Malik设计了具有良好错误容忍机制的实时云计算系统;Harmeek Singh BFacebook Puma,Twitter Storm,Yahoo! S4 [9] 2011年组织了以实时云计算和虚拟化为主题的国际讨论组会RTSOAA(Real-Time Cloud Computing and Virtualization)。 [10] 2011年度的Hadoop China大会一个热点议题就是数据流计算,在MapReduce计算模型 全球之后,Stream Processing将会是下一个研究热点,无论是在工业界还是学术界。
《大数据平台部署与运维》课件——MapReduce计数器的基本原理
19
Hadoop MapReduce——自定义计数器 另外一种自定义Counter的方式是动态计数器。除了使用getCounter方法获取枚 举中值的方式外,Context类中还有一个重载的方法getCount(String groupName,String countName)能够对当前计数器进行动态计数。
IntWritable>.Context context)
throws
IOException,
InterruptedException {
int sum=0;
for (IntWritable val : value) {
sum+=val.get();
}
context.write(key, new IntWritable(sum));
Map 端 sort
Map 端的输出数据,先写环形缓存区 kvbuffer,当环形缓冲 区到达一个阀值(可以通过配置文件设置,默认80),便要开始 溢写,但溢写之前会有一个 sort 操作,这个 sort 操作先把 Kvbuffer 中的数据按照 partition 值和 key 两个关键字来排序,移 动的只是索引数据,排序结果是 Kvmeta 中数据按照 partition 为 单位聚集在一起,同一 partition 内的按照 key 有序。
合并排序
Reduce 端,拉取到各个 Map 节点对应分片的数据之 后,会进行再次排序,排序完成,结果丢给 Reduce 函数 进行计算。
Hadoop MapReduce ——Combiner组件 如单词统计问题,若有1亿个单词,就会传输1亿个键值对,合理的使用 Combiner可以减少键值对的网络传输,提示效率。 Combiner发生在map端,通常与reduce有相同的实现 Combiner一般适用于求和,求最大值或最小值,不适用与求平均 值 声明Combiner类的时候必须继承Reducer
大数据的处理和分析ppt课件
– 关键技术概述、PageRank初步
3
大数据的魅力
• 数据挖掘
– 数据挖掘的定义 1. 从数据中提取出隐含的过去未知的有价值的潜
在信息 2. 从大量数据或者数据库中提取有用信息的科学
– 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理数据挖掘数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结4果
经关联分析,可发现顾客经常同时购买的商品:尿布牛5 奶
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 在总数据量相同的情况下,与个别分析独立的小 型数据集相比,将各个小型数据集合并后进行分 析可得出许多额外的信息和数据关系性,可用来 察觉商业趋势、避免疾病扩散、打击犯罪、测定 实时交通路况或判定研究质量等
大数据时代的精髓在于人们分析信息时的 三个转变,这些转变将改变人们决策的制定 和对表象的理解
14
大数据时代的思维变革
• 变革一 — 更多: 不是随机样本, 而是全体数据
1. 随机抽样:用最少的数据获得最多的信息 – 过去由于获取和分析全体数据的困难,抽样调查
是一种常用统计分析方法。它根据随机原则从总 体中抽取部分实际数据进行调查,并运用概率估 计方法,根据样本数据推算总体相应的数量指标
通过统计性的搜索、比较、聚类、分析和归纳, 寻找事件(或数据)之间的相关性 – 一般来说,统计学无法检验逻辑上的因果关系 – 也许正因为统计方法不致力于寻找真正的原因, 才 促进数据挖掘和大数据技术在商业领域广泛应用
课时2 大数据处理的基本思想与架构 课件(共42张ppt)浙教版(2019)必修1
(3)图计算 图数据的特点是节点之间的关系错综复杂,且节点之间可能有多条回路。目前通 用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、 OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内 基梅隆大学的GraphLab、运行于Spark平台的GraphX等。 (4)实时处理与批处理的整合 开发者在同一个平台既可以做批处理,也可以做实时流计算,还可以进行两种模 式的混合使用。平台的整合降低了批处理与流处理之间的切换,有利于减少系统 的开销,降低使用成本。
123
索引
2.下列有关大数据按照类型划分的处理方式的描述,正确的是 ( C )
A.流数据采用批处理计算 B.静态数据采用流计算 C.社交网络的数据一般采用图计算 D.图数据采用批量计算
解析 大数据处理按照类型可划分为对静态数据的批处理计算、对流数据的 流计算和对图结构数据的图计算,社交网络、道路交通等数据一般采用图计算 模式进行处理,因此,答案为C。
索引
5.分布式的列式数据库(HBase)采用基于_列___的存储形式,建立在HDFS提供的底 层存储基础上,主要用来存储非结构化数据和_半__结__构__化___数据,具有良好的横向 扩展能力,可管理PB级的大数据。
6.流数据是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值 也随着_降__低___。
索引
例 3 下列关于分布式文件系统,说法错.误.的是 ( B )
A.是一个高度容错性的系统 B.适合于静态数据的存储,但不适合于流数据的存储 C.Hadoop系统中,采用基于列的存储方式进行存储 D.大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中 解析 大数据往往用分布式文件系统为底层文件格式,即可以是实时信息,也可 以是静态数据。
大数据解析ppt课件
医疗领域:精准医疗和智慧健康
精准医疗
通过大数据分析技术,医疗机构可以对 患者的基因组、生活习惯、病史等信息 进行深入挖掘和分析,实现个性化诊断 和治疗方案的制定,提高治疗效果和患 者生活质量。
VS
智慧健康
利用大数据技术,可以对人们的健康数据 进行实时监测和分析,提供个性化的健康 管理和预防保健建议,促进人们养成健康 的生活方式。
数据仓库
用于存储和管理多个数据 源的数据,提供数据清洗 、整合和转换等功能。
数据处理与分析技术
批处理技术
对大量数据进行批量处理,适用于离线数据 处理场景。
机器学习技术
流处理技术
对实时数据流进行连续处理,适用于在线数 据处理场景。
通过训练模型对数据进行自动化分析和预测 ,提供智能化决策支持。
02
01
数据可视化技术
将数据以图表、图像等形式展示,帮助用户 更直观地理解数据和分析结果。
04
03
03 大数据采集与预处理
数据来源及采集方法
社交媒体
微博、微信、抖音等社交平台上的用户生成内容。
企业内部数据
CRM、ERP等系统产生的业务数据。
数据来源及采集方法
物联网设备
传感器、智能设备等产生的实时数据。
D
06 大数据在各行各业应用案例
金融行业:风险控制和客户画像
风险控制
利用大数据分析技术,金融机构可以对借款人的信用历史、 财务状况、社交网络等信息进行深入挖掘和分析,从而更准 确地评估借款人的信用风险,提高信贷决策的准确性。
客户画像
金融机构可以利用大数据技术对客户的消费习惯、投资偏好 、社交网络等信息进行收集和分析,形成全面的客户画像, 为个性化金融产品和服务的设计提供有力支持。
03674_《大数据时代》PPT课件
智慧城市
利用大数据分析和预测城市交通、能源、环境等方面的问题,提 高城市管理的效率和智能化水平。
物联网与智能制造
结合大数据和物联网技术,实现生产过程的智能化管理和优化, 提高生产效率和产品质量。
社交媒体与市场营销
通过分析社交媒体上的用户行为和数据,为企业提供更精准的市 场营销策略和客户服务。
15
04
深入学习大数据相关技术 和应用
对未来学习的展望与计划
01
2024/1/24
03 02
32
拓展思考
个人层面应用大数据思维
利用大数据了解自身行为模式与偏好
基于数据分析,优化个人决策与生活方式
2024/1/24
33
拓展思考
2024/1/24
01
企业层面应用大数据思维
02
构建企业数据仓库,整合内外部数据资源
17
技术挑战与解决方案
数据处理速度
大数据处理需要高速的计算和存储能力,传 统技术可能无法满足需求。
分布式计算与存储技术
采用分布式计算和存储技术,提高数据处理 速度和效率。
2024/1/24
数据质量问题
大数据中可能存在大量不准确、不完整或重 复的数据,影响分析结果的准确性。
数据清洗与整合技术
运用数据清洗和整合技术,提高数2024/1/24
16
数据安全与隐私问题
01
02
03
数据泄露风险
由于技术和管理漏洞,大 数据存储和处理过程中可 能发生数据泄露事件,导 致个人隐私受损。
2024/1/24
数据滥用问题
未经授权的数据访问和使 用可能导致数据滥用,侵 犯个人隐私和商业秘密。
加密与匿名化技术
大数据处理技术ppt讲课稿
大数据处理技术ppt讲课稿科信办刘伟第一节Mapreduce编程模型:1.技术背景:分布式并行计算是大数据(pb)处理的有效方法,编写正确高效的大规模并行分布式程序是计算机工程领域的难题:分布式并行计算是大数据(pb)处理的有效方法,编写正确高效的大规模并行分布式程序是计算机工程领域的难题。
并行计算的模型、计算任务分发、计算机结果合并、计算节点的通讯、计算节点的负载均衡、计算机节点容错处理、节点文件的管理等方面都要考虑。
谷歌的关于mapreduce论文里这么形容他们遇到的难题:由于输入的数据量巨大,因此要想在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。
如何处理并行计算、如何分发数据、如何处理错误?所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理,普通程序员无法进行大数据处理。
为了解决上述复杂的问题,谷歌设计一个新的抽象模型,使用这个抽象模型,普通程序员只要表述他们想要执行的简单运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节,这些问题都被封装了,交个了后台程序来处理。
这个模型就是mapreduce。
谷歌2004年公布的mapreduce编程模型,在工业、学术界产生巨大影响,以至于谈大数据必谈mapreduce。
学术界和工业界就此开始了漫漫的追赶之路。
这期间,工业界试图做的事情就是要实现一个能够媲美或者比Google mapreduce更好的系统,多年的努力下来,Hadoop(开源)脱颖而出,成为外界实现MapReduce计算模型事实上的标准,围绕着Hadoop,已经形成了一个庞大的生态系统2. mapreduce的概念:MapReduce是一个编程模型,一个处理和生成超大数据集的算法模型的相关实现。
简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。
MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。
浙教版 信息技术 必修1 4.2 大数据处理 课件(34张幻灯片)
问题与讨论:
结合生活实践,查找资料,列举静态数据、 流数据处理实例。
拓展链接
Hadoop应用实例: 北京城市数据映像-流动的城市 “北京城市数据映像”项目采集了北京市地铁一卡 通数据、出租车GPS定位轨迹数据、移动手机基站定 位、地理位置微博数据、工商业POI地点等约2TB的数 据。数据计算平台采用了服务器集群、Hadoop和HBase 架构。
2008年1月,Hadoop成为Apache顶级项目,迎来了它的快速发展期。
2.流计算
图4.2.4 流计算的发展
图4.2.5 Twitter的分层数据处理架构
拓展链接
主要的流计算软件系统 目前,处理流数据的软件系统主要有IBM InfoSphere Streams、 Twitter Storm、Yahoo!S4、银河流数据处理平台(淘宝)、Facebook Puma等。Storm和S4是目前较为流行的开源分布式实时计算系统。 Heron是Storm的替代产品,其外部接口和Storm保持兼容,在流数据处 理性能方面与Storm相比有了大幅提升。
3、图计算
图4.2.6 蛋白质激素构成图(由2.7万个节点和794万条边组成)
目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniGra ph、OrientDB等;加一类是并行图处理系统,如Google Pregel、Apache Gi raph等
4、实时处理与批处理的整合
大数据处理
静态数据 流数据 图数据
批处理计算(Hadoop、spark等) 流计算(storm、heron等) 图计算(pregel、graphx等)
4.2大数据处理 大数据处理的基本思想和架构 课件 《信息技术》高中必修 1 数据与计算(浙教版)
bye
1
world 1
Reduce
hello hadoop bye hadoop.
hello world bye world.
Map
hello 1
hadoop 1
bye
1
hadoop 1
hello 2
hadoop 2
bye
2
hadoop 2
总结:Hadoop的组成
数据采集
结构化数据
半结构化数据
非结构化数据
社交网络转 换成图结构
4.实时处理与批处理整合
将批处理计算和流计算(Hadoop+Storm)整合到一个平 台架构下,开发者既可以做批处理,也可以做流计算, 还可以两者模式混用,缩短了切换,降低了使用成本。 如:Twitter的开源大数据处理系统Summingbird。
课堂小结
1.大数据处理的基本思想——分治思想
分布式文件系统
HDFS
Hadoop 三大重要组件
分布式数据库
HBase
分布式并行计算模型
MapReduce
(1)分布式文件系统——HDFS
HDFS的主要功能是将大规模海量数据以文件的形式、用 多个副本保存在不同的存储节点上,具有高度错容、部 署在廉价机器上等优点。
切分
64MB 64MB
block 1 block 2
统计过去一年微博上发布的十大热词
将计算机数量由1台增加到10台、100台、1000台, 甚至更多台,再将大数据文件分成若干小份,分发给 每一台计算机去处理,处理完成后将结果返回至主控 计算机,由主控计算机汇总并输出频率最高的热词。
问题一:主控计算机网络传输带宽的瓶颈 解决办法:对网络结构重新改造,分组汇总;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
30
Task Scheduling算法
华中科技大学 潘鹏
Master节点每次收到一个slave节点的心跳信号时执行 Task Schedule,它将尝试为该slave节点分配一个可以使 用缓存在本节点的map-partition数据的待执行的task。 为此,master维护一个map变量(previous),里面 记载每个slave在前一轮task中使用的partition;以及 Current变量记录当前分派情况。 如果slave负荷满了,则master将其task分配给附近 的slave节点。 每次迭代执行之前,previous被赋值为上一轮的 Current变量的内容,以便下次使用,而current被置空。
ResultDistance:计算两次相邻的Reduce任务输出的
value集合的距离。当前循环的结果记为vi,上一次循环的
结果集合记为vi-1。缺省情况下两次Reduce结果的距离是 各个输出key对应的输出value差的总和(可定制)。
28
Haloop的API
华中科技大学 潘鹏
SetFixedPointThreshold:指定基于ResultDistance的迭 代终止条件。 SetMaxNumOfIterations:指定基于迭代执行次数的迭代 终止条件。 SetIterationInput:
另外,Reduce函数增加了一个参数invariantValues 来指示与in_key相关的迭代过程不变value。
27
Haloop的API
华中科技大学 潘鹏
AddMap:描述循环体,用于增加迭代循环中的Map任务 (附带整型参数iteration以描述Map任务的顺序)。
AddReduce:和AddMap类似。
21
Haloop迭代执行流程
华中科技大学 潘鹏
循环在 job内
22
Hadoop迭代执行流程
华中科技大学 潘鹏
Hadoop
Job之 外循 环
23
Haloop设计目标
华中科技大学 潘鹏
包含Map-Reduce处理的迭代过程中数据被缓存并 充分本地使用。
Ri +1 =R0 ∪ (Ri ⋈ L)
24
Haloop设计目标
2
迭代问题描述
具有迭代结构的算法可用如下公式描述: Ri +1 =R0 ∪ (Ri ⋈ L)
华中科技大学 潘鹏
其中, R0表示初始化时的结果, L 表示一种不变的 关系。
当到达某检查点条件时(如结果收敛)迭代终 止运行。 例:K-mean聚类、PageRank。
3
问题分析
重复多次执行MapReduce任务的缺点:
现代数据管理理论与技术
潘鹏
大数据中的迭代算法处理 (迭代式MapReduce) ——Haloop
1
问题背景
Hadoop 被Yahoo!,Facebook等公司采用。
华中科技大学 潘鹏
MapReduce框架
可用于词频统计、等值连接查询、倒排表构造等。 问题: 一些数据分析技术需要迭代计算(例如: PageRank、基于超文本的话题搜索、社会网络分析等 等),而MapReduce框架对此支持度不够(只能多次 发起MapReduce任务)。
华中科技大学 潘鹏
迭代间本地化(inter-iteration localty): 令d表示一个Map任务的输入数据的一次划分 或者一次Reduce任务的输入数据划分,Tdi表示任 务 T 在第i次迭代中输入为d。 如果对于所有的i>1, Tdi和Tdi-1都被分配到相 同的物理结点,则称一个调度具有迭代间本地化( inter-iteration localty)特性。
10
问题实例(PageRank算法)
Rank Sink
华中科技大学 潘鹏
A,B,C所构成的环在迭代过程中PR值在不断 的流失。最终趋近于零。——无法判断此类节点 的重要性。
11
问题实例(PageRank算法)
Rank Leak
华中科技大学 潘鹏
经过若干次迭代后,该连通图内所有节点 的PR值均变为0。
(待续)
33
Task Scheduling算法
//若node满负荷,则数据被赋予其他近邻node。 5: if node.hasFullLoad() then
华中科技大学 潘鹏
6:
7: 8: 9:
Node substitution =
findNearestIdleNode(node); previous.get(substitution)
36
Reduce输入缓存
在Reduce执行之前已被缓存
华中科技大学 潘鹏
1)AddInvariantTable函数指定,缓存于Reduce节点;
↓
依据key值排序和分组、建立索引,以提高效率 2)首次迭代时Map的输出被缓存于Map节点。
Map输出元组的分区函数f必须是确定性的,保持不变的 、仅仅以Map输出元组作为参数。
6
问题实例(PageRank算法)
华中科技大学 潘鹏
Map
Reduce
7
问题实例(PageRank算法)
华中科技大学 潘鹏
Map做等值输出
Reduce
8
问题实例(PageRank算法)
R3
华中科技大学 潘鹏
9
问题实例(PageRank算法)
华中科技大学 潘鹏
实际应用中,web图内可能存在入度或者出度为0的节点, 这会使迭代过程出现两种异常情况: Rank Sink和Rank Leak。 Rank Sink:当一个或者一组紧密链接成环的页面没有任 何其他页面指向它时就产生了Rank Sink。(入度为0) Rank Leak:web图中任意一个网页节点没有外出的链接 时就产生了Rank Leak。(出度为0)
华中科技大学 潘鹏
.get(0);
schedule(part, node); current.get(node).add(part);
14:
15:
previous.remove(part);
end if 尽量使用上一次被分配到该 节点的part数据
35
16: end if
缓存与索引机制
华中科技大学 潘鹏
华中科技大学 潘鹏
要使得迭代效率提高,必须把循环体控制在job内,使之 实现map/reduce静态数据缓存(内存或者本地磁盘),
减少task的访问开销,须要task调度的配合以实现计算的 本地化。
迭代的终止条件判断应该准确、高效。
18
Haloop系统框架
华中科技大学 潘鹏
深灰色部分:同 hadoop 蓝灰色部分:对 hadoop进行了 修改 白色部分:在 hadoop基础上 增加的功能
——黑洞效应,这个顶点像一个黑洞,将整体 的PR值慢慢的“吸收”掉了。
12
问题实例(PageRank算法)
网络整体的PR值
华中科技大学 潘鹏
如果连通图中有一个顶点的出度为0,由于它不对外贡 献任何PR值,所以整体的PR总和是在不断地减少,直到最 终收敛到0。 当一个连通图内部每一个顶点出度均大于0时,PR值 在内部流通过程中,整体的PR值是守恒的。
4
问题实例(PageRank算法)
华中科技大学 潘鹏
5
问题实例(PageRank算法)
物理意义
华中科技大学 潘鹏
在关系代数中,PageRank算法可描述为:
一次迭代包含两次MapReduce作业调st节点平均 后的值;(出边) 2)分组更新dest节点的新权重(求和)。 (入边)
14
问题实例(后代查询)
华中科技大学 潘鹏
F为社交网络关系表,寻找 某人经过“两跳”之后的朋 友。
15
问题实例(后代查询)
华中科技大学 潘鹏
产生 新朋友 滤掉 老朋友
16
问题实例(后代查询)
华中科技大学 潘鹏
Result Table ⊿S
17
优化思路
能运行多个map-reduce对,避免重复多次启动。
由于修改后的Task Scheduling算法争取迭代时使用以前 用过的数据part,因此考虑本地化缓存。 ——存入node的本地化文件 ↓ 减少I/O(网络I/O) 1)Reduce输入缓存; 2)Reduce输出缓存; 3)Map输入缓存。
并针对本地化缓存的数据文件建立索引。 ↓
进一步减少I/O
32
Task Scheduling算法
//迭代第一次执行,其调度同hadoop 1: if iteration == 0 then
华中科技大学 潘鹏
2:
3:
Partition part = hadoopSchedule(node);
current.get(node).add(part);
4: else
19
Haloop系统框架
与原hadoop类似之处: 客户端提交Job。
华中科技大学 潘鹏
Master的Task Scheduler调度一系列并行执行 的Task(或为Map,或为Reduce)在slave节点 执行 。
Task Tracker管理任务的执行。
20
Haloop系统框架
变化之处:
华中科技大学 潘鹏
31
Task Scheduling算法
Input: Node node //当前迭代的调度,初始为空
华中科技大学 潘鹏
Global variable: Map(Node, List(Partition)) current //上一次迭代的调度 Global variable: Map(Node, List(Partition)) previous //Master保存当前和上一次迭代执行时数据划分和结点之间 的映射状态。 //每次迭代执行之前,previous被赋值为Current,以便下次 使用,而current被置空。