第 40 卷 Vol.40 ·专栏· 专栏·
第2期 No.2
计 算 机 工 程 Computer Engineering
文章编号: 文章编号:1000—3428(2014)02—0001—05 文献标识码: 文献标识码:A
2014 年 2 月 February 2014
中图分类号: 中图分类号:TP311
基于 MapReduce 的高能物理数据分析系统
臧冬松 1,2,霍 菁 1,2,梁 栋 1,2,孙功星 1
(1. 中国科学院高能物理研究所,北京 100049;2. 中国科学院大学,北京 100049) 摘 要:将 MapReduce 思想引入到高能物理数据分析中,提出一个基于 Hadoop 框架的高能物理数据分析系统。通过建立事例的 TAG 信息数据库,将需要进一步分析的事例数减少 2~3 个数量级,从而减轻 I/O 压力,提高分析作业的效率。利用基于 TAG 信息 的事例预筛选模型以及事例分析的 MapReduce 模型,设计适用于 ROOT 框架的数据拆分、事例读取、结果合并等 MapReduce 类 库。在北京正负电子对撞机实验上进行系统实现后,将其应用于一个 8 节点实验集群上进行测试,结果表明,该系统可使 4×106 个事 例的分析时间缩短 23%,当增加节点个数时,每秒钟能够并发分析的事例数与集群的节点数基本呈正比,说明事例分析集群具有 良好的扩展性。 关键词: 键词:高能物理;大数据;数据分析;MapReduce 模型;集群;分布式计算
High Energy Physics Data Analysis System Based on MapReduce
ZANG Dong-song1,2, HUO Jing1,2, LIANG Dong1,2, SUN Gong-xing1
(1. Institute of High Energy Physics, Chinese Academy of Sciences, Beijing 100049, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China) 【Abstract】This paper brings the idea of MapReduce parallel processing to high energy physics data analysis, proposes a high energy physics data analysis system based on Hadoop framework. It significantly reduces the number of events that need to do further analysis by 2~3 classes by establishing an event TAG information database, which reduces the I/O volume and improves the efficiency of data analysis jobs. It designs proper MapReduce libs that fit for the ROOT framework to do things such as data splitting, event fetching and result merging by using event pre-selection model based on TAG information and MapReduce model of event analysis. A real system is implemented on BESIII experiment, an 8-nodes cluster is used for data analysis system test, the test result shows that the system shortens the data analyzing time by 23% of 4×106 event, and event number of concurrence analysis per second is higher than cluster nodes when adding more worker nodes, which explains that the case analysis cluster has a good scalability. 【Key words】high energy physics; big data; data analysis; MapReduce model; cluster; distributed computing DOI: 10.3969/j.issn.1000-3428.2014.02.001
支持,成为大数据领域的标准。 目前 Hadoop 在高能物理实验中的全面应用还非常少, 但已经出现了许多探索和部分应用。美国的 7 个 CMS 实验 网格站点采用了 HDFS 作为存储系统[5]; 意大利国家核物理 研究所探索了利用 Hadoop 的 MapReduce 框架分析高能物 理 实 验 数 据 [6] ; 文 献 [7] 探 索 了 在 亚 马 逊 云 计 算 中 采 用 Hadoop 框架进行高能物理数据分析。 本文分析高能物理数据分析的流程和特点,以及高能 物理普遍采用的 ROOT[8]软件及 ROOT 格式文件的 I/O 特 性,给出一种基于 Hadoop 框架的高能物理数据 MapReduce 分析系统,并进行初步的评估。
的大型强子对撞机(Large Hadron Collider, LHC)每年可产生 25 PB 的数据;改造后的北京正负电子对撞机(BEPCII)和北 京谱仪(BESIII)的取数效率和性能大幅提高, 2012 年产生的 数据量超过了过去几年的总和。数据量的不断膨胀促使不 断探索新的数据存储和计算技术。谷歌公司自 2003 年后相 继发表的 GFS 、MapReduce 和 BigTable 引领了互联网
[1] [2] [3]
界大数据处理的技术革新,而随后基于 Google 实现的 Hadoop 开源项目,更是被众多的公司和厂商广泛采用和
