基于Presto海量日志分析系统的设计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

存的是数据文件和库表之间的映射关系、表的结构信息、表与库的Ｈａｄｏｏｐ提供了对大数据存储和计算的一个解决方案ｌ ¨ ，使用关联关系等信息，元数据可以保存在Ｄｅｒｂｙ嵌入式数据库或者ｙＳＱＬ数据库中；查询语句处理，Ｈｉｖｅ提供了ＨｉｖｅＱＬ查询语言，查ＨＤＦＳ进行文件的存储，ＭａｐＲｅｄｕｃｅ进行数据的分析和计算。为了简Ｍ，最终生成ＭａｐＲｅｄｕｃｅ计算任务。化ＭａｐＲｅｄｕｃｅ的编写，Ｈｉｖｅ使用类ＳＱＬ可以实现离线数据的分析询引擎分析查询语句嗍Ｉ２１２－３Ｐｒｅｓｔｏ但是Ｈｉｖｅ底层使用的是ＭａｐＲｅｄｕｃｅ离线计算框架，适应于大数Ｐｒｅｓｔｏ是专门为大数据实时查询计算而设计和开发的产品，弥据的离线和批量计算，对大数据的查询和分析要通过一次或多次的ｖｅ实时查询的空白。无论是对多数据源的支持，还是易用ＭａｐＲｅｄｕｃｅ过程，查询的等待时间过长，不能满足业务人员实时查补了Ｈｉ询口】分析（单次执行时间在２００ｍｓ到２０ｍｉｎ之间的查询），计算效率性、高性能、可扩展性等方面，Ｐｒｅｓｔｏ都是大数据实时查询的计算产它具有多数据源、支持ＳＱＬ、混合性计算、高性能、流相对来说比较低。因此，本文设计并实现了基于Ｐｒｅｓｔｏ的海量日志品中的佼佼者，分析系统，业务人员可以实现实时的Ａｄ — Ｈｏｃ查询。水线等特点，并且具有很好的扩展性。２平台组件Ｐｒｅｓｔｏ集群中一共有两种服务进程：Ｃｏｏｒｄｉｎａｔｏｒ服务进程和２．１ＨａｄｏｏｐＷｏｒｋｅｒ服务进程，其中Ｃｏｏｒｄｉｎａｔｏｒ服务进程的主要作用是：接收查Ｈａｄｏｏｐ是一个分布式的主从架构系统，其中包括用于存储的询请求、解析查询语句、生成相应的查询计划、任务调度和ＷｏｒｋｅｒＨＤＦＳ和用于计算的ＭａｐＲｅｄｕｃｅ。ＨａｄｏｏｐＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ，被进程的管理。Ｃｏｏｒｄｉｎａｔｏｒ服务进程部署在集群中一个单独的节点设计为可运行在通用硬件上、提供流式数据操作、能够处理超大文上，是整个Ｐｒｅｓｔｏ集群的管理节点，该进程既与Ｗｏｒｋｅｒ进行通信从件的分布式文件系统，具有高度的容错性、高可用性、容易扩展等特而获得最新的Ｗｏｒｋｅｒ信息，又与Ｃｌｉｅｎｔ进行通信，接收查询请求。ｒｋｅｒ服务进程则执行分解后的查询执行任务Ｔａｓｋ，Ｗｏｒｋｅｒ是征。ＭａｐＲｅｄｕｃｅ是一个数据离线计算框架。主要有两个阶段组成：而Ｗｏｍａｐ和ｒｅｄｕｃｅ。通常用户只需要编写ｍｐ，ａｒｅｄｕｃｅ以及ｄｒｉｖｅｒ函数就工作节点，一个Ｐｒｅｓｔｏ集群中会有多个Ｗｏｒｋｅｒ节点。Ｐｒｅｓｔｏ可以通过多种不同类型的Ｃｏｎｎｅｃｔｏｒ访问多钟数据源，可以连接的Ｃｏｎｎｅｃ — 可以实现简单的分布式程序设计。２．２Ｈｉｖｅｔｏｒ的有ＪＭＸ，ＭｙＳＱＬ，ＰｏｓｔｇｒｅＳＱＬ，Ｈｉｖｅ以及Ｋａｆｋａ。数据源与Ｃｏｎ — Ｈｉｖｅ是最容易使用的高级别ＭａｐＲｅｄｕｃｅ框架之一。通过基于ｈｅｃｔｏｒ是一一对应的，而Ｃｏｎｎｅｃｔｏｒ与Ｃａｔａｌｏｇ是一对多的关系。如图为数据源，Ｃｏｎｎｅｃｔｏｒ和Ｃａｔａｌｏｇ关系图嘲。ＳＱＬ的数据操纵语言来简化对ＭａｐＲｅｄｕｃｅ的访问。它有三部分组１成：数据读取和存储，可以将不同格式的文件存储在Ａｍａｚｏｎｓ３和３基于Ｐｒｅｓｔｏ的数据分析系统设计ＨＤＦＳ中，也可以从中读取数据进行查询；元数据的管理，元数据保３．１系统组成（转下页）
・
１６ห้องสมุดไป่ตู้２・
科技论坛
基于Ｐｒｅｓｔｏ海
析系统的设计
（沈阳师范大学，辽宁沈阳１１００３４）
摘要：随着互联网的普及，互联网公司每天都会产生大量的数据信息，对于大数据的查询分析，企业主要借助Ｈｉｖｅ提供业务人员的查询，降低了大数据查询的门槛，使得业务人员可以进行数据的查询分析。但是Ｈｉｖｅ底层使用的是ＭａｐＲｅｄｕｃｅ离线计算框架，适应于大数据的离线和批量计算，强调的是吞吐量而不是计算效率，不能满足业务人员对大数据快速近实时的查询需求。为了解决实时查询效率的问题，设计并实现了基于Ｐｒｅｓｔｏ的海量日志分析系统，业务人员可以实现实时的Ａｄ — Ｈｏｅ查询分析。关键词：大数据；Ｈｉｖｅ；实时查询；Ｐｒｅｓｔｏ