阿里大数据计算服务MaxCompute-产品简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
- SDK:提供给开发者的工具包,SDK的相关介绍请参考 SDK介绍 ; - 安全:MaxCompute提供了功能强大的安全服务,为用户的数据安全提供保护,详情请参考 安全参
考手册 ;各个功能模型的描述请参考用户手册的其他部分。如果想快速了解如何使用 MaxCompute,请参考 快速开始;
如果您是MaxCompute初学者?
大数据处理服务MaxCompute 产品简介
大数据处理服务MaxCompute/产品简介
产品简介ຫໍສະໝຸດ Baidu
MaxCompute简介
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。 MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量 数据计算问题,有效降低企业成本,并保障数据安全。MaxCompute主要服务于批量结构化数据的存储和计算 ,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完 善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百GB、TB、 乃至PB)级别。在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式 。但分布式的计算模型对数据分析人员提出了较高的要求,且不宜维护。使用分布式模型,数据分析人员不仅 需要了解业务需求,同时还需要熟悉底层计算模型。MaxCompute的目的是为用户提供一种便捷的分析处理海 量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。MaxCompute已经在阿里巴 巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的 交易分析、用户特征和兴趣挖掘等。
基本介绍 - MaxCompute基本概念及常用命令介绍。您可以进一步熟悉如何操作MaxCompute。 - 工具- 在分析数据之前,您可能需要掌握MaxCompute常用工具的下载,配置以及使用方法。我们提
供以下几种客户端工具: q Client: 用户可以通过这个工具对MaxCompute进行操作。
MaxCompute组件介绍
- 数据通道: q TUNNEL:提供高并发的离线数据上传下载服务。用户可以使用Tunnel服务向 MaxCompute批量上传或下载数据。MaxCompute Tunnel仅提供Java编程接口供用户使 用。
- 计算及分析任务: q SQL :MaxCompute只能以表的形式存储数据,并对外提供了SQL查询功能。用户可以将 MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。需要注 意的是,MaxCompute SQL不支持事务、索引及Update/Delete等操作,同时 MaxCompute的SQL语法与Oracle,MySQL有一定差别,用户无法将其他数据库中得 SQL语句无缝迁移到MaxCompute上来。此外,在使用方式上,MaxCompute SQL最快可 以在分钟,乃至秒级别完成查询,无法在毫秒级别返回用户结果。MaxCompute SQL的优 点是对用户的学习成本低,用户不需要了解复杂的分布式计算概念。具备数据库操作经验的 用户可以快速熟悉MaxCompute SQL的使用。 q MapReduce :MapReduce最早是由Google提出的分布式数据处理模型,随后受到了业内 的广泛关注,并被大量应用到各种商业场景中。在本文档中,我们会对MapReduce模型做 简要介绍,以便于用户快速熟悉、了解该模型。使用MaxCompute MapReduce的用户需 要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce为 用户提供Java编程接口。
2
大数据处理服务MaxCompute/产品简介
如果您是有开发经验的用户?
如果您是一个有开发经验的用户并且对分布式概念有一定程度的了解,加上某些数据分析可能无法用SQL来实 现,此时我们建议您学习MaxCompute更高级的功能模块:
- MapReduce:MaxCompute提供的Java MapReduce编程模型。您可以使用MapReduce提供的接口 (Java API)编写MapReduce程序处理MaxCompute的中的数据。
如果您是初学者,建议您从如下节点开始读起 :
简介 - MaxCompute产品的总体介绍以及包含的主要功能。通过阅读该章节,您会对 MaxCompute有一个总体的认识。
快速开始 - 通过实例一步一步指引您如何申请账号,如何安装客户端,如何创建表,如何授权,如何 导出导出数据,如何运行SQL任务,如何运行UDF,如何运行Mapreduce程序等。
1
大数据处理服务MaxCompute/产品简介
q Graph:MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业 使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图 进行编辑、演化,最终求解出结果,典型应用:PageRank,单源最短距离算法 ,K-均值聚 类算法 等等。
熟悉了以上的模块,建议您再有针对性地进行其他模块的深入学习。
如果您是数据分析师?
如果您是数据分析师,建议您熟读如下几个模块: - SQL: 您可以查询并分析存储在MaxCompute上的大规模数据。包含的主要功能如下: q 支持DDL语句,您可以通过 Create、Drop 和 Alter 对表和分区进行管理。 q 您可以通过 Select选择表中的某几条记录;通过 Where 语句查看满足条件的记录,实现过 滤功能。 q 您可以通过等值连接 Join 实现两张表的关联。 q 您可以通过对某些列 Group By,实现聚合操作。 q 您可以通过 Insert overwrite/into 把结果记录插入到另一张表中。 q 你可以通过内置函数和自定义函数(UDF)来实现一系列的计算。
考手册 ;各个功能模型的描述请参考用户手册的其他部分。如果想快速了解如何使用 MaxCompute,请参考 快速开始;
如果您是MaxCompute初学者?
大数据处理服务MaxCompute 产品简介
大数据处理服务MaxCompute/产品简介
产品简介ຫໍສະໝຸດ Baidu
MaxCompute简介
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。 MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量 数据计算问题,有效降低企业成本,并保障数据安全。MaxCompute主要服务于批量结构化数据的存储和计算 ,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完 善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百GB、TB、 乃至PB)级别。在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式 。但分布式的计算模型对数据分析人员提出了较高的要求,且不宜维护。使用分布式模型,数据分析人员不仅 需要了解业务需求,同时还需要熟悉底层计算模型。MaxCompute的目的是为用户提供一种便捷的分析处理海 量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。MaxCompute已经在阿里巴 巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的 交易分析、用户特征和兴趣挖掘等。
基本介绍 - MaxCompute基本概念及常用命令介绍。您可以进一步熟悉如何操作MaxCompute。 - 工具- 在分析数据之前,您可能需要掌握MaxCompute常用工具的下载,配置以及使用方法。我们提
供以下几种客户端工具: q Client: 用户可以通过这个工具对MaxCompute进行操作。
MaxCompute组件介绍
- 数据通道: q TUNNEL:提供高并发的离线数据上传下载服务。用户可以使用Tunnel服务向 MaxCompute批量上传或下载数据。MaxCompute Tunnel仅提供Java编程接口供用户使 用。
- 计算及分析任务: q SQL :MaxCompute只能以表的形式存储数据,并对外提供了SQL查询功能。用户可以将 MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。需要注 意的是,MaxCompute SQL不支持事务、索引及Update/Delete等操作,同时 MaxCompute的SQL语法与Oracle,MySQL有一定差别,用户无法将其他数据库中得 SQL语句无缝迁移到MaxCompute上来。此外,在使用方式上,MaxCompute SQL最快可 以在分钟,乃至秒级别完成查询,无法在毫秒级别返回用户结果。MaxCompute SQL的优 点是对用户的学习成本低,用户不需要了解复杂的分布式计算概念。具备数据库操作经验的 用户可以快速熟悉MaxCompute SQL的使用。 q MapReduce :MapReduce最早是由Google提出的分布式数据处理模型,随后受到了业内 的广泛关注,并被大量应用到各种商业场景中。在本文档中,我们会对MapReduce模型做 简要介绍,以便于用户快速熟悉、了解该模型。使用MaxCompute MapReduce的用户需 要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce为 用户提供Java编程接口。
2
大数据处理服务MaxCompute/产品简介
如果您是有开发经验的用户?
如果您是一个有开发经验的用户并且对分布式概念有一定程度的了解,加上某些数据分析可能无法用SQL来实 现,此时我们建议您学习MaxCompute更高级的功能模块:
- MapReduce:MaxCompute提供的Java MapReduce编程模型。您可以使用MapReduce提供的接口 (Java API)编写MapReduce程序处理MaxCompute的中的数据。
如果您是初学者,建议您从如下节点开始读起 :
简介 - MaxCompute产品的总体介绍以及包含的主要功能。通过阅读该章节,您会对 MaxCompute有一个总体的认识。
快速开始 - 通过实例一步一步指引您如何申请账号,如何安装客户端,如何创建表,如何授权,如何 导出导出数据,如何运行SQL任务,如何运行UDF,如何运行Mapreduce程序等。
1
大数据处理服务MaxCompute/产品简介
q Graph:MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业 使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图 进行编辑、演化,最终求解出结果,典型应用:PageRank,单源最短距离算法 ,K-均值聚 类算法 等等。
熟悉了以上的模块,建议您再有针对性地进行其他模块的深入学习。
如果您是数据分析师?
如果您是数据分析师,建议您熟读如下几个模块: - SQL: 您可以查询并分析存储在MaxCompute上的大规模数据。包含的主要功能如下: q 支持DDL语句,您可以通过 Create、Drop 和 Alter 对表和分区进行管理。 q 您可以通过 Select选择表中的某几条记录;通过 Where 语句查看满足条件的记录,实现过 滤功能。 q 您可以通过等值连接 Join 实现两张表的关联。 q 您可以通过对某些列 Group By,实现聚合操作。 q 您可以通过 Insert overwrite/into 把结果记录插入到另一张表中。 q 你可以通过内置函数和自定义函数(UDF)来实现一系列的计算。