Hadoop凉了,却没有对手?

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop凉了,却没有对⼿?
作者⼁⽥晓旭
相信很多⼈对于 Hadoop 领域近期发⽣的事件都有所⽿闻,先是曾估值 10 亿美元的 MapR 向加州就业发展局提交⽂件,称如果找不到新的投资⼈,公司将裁员 122 ⼈,并关闭位于硅⾕的总部公司,再是 Cloudera 在 6 ⽉ 6 ⽇美股开盘之后,股价暴跌 43%,公司估值从 41 亿美元缩⽔为 14 亿美元。

从 2006 年 1 ⽉诞⽣以来,Hadoop 就以⿊马之姿⼀路开挂成为了⽕爆整个技术圈的“明星”技术,为什么现在 Hadoop 领头⽺商业公司突然都不同程度的遭遇到了挫折?这是否意味着 Hadoop 发⾏版已经⼏近⽆路可⾛?Hadoop 商业公司的颓势是否能够反映 Hadoop 技术、⽣态的发展情况?Hadoop 的竞争对⼿到底是谁?…为了回答上述问题,我们和星环科技研发总监刘汪根进⾏了长达⼀⼩时的对话。

Hadoop 是 ASF 旗下的分布式系统基础架构,我们现在看到的 Hadoop ⽣态有很多组件,但在刘汪根看来,⼤部分组件产品化程度不够,真正有技术⽣命⼒的组件只有两个 HDFS 和 Zookeeper。

并且,这种技术⽣命⼒是长久的,⾄少在如今的科技类企业和互联⽹公司中,HDFS 和 Zookeeper 等已经成为了标配。

1 开源 Hadoop 产品化程度不⾜是 Cloudera、MapR 商业模式存在的主要问题
Hadoop 是个开源软件,那么围绕 Hadoop 的商业公司都是如何盈利的呢?Cloudera 主要是依靠发布 Hadoop 商业版和商⽤⼯具、商业组件,同时提供企业⽣产环境中必需的运维功能;Hortonworks 采⽤ 100% 完全开源的策略,盈利⽅式是技术服务⽀持;MapR 的盈利主要是通过⽤户购买软件许可。

虽然三家公司实现盈利的⽅式有所出⼊,但是本质上都是靠提供 Hadoop 相关的服务来盈利。

⽽服务模式本⾝就存在很多问题,⼀是它需要依赖⼈员的扩张,⼆是其价值⼀定要⾼,能够刺激企业不断基于 Hadoop 产品开发新的应⽤。

服务带动产品的销售模式必然要⾯临成本和投⼊产出的问题,刘汪根认为:“这三家公司存在的最⼤问题不是单⼦不够多,⽽是单⼦太多,但每个单⼦都不挣钱,拖累整个业绩不好。

”具体来讲,就是它们产品的标准化不⾜,其提供了各种组件的底层 API 给开发者,缺少⼀个统⼀的开发标准,导致很难形成标准的开发体验。

社区的状态很松散,想要达成某个标准化的事情往往需要很长的时间,以⼤数据产品的安全为例,这在标准化产品中应该是标配,⽽在社区中可能花费⼀个⽉的时间都搞不起来,这就导致了这个产品是不可持续的,对于⽤户来说,持续产品的价值太少,导致⽤户不愿意继续追加投资。

产品化程度低⼜会连锁反应导致销售成本的增⾼,因为缺少成功的项⽬和持续的收⼊来源,所以企业只能加⼤销售⼒度,招聘⾮常多的销售和售前⼯程师,在有些公司中这些⼈员甚⾄会超过总员⼯数的⼀半。

产品化程度低不只是 Hadoop 商业公司⾯临的问题,也是所有基于开源软件的商业公司⾯临的问题。

不过也有⼀些开源软件的商业公司在产品化⽅⾯做得不错,例如 Spark 商业公司 Databricks 的销售⼈员占⽐没那么⾼。

这是因为 Databricks 商业化的思路不同,第⼀是它做了云化,第⼆是它很简单,并且做了两个件事情让 Spark 变得更加简单,⼀是 SparkSQL,这使得所有会写 SQL 的⼈都可以使⽤,⼆是通过 DataFrame 接⼝和 Python 让数据分析⼈员可以更好的编程。

“成功的商业模式⼀定是可复制的!”
2 Hadoop 发⾏版是否还有前景?
众所周知,Cloudera、Hortonworks 和 MapR 这三家公司都是 Hadoop 发⾏版公司,但是⼤家可能不知道星环科技最早在国内也是做 Hadoop 发⾏版,当时的技术架构组成为 HDFS+HBase+YARN+Spark,主要的客户群体是运营商,但是在做的过程中就发现项⽬同质化太严重了,客户项⽬开发的成本⽐较⾼,因此竞争⾮常激烈。

2014 年,星环不得不开始思考⼀个现实的问题:“如何才能活下去?”创始⼈孙元浩先⽣最终下定决⼼,星环科技的产品必须要解决企业的痛点问题才能更好的成长。

当时数据仓库是个痛点问题,但原来的数据库都是单机的,所以星环科技就开始琢磨利⽤分布式、内存计算等技术打造⼀个分布式数据库来解决数据仓库的问题。

这个数据库就是后来我们熟知的国际上⾸个通过了 TPC-DS 基准测试的 Inceptor 数据库。

后来,刘汪根在演讲中回忆这段经历时,也感叹到:“如果星环科技只是将技术打包,推出 Hadoop 发⾏版,就失去了创新性和独特性。


Cloudera、Hortonworks 和 MapR ⾯临窘境,星环科技从 Hadoop 发⾏版公司转型成为了⼤数据与⼈⼯智能基础软件的公司,这是否意味着 Hadoop 发⾏版已经失去了价值,没有发展前景了?
对此,刘汪根表⽰:“这个问题现在还很难讲,但是我⽬前看到的情况,数据在公有云中的渗透率远没有⼤家想象的那么⾼,所有⼈都觉得私有化环境或私有云⾥⾯的数据更安全,所以都愿意把数据掌握在⾃⼰的服务器上。

对象存储之所以在公有云中获得了⽐较好的发展有两个原因,⼀是因为其中⼤部分数据都是冷数据或者⾮结构化数据,真正重要的、结构化的数据还是存储在私有云中。

这种情况在中国⽐例极⾼,在美国也不会低。

第⼆个原因是成
据都是冷数据或者⾮结构化数据,真正重要的、结构化的数据还是存储在私有云中。

这种情况在中国⽐例极⾼,在美国也不会低。

第⼆个原因是成
本,HDFS 和对象存储各有特点,对象存储天⽣是 1.4 倍副本,⽽ HDFS 是 3 倍副本,光是这⼀项就有⾄少 2 倍的成本差异,所以公有云上对象存储相对于 HDFS 有很好的竞争⼒。

但是私有云不⼀样,私有云的场景下更加业务价值导向,追求速度和性能,想向私有云渗透的云产品往往都会需要补充技术实⼒,所以 Hadoop 技术对于私有云来说还是⾮常有必要的,也是⾮常有⽤的。


3 Hadoop 商业公司⾛了“下坡路”,那社区呢?
毫⽆疑问,Hadoop 三⼤商业公司与之前相⽐,已经⾛了“下坡路”,那么 Hadoop 技术、Hadoop 社区的发展如何呢?刘汪根坦⾔:“原来 Hadoop 社区的⼤佬很多都转向其他项⽬了,整个社区的创新速度减缓了,对于⼤数据⽤户来说,可能 Hadoop 社区的创新速度已经⽆法满⾜需求了。


上图是星环科技⼤数据技术架构的演变历程,其完成了从 Hadoop 平台初期的“纯蓝”软件栈到现在基本“全绿”软件栈的转变,即完成了⾃研产品和软件对开源软件的替代。

为什么要做这种转变呢?⾸先,是因为 HDFS 和 YARN 等核⼼组件在实际应⽤中存在痛点,例如 HDFS 天⽣在海量⼩⽂件存储⽅⾯就存在缺陷,YARN 只能⽤来调⽤长⽣命周期的任务(如批处理任务)。

⼆是因为 Hadoop 社区的创新能⼒有点后劲不⾜,所以星环科技基于⾃⼰的思路进⾏了重新设计。

以 HDFS 为例,星环科技正在实现⾃⼰的存储系统 TDFS,在原有的分布式管理系统基础上做了⼀套通⽤的 HDFS。

在刘汪根看来这⼀系列改造、替换的操作都是因为需求,“HDFS 在设计之初主要解决了两个问题,⼀是相对廉价的分布式解决了存储可扩展性的问题,⼆是分析性能⽐较均衡,⽀持⽤户在此基础上做很多创新来解决性能问题。

这两件事情保证了 HDFS 技术能够维持其⽣命⼒,”
从图中我们可以看到,在整个星环科技技术架构的演化过程中,其对 Hadoop 核⼼组件 HDFS、YARN 等都做了⼀定程度的技术改造,在我们询问是否有将这些改变贡献给 Hadoop 社区时,刘汪根⽆奈表⽰:“早期我们也尝试过贡献给社区,但由于当时星环科技的精⼒有限,并没有完成。

后续会根据公司⾃⾝的情况来决定。


4 Hadoop 不代表全部的⼤数据技术,那下⼀代⼤数据技术该如何发展?
其实,媒体很早就在接受这样⼀个观念,那就是“Hadoop 不代表⼤数据”。

时⾄今⽇,Hadoop 在⼤数据领域到底扮演着什么样的⾓⾊呢?刘汪根认
为:“Hadoop 不代表⼤数据,它是⼤数据技术实现的⼀个分⽀,且这个分⽀中有部分技术变成了通⽤的技术,成为⼤数据技术的标配。

但是,⼤数据技术还有很多其它分⽀,它们最终会演化成为新的⼤数据实现⽅式。


早在 2013 年,Gartner 研究总监 Svetlana Sicular 就曾发⽂称 Hadoop 过时了,在《2017 年数据管理技术成熟度曲线》报告中,Gartner 更是⽤极其显眼的红⾊标识出 Hadoop 在到达“⽣产成熟期”之前即被淘汰。

当然,其它唱衰 Hadoop 的声⾳也不在少数,但是刘汪根认为 Hadoop 技术是有长久⽣命⼒的,很多技术已经成为了⼤数据领域教科书般的存在,例如 2003 年 Google 连续发表的三篇论⽂奠定了⼤数据的框架基础,并基于此理论形成了 Hadoop 原始的“3+1”式软件栈:即分布式⽂件系统 HDFS、分布式计算 MapReduce、Hbase NoSQL 数据库,以及 YARN 资源调度。

当 Hadoop 不能再成为⼤数据的代名词,下⼀代⼤数据技术将如何发展呢?通常来讲,⼤数据技术栈总共包含有四层,分别是资源调度层、统⼀的分布式块存储管理层、统⼀的计算引擎层和统⼀的接⼝层,所以下⼀代的⼤数据技术⼀定是基于这四层进⾏改造,以适应新的应⽤场景和需求。

资源调度层的改造:为了解决上层应⽤对资源调度管理的问题,出现了很多新的技术,例如很多企业开始研究利⽤容器编排技术来代替 YARN 进⾏资源管理;
统⼀的分布式块存储管理层:过去的观点认为 HDFS 具有较好的通⽤性并在此之上搭载了各种引擎,实践证明 HDFS ⽆法实现⾼效的数据库,新⼀代的⼤数据体系需要⼀个统⼀的分布式块存储管理层,以⽀持不同的数据库类型。

统⼀的计算引擎层:过去常见的观点是数据量⼩的时候可以采⽤混合架构,数据量⼤的时候采⽤ Hadoop,但是这种选择存在效率低下的问题,所以我们需要⼀个统⼀的计算引擎层来应对数据仓库、OLTP 数据库、搜索引擎、实时计算、图数据库等多种需求。

统⼀的接⼝层:多年前,通过统⼀的 SQL 接⼝层来降低⼤数据技术的使⽤门槛,就已经达成了共识。

如今,SQL 的⽀持度在不断提升。

5 谈谈 Hadoop 的两⼤“竞争对⼿”
有关最近 Hadoop 事件的解读,国内外媒体都已经做了不少的报道(我们也基于此做了⼀个合集,感兴趣的⼩伙伴可以点击查看)。

如果总结⼀下⼤家的观点,不难发现⼤家普遍认为 Hadoop 的“竞争对⼿”主要有两个,⼀是 MongoDB、Elasticsearch 等其它开源⼤数据相关产品,⼆是公有云。

下⾯,我们就分别来谈谈这两个“Hadoop”的竞争对⼿。

MongoDB、Elasticsearch 等蚕⾷了 HDFS 的市场
之所以得出了 MongoDB 、 Elasticsearch 等技术挑战了 Hadoop 技术及相关产品的结论,是因为外媒观察到这样⼀个情况:在 Hadoop 三⼤商业公司遭遇挫折的时候,MongoDB 数据库产品受欢迎程度⼀直在增长,现在的受欢迎指数⼤约是 Oracle 和 MySQL 的三分之⼀,⽽五年前只有⼗分之⼀。

这种受欢迎程度反过来良性地推动 MongoDB 公司的收⼊增长,最近收⼊已经跃升了 78%。

同样的,Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员⼯数量翻了⼀番,最近⼀个季度的收⼊增长了 70%。

许多公司已经转⽤ Elastic 的产品进⾏传统的⽂本搜索和其他更多的搜索,⽐如英国伦敦的Stansted 机场就使⽤ Elastic ⼯具来追踪和可视化机场内的⼈员和⾏李流量,并提供实时分析。

Hadoop 与 MongoDB、Elasticsearch 是否存在外媒描述的此消彼长的情况呢?刘汪根表⽰这种情况是存在的,但是⽐例不会很⾼。

⼤数据应该包括分析数据库、交易数据库以及 NoSQL 四⼤类数据,刚刚提到的 MongoDB 属于⽂档数据库,Elasticsearch 属于检索数据库,⽽ HBase 属于列存数据库,它们是按照业务场景划分的,本来是平⾏的,但是每个东西之间都有⼀定的边界,HBase 和 Elasticsearch 之间场景⾮常明确,但是 HBase 和 MongoDB 是有⼀定冲突的,HBase 并发度⾼,但是很多⼈也⽤它来处理 JSON 的数据,⽽ MongoDB 也在处理⾮结构化的 JSON 数据。

HBase 的优势在于存储,⽽MongoDB 的优势在于可以修改 JSON 中的字段。

但是重合的点真的⾮常少,仅限于处理 JSON 数据。

但是 HDFS 就⽐较尴尬了,HDFS 强调通⽤性,没有⽐较突出的优势,所有⽅向都是均衡的,所以市场份额很容易被其它⼤数据产品蚕⾷。

例如,企业历史数据既可以存在 MongoDB 中,也可以存在 HDFS 中。

虽然,HDFS 的存储成本会⽐较低,但如果企业⼀直是使⽤ MongoDB,且不太在乎成本差异,那么就会⼀直使⽤ MongoDB。

不仅限于 MongoDB 和 Elasticsearch,如果企业有⽐较明确的数据处理需求,其它数据库也会切掉 HDFS 的市场份额。

当然,如果出现了⼀个统⼀的分布式块存储管理层能够解决各种类型的存储需求管理,那么它将覆盖 HDFS 原有的市场,以及 MongoDB 和 Elasticsearch 的市场。

MongoDB 和 Elasticsearch 是否挑战了 Hadoop 的地位?这个结论现在还不好确定,但是从营收状况来看,MongoDB 和 Elastic 两家公司的营收之和仅相当于合并之前的 Cloudera 单家公司营收,这说明 MongoDB 和 Elasticsearch 还只是⼤数据⽣态⾥的⼀⼩部分。

公有云与 Hadoop 不是天⽣对⼿
为什么很多⼈都把公有云看作是 Hadoop 的竞争对⼿?Hadoop 的主要应⽤场景是廉价的存储,⽽有了云之后,存储变得更加廉价,AWS、微软 Azure 和⾕歌云打造的⼀站式云原⽣服务提供了完全集成的产品系列,获取成本更低,扩容更便宜。

但其实 Hadoop 与公有云并不是天⽣对⼿,只是⼤家使⽤ Hadoop 的⽅式基本只有三种,要么找这三⼤商业公司,要么⾃⼰搭建,要么找公有云⼚商。

如果这已经是饱和市场,那么⼤家都是在切同⼀块蛋糕,公有云难免会切到 Hadoop 商业公司原有的部分。

不过,从⽬前的情况来看,类似于 AWS 这样的公司,其 Hadoop 的收⼊占⽐是⾮常⼩的。

在刘汪根看来,相⽐于竞争关系,公有云⼚商和 Hadoop 商业公司更多的是合作关系。

以 AWS 为例,其 Hadoop 研发团队的规模⾮常⼩,当出现搞不定的问题时,就必须要去找 Hadoop 商业公司来解决。

AWS 相当于是个⼤渠道,拥有更强的溢价能⼒,但渠道的溢价能⼒再强,最终还是需要背后公司的⽀持。

⽽这对于 Hadoop 商业公司来说,不是坏事,反⽽是好事,因为公有云上的模式是可复制的,可以帮助 Hadoop 商业公司触探到更多⽤
户,Databricks 就是⼀个很好的例⼦。

6 写在最后
关于 Hadoop 及其商业公司最近的发展颓势,我们已经进⾏了多⽅⾯、深层次的探索。

总体来看,公有云、其它⼤数据产品与 Hadoop 竞争的外因固然存在,但是 Hadoop ⾃⾝存在的问题、社区创新能⼒不⾜以及其商业公司的盈利模式才是更主要的原因。

Hadoop 的技术偏底层,使⽤场景需要⽐较专业的技术基础,因此虽然是很好的技术,但只能定位给有⽐较强技术能⼒的企业来使⽤,缺乏我们常说的应⽤创新或者模式创新。

如果将其更好的产品化,譬如通过 SQL on Hadoop 的技术打造完整的数据库的体验,那么其开发者群体和视野将⼤⼤拓宽,技术的盘⼦就可以做得更⼤⼀点,现阶段的对⼿都会变盟友。

点个在看少个 bug。

相关文档
最新文档