Snowflake和Databricks比较 - John


应该选择 Snowflake 还是 Databricks?
Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而,他们确实在激烈地相互竞争。然而,我会说,Snowflake 在竞争中走上了更高的道路,而 Databricks 肯定更具对抗性和侵略性。

Snowflake
创建Snowflake的原因是其创始人了解并知道用户如何遭受传统关系型 OLAP 解决方案的真相。
这是有道理的,他们来自甲骨文。他们也了解云是如何工作的。
创始人不想把一个类似甲骨文的数据库移植到云上。这并不能解决用户群所遇到的问题。
用户正在遭遇:规模,性能,并发性,和大量昂贵的资源!
因此,他们建立了Snowflake来解决这个问题。将关系型数据库平台的所有优点应用于云,而云允许环境的简单表现,具有弹性的大小或规模。

与 Snowflake 直接竞争是哪些?
所有基于云的 OLAP 数据库,如。Redshift,Teradata,Oracle,Synapse,和Databricks。
是的,我敢说是Cloudera。
Snowflake开始有点模糊界限,有Iceberg(数据湖),SnowPark(数据科学/数据工程),数据共享/市场(第三方数据),和即将到来的Unistore(OLTP)。
真正令人激动的是,Snowflake的路线图是否太宽了?也许吧。
关于Snowflake,我想说的是:几个季度前,Snowflake发布了损害其收入的创新。Snowflake使其在磁盘上的压缩效果更好,同时也使其计算效率更高,据估计,这使Snowflake未来的收入减少了9%。

Databricks
Databricks是在Hadoop供应商和两个Apache项目Hadoop和Spark的挫折中诞生的。
Databricks是Apache Spark的商业实体。
Apache Spark诞生于对Apache Hadoop和商业供应商的挫败感中,现在只剩下一个了:Cloudera。
Hadoop在并发方面做得不好,它有巨大的延迟问题。
Apache MapReduce已经死了,取而代之的是Apache Spark来弥补这些限制。
Apache Spark也有自己的问题,因此Databricks的诞生是为了将Spark带到企业。

Databricks是一个用于数据工程、数据流和数据科学的纯开发环境。
它对微程序来说是很好的。它需要次一级的技能来开发、支持和维护。
Databricks绝对不适合所有人。
人才很难找到,也很难在数据仓里留住。
这并不是说你必须是Scala或Pyspark程序员,但这只是平台的本质。它是非常技术性的。
为什么呢?
Databricks需要根据使用情况进行大量的调整,所以你必须知道你在做什么。它也需要更长的时间来将解决方案推向市场。
Databricks的人力资源成本比基于SQL的平台高30%。
根据我的经验,将解决方案推向市场或对现有解决方案进行修改需要50%的时间。

事实:即使在计算成本层,Databricks也不比Snowflake更实惠。这是一个神话,也是Databricks所延续的一个神话。总拥有成本与SNOWFLAKE携手并进,成为低成本的解决方案。

与 Databricks 竞争有哪些?
除去 Snowflake 和数据库玩家,除了 Apache Spark,Databricks 在市场上没有直接竞争对手。
Apache Spark 不是 Databricks 的好替代品。也许是 GPU 平台?

Snowflake 和 Databricks 的前进方向
Databricks 和 Snowflake 需要协同工作。这是一个1+1=3的关系。他们一起工作可以成为更强大的力量。前进的方向是:Databricks 用于流式摄取、快速转换、快速评分,以及用于业务用户消费的 Snowflake。Databricks 还可以利用 Snowflake 的最新功能 Snowpark 进行预测模型生产。
他们的超大规模器(GCP、AWS 和 Azure)将为你们俩提供服务并最终迎头赶上。