Snowflake和Databricks比较 - John

#Hadoop大数据教程 #ApacheSpark大数据教程 #中台数据工程教程 #大数据架构指南

2022-10-19 2K banq

应该选择 Snowflake 还是 Databricks？
Snowflake 和 Databricks 都是很棒的组织。他们发明或重新发明了数据管理行业。我不会贬低他们的任何技术、人员或流程。然而，他们确实在激烈地相互竞争。然而，我会说，Snowflake 在竞争中走上了更高的道路，而 Databricks 肯定更具对抗性和侵略性。

Snowflake
创建Snowflake的原因是其创始人了解并知道用户如何遭受传统关系型 OLAP 解决方案的真相。
这是有道理的，他们来自甲骨文。他们也了解云是如何工作的。
创始人不想把一个类似甲骨文的数据库移植到云上。这并不能解决用户群所遇到的问题。
用户正在遭遇：规模，性能，并发性，和大量昂贵的资源！
因此，他们建立了Snowflake来解决这个问题。将关系型数据库平台的所有优点应用于云，而云允许环境的简单表现，具有弹性的大小或规模。

与 Snowflake 直接竞争是哪些？
所有基于云的 OLAP 数据库，如。Redshift，Teradata，Oracle，Synapse，和Databricks。
是的，我敢说是Cloudera。
Snowflake开始有点模糊界限，有Iceberg（数据湖），SnowPark（数据科学/数据工程），数据共享/市场（第三方数据），和即将到来的Unistore（OLTP）。
真正令人激动的是，Snowflake的路线图是否太宽了？也许吧。
关于Snowflake，我想说的是：几个季度前，Snowflake发布了损害其收入的创新。Snowflake使其在磁盘上的压缩效果更好，同时也使其计算效率更高，据估计，这使Snowflake未来的收入减少了9%。

Databricks
Databricks是在Hadoop供应商和两个Apache项目Hadoop和Spark的挫折中诞生的。
Databricks是Apache Spark的商业实体。
Apache Spark诞生于对Apache Hadoop和商业供应商的挫败感中，现在只剩下一个了：Cloudera。
Hadoop在并发方面做得不好，它有巨大的延迟问题。
Apache MapReduce已经死了，取而代之的是Apache Spark来弥补这些限制。
Apache Spark也有自己的问题，因此Databricks的诞生是为了将Spark带到企业。

Databricks是一个用于数据工程、数据流和数据科学的纯开发环境。
它对微程序来说是很好的。它需要次一级的技能来开发、支持和维护。
Databricks绝对不适合所有人。
人才很难找到，也很难在数据仓里留住。
这并不是说你必须是Scala或Pyspark程序员，但这只是平台的本质。它是非常技术性的。
为什么呢？
Databricks需要根据使用情况进行大量的调整，所以你必须知道你在做什么。它也需要更长的时间来将解决方案推向市场。
Databricks的人力资源成本比基于SQL的平台高30%。
根据我的经验，将解决方案推向市场或对现有解决方案进行修改需要50%的时间。

事实：即使在计算成本层，Databricks也不比Snowflake更实惠。这是一个神话，也是Databricks所延续的一个神话。总拥有成本与SNOWFLAKE携手并进，成为低成本的解决方案。

与 Databricks 竞争有哪些？
除去 Snowflake 和数据库玩家，除了 Apache Spark，Databricks 在市场上没有直接竞争对手。
Apache Spark 不是 Databricks 的好替代品。也许是 GPU 平台？

Snowflake 和 Databricks 的前进方向
Databricks 和 Snowflake 需要协同工作。这是一个1+1=3的关系。他们一起工作可以成为更强大的力量。前进的方向是：Databricks 用于流式摄取、快速转换、快速评分，以及用于业务用户消费的 Snowflake。Databricks 还可以利用 Snowflake 的最新功能 Snowpark 进行预测模型生产。
他们的超大规模器（GCP、AWS 和 Azure）将为你们俩提供服务并最终迎头赶上。