2022年的数据库:回顾一年 - Andy Pavlo


又是一年过去了,而我还活着。因此,现在是反思去年在数据库世界中发生的事情的绝佳时机。由于DBMS供应商之间的基准战争已经平静下来,街上很安静。我在写去年的回顾时很开心,所以我很高兴能与你分享2022年的突出事件以及我对它们的看法。

大数据库的资金来源已经大大放缓
与2021年相比,2022年大额融资轮次的减少有两个原因。
最明显的原因是,整个科技行业已经降温,部分原因是对通货膨胀、利率和加密经济崩溃的担忧所推动。
另一个原因是,在事情干涸之前,每一个有能力拿下大轮融资的人都已经这么做了。

坏消息是,除非科技行业有所改善,大的机构投资者又开始把钱转到街上,否则这些公司就有麻烦了。
市场无法维持这么多独立软件供应商(ISV)的数据库。这些拥有十亿美元估值的公司继续前进的唯一途径是上市或破产。对大多数公司来说,它们的收购成本太高(除非风险投资公司愿意大规模削减)。
此外,做大型并购的主要科技公司(如亚马逊、谷歌、微软)已经有自己的云数据库产品。
因此,目前还不清楚谁会收购这些数据库初创企业。
亚马逊以2021年20亿美元的估值收购Clickhouse是没有意义的,因为他们已经从Redshift每年赚取数十亿美元。这个问题不是OLAP数据库公司独有的,OLTP数据库公司很快也会面临同样的问题。

我并不是唯一一个对数据库初创公司的命运做出如此可怕预测的人。
Gartner的分析师预测,到2025年,50%的独立DBMS供应商将倒闭。
我显然是有偏见的,但我认为能够生存下来的公司将是那些在DBMS前面工作,改善/提高它们而不是取代它们的公司(例如,dbt、ReadySet、Keebo和OtterTune)。

区块链数据库仍然是一个愚蠢的想法
在评估一项技术时要遵循的一条规则是,一旦IBM为它做了电视广告,它就不再是 "新 "的了。这意味着如果在IBM开始为某项技术做广告时,还没有令人信服的使用案例,那么就永远不会有了。
例如,IBM在2002年的广告中把Linux作为一个热门的新事物来吹捧,但当时成千上万的公司已经把它作为他们的主要服务器操作系统(包括谷歌)。
因此,当IBM在2018年推出他们的区块链广告时,我知道这项技术在加密货币之外毫无进展,因为没有一个问题是去中心化的区块链可以解决而中心化的DBMS无法解决的。而今年IBM宣布他们关闭了与航运巨头马士基合作的供应链IT基础设施大修项目(与他们在广告中夸大的内容相同)也就不奇怪了。

区块链与一个由受信任的权威机构控制的、只允许受信任的客户直接连接的写得很好的交易型DBMS相比,效率低得可怕。
除了加密货币(见上文)或诱捕等非法活动,几乎所有现实世界的互动都是这样的。
我们需要信任他人,才能有一个正常的社会。
例如,我授权托管OtterTune网站的公司向我们的信用卡收费,他们信任一个云供应商来托管他们的软件。没有人需要一个区块链数据库来进行这些交易。

从工作证明(PoW)转换到能源密集度较低的股权证明(PoS)共识机制,确实可以提高区块链数据库的性能。
但这只影响到数据库的吞吐量;区块链交易延迟仍以几十秒为单位计算。
如果解决这些长延迟的办法是使用参与者较少的PoS区块链,那么应用程序最好只使用PostgreSQL并对这些参与者进行认证。

新的数据库系统
数据库是我生命中第二重要的东西,所以我喜欢看到过去一年的所有发展。

我对AlloyDB的看法是,它是一个整洁的系统,有大量的工程投入,但我仍然不知道它的创新之处。AlloyDB的架构类似于亚马逊Aurora和Neon,DBMS存储有一个额外的计算层,独立于计算节点处理WAL记录。尽管已经有一个坚实的数据库组合(如Spanner、BigQuery),谷歌云觉得有必要建立AlloyDB,以试图追赶亚马逊和微软。

需要关注的长期趋势是Velox、DataFusion和Polars等框架的激增。与Substrait等项目一起,这些查询执行组件的商品化意味着所有的OLAP DBMS在未来五年将大致等同。与其完全从头开始建立一个新的DBMS或者硬分叉一个现有的系统(例如Firebolt如何分叉Clickhouse),人们最好使用像Velox这样的可扩展框架。这意味着每个DBMS都将拥有十年前Snowflake所特有的矢量执行能力。由于在云中,存储层对每个人都是一样的(例如,亚马逊控制EBS/S3),DBMS产品之间的关键区别将是难以量化的东西,如UI/UX东西和查询优化。

一个数据库先锋的损失
更令人沮丧的是,我们在 2022 年 7 月失去了Martin Kersten。Martin是[url=https://www.cwi.nl/research/groups/database-architectures]CWI[/url]的一名研究员,他是几个有影响力的数据库项目的领导者,包括 1990 年代第一个分布式内存 DBMS ( PRISMA/DB ) 和一个2000 年代的第一个列式 OLAP DBMS ( MonetDB )。Martin于 2020 年被荷兰政府授予皇家爵士头衔,特别是因为他在数据库方面的工作。

我承认,与Mike Stonebraker这样的人相比,Martin可能不太为数据库研究界以外的人所知。我一直认为Martin是欧洲版的Stonebraker:他们都是多产的数据库研究人员,都是高高瘦瘦,戴着眼镜,年龄也差不多。但马丁不是什么非品牌的山寨货,就像任天堂的Smitch。

在研究之外,Martin总是慷慨解囊,热衷于与任何人讨论数据库架构。我最后一次见到他是在大流行之前的VLDB 2019年。他和我争论了将近一个小时,讨论为什么他觉得在MonetDB中使用MMAP是正确的选择;他声称,因为MonetDB专注于只读的OLAP工作负载,那么MMAP就足够好了。我感觉很糟糕,因为他还不得不面对学生们在Youtube上观看我的数据库课程,然后给他发邮件说为什么MonetDB的设计选择是我声称的劣质产品。

我鼓励你观看Martin在2021年为我们的CMU-DB研讨会系列所做的最后一次讲座之一。我向Martin保证我不会因为抱怨MonetDB对MMAP的使用而破坏他的演讲。但是如果你看了前60秒,你会看到我雇了一个荷兰人为Martin录制了一个假的皇家介绍。

更多点击标题