Cursor CTO:扩展数据库最佳方式是不要数据库


“扩展数据库的最佳方式就是不要数据库”——Cursor 联合创始人/CTO

1、AI的规模和传统互联网不一样。
以前说“规模大”就是网站访问量多。但AI的规模大,意味着每天要在自己的电脑上处理上亿次昂贵的智能计算,这可是个完全不同的挑战。

2、AI产品就像三脚凳。
好的AI产品需要三个部分一起工作:一个索引系统来找到正确的上下文,一个模型来进行推理,还有一个聪明的用户界面来让输出结果有用。光有模型是不够的。

3、“无限扩展”的数据库是个陷阱。
新的、复杂的数据库看起来很酷,但其实很危险。Cursor公司就吃过亏,发现先掌握那些简单、可靠的工具,比被复杂系统搞晕要好得多。

4、“雷鸣般的群体”对AI来说是个大威胁。
当一个智能服务重启时,最先上线的几个节点会立刻被用户请求淹没。它们会立刻过载并崩溃,形成一个“死亡螺旋”,让恢复变得非常缓慢和复杂。

5、危机中,有些工程师会冻结,有些则会大放异彩。
在大故障中,有些工程师会不知所措,但最有价值的那些会“活跃起来”。在高压下保持冷静和优雅,对一个高风险的基础设施团队来说,和技术水平一样重要。

6、清理比修复更难。
在事故中,最耗时间的不是写新代码,而是清理。对Cursor来说,简单地删除一个20TB的坏数据表,本身就成了一个巨大的工程项目。

7、最好的数据库是没有数据库。
扩展数据库的最好方法通常是避免使用数据库。通过将数据移动到不可变的存储(比如S3),你可以利用超优化的、全球规模的服务,大大简化自己的架构。

8、Postgres的更新其实是性能杀手。
数据库的一个重要知识点:Postgres的更新不是直接修改。它是一个删除后插入的过程,会产生“死行”和写入放大,可能会让一个更新频繁的系统崩溃。

9、AI让计算机科学的基础更重要,而不是更不重要。
AI不会让工程师失业,反而会让优秀的工程师更有价值。通过自动化那些繁琐的“怎么做”,AI提升了系统架构、问题分解和“品味”等核心技能的重要性。

10、创业的决定应该是显而易见的。
你应该辍学去创业吗?如果你需要问,答案可能就不是。对于真正的创业者来说,这个想法的吸引力是如此强烈,以至于感觉像是一个选择,更像是一种冲动。

11、真正的护城河是数据飞轮。
在AI中,最坚固的护城河不仅仅是拥有数据,而是拥有一个高吞吐量的数据飞轮。Cursor的核心引擎是一个实时流媒体基础设施,它捕捉用户互动来不断改进他们的模型,让产品随着每次按键变得更智能。

网友热评:
1、他说得一点没错……这就是我如此热爱 Cloudflare 的原因。队列与 Worker 结合,结合 R2 和 DO,构成了一个如此引人入胜且强大的生态系统。再加上边缘计算能力和低延迟服务器端渲染……我的意思是,真正的低延迟,低于 100 毫秒的客户端服务器生态系统,以及低于 10 毫秒的事务处理……他们能够长期保持独立,这令人着迷。

2、YouTube链接:https://www.youtube.com/watch?v= 4jDQi9P9UIw&t=522s

3、如何利用 s3 作为数据库呢?
我猜这和大数据团队的做法一样,只插入(追加),不删除/更新。只需要跟踪记录的最新版本。
另一个优点是,现在您的存储和计算已分离,因此您可以根据需要扩展后者。
类似大数据Apache Spark

4、Cursor肯定有一个数据库。
扩展数据库的最佳方式是不要围绕它构建产品。
每个“UX 设计师”都认为所有内容都应该放在可排序、可过滤、可搜索的表格中,并具有内联编辑、实时更新、无限滚动、旋转、列选择、导出等功能……

5、我认为,使用 Athena 这样的工具,如果你真正需要的只是“状态”,那么将数据直接存储到 S3 就足够了,然后对于查询需求,只需使用 Athena