Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
Liquid AI联手Shopify把推荐算法卷成20毫秒闪电,买家还没眨眼商品已跳脸!
Liquid AI与Shopify深度捆绑,推出20毫秒内完成推理的“史莱姆”大模型,搜索与推荐转化率暴涨,电商进入“眨眼经济”新纪元。 ——— 美国波士顿剑桥那帮卷王公司Liquid AI,刚刚官宣和Shopify签了一个多年、多千万美元的‘婚
从单点救火到平台级"复制引擎":Datadog如何用CDC重构高并发数据管道
Datadog从搜索延迟7秒到1秒的实战出发,打造了支持多租户、低延迟、高可用的CDC数据复制平台,用异步复制+自动化+Schema兼容性控制实现大规模数据流动。在硅谷一线大厂里,数据库从来不只是存东西的“仓库”,而是一台轰鸣的引擎。当用户点击你产品的某个页面,背后可
六大Python可视化神器终极对决:看完这篇不再选择困难
本文详细对比Python六大可视化库Matplotlib、seaborn、Pygal、Plotly、Altair和Bokeh的特点与适用场景,帮助读者根据项目需求选择最合适的工具。 可视化库太多不知道怎么选?6个Python神器全面对比:
数据建模已死,而且死得悄无声息!15年工程师捶胸顿足
一位资深数据工程师痛陈数据建模在现代数据栈中被边缘化的现实,呼吁回归严谨的数据设计思维,重建属于这个时代的建模方法论。 在数据工程的世界里,有个叫丹尼尔的男人,他是那种会在凌晨三点 SSH 进服务器、嘴里叼着半根冷掉的烟、一边敲 Perl 脚本一边
Apache Fory:国产序列化快枪手支持多语言的开源工具
Apache Fory是一个非常快速的多语言序列化框架,它彻底改变了系统和语言之间的数据交换。通过利用JIT编译和零拷贝技术,Fory提供了比其他序列化框架快170倍的性能,同时非常易于使用。 主要特点: 跨语言序列化:Java,Pytho
RustFS:Rust构建的高性能分布式对象存储系统
RustFS是一个基于Rust构建的高性能分布式对象存储系统,旨在与MinIO等巨头竞争,同时挥舞着开源自由的旗帜。在当今数据驱动的世界中,管理大量非结构化数据就像与九头蛇搏斗。许多现有的解决方案,如MinIO,都需要权衡:限制性许可证、复杂的设置或性能瓶颈。RustFS解决
数据工程中大奖章架构:青铜、白银和黄金
在数据的世界里,我们每天都在跟“混乱”打交道。日志、埋点、订单、用户行为、设备信号……这些原始数据像潮水一样涌进系统,杂乱无章、格式不一、真假难辨。如何把这一堆看似无用的“数字垃圾”变成企业真正能用、敢用、爱用的信息资产?过去十年,一个叫“Medallion Architecture”(勋章
db-portal:跨平台的SQL数据管理开源工具
db-portal是一个跨平台的SQL编辑器,具有数据字典浏览和轻量级ETL功能,作为Go HTTP服务器运行,并通过浏览器访问。它为ETL任务提供了一个易于使用的界面。您可以在不同的源之间复制表格数据,包括各种数据库供应商,以及电子表格、JSON和CSV文件。
SQL是用于数据,别再把业务逻辑塞进SQL了
别再把业务逻辑塞进数据库了!90%的性能问题都源于这个错误决定 业务逻辑到底该不该写进数据库?这篇文章的作者叫埃瓦尔德·贝内什(Ewald Benes),这位老哥有超过二十年的软件开发经验,他最近写了一篇题为《为什
企业AI智能体:OpenAI与Databricks携手1亿美元:
OpenAI与Databricks携手1亿美元:企业AI代理时代来临 在人工智能浪潮席卷全球的当下,OpenAI与Databricks的合作无疑是今年最引人注目的技术联盟之一。 2025年9月25日,两家公司正式
2025年12款最佳网页采集神器清单 省下90%开发成本
2025年12大网络数据采集服务深度测评,从企业级高端到高性价比入门款全覆盖,助你高效获取商业情报,告别爬虫维护烦恼。 2025年最值得入手的12大网络数据采集神器!别再自己写爬虫了,省下90%开发时间! 202
Elasticsearch从来就不是数据库! 别再当DB用了
Elasticsearch本为搜索而生,非事务型数据库,强行作为主数据源将导致一致性缺失、运维复杂、查询受限等问题,应回归其索引定位,选用合适系统保障数据正确性。 我知道“数据库”“Elasticsearch”听起来像是程序员才懂的黑话,但其实它跟
Apache Fluss破解大数据最后一公里难题
Apache Fluss是阿里与Ververica为Flink打造的实时表存储引擎,通过分层存储和高效changelog机制弥补了Paimon的不足,支持低延迟数据读写与湖仓统一访问。尽管尚未支持Schema演进,但其设计理念与扩展潜力为流处理存储层提供了新思路。
BloomSearch:使用Bloom过滤器搜索关键字
面向海量数据集的分层布隆过滤器关键词搜索引擎,使用布隆过滤器替代B树实现数据索引! BloomSearch通过可插拔存储接口提供极低的内存使用率和低冷启动搜索。 内存效率:Bloom过滤器具有恒定的大小,无论数据量如何 可插
全闪存对象存储取代冷热温分层成为AI超算标配,NAND需求结构性飙升
全闪存对象存储以“使用感知计费”颠覆传统分层架构,消除数据回热延迟,大幅提升GPU利用率,推动QLC/PLC NAND需求长期结构性增长。【第一节:AI时代的存储困局正在被彻底重构】 为什么AI训练动不动就卡住?GPU明明是几千美元
内存占用压到极限!处理速度飙到最快!这篇神作彻底终结了大数据流“不同元素计数”难题
哈佛、MIT与IBM科学家联手提出首个空间与时间均最优的不同元素数量估计算法,终结该领域三十余年研究,为大数据实时分析奠定基石。 当你在刷抖音、点外卖、搜关键词的时候,背后其实有一群顶尖科学家在默默优化那些“看不见的数据流”?今天要聊的这篇论文,就
数据湖变沼泽:Delta Lake 一招逆转乾坤!
Delta Lake 通过事务日志为数据湖注入 ACID 能力,解决传统数据湖的数据可靠性、结构混乱与性能瓶颈问题,实现批流统一与时间旅行,是构建现代可信数据湖的核心技术。 为什么很多公司辛辛苦苦建了数据湖,最后却变成了“数据沼泽”?数据乱七八糟、查不到、
FastStream: 重定Python流式数据处理新标准
在当今的软件开发世界中,构建高效、可维护、易于扩展的微服务架构已成为大多数技术团队的核心目标。尤其是在数据驱动的应用场景下,消息队列(Message Queue)作为解耦服务、异步处理和实现事件驱动架构的关键组件,其重要性不言而喻。 然而,传统的消
下页
关闭