Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
Dash:可部署生产级 Text-to-SQL 能力的开源数据智能体
Dash 是一个开源的自学习数据代理,由 Agno 创始人 Ashpreet Bedi 开发,灵感来自 OpenAI 内部数据代理架构。它通过六层上下文(表结构、人工标注、查询模式、机构知识、记忆、运行时上下文)和"GPU 贫困式持续学习"机制,让 AI 在写 SQL 时不再瞎猜,而是像老司
万亿级上下文图谱机会藏在企业所有决策的“因果逻辑层”中!
上下文图Context Graph把分散在系统、人和流程中的“决策原因”结构化,成为AI可解释、可复用的推理底座。真正赢家不是单一智能体,而是横向整合全公司上下文的平台。 谁将真正掌控“上下文图谱”这个万亿美元级机会?
2026年十二大金融数据API完全选型指南
深度解析2026年十二大金融数据API核心特性与选型策略,涵盖股票、外汇、加密货币全市场覆盖方案,为开发者提供从免费测试到企业级部署的完整实战指南。 简单来说,金融数据API就是一座连接你和全球金融市场的数字桥梁。想象你开了一家奶茶店,需要每天知道茶叶、
Apache Spark 4.0简介:增强SQL语言功能
Apache Spark 4.0引入了重大改进,包括增强的SQL语言功能,如SQL脚本,可重用的SQL UDF和PIPE语法,Spark Connect的重大改进,为Python和Scala客户端提供了近乎完整的功能对等,以及对Go,Swift和Rust的新支持。
Netflix统一数据架构UDA:知识图谱领域建模
UDA(统一数据架构)是一个基于知识图的基础,用于管理和连接不同系统中的域模型,以解决重复/不一致的模型,不一致的术语,数据质量问题和有限的连接等挑战。 UDA允许团队注册域模型,将这些模型编目并映射到数据容器(如GraphQL服务,Data Me
使用双Bloom过滤器优化几千万用户产品推荐
Klaviyo分享了他们如何使用双Bloom过滤器优化产品推荐引擎,以有效地排除已经从营销活动中购买的商品。他们不需要查询每个收件人两年的购买数据,而是预先计算每个公司的每月和30天的Bloom过滤器,并将其存储在Redis中以进行快速会员检查。这大大减少了查询负载,改善了活动渲染时间,并在
左右为难:分布式系统+索引=再伺候个数据库!
Kafka团队的"找数据难"风波:为啥查个余额要翻遍整个账本? 2016年某天,Kafka团队的程序员们集体掉头发——因为用户总在问:"我就想查张三现在账户余额,为啥非得把银行十年流水账全翻一遍?" 这就像你去ATM取钱,机器非要你从开卡第一笔交易
业务状态恢复是事件溯源主要用处
业务状态恢复是事件溯源(Eventsourcing)最有趣的部分 它最牛的地方在于,你手里的数据能像“时光机”一样,把整个应用的当前状态给重新“捏”出来!这功能简直是超级大杀器,值老鼻子钱了!但你猜怎么着?大部分程序员压根儿没意识到这有多厉害! <
ragbits:快速开发GenAI企业应用
我是一名拥有8年以上经验的高级技术主管,在过去的3年里,我一直致力于构建LLM驱动的系统- RAG管道,代理应用程序,text 2SQL引擎。我们已经在制造业、体育分析、非政府组织、法律的等领域推出了真实的的产品。 在一次又一次地这样做之后,我厌倦了同样的
Salesforce 80亿抢Informatica,数据整合开路AI称王!
【科技圈炸锅!】Salesforce豪掷80亿美刀约500亿人民币买"数据管家",AI大战再升级! 周二大新闻!做CRM软件起家的Salesforce突然宣布要花500亿人民币(80亿美元)把数据管理公司Informatica娶回家!这波操作就是为
生成式AI暴打数据湖:一场迟到的降维打击!
本文质疑数据湖是否是应对新兴Gen AI案例的有效方法。新鲜度、上下文和低延迟访问是Gen AI应用成功的关键,而作者对数据湖的Medlion架构提出了质疑。 今天咱们要聊的这个"数据湖",可不是你们春游划船的那个湖!这玩意儿过去十年可是企
企业海量非结构化数据管理:青铜→白银→黄金
《海量非结构化数据管理实战指南》 作者:Piethein Strengholt | 2025年7月 (开篇吐槽) 这些年我给各大企业当"数据救火队员",发现大家有个共同的痛——管理乱七八糟的非结构化数据(比如PDF、图片、聊天记录)
人工智能并不需要新算法,只需要新数据集
AI进步靠的根本不是天才灵光一闪,而是海量新数据在撑腰!(粉笔头砸中打瞌睡的小明) 你们是不是觉得AI这十五年进步神速?特别是最近五年,ChatGPT都能帮你写情书了!但真相是——(突然压低声音)这些突破用的全是二十世纪的老古董算法!就像你奶奶的缝
智能体基建:沙盒化无服务器Postgres实现多模态统一存储与弹性伸缩
为AI智能体打造沙盒化无服务器Postgres数据库,实现结构化数据与图像视频PDF统一存储,支持秒级启动、弹性伸缩、无限扩展,彻底解决传统数据库与文件系统无法适应智能体工作模式的痛点。 沙盒化无服务器Postgres数据库能随每个智能体启动而瞬间创建,随
Pandas 3 重磅登场:数据科学家集体高潮的三大神技!
Pandas 3.0以稳定优先哲学问世,Copy-on-Write机制彻底根除SettingWithCopyWarning,pandas.col表达式解放链式写法,可插拔UDF引擎引入JIT加速,Arrow字符串采用环境自适应的折中策略,老用户无痛升级新用户需权衡Polars。
数据库高效记录日志\检查点\恢复数据新方法
这篇论文讲的是数据库系统如何高效记录日志(logging)、做检查点(checkpoint)和恢复数据(recovery)的新方法。作者团队发现,传统的ARIES方法虽然功能强大,但在现代高性能存储引擎中速度太慢,而内存数据库的轻量级日志方法又无法处理超出内存的数据。
BloomSearch:使用Bloom过滤器搜索关键字
面向海量数据集的分层布隆过滤器关键词搜索引擎,使用布隆过滤器替代B树实现数据索引! BloomSearch通过可插拔存储接口提供极低的内存使用率和低冷启动搜索。 内存效率:Bloom过滤器具有恒定的大小,无论数据量如何 可插
程序员与数据分析等四个职业技能共同点
下页