Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
大数据架构指南
DeepSeek smallpond搅动大数据风云
DuckDB 走向分布式?DeepSeek 的 smallpond 涉足大数据DuckDB!降维打击传统大数据领域,搅动中台数据工程风云! DeepSeek 正在利用 smallpond(一种新的、简单的分布式计算方法)推动 DuckDB 超越其单
Kafka 中使用 @KafkaListener 批量消费消息
在本教程中,我们将讨论如何使用 Spring Kafka 库的@KafkaListener注释批量处理 Kafka 消息。 Kafka代理是一个中间件,可帮助持久保存来自源系统的消息。目标系统配置为定期轮询 Kafka 主题/队列,然后从中读取消息。
Apache Iceberg 简介
如今,Apache Iceberg 已成为实现数据湖的热门选择。它提供快照、隐藏分区和就地数据表演化等功能。 本教程将讨论Apache Iceberg,这是当今大数据领域流行的开放表格式。 我们将通过开源发行版的
数据建模已死,而且死得悄无声息!15年工程师捶胸顿足
一位资深数据工程师痛陈数据建模在现代数据栈中被边缘化的现实,呼吁回归严谨的数据设计思维,重建属于这个时代的建模方法论。 在数据工程的世界里,有个叫丹尼尔的男人,他是那种会在凌晨三点 SSH 进服务器、嘴里叼着半根冷掉的烟、一边敲 Perl 脚本一边
pipefunc:数据DAG管道快速构建工具
一个 Python 库,旨在让构建和运行复杂的计算工作流变得异常快速和简单。如果您曾经处理过函数之间复杂的依赖关系,为并行化而苦苦挣扎,或者希望以更简单的方式
AI工作流神器:Airflow中调用大模型
这个代码库包含了一个用于在Apache Airflow中操作大语言模型(LLMs)的软件开发工具包(SDK),它基于Pydantic AI构建。 这个工具让用户可以直接在Airflow工作流中调用大语言模型,并通过装饰器任务来协调智能代理的调用。<
Java中并行流处理约10GB大日志文件
您有一个 10 GB 的银行交易日志文件,其中包含单笔交易的记录。您的任务是处理该文件,过滤掉金额高于 10,000 的交易,然后计算总金额。由于文件很大,因此目标是使用并行性来高效处理它,以加快计算速度。 并行流方法
Arrow+Go颠覆ETL:重新定义数据工程
几十年来,数据工程一直建立在从未为现代硬件设计的基础之上。传统的基于行的数据库、序列化数据格式和网络密集型工作流程对本应极快的数据移动和转换造成了人为的瓶颈。 即使在今天,大多数 ETL 管道仍然依赖于: 基于行的数据存储(PostgreS
Drasi:微软开源EDA数据处理平台支持Cypher
Drasi 是一个数据处理平台,可简化检测数据变化并立即采取行动的过程。它是一种全面的解决方案,提供内置功能来跟踪特定事件的系统日志和更改源、评估它们的相关性并自动启动适当的反应。请访问我们的文档网站
数据管道与 ETL 管道:主要区别和用例
在数据工程领域,了解数据管道和ETL(提取、转换、加
Apache Kylin简单教程
在本文中,我们探索了 Apache Kylin,这是一款专为大数据分析的极致规模和性能而构建的工具。它将 OLAP 建模的强大功能与分布式计算相结合,可在海量数据集中提供快速、可靠的洞察。 该平台拥有重要的组件和功能,包括流式传输支持、原生计算引擎、自动化
Spring Batch中重启失败的作业并继续执行
Spring Batch 的默认可重启性支持从作业失败中进行稳健恢复,确保失败的作业可以从故障点恢复,而无需重新处理已完成的项目或丢失数据。 在本文中,我们创建了一个简单的作业来演示此重启功能。我们配置了一个作业来分块处理项目,模拟Item3发生故障。重启
使用对象列表创建 Avro Schema
在本文中,我们研究了如何创建包含对象列表的 Avro 模式shcema。此外,我们还详细介绍了如何 使用 子 记录的列表 属性 定义父记录 。这是我们在 Avro 中表示复杂数据结构的一种方式。此外,当我们需要处理对象集合或分层数据时,这特别有用。最后,Avro 模式非常灵活,我们可以配置它
Apache Fluss破解大数据最后一公里难题
Apache Fluss是阿里与Ververica为Flink打造的实时表存储引擎,通过分层存储和高效changelog机制弥补了Paimon的不足,支持低延迟数据读写与湖仓统一访问。尽管尚未支持Schema演进,但其设计理念与扩展潜力为流处理存储层提供了新思路。
BloomSearch:使用Bloom过滤器搜索关键字
面向海量数据集的分层布隆过滤器关键词搜索引擎,使用布隆过滤器替代B树实现数据索引! BloomSearch通过可插拔存储接口提供极低的内存使用率和低冷启动搜索。 内存效率:Bloom过滤器具有恒定的大小,无论数据量如何 可插
Apache Hadoop 简介
在本文中,我们探讨了 Apache Hadoop,这是一个提供可扩展且高效的解决方案来管理和处理大数据的框架——这在当今数据驱动的世界中至关重要。 我们首先讨论其核心组件,包括 HDFS、YARN 和 MapReduce,然后介绍设置 Hadoop 集群的
数据湖变沼泽:Delta Lake 一招逆转乾坤!
Delta Lake 通过事务日志为数据湖注入 ACID 能力,解决传统数据湖的数据可靠性、结构混乱与性能瓶颈问题,实现批流统一与时间旅行,是构建现代可信数据湖的核心技术。 为什么很多公司辛辛苦苦建了数据湖,最后却变成了“数据沼泽”?数据乱七八糟、查不到、
FastStream: 重定Python流式数据处理新标准
在当今的软件开发世界中,构建高效、可维护、易于扩展的微服务架构已成为大多数技术团队的核心目标。尤其是在数据驱动的应用场景下,消息队列(Message Queue)作为解耦服务、异步处理和实现事件驱动架构的关键组件,其重要性不言而喻。 然而,传统的消
下页
关闭