Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
在Python中实现调度计划作业的五种方法
今天构建的大多数应用程序都需要某种方式的调度机制。常见的例子是轮询 API 或数据库、频繁检查系统健康状况、将日志转储到存档等。Kubernetes和
DuckDB - DuckDB-Wasm:浏览器中的高效分析 SQL
DuckDB-Wasm 是一个用于浏览器的进程内分析 SQL 数据库。它由 WebAssembly 提供支持,可以流利地使用 Arrow 语言,读取由文件系统 API 或 HTTP 请求支持的 Parquet、CSV 和 JSON 文件,并且已经过 Chrome、Firefox、Safari
HDF5数据格式不适合深度学习 - KDnuggets
在本文中,我们将讨论 HDF5 是最流行和最可靠的非表格数字数据格式之一。但是这种格式并未针对深度学习工作进行优化。本文建议应该采用什么样的 ML 原生数据格式才能真正满足现代数据科学家的需求。
优步Uber背后的算法工程是如何运作的?
优步Uber提供按需出租车服务,只需按一下按钮。在本文中,我们将探讨 Uber 背后特定功能的工程设计。 计算预计到达时间当你拿出你的手机;打开优步应用并叫车,然后那些聪明的小算法会告诉你司机需要多长时间才能到达。预计到达时间在大多数
PostgreSQL与Elasticsearch和PGSync的实时数据集成 -Tolu
PGSync是一个变更数据捕获工具,用于将数据从Postgres转移到Elasticsearch。它允许你保留Postgres作为你的真实来源,并在Elasticsearch中公开结构化的非规范化文档。这对于构建后端服务以驱动文本搜索应用或构建实时仪表盘应用非常有用。对嵌套实
使用 Debezium 和 Apache Iceberg 创建数据湖
今天为数据分析、数据报告或机器学习构建数据湖已经是一种常见的做法。在这篇博文中,我们将描述一种构建数据湖的简单方法。该解决方案使用基于 Debezium 的实时数据管道,支持 ACID 事务、SQL 更新并且具有高度可扩展性。并且不需要 Apache Kafka 或 Apache S
大数据处理与数据工程Lambda架构简介
我们生活在一个技术时代,大数据、物联网、机器学习都已成为不可避免的现实。在当今世界,决策过程依赖于可以跨越各种数据源(例如社交媒体、日志文件、传感器数据等)的数据。虽然数据的异构性增加了多方面,但随之而来的是快速反应的需求。现代软件架构旨在满足这个不断变化的商业世界中的此类需求。随着
构建企业CDC数据湖解决方案 -DZone
CDC(Change Data Capture) 是一个软件过程,它捕获源数据库中所做的更改(
为数据仓库编写SQL存储过程的技巧 - babbling
在数据仓库应用程序中,我们需要想办法有效地回填我们的数据并大规模快速运行我们的 SQL。回填是指我们想要在表中填充过去 X 天的数据。为此,我们的 SQL 必须是可重复和可水平扩展的。我们需要以不会泄漏数据或导致重复的方式一次填充数天的数据。以下是实现这一目标的一些技巧。 <
使用Python实现分布式网页抓取 - ZenRows
以分布式和容错的方式对内容进行爬取、抓取、提取和大规模存储。首先,我们了解了
去中心化大数据存储的开源方案:Storj
Storj DCS(去中心化云存储)是一种加密、安全且经济高效的对象存储服务,使您可以使用简单的逻辑实例将对象数据分散到任何地方。当一个对象上传到 Storj DCS 时,它被默认加密,分成 80 个或更多块,分布在近 100 个国家/地区的数千个不同节点和 ISP 中。没有单点故障
如何使用传统数据库思维进行实时数据流分析? – thenewstack
大多数流数据技术需要开发人员的思维方式不同于使用传统关系数据库的思维方式。但是现在,专注于时间序列数据库的初创公司Deephaven Data Labs发布了Deep
分析工程师 – 数据团队中的新角色 - KDnuggets
在不断变化的环境中,对于许多公司,数据工程师、分析师和数据科学家的角色和职责正在发生变化,这迫使我们引入一个新角色:分析工程师。分析工程师处于数据科学家、分析师和数据工程师技能集的交叉点。他们为分析师和数据科学家的工作带来了正式而严格的软件工程实践,他们为数据工程的工作带来了分析和业
Twitter如何升级Hadoop+Kafka架构实现实时处理数十亿个事件?
在Twitter,我们每天实时处理大约 4000 亿个事件并生成 PB 级数据。我们消费数据的事件源有很多种,它们在不同的平台和存储系统中产生,例如 Hadoop、Vert
Netflix 如何预热缓存?利用EBS移动PB级数据
EVCache是一种基于 memcached 的分布式内存缓存解决方案。它是 Netflix 的一个 Tier-0 系统,其足迹遍布约 18,000 台服务器,拥有约 14 PB 的数据,并且仍在快速增长。我们之前已经概述了我们如何在 EVCache 集群上执行
首席数据官需要确保战略方向 - snowflake
几年前,一位首席数据官CDO问我:“一美元的成本节省与一美元的收入是一样的吗?” 我的回答是响亮的“不”。数据和分析计划必须与业务目标保持一致。如果一家公司处于增长模式,一心想抓住思想和市场份额,洞察团队会优先考虑创收而不是成本节约。在经济低迷时期,当生存模式启动时,优先事项可能会有所不同。
Verinovum如何从病例数据筛选出更清洁、更丰富的数据帮助改善医疗保健 - datastax
Verinovum 总部位于俄克拉荷马州塔尔萨,提供干净、完整和准确的临床数据,使医疗保健支付者、提供者和合作伙伴组织能够改善业务和患者结果。与电子健康记录 (EHR) 系统相关的界面和操作流程可能不同,从而产生大量数据变化。许多医院系统使用自己的代码系统,因此我们需要使用标准化规则
Airbnb 如何建造“Wall框架”来防止数据错误?
通过广泛的数据质量、准确性和异常检查获得对数据的信任。Airbnb 已经开始了一个大规模的项目,以确保整个公司的数据可信。为了使员工能够更快地利用数据做出决策并为业务指标监控提供更好的支持,我们引入了
上页
下页
关闭