中台数据工程教程 - 第25页

客服与客户之间沟通是每个企业的核心，每家公司都应该拥有自己的对话并以最佳方式利用他们的对话数据，同时考虑到客户的兴趣和隐私。Airy 是一个对话平台，主要为企业构建：大多数企业都有他们支持的各种对话应用程序和渠道（从用于客户服务的 Facebook Messenger 和 Insta

Storj DCS（去中心化云存储）是一种加密、安全且经济高效的对象存储服务，使您可以使用简单的逻辑实例将对象数据分散到任何地方。当一个对象上传到 Storj DCS 时，它被默认加密，分成 80 个或更多块，分布在近 100 个国家/地区的数千个不同节点和 ISP 中。没有单点故障

下面我们分享“基本”数据平台的样子，并列出每个空间中的一些热门工具：数据摄取与几乎所有现代数据平台的情况一样，需要将数据从一个系统摄取到另一个系统。随着数据基础设施变得越来越复杂，数据团队面临着从各种来源摄取结构化和非结构化数据的挑战性任务

Apache Arrow是是各种大数据工具（包括BigQuery）使用的一种流行格式，它是平面和分层数据的存储格式。它是一种加快应用程序内存密集型。数据处理和数据科学领域中的常用库：

这篇博文将帮助读者了解单体数据架构、与单体数据架构相关的挑战，以及分布式数据网格如何帮助组织将其分析数据转换为产品并构建高度可扩展、弹性和数据驱动的应用程序。目标受众是有兴趣了解更多关于单体数据架构和分布式数据网格的软件工程师、数据工程师、数据科学家、MLOps 工程师、软件开发人员和数据库

这篇博文概述了盛宝银行（Saxo Bank）在数字化转型过程中如何通过DDD+数据网格架构实现：快速解决集成并将能数据快速交付给需要它的人。盛宝银行集团（SaxoGroup）成立于1992年，是一家欧洲全牌照银行及领先的金融科技公司。大规模分布式数据管理</

Reddit是全球最大的社交新闻站点，这是他们用Druid列数据库替代Redis的架构迁移：Reddit 的广告业务在过去几年取得了惊人的增长，并且不断发展以满足我们不断增长的广告客户群的需求。为广告商提供关于用户如何与他们的广告互动的透明度是任何广告平台的一项关键功能。为了获得广告

Greenplum：用于分析的大规模并行 Postgres，用于分析、机器学习和人工智能的开源大规模并行数据平台。 Hadapt：在Hadapt中，一个（Postgres）数据库放置在Hadoop群集的节点中，从而可以使用MapReduce，SQL和搜索的系统 Ne

Apache Heron是实时、分布式、容错的流处理引擎。自 2014 年以来，Heron 为 Twitter 的各种用例提供了所有实时分析的支持。事件报告下降了一个数量级，证明了经过验证的可靠性和可扩展性。从一开始，Heron 就被设想为一种新型的流处理系统，旨在满足最苛刻的技

几个月前我一直在考虑撰写“什么是新的企业数据平台？” 在过去的几年中，我一直是新数据平台的数据解决方案架构师和产品负责人。我学到了很多东西，我想与社区分享我的经验。当我们设计和构建数据平台时，我们致力于提供其他团队开发项目所需的能力和工具。我没有忘记数据，但我认为数据应该是一种服务，

JAXenter与开源数据平台公司 Instaclustr 的 Postgres 技术研究员 Robert Treat 聊了聊 PostgreSQL 的受欢迎程度、它的用例以及它与哪些开源技术配对。 Postgres 最擅长的是以无与伦比的价格为您提供具有所有高级功能的企业级数据库以

牛津词典将“数据”定义为：“收集在一起的事实”。(注：世界是由事实组成的：#维特根斯坦 )如果我们改为使用应用程序架构师的专业语言，“数据”可以更准确地定义为：“折叠fold在一起的事件”。“折叠”表示按时间顺序合并特定实体的（状态改变）事件以计算最新的实体“状态”

保持愉快的在线订购体验包括确保大型搜索索引在规模上保持有效。对于 DoorDash 来说，这是一个特别的挑战，因为商店、商品和其他数据的数量每天都在增加。在这种负载下，重新索引所有更改并更新我们的搜索数据库可能需要长达一周的时间。我们需要一种快速的方法来索引我们平台的所有可搜索数据

数据清理是删除、添加或修改数据以进行分析和其他机器学习任务的过程。如果需要数据清理，它总是在任何类型的分析或机器学习任务之前完成。Clive Humby 说：“数据是新的石油。” 但我们知道数据仍然需要细化。数据被认为是公司的主要资产之一。误导性或不准确的数据是有风险的，可能

Google 的Kubeflow 1.3是最流行的 Kubernetes 开源机器学习平台的最新版本。它具有许多新功能和增强功能，使机器学习操作 (

过去，大多数 Web 工程师会很快否定 API 端点的想法，即流式输出无限数量的行，他们认为应尽快处理 HTTP 请求！处理请求所花费的时间超过几秒钟都是一个危险信号，现在应该重新考虑某些事情。Web 堆栈中的几乎所有内容都针对快速处理小请求进行了优化。但在过去的十年中，潮流有所转变

具有大量增长数据的基于微服务的扩展应用程序在有效交付聚合数据（如顶级列表）方面面临挑战。在本文中，我将向您展示如何使用 Redis 缓存聚合数据。而数据库将项目/行数据存储为“真实来源”并使用分片进行扩展。单个 Redis 实例每秒可以处理大约 100,000 次操作<

事件驱动的设计是一种可以实际解决机器学习中标签噪音问题的解决方案：首先，我们需要定义与标签相关的所有数据。我们甚至添加了仍在研究中的数据点，但将来可能与我们的标签相关。这部分内容有点探索性，因为我们在多个数据库中拥有大量数据，而没有一个人能完全了解这一切。作为一名架构师，我必