中台数据工程教程 - 第19页

为什么我们需要不同的文件格式？对于 MapReduce 和 Spark 等支持 HDFS 的应用程序而言，一个巨大的瓶颈是在特定位置查找相关数据所需的时间以及将数据写回另一个位置所需的时间。这些问题随着管理大型数据集的困难而变得复杂，例如不断发展的模式或存储限制。当我们在处理大数据时

如何设计一个类似于 Tinder 的基于位置的社交搜索应用程序，如果经常用作约会服务。它允许用户使用滑动动作来喜欢（向右滑动）或不喜欢（向左滑动）其他用户，并允许用户在双方互相喜欢时聊天（“匹配”）。这是

在大多数数据驱动的组织中，只需要基本的数据科学技能即可解决问题。这个角色可以很容易地被机器学习工程师取代——一个具有数据科学算法基本知识的人，他还拥有部署 ML 模型的知识。数据科学家的角色将被 AutoML 等工具取代，而另一些人则将数据科学称为“垂死的领域”，很快就会被数据工程和

数据世界再次发生变化。自从 Hadoop 出现以来，人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久，2010 年开源的 Spark 就成为了数据湖上的标准处理引擎。现在我们看到一个反向趋势，回到数据仓库。随着这一趋势，DBT 几乎已成为在现代云原生数据仓库上进行

数据网格由Thoughtworks的技术顾问 Zhamak Dehghani 于一年多前开发的，旨在纠正她认为当今商业世界中数据生成和消费方式的主要缺陷：它从DDD领域驱动设计（用于开发微服务）、DevOps（自动化和自助服务基础设施）或可观察性（日志记录和治理）中汲取灵感，并将其应用于数据

Leandro Moreira是 Globo 的首席软件工程师，负责他们的实时视频流媒体平台和基础设施。他写了一篇

Samsara是一家建立连接传感器物联网平台的公司：类似亚马逊Alexa或Google Home，是一个床边的小盒子，可以用我的声音打开灯。从GPS、加速度计、温度计到计算机视觉、麦克风、红外线和振动传感器，将这些传感器装入便携式盒子，然后在上面建立一个数据平台。因此，我们的客户可以

Databricks 拥有数百名开发人员和数百万行代码，是最大的 Scala 应用之一。这篇文章将在 Databricks 对 Scala 进行一次广泛的介绍，从开始到使用、风格、工具和挑战，从这篇文章中，您将了解在 Databricks 中使 Scala 工作的所有大大小小的信息，对于支持

数据湖：通过一个用于大数据分析的存储库来结束数据孤岛。想象一下，有一个单一的地方来存放您的所有数据以进行分析，以支持以产品为主导的增长和业务洞察力。可悲的是，数据湖的想法一度冷落，因为早期的尝试是建立在基于 Hadoop 的存储库上，这些存储库是本地的，缺乏资源和可扩展性。我们以“Hadoo

首先，你需要安装 Java，因为 Hadoop 是基于它的。然后，您需要下载并配置 Hadoop 文件系统本身。另外，我建议你安装WinRAR，因为你需要解压

将计算和存储分开进行分析是非常低效的，也许我们应该支持谓词和投影下推到存储？谓词下推predicate pushdown是指提取 where 子句条件并使用它们修剪您从磁盘读取的数据的优化（从执行引擎“下推”到存储层/引擎）。可以大幅减少 I/O、缓存流失和/或网络 I/O。包括启用

推荐系统是一种广泛使用的机器学习技术，在电子商务（亚马逊、阿里巴巴）、视频流（Netflix、Disney+）、社交网络（Facebook、Linkedin）和许多其他领域都有很多应用。由于这些服务中的数据量很大，现在大多数行业级推荐系统都是建立在 Spark 和 Hadoop 等大数据框架

来自Paypal的Shifu是一个建立在 Hadoop 之上的开源、端到端的机器学习和数据挖掘框架。Shifu 专为数据科学家设计，简化了构建机器学习模型的生命周期。虽然最初是为欺诈建模而构建的，但 Shifu 已推广到许多其他建模领域。Shifu 的优点之一是机器学习中的端到端建模

在本文中，我们将构建“Tony Stark 的复仇者联盟状态仪表板”，复仇者联盟使用它来监控团队成员的状态。这将使用DataStax Astra构建，这是一个由

如果您想使用 Python 分析大量数据，该研究什么？对于大数据，我们不能相信只有语言就足够了。Python 之所以合适，是因为它可以方便地管理数学库、简洁且易于管理异构和多维数据结构，但大数据还需要 IT 结构。例如，我们需要一个系统来管理非常大的文件，并且我们需要结构来映射和减少

这个问题的答案是相当不确定的。一方面，Hadoop 是一种 IT 解决方案，与任何其他解决方案一样，它的衰落是完全有可能的。此外，云正在大数据世界中占据越来越多的空间。另一方面，许多公司仍在考虑实施该系统以发展其活动。因此，这种转变和这种愿望将在 2022 年仍然存在。但是，明智的做法是在下

Impala 是一个大规模并行查询引擎，可在现有 Hadoop 集群中的数百台服务器上运行。与查询处理和底层存储引擎紧密耦合的标准关系数据库管理系统不同，它与后者分离。Impala 提高了 Apache Hadoop上 SQL 查询的效率，同时保持了熟悉的用户界面。Impala 允许

NoSQL 也称为“Not Only SQL”，有助于以非关系数据库格式存储和检索数据。与关系数据库 (RDBMS) 不同，NoSQL 允许相关的数据以统一的结构进行结构。由于存储成本的降低和数据处理要求的增加，这些数据库的广泛采用在 2000 年代之后激增。此外，NoSQL 具有动态模式，