• 了解如何在 Spark 数据框中创建新列?我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加,传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时,我们应该使用允许分布式计算的工具和技术,例如Spark。Spark 是一种用于大
  • 目前有云计算厂商提供从硬件开始的端到端整体解决方案,五年以后,如果云供应商专注于最低层,而其他(纯软件)供应商则专注于上层如何呢?下面是我对云计算供应商(AWS、Azure、GCP)的一个理论。云供应商将越来越多地关注最低层:基本上是通过API租用其数据中心的容量。<
  • Apache Hadoop 是一种基于 Java 的跨平台开源软件框架,用于日益流行的“大数据”世界,用于分布式存储和处理大型数据集。Hadoop 最突出的用户是 Yahoo!、Facebook、公共云空间,如 Microsoft Azure、谷歌计算引擎和亚马逊网络服务,以及超过一半的财富 icon
  • 在这个项目中,我们将执行机器学习最重要的应用之一——客户细分。无论何时您需要找到最佳客户,我们都会在 Apache Spark 和 Scala 中实施客户细分。客户细分是将公司的客户划分为反映每组客户之间相似性的组的做法。细分客户的目标是决定如何与每个细分中的客户建立联系,以最大化每 icon
  • 什么是MapReduce?它是一种框架或编程模型,用于使用分布式编程在计算机集群上处理大型数据集。 什么是“Map”和“Reduce”?“Maps”和“Reduce icon
  • 在这篇博文中,我们将看到一些在找工作时被问到的常见和重复的大数据面试问题。1.定义大数据?“大数据”是指规模超出典型数据库软件工具捕获、存储、管理和分析能力的数据集。这里的数据大小是主观的,因为它会随着时间的推移而增加。  icon
  • 近年来,随着大数据利用用例的多样化,需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW,可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架,为分布式存储添加新功能。其中,Delta Lake通过将ACID事务的功能赋予分布式存储来提高数据集的可靠性,本文将 icon
  • Apache Hadoop 框架的 MapReduce 编程模型可以处理大量的大数据数据。然而,数据分析师并不总是理解这种范式。这就是将一个名为 Pig 的抽象添加到 Hadoop 的原因。 什么是Apache Pig?高级 Apac icon
  • 由 Hadoop 提供支持的数据湖是大规模分析和报告的绝佳选择。Hadoop 可横向扩展且具有成本效益,并可实现跨越大数据集的长期运行的操作。实时分析用例的持续增长以及查询操作和历史数据集的需求——其中操作必须在几秒钟内完成而不是几分钟,或者几毫秒而不是几秒钟——带来了新的挑战。然而 icon
  • Delta Lake 是一个开源项目,可以在数据湖之上构建 Lakehouse 架构。网上有很多关于如何使用 Delta Lake 的教程。这个帖子有点不一样,是给那些想知道Delta Lake内部机制,特别是交易日志的人看的:以互动方式了解Delta Lake的内部机制。可以查看这 icon
  • Apache Hudi 0.10 发布,Hadoop关联http://www.linuxeden.com/a/96092 使用 Apache Hudi 在 U icon
  • 你能给我们举一些例子来说明 Hadoop 在实时环境中是如何使用的吗?假设我们有一个由 10 道选择题组成的考试,20 名学生参加了该考试。每个学生都会尝试每个问题。对于每个问题和每个答案选项,都会生成一个密钥。因此,我们为每个学生的所有问题和所有答 icon
  • AI 和 BI 的世界在分析连续体中占据不同的位置,最常通过描述性分析、预测性分析和规范性分析等概念来理解:用户可以利用描述性分析和 BI 工具来探索过去发生的事情;而预测分析则利用在现实世界数据上训练的 ML 模型来生成对接下来会发生什么的有根据的猜测。然而,这两个阵营之间 icon
  • 生产 Hadoop 部署支持哪些操作系统?主要支持的操作系统是 Linux。但是,通过一些额外的软件,Hadoop可以部署在 Windows 上。namenode的作用是什么?namenode 是Ha icon
  • 什么是Hive?Hive是适用于 Hadoop 的数据仓库系统,有助于轻松进行数据汇总、即席查询以及对存储在 Hadoop 兼容文件系统中的大型数据集的分析。Hive 最初是在 Facebook 开发的。它现在是一个有许多贡献者的 icon
  • 在这个项目中,我们将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。无论年龄、性别、种族、肤色或地理位置如何,每个人都喜欢电影。推荐系统是一个过滤程序,其主要目标是预测用户对特定领域项目或项目的“评级”或“偏好”。推荐系统包含一类可以向用户建议“相关”项目的 icon
  • Apache Hadoop将数据存储在 Hadoop 分布式文件系统 (HDFS) 中。数据可以采用多种受支持的文件格式。 要比较它们,请询问有关它们的属性的一些问题:查询文件格式有多容易?查询时间不应产生太多延迟序列化文件格式有多容易?数据序列化不 icon
  • Hadoop可以运行的三种模式是什么?Hadoop icon