Hadoop大数据教程

     

"Hadoop-as-a-Service"已经成为云数据分析的主流趋势

830

Hadoop 是指通过处理框架在商品硬件集群上存储数据和运行应用程序的开源软件。Hadoop也是一种用于大数据分析的分布式处理技术。大数据分析是用于检查大数据以发现各种隐藏模式、未知相关性、市场趋势、.

Hadoop YARN 架构

907 2K

Hadoop YARN代表又一个资源管理器,随着 Hadoop 2.x 的出现,YARN 成为 Hadoop 生态系统的一部分,YARN 管理集群环境中的资源,在 Hadoop 2.x 之前我们没有任.

通过 Apache Zeppelin深入了解Delta Lake

1037

Delta Lake 是一个开源项目,可以在数据湖之上构建 Lakehouse 架构。网上有很多关于如何使用 Delta Lake 的教程。这个帖子有点不一样,是给那些想知道Delta Lake内部机.

GridGain的数据湖加速器简介

1118
由 Hadoop 提供支持的数据湖是大规模分析和报告的绝佳选择。Hadoop 可横向扩展且具有成本效益,并可实现跨越大数据集的长期运行的操作。实时分析用例的持续增长以及查询操作和历史数据集的需求——其.

基于Hadoop的Apache Hudi 0.10 发布

1034

Apache Hudi 0.10 发布,Hadoop关联http://www.linuxeden.com/a/96092使用 Apache Hudi 在 Uber 构建大规模交易数据湖:https:/.

未来云计算市场将重新洗牌 - erikbern

1186 1 2K
目前有云计算厂商提供从硬件开始的端到端整体解决方案,五年以后,如果云供应商专注于最低层,而其他(纯软件)供应商则专注于上层如何呢?下面是我对云计算供应商(AWS、Azure、GCP)的一个理论。云供应.

使用 PySpark 创建新列的 4 种不同方式 - Soner

2679 5K

了解如何在 Spark 数据框中创建新列?我们生活在大数据时代。收集、存储和传输数据变得非常容易。随着数据量的增加,传统的工具开始变得不够用。当数据太大而无法通过传统工具和技术进行处理时,我们应该使用.

关于Delta Lake的ACID事务机制简介

1278 6K

近年来,随着大数据利用用例的多样化,需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW,可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架,为分布式存储添加新功能。.

面试Hadoop DBA的重要问题

1120 1 2K

Apache Hadoop 是一种基于 Java 的跨平台开源软件框架,用于日益流行的“大数据”世界,用于分布式存储和处理大型数据集。Hadoop 最突出的用户是 Yahoo!、Facebook、公共.

比较 Apache Hadoop 数据存储格式 - techwell

795

Apache Hadoop将数据存储在 Hadoop 分布式文件系统 (HDFS) 中。数据可以采用多种受支持的文件格式。 要比较它们,请询问有关它们的属性的一些问题:查询文件格式有多容易?查询时间不.

机器学习项目 - 使用 Apache Spark 创建电影推荐引擎

804

在这个项目中,我们将为每个用户生成前 10 名电影推荐,并为每部电影生成前 10 名用户推荐。无论年龄、性别、种族、肤色或地理位置如何,每个人都喜欢电影。推荐系统是一个过滤程序,其主要目标是预测用户对.

Apache Pig:您需要了解的有关Hadoop编程语言的所有信息

1171 2K

Apache Hadoop 框架的 MapReduce 编程模型可以处理大量的大数据数据。然而,数据分析师并不总是理解这种范式。这就是将一个名为 Pig 的抽象添加到 Hadoop 的原因。 什么是A.

大数据面试问题

1314 2K

在这篇博文中,我们将看到一些在找工作时被问到的常见和重复的大数据面试问题。1.定义大数据?“大数据”是指规模超出典型数据库软件工具捕获、存储、管理和分析能力的数据集。这里的数据大小是主观的,因为它会随.

在 Apache Spark 中使用机器学习进行客户细分

926 1

在这个项目中,我们将执行机器学习最重要的应用之一——客户细分。无论何时您需要找到最佳客户,我们都会在 Apache Spark 和 Scala 中实施客户细分。客户细分是将公司的客户划分为反映每组客户.

ML与BI结合的产品:Tellius

871

AI 和 BI 的世界在分析连续体中占据不同的位置,最常通过描述性分析、预测性分析和规范性分析等概念来理解:用户可以利用描述性分析和 BI 工具来探索过去发生的事情;而预测分析则利用在现实世界数据上训.