Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
大数据架构指南
使用WSL2在Windows 11上安装Hadoop
在这篇文章中,我们将看到如何使用 WSL 在同一台 Windows 11 机器上安装完整的 Hadoop 环境。 安装依赖您需要安装两个重要的依赖项才能使
面向银行和金融部门的Hadoop
Hadoop 是用 Java 编写的基于 Apache 的开源框架。它是著名的大数据工具之一,它使用其文件系统 HDFS(Hadoop 分布式文件系统)提供分布式存储和使用 Map-Reduce 编程模型的分布式处理功能。Hadoop 使用商品硬件集群来存储和运行应用程序。由于 Ha
2021年数据库回顾 - OtterTune
对于数据库行业来说,这是疯狂的一年,随着年底的临近,在我们进入 2022 年时值得反思和评估。以下是一些亮点以及我对它们对数据库领域可能意味着什么的一些想法。 PostgreSQL 的统治地位开发人员的传统观念已经转变:Postgre
数据网格与Data Fabric的区别 - thenewstack
Data Fabric和Data Mesh数据网格都认为:在物理上集中所有数据是徒劳的。他们都认识到数据量只会增长,而数据源只会成倍增加。结果,这两者有时往往会混为一谈。但是它们在理念和实施方面都非常不同,并且每种方法都有很大的优点。从本质上讲,数据网格是一种类似于联
Apache Oozie 教程:使用 Oozie 调度 Hadoop 作业
在这个 Apache Oozie 教程博客中,我们将介绍: Apache Oozie 简介 Oozie 工作流 Oozie 协调员 Oozie 捆绑包 字数统计工作流作业 基于时间的字数统计协调员工作 我们将通过介绍 Apa
大数据领域的国外公司、产品和技术列表
以下数据来自福布斯,“大数据景观”: - 日志数据应用程序:Splunk、Loggly、Sumo Logic - 垂直应用:Predictive Policing、BloomReach、Atigeo、Myrrix - 作为/媒体应用:Media Science
大数据面试问题
在这篇博文中,我们将看到一些在找工作时被问到的常见和重复的大数据面试问题。1.定义大数据?“大数据”是指规模超出典型数据库软件工具捕获、存储、管理和分析能力的数据集。这里的数据大小是主观的,因为它会随着时间的推移而增加。
关于Delta Lake的ACID事务机制简介
近年来,随着大数据利用用例的多样化,需要为分布式存储添加更多功能。这几年诞生了几款OSS存储层SW,可以原样使用HDFS等分布式存储和Apache Spark等分布式处理框架,为分布式存储添加新功能。其中,Delta Lake通过将ACID事务的功能赋予分布式存储来提高数据集的可靠性,本文将
未来Hadoop还会有生命吗?
在过去的几年里,Hadoop 得到了无数赞誉——Hadoop 是一个以大象命名的强大的、用于存储和处理数据的开源框架。许多在 Hadoop 生态系统中投入巨资的组织发现自己处于十字路口,想知道 Hadoop 之后的生活是什么样的,以及未来会怎样。本文讨论了 Hadoop 之后的生活,并为进入
热门 Splunk 管理面试问题及答案
随着大数据在企业中越来越受欢迎,在 Splunk 的职业生涯是最负盛名的职业之一。对这个工具不是很熟悉的人可以参考下一节来获得关于这个工具的基本信息。Splunk 简介Splunk 是一个软件平台,用于收集、分析和解释机器生成的非结构化数据,
Hadoop 3.0 中的新功能
这篇“ Hadoop 3.0 的新特性”博客重点关注 Hadoop 3 中的预期变化,因为它仍处于 alpha 阶段。Apache 社区已经合并了许多更改,并且仍在处理其中的一些更改。因此,我们将更广泛地审视预期的变化。Apache Hadoop 3 将结合 Hadoop-2.x 的
安装 Hadoop:设置单节点 Hadoop 集群
安装Hadoop有两种方式,即单节点和多节点。单节点集群意味着只有一个DataNode在一台机器上运行和设置所有的NameNode、DataNode、ResourceManager和NodeManager。这用于学习和测试目的。例如,让我们考虑医疗保健行业内的样本数据集。因此,为了测
Apache Pig:您需要了解的有关Hadoop编程语言的所有信息
Apache Hadoop 框架的 MapReduce 编程模型可以处理大量的大数据数据。然而,数据分析师并不总是理解这种范式。这就是将一个名为 Pig 的抽象添加到 Hadoop 的原因。 什么是Apache Pig?高级 Apac
MongoDB 面试题
您在创建MongoDB时想解决什么问题?我们曾经并且正在尝试构建我们作为开发人员一直想要的数据库。对于纯报告,SQL 和关系是很好的,但是在构建数据时总是需要一些不同的东西:使编码水平扩展的东西。MongoDB 早期的主要障碍
数据湖+数据仓库 = 数据湖库架构
传统OLAP和OLTP是分离,数据是从业务数据存储库中提取,然后将其存储在数据湖中,下一步就是进行ETL数据提取转换和分析,然后,将这些数据的关键子集转移到数据仓库中,以生成用于决策的业务洞察力。这样做的问题有: 可维护性差:由于存在数据湖和
基于Hadoop的Apache Hudi 0.10 发布
Apache Hudi 0.10 发布,Hadoop关联http://www.linuxeden.com/a/96092 使用 Apache Hudi 在 U
Pig面试问题
你能给我们举一些例子来说明 Hadoop 在实时环境中是如何使用的吗?假设我们有一个由 10 道选择题组成的考试,20 名学生参加了该考试。每个学生都会尝试每个问题。对于每个问题和每个答案选项,都会生成一个密钥。因此,我们为每个学生的所有问题和所有答
Hadoop YARN 架构
Hadoop YARN代表又一个资源管理器,随着 Hadoop 2.x 的出现,YARN 成为 Hadoop 生态系统的一部分,YARN 管理集群环境中的资源,在 Hadoop 2.x 之前我们没有任何资源管理器吗?当然,在 Hadoop 2.x 之前我们有一个资源管理器,它
上页
下页