HIVE

简单介绍Iceberg与数据湖屋由来

23-12-30 87 2K

本文从数据存储格式的演变介绍了数据工程领域的大数据处理框架发展，从Hive到Iceberg、Delta Lake以及数据湖屋的发展过程：数据如何存储（在文件和内存中）开源文件格式（如Avro、Parq.

Uber如何实现互联网大规模金融交易的自动化审计？

23-07-14 455 4K

假设乘客于 2022 年 1 月从家到机场，费用为 60 美元。6-7 个月后，乘客再次从家到机场，但现在需支付 50 美元。在这两次行程中，乘客都使用了具有相同出发地和目的地的 UberX。现在，用.

Apache Iceber能将Amazon S3 成本降低了 90%

22-10-06 1304 3K

与Apache Hive相比，新一代数据湖表格式（Apache Hudi、Apache Iceberg和Delta Lake）凭借其卓越的功能每天都在受到越来越多的关注。它们为具有 ACID 事务、模.

danthelion/trino-minio-iceberg-example：使用Minio、Trino、iceberg搭建数据工程演示案例

22-07-19 1896 1

这个项目演示了使用Minio、Trino（具有众多连接器）等工具通过 Docker 在我们的机器上部署 MVP 版本来运行一些分析查询.数据湖“Data Lakehouse”一词是由 Databric.

数据湖表格式比较（Iceberg、Hudi 和 Delta Lake）

22-06-14 3385 1 4K

表格格式是数据工具和语言与数据湖进行交互的方式，就像我们与数据库进行交互一样。表格格式允许我们将不同的数据文件抽象为一个单一的数据集，一个表格。数据湖中的数据通常可以跨越多个文件。我们可以使用 Spa.

Hive性能调优实践 - Vidhya

22-02-20 1299 5K

Apache Hive 是一个建立在 Hadoop 之上的数据仓库系统，它使用户能够灵活地以类似 SQL 的查询的形式编写复杂的 MapReduce 程序。性能调优是运行 Hive 查询的重要部分，因.

Apache Impala 架构

22-01-23 807

Impala 是一个大规模并行查询引擎，可在现有 Hadoop 集群中的数百台服务器上运行。与查询处理和底层存储引擎紧密耦合的标准关系数据库管理系统不同，它与后者分离。Impala 提高了 Apach.

大数据文件格式比较：AVRO vs. PARQUET vs. ORC

22-01-20 2916 2K

为什么我们需要不同的文件格式？对于 MapReduce 和 Spark 等支持 HDFS 的应用程序而言，一个巨大的瓶颈是在特定位置查找相关数据所需的时间以及将数据写回另一个位置所需的时间。这些问题随.

Apache Hive 面试问答题

22-01-04 1090 3K

在这篇博文中，我们将看看面试中出现的一些最常见的 apache hive 面试问题和答案。1. 什么是Apache Hive？Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施.

Apache Pig：您需要了解的有关Hadoop编程语言的所有信息

21-12-24 1164 2K

Apache Hadoop 框架的 MapReduce 编程模型可以处理大量的大数据数据。然而，数据分析师并不总是理解这种范式。这就是将一个名为 Pig 的抽象添加到 Hadoop 的原因。什么是A.

Hive 面试问题

21-12-23 836 7K

什么是Hive？Hive是适用于 Hadoop 的数据仓库系统，有助于轻松进行数据汇总、即席查询以及对存储在 Hadoop 兼容文件系统中的大型数据集的分析。Hive 最初是在 Facebook 开发.

Hive数据格式转换

19-01-08 1189 9K

Apache Hive支持许多文件格式，用于存储表格数据。有关更多信息，请参阅以下链接。让我们测试其中的一些并尝试它之间的一些转换。再次让我们假设我们的movies.txt文件在tests / di.

Apache Spark和Hive有用的功能

19-01-08 1104 14K

尝试Spark和Apache Hive的一些方法和功能。1. Spark和countByValue函数让我们遵循以下RDD值：var rddVal = sc.parallelize（Array（1,2.

Trivagoj为何从Hive/SQL迁移到PySpark/Python?

18-12-17 1229 8K

Trivago是一个以拍卖为基础的市场。广告商可以通过拍卖购买指定酒店的查询结果页面中的重要位置，trivago的拍卖机制将几个因素：价格、点击率和出价本身，以确定拍卖获胜者。当您访问trivago的.

数据统计技术选型

13-03-20 1 987

最近进入一家互联网公司做数据分析，公司共有两个项目：A和B。A：40万条数据/天。B：1000万条数据/天。二者日志存储格式是每行一个JSON字符串，如{“ip”：“123.23.45.67”，“na.

Hive, Pig, Scalding, Scoobi, Scrunch 和 Spark等hadoop框架比较

12-03-27 3949 4

AI Computer Vision: Hive, Pig, Scalding, Scoobi, Scrunch and SparkPig:Pig是一种数据流(Data flow/ETL)系统，由ya.

hivemind问题请教

05-09-26 7 2340 2K

运行hivemind的例子，出现下面的错误，不知什么问题引起的。org.apache.hivemind.ApplicationRuntimeException: Unable to create cl.