大数据面试问题

21-12-24 banq

在这篇博文中,我们将看到一些在找工作时被问到的常见和重复的大数据面试问题。

1.定义大数据?

“大数据”是指规模超出典型数据库软件工具捕获、存储、管理和分析能力的数据集。这里的数据大小是主观的,因为它会随着时间的推移而增加。

 

2.大数据有哪些不同的Vs?

大数据 V 有五个 V,即 Volume、Variety、Velocity、Veracity 和 Value,它们在将数据归类为大数据方面发挥着重要作用。

数据的爆炸式增长引发了数据格式类型的革命。

  • 数量: 在过去十年中,随着网络发展将更多设备和用户带入互联网网格,数据呈指数级增长。它与组织每天收集的数据量或大小有关。

  • 多样性: 数据的爆炸式增长引发了数据格式类型的革命。它与组织收集的不同类型的数据有关。例如:CSV(逗号分隔值)、TSV(制表符分隔值)、XML(可扩展标记语言)等。

  • 速度: 与来自传统来源的数据相比,互联网上社交媒体平台的爆炸式增长导致数据增长呈爆炸式增长。在过去十年中,来自社交媒体网站、移动设备、企业、机器数据、传感器数据、Web 服务器和人类交互等来源的大数据源源不断地涌现。它与我们获取数据的速度有关。

  • 真实性: 并不总能保证所有产生和摄入大数据平台的数据都包含干净的数据。真实性处理可能随数据而来的偏差、噪音和异常。它与将数据摄取到组织的各种数据平台时的数据清洁程度有关

  • 价值:在你的大数据集群中获取数据需要大量的时间和资源。我们需要绝对确定组织正在从收集的数据中获得价值。

 

3. Apache Hadoop 与大数据有什么关系?

大数据是某些传统工具和技术无法分析的数据。Apache Hadoop 是可用于大数据分析的工具之一。

Apache Hadoop 是一个开源框架,用于存储、处理和分析复杂的非结构化数据集,以从中获取洞察力和情报。

 

4. 大数据有哪些不同的来源?

虽然大数据有多种来源,但以下是最常见的。

  • 基于IOT(物联网)的传感器
  • 基于社交媒体的数据
  • 财务数据,例如信用卡号、银行账户和信用评分
  • 电子商务网站点击流数据
  • 基于 GPS 的数据
  • 电信公司CDR(Call Detail Record)数据
  • 互联网cookie

 

5. 什么是大数据分类?

所有这些大数据来源都可以分为三个主要部分。

  • 机器
  • 人们
  • 组织

 

6. 有多少数据存在?

据估计,到 2025 年,全球将收集超过 150 Zettabytes 的数据。

 

7. 大数据数据有哪些类型?

我们可以将大数据大致分为三类,即结构化、半结构化和非结构化数据。

  • 结构化数据: 它具有预定义的模式,并以行和列文件格式表示数据。

  • 半结构化:是一种兼具结构化和非结构化数据特点的自描述结构化数据。

  • 非结构化数据:这些是没有预定义架构或数据模型的数据类型。

 

8. 大数据平台有哪些组成部分?

典型的大数据平台具有三个组件。它们是数据摄取、数据存储和数据处理。大数据平台相关的开发团队需要按照以下步骤部署大数据模型。

  • 数据摄取

在这一步中,我们从上游源收集数据并将其摄取到数据平台中。这里的上游来源可以在组织内部,也可以来自组织外部,如社交媒体平台、业务应用程序、日志文件、呼叫详细记录 (CDR)、数据仓库等。

  • 数据存储

在数据摄取阶段收集和摄取数据后,将其存储在数据平台中。我们可以使用分布式存储平台(如 Hadoop 分布式文件系统 (HDFS))存储数据。

  • 数据处理

一旦数据被摄取和存储,就需要对其进行处理以进行分析并在其上执行可视化。为了让用户做到这一点,我们可以使用Hadoop MapReduce、Apache Spark、Apache Hive和Apache Pig等大数据工具。

 

9. 有哪些不同的数据处理技术?

借助大数据处理方法,我们能够对大数据集进行大规模分析。实际上,数据是以不同的模式收集的,如下所示。

  • 批量处理

这是基于离线的处理,主要用于基于商业智能的报告

  • 实时流处理

这种类型的处理是在最近的数据切片上完成的。它主要用于数据分析、实时威胁监控、从金融交易数据中检测欺诈。

这两个用例是大数据领域中最流行的用例。

 

10. 商品硬件是什么意思?

商品硬件是指需要运行 Apache Hadoop 和相关工具所需的最少资源和组件的计算机。

 

11.集群是什么意思?

在计算世界中,集群是一组相互连接以协同工作以支持软件或应用程序的计算机。如果我们要处理海量的数据集,我们需要在一个集群中处理它们。

猜你喜欢