在这篇博文中,我们将看到一些在找工作时被问到的常见和重复的大数据面试问题。
1.定义大数据?
“大数据”是指规模超出典型数据库软件工具捕获、存储、管理和分析能力的数据集。这里的数据大小是主观的,因为它会随着时间的推移而增加。
2.大数据有哪些不同的Vs?
大数据 V 有五个 V,即 Volume、Variety、Velocity、Veracity 和 Value,它们在将数据归类为大数据方面发挥着重要作用。
数据的爆炸式增长引发了数据格式类型的革命。
- 数量: 在过去十年中,随着网络发展将更多设备和用户带入互联网网格,数据呈指数级增长。它与组织每天收集的数据量或大小有关。
- 多样性: 数据的爆炸式增长引发了数据格式类型的革命。它与组织收集的不同类型的数据有关。例如:CSV(逗号分隔值)、TSV(制表符分隔值)、XML(可扩展标记语言)等。
- 速度: 与来自传统来源的数据相比,互联网上社交媒体平台的爆炸式增长导致数据增长呈爆炸式增长。在过去十年中,来自社交媒体网站、移动设备、企业、机器数据、传感器数据、Web 服务器和人类交互等来源的大数据源源不断地涌现。它与我们获取数据的速度有关。
- 真实性: 并不总能保证所有产生和摄入大数据平台的数据都包含干净的数据。真实性处理可能随数据而来的偏差、噪音和异常。它与将数据摄取到组织的各种数据平台时的数据清洁程度有关
- 价值:在你的大数据集群中获取数据需要大量的时间和资源。我们需要绝对确定组织正在从收集的数据中获得价值。
3. Apache Hadoop 与大数据有什么关系?
大数据是某些传统工具和技术无法分析的数据。Apache Hadoop 是可用于大数据分析的工具之一。
Apache Hadoop 是一个开源框架,用于存储、处理和分析复杂的非结构化数据集,以从中获取洞察力和情报。
4. 大数据有哪些不同的来源?
虽然大数据有多种来源,但以下是最常见的。
- 基于IOT(物联网)的传感器
- 基于社交媒体的数据
- 财务数据,例如信用卡号、银行账户和信用评分
- 电子商务网站点击流数据
- 基于 GPS 的数据
- 电信公司CDR(Call Detail Record)数据
- 互联网cookie
5. 什么是大数据分类?
所有这些大数据来源都可以分为三个主要部分。
- 机器
- 人们
- 组织
6. 有多少数据存在?
据估计,到 2025 年,全球将收集超过 150 Zettabytes 的数据。
7. 大数据数据有哪些类型?
我们可以将大数据大致分为三类,即结构化、半结构化和非结构化数据。
- 结构化数据: 它具有预定义的模式,并以行和列文件格式表示数据。
- 半结构化:是一种兼具结构化和非结构化数据特点的自描述结构化数据。
- 非结构化数据:这些是没有预定义架构或数据模型的数据类型。
8. 大数据平台有哪些组成部分?
典型的大数据平台具有三个组件。它们是数据摄取、数据存储和数据处理。大数据平台相关的开发团队需要按照以下步骤部署大数据模型。
- 数据摄取
在这一步中,我们从上游源收集数据并将其摄取到数据平台中。这里的上游来源可以在组织内部,也可以来自组织外部,如社交媒体平台、业务应用程序、日志文件、呼叫详细记录 (CDR)、数据仓库等。
- 数据存储
在数据摄取阶段收集和摄取数据后,将其存储在数据平台中。我们可以使用分布式存储平台(如 Hadoop 分布式文件系统 (HDFS))存储数据。
- 数据处理
一旦数据被摄取和存储,就需要对其进行处理以进行分析并在其上执行可视化。为了让用户做到这一点,我们可以使用Hadoop MapReduce、Apache Spark、Apache Hive和Apache Pig等大数据工具。
9. 有哪些不同的数据处理技术?
借助大数据处理方法,我们能够对大数据集进行大规模分析。实际上,数据是以不同的模式收集的,如下所示。
- 批量处理
这是基于离线的处理,主要用于基于商业智能的报告
- 实时流处理
这种类型的处理是在最近的数据切片上完成的。它主要用于数据分析、实时威胁监控、从金融交易数据中检测欺诈。
这两个用例是大数据领域中最流行的用例。
10. 商品硬件是什么意思?
商品硬件是指需要运行 Apache Hadoop 和相关工具所需的最少资源和组件的计算机。
11.集群是什么意思?
在计算世界中,集群是一组相互连接以协同工作以支持软件或应用程序的计算机。如果我们要处理海量的数据集,我们需要在一个集群中处理它们。