现代数据基础架构的新兴架构

21-02-17 banq

现在,我们开始看到围绕数据构建的大型,复杂系统的兴起-系统的主要商业价值来自于数据分析,而不是直接来自软件。我们看到这一趋势在整个行业中产生的快速影响,包括新角色的出现,客户支出的变化以及提供围绕数据的基础架构和工具的新创业公司的出现。

我们请专家整理一套通用的“蓝图”,这是基于规模,复杂程度以及目标用例和应用程序的数据组织实施指南。

我们将在此处提供三个常见蓝图的高级概述。我们从现代商业智能的蓝图开始,该蓝图侧重于云本地数据仓库和分析用例。在第二个蓝图中,我们着眼于多模式数据处理,涵盖了围绕数据湖构建的分析和运营用例。在最后的蓝图中,我们将深入研究操作系统以及AI和ML堆栈的新兴组件。

 

蓝图1:现代商业智能

适用于各种规模的公司的云原生业务智能–与过去的数据仓库模式相比,易于使用,价格低廉且可扩展

单击此处获取高分辨率版本

对于数据团队和预算相对较小的公司,这已越来越成为默认选项。利用云的灵活性和可扩展性,企业也越来越多地从传统数据仓库迁移到此蓝图。

核心用例包括报表,仪表板和即席分析,主要使用SQL(和某些Python)来分析结构化数据。

优势这种模式包括低的前期投资,速度和易于起步,人才广泛的可用性。该蓝图不太适合具有更复杂数据需求的团队-包括广泛的数据科学,机器学习或流/低延迟应用程序。

 

蓝图2:多模式数据处理

演进的数据湖同时支持分析,操作和用例,也称为Hadoop难民的现代基础架构

单击此处获取高分辨率版本

这种模式最常见于具有复杂复杂数据需求的大型企业和科技公司。

用例包括商业智能和更高级的功能-包括可操作的AI / ML,流/延迟敏感分析,大规模数据转换以及各种数据类型(包括文本,图像和视频)的处理-语言(Java / Scala,Python,SQL)。

这种模式的优点包括可以灵活地支持各种应用程序,工具,用户定义的功能和部署上下文,并且对于大型数据集具有成本优势。该蓝图不太适合仅希望启动和运行或拥有较小数据团队的公司-维护它需要大量时间,金钱和专业知识。

 

蓝图3:人工智能和机器学习

全新的在制品堆栈,可支持强大的机器学习模型开发,测试和操作

单击此处获取高分辨率版本

大多数进行机器学习的公司已经在这种模式下使用了部分技术。重型机器学习车间通常会实施完整的蓝图,甚至依靠内部开发来获得新工具。

核心用例侧重于内部和面向客户的应用程序的数据驱动功能-在线(即响应用户输入)或以批处理模式运行。

与预先打包的ML解决方案相反,此方法的优势在于对开发过程的完全控制,可为用户带来更大的价值,并将AI / ML打造为核心的长期能力。该蓝图不太适合仅测试ML,将其用于较小规模的内部用例或选择依赖供应商的公司-大规模进行机器学习是当今最具挑战性的数据问题之一。 

 

                   

1
猜你喜欢