数据湖中加热数据?


数据湖:通过一个用于大数据分析的存储库来结束数据孤岛。想象一下,有一个单一的地方来存放您的所有数据以进行分析,以支持以产品为主导的增长和业务洞察力。可悲的是,数据湖的想法一度冷落,因为早期的尝试是建立在基于 Hadoop 的存储库上,这些存储库是本地的,缺乏资源和可扩展性。我们以“Hadoop 宿醉”告终。
过去的数据湖以管理挑战和价值实现速度慢而闻名。但是云对象存储的加速采用,以及数据的指数级增长,使它们再次具有吸引力。
事实上,我们现在比以往任何时候都更需要数据湖来支持数据分析。虽然云对象存储最初作为一种经济高效的临时存储或存档数据方式而流行起来,但它已经流行起来,因为它价格低廉、安全、耐用且具有弹性。它不仅具有成本效益,而且很容易将数据流式传输。
 
数据湖还是数据沼泽?
云对象存储的经济性、内置安全性和可扩展性鼓励企业存储越来越多的数据--创造一个具有无限潜力的数据分析的巨大数据湖。企业明白,拥有更多的数据(而不是更少)可以成为一种战略优势。不幸的是,在最近的历史上,许多数据湖计划失败了,因为数据湖变成了一个数据沼泽--由不容易被访问或使用的冷数据组成。许多人发现,将数据发送到云端很容易,但要让整个组织的用户都能访问这些数据,并从中得到启发,却很难。这些数据湖成了多结构数据集的垃圾场,积累和收集数字灰尘,没有一丝承诺的战略优势。

简单地说,云对象存储并不是为通用分析而建立的,并不像Hadoop那样。为了获得洞察力,数据必须被转化并从湖中移出,进入分析数据库,如Splunk、MySQL或Oracle,具体取决于使用情况。这个过程是复杂、缓慢和昂贵的。这也是一个挑战,因为该行业目前面临着数据工程师的短缺,他们需要清理和转换数据,并建立所需的数据管道,以将其纳入这些分析系统。

Gartner发现,尽管有这些众所周知的挑战,超过一半的企业计划在未来两年内投资于数据湖。数据湖有数量惊人的用例,从通过安全日志调查网络入侵到研究和改善客户体验。这也难怪企业仍然坚持数据湖的承诺。那么,我们如何才能清理沼泽,确保这些努力不会失败?而关键的是,我们如何解锁并提供对存储在云中的数据的访问--这是所有障碍中最重要的?
 
提高冷云存储的热度
让云对象存储为数据分析加热是可能的(而且是最好的),但这需要重新思考架构。我们需要确保存储具有数据库的外观和感觉,在本质上,将云对象存储变成一个高性能的分析数据库或仓库。拥有 "热数据 "需要在几分钟内快速方便地访问,而不是几周或几个月,即使是在每天处理几十兆字节的时候。这种类型的性能需要一种不同的方法来进行数据管道化,避免转换和移动。所需要的架构就像压缩、索引和通过众所周知的API将数据发布到Kibana和/或Looker等工具一样简单,以便一次性存储,减少移动和处理。

提高数据分析热度的最重要方法之一是通过促进搜索。具体来说,搜索是数据的最终民主化,允许自助式的数据流选择和发布,而不需要IT管理员或数据库工程师。所有的数据都应该是完全可搜索的,并且可以使用现有的数据工具进行分析。想象一下,让用户有能力随意搜索和查询,轻松地提出问题,轻松地分析数据。大多数比较知名的数据仓库和数据湖库平台都没有提供这个关键功能。

但一些具有前瞻性的企业已经找到了方法。以BAI通信公司为例,其数据湖战略采用了这种类型的架构。在主要的通勤城市,BAI提供最先进的通信基础设施(蜂窝、Wi-Fi、广播、无线电和IP网络)。BAI将其数据流向建立在亚马逊S3云对象存储上的集中式数据湖,在那里它是安全的,并符合许多政府法规。使用建立在云对象存储上的数据湖,并通过多API数据湖平台激活分析,BAI可以比以前更快、更容易地找到、访问和分析其数据,而且成本更有控制。该公司正在利用其全球网络多年来产生的洞察力,帮助铁路运营商维持交通流量和优化路线,将数据洞察力转化为商业价值。这种方法在大流行病发生时被证明特别有价值,因为BAI能够深入了解COVID-19对世界各地的区域性公共交通网络的影响,以便他们能够继续为市民提供关键的连接。