数据的存储和查询分离不利查询性能 - thenewstack


数据领域充斥着供应商、行业专家,甚至是记者,他们支持将存储和计算解耦的优点。毕竟,解耦的方法更容易独立地扩展计算和存储,它既适合云的业务模型,也适合其对象存储架构。
但这里有一点通常不会大声说出来:解耦存储通常不利于查询性能。如果您希望查询(尤其是可操作的查询)快速运行,则将数据定位在计算附近或计算数据所在的位置通常是更好的方法。

这正是Ocient在其同名的超大规模数据仓库的最新版本中所做的。它的架构使其计算和存储尽可能位于同一位置,该公司表示这会产生巨大的性能提升。

诚然,在一些部署中,将计算与存储解耦不仅是可行的,而且是最好的选择。通常情况下,这些应用对时间的敏感性较低,涉及的数据量较小,或者是由主流云数据仓库提供服务的工作负载的一部分,这些数据在任何情况下都可能缓存在与计算相邻的存储层。

但是,例如电信公司通常运行政策模型,确定第二天的流量路由规则。如果实现数据存储和查询分离:他们需要花几个小时来运行,因为这是一个巨大的机器学习模型。耦合计算和存储的顶级系统在几秒钟内完成这些工作。这种方式对于根据涉及天气、安全、体育比赛等方面的晚间突发事件来重新安排手机塔的流量是非常有价值的。

详细点击标题