通过调度和预取提高 Hadoop 性能


在本文中,我们继续研究如何提高Hadoop的性能,如何解决数据访问模式、集群内存和有效调度方面的数据定位问题。

在Hadoop集群中,用户通常根据他们的业务需求来访问数据,这使得一些数据比其他数据更容易被访问,这就是为什么我们把数据模式作为我们方法中的一个关键因素。
事实上,性能会受到数据访问延迟的影响,当请求处理的时候,数据块已经在内存中,这是最好的,要知道,当错误的数据总是占用内存空间时,过多的缓存会导致内存开销,甚至严重的延迟。

实际上,现在的集群在节点内存方面提供了更多的能力,根据一些研究,在大多数情况下,节点内存被认为是高度未被充分利用的。在我们的方法中,我们考虑了集群内存,通过新的预取/调度算法,利用未被充分利用的内存空间,为未来的任务提供更好的数据定位,从而提高效率。

我们的方法背后的想法是,根据以前的访问模式,按受欢迎程度区分区块,然后以最佳和有效的方式在所有集群中进行内存分配或内存驱逐。

详细点击标题