通过调度和预取提高 Hadoop 性能

在本文中，我们继续研究如何提高Hadoop的性能，如何解决数据访问模式、集群内存和有效调度方面的数据定位问题。

在Hadoop集群中，用户通常根据他们的业务需求来访问数据，这使得一些数据比其他数据更容易被访问，这就是为什么我们把数据模式作为我们方法中的一个关键因素。
事实上，性能会受到数据访问延迟的影响，当请求处理的时候，数据块已经在内存中，这是最好的，要知道，当错误的数据总是占用内存空间时，过多的缓存会导致内存开销，甚至严重的延迟。

实际上，现在的集群在节点内存方面提供了更多的能力，根据一些研究，在大多数情况下，节点内存被认为是高度未被充分利用的。在我们的方法中，我们考虑了集群内存，通过新的预取/调度算法，利用未被充分利用的内存空间，为未来的任务提供更好的数据定位，从而提高效率。

我们的方法背后的想法是，根据以前的访问模式，按受欢迎程度区分区块，然后以最佳和有效的方式在所有集群中进行内存分配或内存驱逐。

详细点击标题