为Docker设置Java内存防止OOM Killer

在Logistimo，我们的所有应用程序都是Docker化的，并在Kubernetes内以docker容器运行。我们注意到在使用Java的容器上发生了大量重启，并且非常随机。Docker检查发现该pod被OOMKiller代码杀死：137。
这意味着应用程序消耗的内存比分配给容器的内存多。这听起来不对，因为我们使用-Xmx对Java应用程序进行了限制，并且我们为元空间和GC数据留下了大约20％的缓冲区作为Kubernetes资源限制（docker容器）。
例如，Java进程为2 GB，Kubernetes资源为2.4 GB。
后续部分将介绍此问题以及如何详细解决此问题。

JVM内存使用情况
第一步是检查容器超出上述限制的原因，显然这些是被缓冲充分利用了。
使用“ps”命令可以确认Xmx确实就位，并设置为最大4GB。
但是，“top”命令显示使用的物理内存为4.5 GB。

为什么Java会比分配多500 MB？
JDK 从1.8.40开始，引入了一个Native内存跟踪器工具，它提供了Java应用程序使用的内存的详细分解，并考虑了每个字节。请注意，NMT工具显示已提交，驻留可能更少。

实际使用=堆内存+元空间+Off堆

Off heap通常由类元数据，编译代码，线程和GC数据组成。GC数据是可变的，而其余部分应该对大多数应用程序保持静态。此内存是本机的（是的，包括元空间），JVM使用主机上的可用内存来增长或垃圾收集此数据。

鼓励你阅读米哈伊尔这篇优秀的博客文章，以获得更好的观点。

回到手头的问题，JVM占用了500 MB，因为底层主机有16 GB的存储空间。有时这个数字可能高于我们设置的缓冲区，这将导致容器被终止。JVM不应该读取docker容器的内存限制吗？

容器和Java
事实证明，Java版本9及以下版本根本不了解容器/Docker（默认情况下）。它从底层主机中获取可用的CPU和内存。在容器内的主机上运行的每个Java应用程序都依赖于主机配置。考虑到我们是Kubernetes并且许多pod在单个节点上运行，这可能会导致我们面临的问题。

Java 10支持开箱即用的容器，它将查找linux cgroup信息。这允许JVM基于容器限制进行垃圾收集。默认情况下使用标志打开它。

-XX:+UseContainerSupport

值得庆幸的是，其中一些功能已被移植到8u131和9以后。可以使用以下标志打开它们。

-XX:+UnlockExperimentalVMOptions -XX:+UseCGroupMemoryLimitForHeap

总结
较旧版本的Java读取底层主机，并且不了解cgroup。这会导致容器配置和Java进程不匹配。这种不匹配在CPU和内存上。Java有一个Off堆内存组件，它有一个动态GC数据组件，可以增长。解决此问题的最佳方法是使用最新版Java中提供的容器支持功能。不要依赖缓冲（这是浪费钱）。

如果您必须继续使用这些主要版本并打开实验标志，请升级到Java 8u131 +或Java 9。更好的是，如果你可以获得Java 10以上将对所有容器有好处。