在我们多年使用kubernetes的经验中,我们有幸看到了很多集群(在GCP,AWS和Azure上都是托管的和非托管的),并且我们看到一些错误在不断重复。不必为此感到羞耻,我们也已经完成了其中的大多数!
我将尝试展示我们经常看到的内容,并讨论如何修复它们。
- 资源-请求和限制
- 活动和准备情况调查
- 每个HTTP服务的LoadBalancer
- 非Kubernetes感知的集群自动扩展
- 不使用IAM / RBAC的功能
- POD的自我反亲和力
- 没有广告连播预算
- 共享集群中有更多租户或环境
- externalTrafficPolicy:集群
- 集群+过多地向控制平面施加压力
详细点击标题见原文