缩放Python ML：使用不同的工具来扩展Python ML工作负载的玩家博客

这是一个介绍使用不同的工具来扩展Python ML工作负载的博客网站，点击标题进入，当前文章有：

在Kubernetes集群中运行Spark Jupyter Notebooks客户端模式（使用ARM可获得更多乐趣）
将Spark Notebook与执行程序放在同一群集中可以减少网络错误并提高正常运行时间。由于这些网络问题可能导致作业失败，因此这是一个重要的考虑因素。本文假定您已经在Kubernetes部署中设置了基础JupyterHub；达斯（Dask）发行的笔记本博客文章中介绍了有关该内容的信息。
在Kubernetes上的ARM上为Dask部署Jupyter Lab / Notebook
在本文中，我们将介绍如何在Kubernetes上的ARM上部署Jupyter Lab。我们还将构建一个供Dask使用的容器，但是您可以跳过/自定义此步骤以满足您自己的需求。在将客户端代码移出群集后遇到了一些问题之后，我认为值得在K8s上的ARM上建立Jupyter的工作是值得的。
docker buildx（尤其是qemu）的一些尖锐角落
您是否一直在尝试使用QEMU尝试使用Docker的出色的新buildx，但是在ARM上遇到了意外的“ exec用户进程引起：exec格式错误”或奇怪的段错误？如果是这样，那么这篇简短而甜蜜的博客文章适合您。我想明确一点：我认为带有qemu的buildx很棒，但是有一些锋利的边缘可以吸引您的注意。
首先了解一下基于K8s的ARM上的Dask。
在上一篇文章中设置了集群之后，是时候终于在集群上玩Dask了。幸运的是，有dask-kubernetes和dask-docker项目提供了执行此操作的框架。由于我还是Dask的新手，所以我决定从本地笔记本电脑开始使用Dask（回想起来，也许不是最佳选择）。
在ARM上使用持久卷和Minio设置K3（轻量级Kubernetes）
在建立机架并购买机器的最后冒险之后，是时候安装软件了。最初，我计划在一两天内进行此操作，但实际上，它的运行方式与其他许多“简单”项目一样，并且我认为某些“超级快”的事情最终花费的时间比计划的要长得多。
建立测试集群
为了确保两次测试之间的结果具有可比性，我尽可能使用一致的硬件设置。我（而不是使用云提供商）（在Nova的帮助下）设置了具有几个不同节点的机架。使用我自己的硬件可以避免任何性能数字带来的嘈杂邻居问题，并让我可以更好地控制模拟网络分区。不利的一面是环境不容易重新创建。
Kubernetes上的Ray简介
像Spark一样，主要作者现在已经成立了一家公司（Anyscale）来发展Ray。与Spark不同，Ray是Python的第一个库，并且不依赖Java虚拟机（JVM）.