Llama 3已能在iPhone或安卓手机上运行

得益于 MLX Swift，Llama 3 已在 iPhone 上本地运行：

Llama 3 在 iPhone 上运行的速度约为 8.5t/s，

它可以在 Android 上运行吗？
回答是肯定的，可以为此使用executorch ：
供参考：

使用 4 位分组量化 7B LLama2，
他们在 Samsung s24 上实现了 11 tok/s，
在 Samsung s22 上实现了 8 tok/s。

https://github.com/pytorch/executorch/tree/main/examples/models/llama2

网友：
1、第一个问题是您的设备上有多少内存。我有 6GB Pixel 6a，CPU 速度不是问题，但 8B 型号需要大量 RAM。如果你的手机是 16GB，只要你不介意速度慢一点，你就可以做任何你想做的事。在 Android 上，我使用 MLCChat 来运行 Phi 2B，但与笔记本电脑上的 Dolphin 2.9 llama3 8B 或 Nous Hermes SOLAR 10.7B 相比，它相当愚蠢。

2、多年来，我一直在阅读有关苹果公司在包括 iPhone 在内的所有设备中采用神经引擎等硬件是多么无谓的努力的文章。

我拥有的两代 iPhone 都配备了这一硬件--我为这些设备支付的价格中已经包含了这一不必要的成本--而且我几乎没有从这一额外成本中看到任何好处。

然而，突然之间，transformer 型号随处可见。不仅我现在的 iPhone 可以使用transformer ，我几代前的 iPhone 也可以。

同样，我是一名开发人员，在这一领域经验甚少。然而，我可以阅读他们的 CoreML 框架文档（这些框架已由内部团队开发了多年），而且由于它已变得非常精简，尽管我的经验很少，但我可以相对轻松地构建一个使用这些转换器模型的产品。不仅如此，如果我今天决定开发这款产品，它将兼容多代 iPhone。而如果我在安卓系统上开发这个产品，那么它就只能为更少的用户所使用；而且要花费大量时间来实现效率只有 CoreML 一半的产品。他们的实现方式让内存不再是最重要的限制因素，尽管内存仍然很重要。

所以，苹果公司多年来一直在为这种使用情况提前优化硬件，甚至在这样做有意义之前就已经这样做了。此外，他们还投入了大量资源从另一端进行开发：他们开发的 CoreML 框架为研究人员和业余爱好者实现本地 LLM 提供了极大的便利，不仅效率高得惊人，而且所需的知识也少得可怜。

TL;DR 他们多年来一直从两端着手解决这一问题，克服了这一领域最困难的障碍。他们已经考虑到了竞争对手目前需要解决的所有问题，而且早在几年前就已经开始考虑这些问题，这为他们今天的发展奠定了坚实的基础。

3、已经发布了包含 Llama 3 8B 和 Dolphin Llama 3（以及大约 2 打其他型号）的 iOS 应用程序，而不仅仅是演示版。此外，还有 OmniQuant 量化（不是 RTN 量化，参见昨天的这篇论文）和零遥测（甚至没有崩溃日志和诊断信息）。

4、听说最新的Android设备上用于神经网络加速的DSP和NPU性能都相当不错，即使不使用这些，GPU计算性能也相当强。因此，我很好奇 Llama 3 模型在 Android 上运行时会达到什么样的性能。

5、能够在带有MLC 的8GB Android 上运行 Llama3 8B ，速度相当慢，并且 q3 的模型不是很好，但它可以工作。

6、从 Layla 的用户来看，您可以在 iPhone 上以大约 10 tps 的速度运行 Q2-3 量化的 llama3。 iPhone Pro（最高）。
在 Android 上，旗舰机的速度要慢一些。大约 1-2 tps。
您可以在这里亲自尝试一下：https://play.google.com/store/apps/details ?id=com.laylalite