Llama 3已能在iPhone或安卓手机上运行


得益于 MLX Swift,Llama 3 已在 iPhone 上本地运行:

  • Llama 3 在 iPhone 上运行的速度约为 8.5t/s,

它可以在 Android 上运行吗?
回答是肯定的,可以为此使用executorch :
供参考:

  • 使用 4 位分组量化 7B LLama2,
  • 他们在 Samsung s24 上实现了 11 tok/s,
  • 在 Samsung s22 上实现了 8 tok/s。

https://github.com/pytorch/executorch/tree/main/examples/models/llama2

网友:
1、第一个问题是您的设备上有多少内存。我有 6GB Pixel 6a,CPU 速度不是问题,但 8B 型号需要大量 RAM。如果你的手机是 16GB,只要你不介意速度慢一点,你就可以做任何你想做的事。在 Android 上,我使用 MLCChat 来运行 Phi 2B,但与笔记本电脑上的 Dolphin 2.9 llama3 8B 或 Nous Hermes SOLAR 10.7B 相比,它相当愚蠢。

2、多年来,我一直在阅读有关苹果公司在包括 iPhone 在内的所有设备中采用神经引擎等硬件是多么无谓的努力的文章。

我拥有的两代 iPhone 都配备了这一硬件--我为这些设备支付的价格中已经包含了这一不必要的成本--而且我几乎没有从这一额外成本中看到任何好处。

然而,突然之间,transformer 型号随处可见。不仅我现在的 iPhone 可以使用transformer ,我几代前的 iPhone 也可以

同样,我是一名开发人员,在这一领域经验甚少。然而,我可以阅读他们的 CoreML 框架文档(这些框架已由内部团队开发了多年),而且由于它已变得非常精简,尽管我的经验很少,但我可以相对轻松地构建一个使用这些转换器模型的产品。不仅如此,如果我今天决定开发这款产品,它将兼容多代 iPhone。而如果我在安卓系统上开发这个产品,那么它就只能为更少的用户所使用;而且要花费大量时间来实现效率只有 CoreML 一半的产品。他们的实现方式让内存不再是最重要的限制因素,尽管内存仍然很重要。

所以,苹果公司多年来一直在为这种使用情况提前优化硬件,甚至在这样做有意义之前就已经这样做了。此外,他们还投入了大量资源从另一端进行开发:他们开发的 CoreML 框架为研究人员和业余爱好者实现本地 LLM 提供了极大的便利,不仅效率高得惊人,而且所需的知识也少得可怜。

TL;DR 他们多年来一直从两端着手解决这一问题,克服了这一领域最困难的障碍。他们已经考虑到了竞争对手目前需要解决的所有问题,而且早在几年前就已经开始考虑这些问题,这为他们今天的发展奠定了坚实的基础。

3、已经发布了包含 Llama 3 8B 和 Dolphin Llama 3(以及大约 2 打其他型号)的 iOS 应用程序,而不仅仅是演示版。此外,还有 OmniQuant 量化(不是 RTN 量化,参见昨天的这篇论文)和零遥测(甚至没有崩溃日志和诊断信息)。

4、听说最新的Android设备上用于神经网络加速的DSP和NPU性能都相当不错,即使不使用这些,GPU计算性能也相当强。因此,我很好奇 Llama 3 模型在 Android 上运行时会达到什么样的性能。

5、能够在带有MLC 的8GB Android 上运行 Llama3 8B ,速度相当慢,并且 q3 的模型不是很好,但它可以工作。

6、从 Layla 的用户来看,您可以在 iPhone 上以大约 10 tps 的速度运行 Q2-3 量化的 llama3。 iPhone Pro(最高)。
在 Android 上,旗舰机的速度要慢一些。大约 1-2 tps。
您可以在这里亲自尝试一下:https://play.google.com/store/apps/details ?id=com.laylalite