微软小语言模型Phi-3-mini测试体验

微软新的小语言模型 Phi-3-mini,它的性能让人震惊。尽管只有 30 亿个参数,但该模型功能强大,可以在各种任务中提供一流的结果。

Phi-3-mini 的效率改变了游戏规则,使我们能够在本地运行大型语言模型而不牺牲性能。其多功能性凸显,可以轻松处理从创意内容生成到复杂问题解决的所有事务。

Phi-3-mini 由 Microsoft 开发并在 MIT 许可下开源,对于任何想要探索大型语言模型世界的人来说,它是一个可靠且易于访问的选择。

相关:

网友:
1、Phi-3-Mini 因其小巧的尺寸而令人印象深刻。根据我对它的简短测试经验,它感觉几乎像 7b 型号,但又不完全一样。

2、小型语言模型应该在常识方面表现不佳,但至少在地理方面比 7B 模型要好。我总是向LLM询问我所居住的城镇的信息(一个不知名的小城镇,人口约 8000 人)。 Phi3不仅给了我国家、省份和地区,还给了我GPS坐标。只差了5公里。
我还测试了根据上下文和一些说明编写文本。它按照指示写了一些不错的东西,虽然有一些幻觉,但没什么奇怪的。在这项任务中,它也比一些 7b 模型做得更好。

3、我测试了一些基本的东西,包括代码生成、推理和一些常识,它效果很好

4、我感觉在聊天上llama3和phi3相当接近
但是:有Phi-3 4b 做不到,但 llama-3-8b 可以轻松做到的,例如下面要求:

创建 10 个以“苹果”一词结尾的句子。记住“苹果”一词必须位于末尾


5、对我来说,它非常顽固,在错误时拒绝承认,为无意义的答案辩护,比如激烈地指出三角形的斜边是等腰三角形边长的两倍。

6、它的大小非常好,但 4b 参数.. 仍然只是 4b 参数。你很快就会达到其创造力和逻辑的极限。但它的逻辑确实很好。
我使用的是 Ollama F16 版本,它有很多幻觉,似乎是在我问它纯粹的数学问题时触发的,比如“4+4=?”它的反应是我之前在谈话中问过它的一些幻觉。
我对 Phi3-Medium 最感兴趣,因为它非常适合 12GB / 16GB GPU,如果它像 Phi3-mini 一样令人印象深刻,那么它应该会很好。

7、你不知道phi-2有多疯狂吗?它可能会胡言乱语,还会侮辱用户

8、GGUF 可以在这里找到:https://huggingface.co/QuantFactory/Phi-3-mini-128k-instruct-GGUF

9、这么小的东西让我开始考虑在一个小树莓派上独立运行它的可能性,这样它就可以在家里的任何地方进行语音激活。这似乎比将某些东西无线连接到我的主机更有趣。

10、就其本身而言,它是一个非常好的3B。它真正的亮点在于它在代理链中的效率,无论如何,这大大提高了质量。该模型的代理潜力超过了其聊天机器人潜力,我认为微软再次在大公司的人工智能游戏中发挥了最佳作用。

11、人们一直说它可以在手机上运行,​​如何让它在 iPhone 15 上本地运行的指南:
https://apps.apple.com/us/app/private-llm-local-ai-chatbot/id6448106860

12、它在我的FaRel-3 基准测试中获得了 53.33 分,对于如此小的模型来说,这是一个相当令人印象深刻的结果。只是比 Llama-3 8B 差一点点。

13、就其尺寸而言,它很好。但在回答一些问题时,它有太多错误。我想尝试 RAG 的 128k 版本,因为这可能是它的最佳用途。
至少,它可能是一个在 Raspberry Pi 或 miniPC 上作为家庭助手运行的好模型。

14、我认为这个小型号非常适合 8GB M1 MacBook Pro - 不幸的是,当使用 GPT4ALL 与 RAG 进行测试时,它产生了一堆废话。这确实很不幸,因为它在 M1 上的运行速度超过 20 t/s。

15、如此小的模型有哪些用例?

  • 它可以帮助您立即生成和总结内容,但最重要的是,它是您可以在智能手机上运行的最佳语言模型之一。
  • 将它用于学校项目。我首先尝试使用 stablelm2,但它不遵循命令,太冗长并且每次都有不同的答案。这是仓库:https://github.com/markuslahde/LLM_enhanced_Google_search
  • 小型模型有很大的潜力,它们擅长以严格的格式(json、列表、字典等)返回响应并保持一致性。