微软小语言模型Phi-3-mini测试体验

微软新的小语言模型 Phi-3-mini，它的性能让人震惊。尽管只有 30 亿个参数，但该模型功能强大，可以在各种任务中提供一流的结果。

Phi-3-mini 的效率改变了游戏规则，使我们能够在本地运行大型语言模型而不牺牲性能。其多功能性凸显，可以轻松处理从创意内容生成到复杂问题解决的所有事务。

Phi-3-mini 由 Microsoft 开发并在 MIT 许可下开源，对于任何想要探索大型语言模型世界的人来说，它是一个可靠且易于访问的选择。

相关：

网友：
1、Phi-3-Mini 因其小巧的尺寸而令人印象深刻。根据我对它的简短测试经验，它感觉几乎像 7b 型号，但又不完全一样。

2、小型语言模型应该在常识方面表现不佳，但至少在地理方面比 7B 模型要好。我总是向LLM询问我所居住的城镇的信息（一个不知名的小城镇，人口约 8000 人）。 Phi3不仅给了我国家、省份和地区，还给了我GPS坐标。只差了5公里。
我还测试了根据上下文和一些说明编写文本。它按照指示写了一些不错的东西，虽然有一些幻觉，但没什么奇怪的。在这项任务中，它也比一些 7b 模型做得更好。

3、我测试了一些基本的东西，包括代码生成、推理和一些常识，它效果很好

4、我感觉在聊天上llama3和phi3相当接近
但是：有Phi-3 4b 做不到，但 llama-3-8b 可以轻松做到的，例如下面要求：

创建 10 个以“苹果”一词结尾的句子。记住“苹果”一词必须位于末尾

5、对我来说，它非常顽固，在错误时拒绝承认，为无意义的答案辩护，比如激烈地指出三角形的斜边是等腰三角形边长的两倍。

6、它的大小非常好，但 4b 参数.. 仍然只是 4b 参数。你很快就会达到其创造力和逻辑的极限。但它的逻辑确实很好。
我使用的是 Ollama F16 版本，它有很多幻觉，似乎是在我问它纯粹的数学问题时触发的，比如“4+4=？”它的反应是我之前在谈话中问过它的一些幻觉。
我对 Phi3-Medium 最感兴趣，因为它非常适合 12GB / 16GB GPU，如果它像 Phi3-mini 一样令人印象深刻，那么它应该会很好。

7、你不知道phi-2有多疯狂吗？它可能会胡言乱语，还会侮辱用户

8、GGUF 可以在这里找到：https://huggingface.co/QuantFactory/Phi-3-mini-128k-instruct-GGUF

9、这么小的东西让我开始考虑在一个小树莓派上独立运行它的可能性，这样它就可以在家里的任何地方进行语音激活。这似乎比将某些东西无线连接到我的主机更有趣。

10、就其本身而言，它是一个非常好的3B。它真正的亮点在于它在代理链中的效率，无论如何，这大大提高了质量。该模型的代理潜力超过了其聊天机器人潜力，我认为微软再次在大公司的人工智能游戏中发挥了最佳作用。

11、人们一直说它可以在手机上运行，如何让它在 iPhone 15 上本地运行的指南：
https://apps.apple.com/us/app/private-llm-local-ai-chatbot/id6448106860

12、它在我的FaRel-3 基准测试中获得了 53.33 分，对于如此小的模型来说，这是一个相当令人印象深刻的结果。只是比 Llama-3 8B 差一点点。

13、就其尺寸而言，它很好。但在回答一些问题时，它有太多错误。我想尝试 RAG 的 128k 版本，因为这可能是它的最佳用途。
至少，它可能是一个在 Raspberry Pi 或 miniPC 上作为家庭助手运行的好模型。

14、我认为这个小型号非常适合 8GB M1 MacBook Pro - 不幸的是，当使用 GPT4ALL 与 RAG 进行测试时，它产生了一堆废话。这确实很不幸，因为它在 M1 上的运行速度超过 20 t/s。

15、如此小的模型有哪些用例？

它可以帮助您立即生成和总结内容，但最重要的是，它是您可以在智能手机上运行的最佳语言模型之一。
将它用于学校项目。我首先尝试使用 stablelm2，但它不遵循命令，太冗长并且每次都有不同的答案。这是仓库：https://github.com/markuslahde/LLM_enhanced_Google_search
小型模型有很大的潜力，它们擅长以严格的格式（json、列表、字典等）返回响应并保持一致性。