大语言模型LLM - 第15页

今天，我们发布了 QwQ-32B，这是我们全新的推理模型，虽然只有 320 亿个参数，但它能跟顶尖的推理模型，比如 DeepSeek-R1，拼一拼实力。

在本文中，我们探讨了模型上下文协议并使用 Spring AI 实现了其客户端-服务器架构。首先，我们使用 Anthropic 的 Claude 3.5 Sonnet 模型构建了一个简单的聊天机器人作为我们的 MCP 主机。

Deepseek引入的深度搜索成为2025年新标准。各大公司纷纷推出深度研究产品，AI工程师通过整合长期思考与推理，显著提升了搜索系统的性能与深度。要点：深度搜索DeepSearch经过搜索、阅

Grok3这个大模型不简单，火力全开，成了暴躁老哥/老姐。埃隆·马斯克的人工智能公司搞出了个Grok 3的语音功能，这玩意儿能说些露骨的话，还能表现出超级夸张的个性，跟其他对手的做法完全不一样。 xAI给他们的

Framework Desktop是不是被吹得太厉害了，说它能跑DeepSeek这样的大模型LLM？但实际上，它的内存不够大，没法搞MoE（专家混合模型），带宽也不够，跑不了那些需要大量计算的密集型模型。理论上，128GB内存跑LLM会因为带宽不够而卡顿

部署本地大模型的新机型王者？苹果M3 Ultra，80 核 GPU，512GB 内存出世！有了 512GB 内存，一切皆有可能。这是苹果公司（Apple）网站上关于Mac Studio的定制：产品名称：Mac Studio处理器：

DuckDB 走向分布式？DeepSeek 的 smallpond 涉足大数据DuckDB！降维打击传统大数据领域，搅动中台数据工程风云！ DeepSeek 正在利用 smallpond（一种新的、简单的分布式计算方法）推动 DuckDB 超越其单

信息工作的核心不是光靠逻辑推理牛不牛，而是能不能拿到足够多、足够相关的信息（高信号量上下文）。例如，在阅读文章时

把平常说的话变成一种逻辑语言（比如一阶逻辑，FOL）是自然语言处理（NLP）里的一个基本难题。这个难题在自动推理、追踪错误信息和验证知识方面有很多用处。

安德鲁·巴托和理查德·萨顿因为搞出了强化学习的理论基础，拿到了2024年A.M.图灵奖。强化学习是人工智能里好多牛掰突破的关键招数。在强化学习里，人工智能系统得训练用“奖励”信号来完成任务，这些信号就

霍夫斯塔德的《表面与本质》这本书很不错，是一本500页的书，讲的是思想的本质。他基本上是给你列了一大堆例子，来证明所有的思维归根结底都是靠类比（analogy、category ）推动的。他认为所有的想法都首先得

Deepseek 的语言模型即使定价远低于 OpenAI 也能带来巨额利润中国的人工智能公司DeepSeek最近发布了一些数据，告诉我们人工智能语言模型其实可以赚很多钱，就算价格比OpenAI低很多也没问题。

GPT-4.5以“研究预览版”的形式发布，OpenAI Pro（每月 200 美元）客户和拥有 API 密钥的开发人员均可使用。OpenAI 还发布了GPT-4.5 系统卡。现在它的价格非常昂贵：目前每百万输入代币 75.00 美元，每百万输出代

在本文中，我们探讨了如何使用 Spring AI、PGVector 和 Ollama 实现语义搜索。我们比较了两个端点；一个端点对我们的图书目录执行语义搜索，另一个端点使用 Ollama LLM 提供并增强该搜索结果。搜索是软件中的一个基本概念，旨在从大

连贯的草稿提示让大模型能够用更少的文字更轻松地思考：少些字，多思考。一种叫“草稿链Chain of Draft”（简称CoD）的新方法，可以帮助人工智能模型用更少的字和更快的速度完成复杂的任务，而且准确度还和以前的方法差

很多人一直在说，GPT-4.5 证明了“扩展定律失效”或者“没有达到大家预期的改进效果”。但有趣的是，这些人似乎从来没有拿出任何实际的数据来证明 GPT-4.5 的扩

OpenAI内部及业界专家（如Ilya Sutskever等）此前就曾预测，预训练的扩展性有限，未来需要新的范式。GPT-4.5的发布似乎验证了这一预测：它可能是Op

网友测试多个AI模型，发现GPT-4.5在回答涉及绝密资源的问题时表现出色，准确揭示秘密且无幻觉答案，显示其在知识理解和推理能力上的巨大飞跃，远超其他模型。我有一个问题，自从 GPT-3.5 出来以后，我每次遇到新的 AI 都会问它，因为这个问题