大语言模型LLM - 第14页

今天，我们发布了 QwQ-32B，这是我们全新的推理模型，虽然只有 320 亿个参数，但它能跟顶尖的推理模型，比如 DeepSeek-R1，拼一拼实力。

什么是Vibe编程？ - 这是一种全新的编程方式，你可以完全沉浸在编程的感觉中（Andrej Karpathy说的） - 让AI帮你写95%以

阿里千问Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。然而，人们一直在经历无限的生成、多次重复、标记问题和微调问题。我们希望本指南能够帮助调试和修复大多数问题！如果你

我用 Bartowski 的 Q5 和 Q6 测试了阿里千问模型QwQ。我没发现 Q6 有什么特别大的优势。 Bartowski 的 Q5 和 Q6 是指量化（quantization）方法或模型版本。量化是一种技术，通过降低模型参数的精度（比如从 3

安德鲁·巴托和理查德·萨顿因为搞出了强化学习的理论基础，拿到了2024年A.M.图灵奖。强化学习是人工智能里好多牛掰突破的关键招数。在强化学习里，人工智能系统得训练用“奖励”信号来完成任务，这些信号就

我已经使用 Claude Code 几天了，它一直在毫不留情地解决我老旧代码库中遗留的错误。它就像一台用美元驱动的木材削片机。它只需聊天就能完成令人震惊的任务。[...] Claude Code 的外形非常笨重，不支持多模式，而且很难与其他工具配合

以下是我的学习方法比以前快 5 倍的方法：通过 OpenAI Deep Research 了解新领域 Grok-3 结合思考，针对特定论文进行详细（且快速！）问答 GPT-4.5 提出可能带来新见解的其他问题真是令人惊奇的东西！

我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后，性能显著提升，接近前沿水平且成本更低。仅需16个训练示例，性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法，所有资源免费开放。点击标题见原文。

DeepSeek给全世界的余波还未消，来自华人Manus又铺天盖地在各大自媒体抖音账号轮番炒作了一次，但是这可能暴露了自己的不专业，因为DeepSeek火爆有理论

人工智能驱动的本地自动化助手，让你的计算机为你工作，类似manus和

OpenAI今天发布的另一项重大公告：用于构建“代理/智能体/agent”的 Python 库（ openai-agents），以替代他们之前的swarm 研

这篇文章（点击标题）主要聊的是怎么让大语言模型（LLM）变得更会“推理”，尤其是通过“推理时计算”（inference-time compute）这个方法来提升它们的表现。2025年这块儿特别火，因为推理能力强了，模型就能解决更复杂的问题，用处更大。

中国的一家大科技公司阿里巴巴，最近推出了一个叫QwQ-32B的新人工智能模型，这个模型据说可以和另一个很厉害的人工智能模型DeepSeek-R1比一比。

Transformer 是一种神经网络结构，现在特别火，主要用来做文本生成、机器翻译之类的任务。但在 Transformer 之前，大家用的是 RNN 和 LSTM 这种模型来处理序列数据（比如一句话）。不过，这些模型有个问题：它们不太擅长处理长距离的依赖关系。因为它们是按顺序处理数据的，很

这篇文章通过非传统的方式探讨了Transformer模型的工作原理，强调了它们作为状态模拟器的角色，能够根据上下文动态调整预测状态。作者分享了自己通过实验和代码分析逐步理解模型的经验，指出温度参数如何影响输出分布，并展示了模型在ASCII艺术生成等任务中的泛化能力。文章鼓励通过实践和质疑来建

这是来自Thane Ruthenis的AI悲观预测一文，作者认为，尽管这些模型在某些方面表现出色，但它们并没有达到真正的通用人工智能（AGI）的水平。以下是对这段文字的简化解释：模型的个性：通过让模型具有更好的个性，可以更容易地判断它们是否“聪明”。例如，Sonnet 3.5

我对ChatGPT DeepResearch每月200美元的价格一开始是有点怀疑的，但用下来真的觉得值了。它能在7分钟内给我提供一份逻辑清晰、引用得当的文献综述或带注释的参考文献，这简直太神奇了。下面简单说说我是怎么用的，也欢迎大家给我建议或反馈。举几个

这篇是讲怎么用一个特别的思路去看衰老，然后试着找到治衰老的办法。这事儿的关键是得问对问题！保罗·基索：我是个研究抗衰老的人，搞这个好久了，也真看到了一些效果。我对衰老