大语言模型LLM - 第14页

Andrej Karpathy认为：现在大部分内容还是写给人类看的，而不是给LLM（大型语言模型）用的。他认为：2025年应该开始转变为：99.9%的注意力将会是LLM的注意力，而不是人类的注意力。

关于用大型语言模型（LLM）帮忙写代码的网上讨论，总会有一些开发者跳出来说他们的体验很糟糕。他们常常问自己到底哪里做错了——为什么有些人说效果特别好，而他们自己试了却发现问题一大堆？用LLM写代码其实挺难的，也不那么直观。要想搞清楚怎么用它、什么

什么是Vibe编程？ - 这是一种全新的编程方式，你可以完全沉浸在编程的感觉中（Andrej Karpathy说的） - 让AI帮你写95%以

阿里千问Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。然而，人们一直在经历无限的生成、多次重复、标记问题和微调问题。我们希望本指南能够帮助调试和修复大多数问题！如果你

我已经使用 Claude Code 几天了，它一直在毫不留情地解决我老旧代码库中遗留的错误。它就像一台用美元驱动的木材削片机。它只需聊天就能完成令人震惊的任务。[...] Claude Code 的外形非常笨重，不支持多模式，而且很难与其他工具配合

模型上下文协议（MCP）就像是AI应用程序的“万能插头”——USB-C接口。就像USB-C可以让你用同一个接口连接各种不同的设备一样，MCP也让你的AI应用程序能够用一种标准化的方式连接到各种各样的数据源和工具。接下来，我们用大白话一步步解释MCP是啥。

Gemma 3 现已在 Unsloth 中进行微调 - 速度提高 1.6 倍，VRAM 减少 60% Gemma 3 现已在 Unsloth 中支持微调，显著提升了训练效率。Unsloth 通过优化算法和硬件适配，使微调速度提高了 1.6 倍，同时

人工智能驱动的本地自动化助手，让你的计算机为你工作，类似manus和

我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后，性能显著提升，接近前沿水平且成本更低。仅需16个训练示例，性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法，所有资源免费开放。点击标题见原文。

DeepSeek给全世界的余波还未消，来自华人Manus又铺天盖地在各大自媒体抖音账号轮番炒作了一次，但是这可能暴露了自己的不专业，因为DeepSeek火爆有理论

Transformer 是一种神经网络结构，现在特别火，主要用来做文本生成、机器翻译之类的任务。但在 Transformer 之前，大家用的是 RNN 和 LSTM 这种模型来处理序列数据（比如一句话）。不过，这些模型有个问题：它们不太擅长处理长距离的依赖关系。因为它们是按顺序处理数据的，很

OpenAI今天发布的另一项重大公告：用于构建“代理/智能体/agent”的 Python 库（ openai-agents），以替代他们之前的swarm 研

这篇文章（点击标题）主要聊的是怎么让大语言模型（LLM）变得更会“推理”，尤其是通过“推理时计算”（inference-time compute）这个方法来提升它们的表现。2025年这块儿特别火，因为推理能力强了，模型就能解决更复杂的问题，用处更大。

中国的一家大科技公司阿里巴巴，最近推出了一个叫QwQ-32B的新人工智能模型，这个模型据说可以和另一个很厉害的人工智能模型DeepSeek-R1比一比。

这篇文章通过非传统的方式探讨了Transformer模型的工作原理，强调了它们作为状态模拟器的角色，能够根据上下文动态调整预测状态。作者分享了自己通过实验和代码分析逐步理解模型的经验，指出温度参数如何影响输出分布，并展示了模型在ASCII艺术生成等任务中的泛化能力。文章鼓励通过实践和质疑来建

这是来自Thane Ruthenis的AI悲观预测一文，作者认为，尽管这些模型在某些方面表现出色，但它们并没有达到真正的通用人工智能（AGI）的水平。以下是对这段文字的简化解释：模型的个性：通过让模型具有更好的个性，可以更容易地判断它们是否“聪明”。例如，Sonnet 3.5

Google Deepmind 推出了一个叫 Gemma 3 的新一代开放式 AI 模型。这个模型的特点是占用空间小但性能高，所以它可以在单个 GPU 或 TPU 上运行。 Google Deepmind 说，虽然这些模型体积小，但在初步测试中，它

这篇是讲怎么用一个特别的思路去看衰老，然后试着找到治衰老的办法。这事儿的关键是得问对问题！保罗·基索：我是个研究抗衰老的人，搞这个好久了，也真看到了一些效果。我对衰老