新web标准llms.txt：让大模型抓取网站更便利

要点：

新提出的网络标准“llms.txt”可能会改变人工智能系统在线查找和处理信息的方式。

实现起来很简单：

建议来源
人工智能资深人士杰里米·霍华德建议：

让网站更适合大语言模型LLM 读取
新标准遵循简单的格式。每个 llms.txt 文件都以顶部的项目名称开头，然后是简短摘要。然后，网站所有者可以根据需要添加更多详细信息并链接到其他 Markdown 文档。这种结构旨在帮助 AI 系统更可靠地读取和理解网站。

网站还应通过在 URL 中添加“.md”来提供其 HTML 页面的 Markdown 版本。FastHTML项目已通过自动生成所有文档页面的 Markdown 版本来实施此方法。

该标准对开发人员和代码库尤其有用，因为人工智能系统可以通过阅读这些结构化信息更好地帮助程序员。人工智能公司 Anthropic 还上传了一份LLMs.txt 文件作为其文档。

公司可以用它来规划组织机构和关键资源。网上商店可以更好地组织产品和商店政策。学校和大学可以更清晰地展示课程，人们可以以人工智能系统能够更好地理解的方式来组织他们的专业背景。

使用现有的 Web 标准
新标准将与 robots.txt 和 sitemap.xml 等常见的网络工具配合使用。虽然这些现有标准可帮助搜索引擎抓取网站，但 llms.txt 专门帮助 AI 系统查找和理解网站上最重要的内容，包括指向其他资源的相关链接。

任何人都可以在 llmstxt.org 上查看和评论拟议的标准，技术文档可以在 Github 上找到。网站所有者应该使用多个 AI 系统测试他们的 llms.txt 文件，以确保它们能够按预期工作。

该标准的成功取决于网络开发人员是否接受它。如果有足够多的网站开始使用 llms.txt，它可能会从根本上改变人工智能系统读取和理解网络内容的方式。

但它也引出了有关万维网未来的一些基本问题。当人工智能系统重写网站内容时，谁来负责？我们如何保护网站所有者的版权？他们有版权吗？当聊天机器人访问网站内容时，网站如何赚钱？人工智能系统如何正确理解网站的完整内容，包括其设计？