- 一种名为“llms.txt”的新网络标准已被提出,以帮助语言模型更有效地从网站访问相关信息。
- llms.txt 文件将作为 AI 系统的中心指南,以结构化格式总结网站上最重要的内容,因为 AI 需要比人类更精确、更紧凑的信息。
- 拟议标准旨在补充现有的网络标准,例如站点地图和 robots.txt。它还提出了有关万维网未来的根本问题。
新提出的网络标准“llms.txt”可能会改变人工智能系统在线查找和处理信息的方式。
实现起来很简单:
- 网站所有者可以在网站根目录下创建一个类似robots.xt的“llms.txt”的文件,作为人工智能系统抓取你网站的指南。
- /llms.txt 文件内容使用 Markdown 格式,以满足人类和 LLM 的可读性,同时保持严格的结构要求
- 建议将 .md 附加到 URL 以提供常规网页的干净 markdown 版本
- 与现有的网络标准兼容,如 robots.txt 和 sitemap.xml
建议来源
人工智能资深人士杰里米·霍华德建议:
- 网站应该包含一个特殊文件,帮助语言模型更有效地访问内容。
- 现代网站需要同时为人类访客和人工智能系统服务。
- 但人工智能系统通常难以处理大量文本,因为它们一次只能处理有限的部分。这一限制使得语言模型无法一次性处理整个网站。
- 新标准将通过以更有针对性、更适合人工智能的格式提供信息来解决这一问题。
新标准遵循简单的格式。每个 llms.txt 文件都以顶部的项目名称开头,然后是简短摘要。然后,网站所有者可以根据需要添加更多详细信息并链接到其他 Markdown 文档。这种结构旨在帮助 AI 系统更可靠地读取和理解网站。
网站还应通过在 URL 中添加“.md”来提供其 HTML 页面的 Markdown 版本。FastHTML项目已通过自动生成所有文档页面的 Markdown 版本来实施此方法。
该标准对开发人员和代码库尤其有用,因为人工智能系统可以通过阅读这些结构化信息更好地帮助程序员。人工智能公司 Anthropic 还上传了一份LLMs.txt 文件作为其文档。
公司可以用它来规划组织机构和关键资源。网上商店可以更好地组织产品和商店政策。学校和大学可以更清晰地展示课程,人们可以以人工智能系统能够更好地理解的方式来组织他们的专业背景。
使用现有的 Web 标准
新标准将与 robots.txt 和 sitemap.xml 等常见的网络工具配合使用。虽然这些现有标准可帮助搜索引擎抓取网站,但 llms.txt 专门帮助 AI 系统查找和理解网站上最重要的内容,包括指向其他资源的相关链接。
任何人都可以在 llmstxt.org 上查看和评论拟议的标准,技术文档可以在 Github 上找到。网站所有者应该使用多个 AI 系统测试他们的 llms.txt 文件,以确保它们能够按预期工作。
该标准的成功取决于网络开发人员是否接受它。如果有足够多的网站开始使用 llms.txt,它可能会从根本上改变人工智能系统读取和理解网络内容的方式。
但它也引出了有关万维网未来的一些基本问题。当人工智能系统重写网站内容时,谁来负责?我们如何保护网站所有者的版权?他们有版权吗?当聊天机器人访问网站内容时,网站如何赚钱?人工智能系统如何正确理解网站的完整内容,包括其设计?