卡帕西：AI直接生成html网页比看纯文本舒服一百倍

#html5编程指南 #AI提示上下文工程 #AI端侧 #用户体验UX

2026-05-13 1 5K banq

别再让AI只吐文字了试试让它直接画网页！Andrej Karpathy提出如何让AI直接输出网页，通过真实操作步骤和失败段子，解释为何HTML比纯文本更适合作AI的输出格式，并给出立即能用的提示词技巧。

想让AI帮你干活更爽，别光要文字。叫它直接生成一个网页，你保存成点html文件，用浏览器打开，立马看到排版舒服、带颜色、带框、甚至带按钮的界面。这招不需要你会写代码，只要在提问末尾加一句“用HTML格式输出”。本文从一个真实例子出发，讲透为什么视觉输出比纯文字高效，以及你现在就能怎么玩。

说话之前先亮结果最管用

你跟人说一件事，总得先甩出个成果来。比如你说“我学会做饭了”，别人肯定问“做的啥菜”。你说“我让AI帮了个忙”，别人也想知道“帮成啥样了”。所以跟AI打交道也一样，先让它把结果摆出来。

我最近试了个招。我让AI给我列一个购物清单。以前它会回我一堆文字，比如牛奶两盒、面包一条、鸡蛋一打。我得自己瞪着眼看，脑子里排个版。现在我改了一下问法。我在最后补了一句“用HTML格式输出”。它就给我发了一整段看起来乱糟糟的代码。

但我把那段代码存成一个点html文件，再用浏览器打开。哇塞，直接看到一个带标题、带方框、甚至每个物品前面有个小方块可以打钩的网页。这就好比原来别人给你念菜单，现在直接甩给你一本带图的菜谱。

这件事给我的冲击很大。

我们跟AI聊天，其实一直是用耳朵在听（虽然是用眼看文字，但本质上是一维的信息流）。但人的脑子最擅长处理的是图像。你想想看，你认一个陌生人，看照片一秒就知道长啥样，但用文字描述他鼻子多高眼睛多大你得读半天。

视觉通道是信息高速公路

人脑里面大概有三成的地方是专门用来处理视觉信号的。这三成可不是小数目，它们像一条十车道的高速公路。而处理文字的那块区域，顶多算一条乡间小道。你让AI把信息写成文字传给你，就等于把十车道的车全部赶到一条小路上，堵得死死的。你读长文章会累，就是因为这条小路堵车了。

反过来，如果AI直接给你一张图、一个布局好的网页，信息通过你的眼睛冲进大脑，直接上十车道高速，唰一下就懂了。这就像你问路，别人给你画个地图，你一眼看明白。别人要是用嘴说“往前走两百米看到一个红绿灯右转再走一百米看到一个便利店左转”，你大概率得掏手机记。

所以这个技巧的本质是：别让AI只当个说书先生，让它当个设计师。说书先生再厉害，也说不出一张工程图纸的精度。设计师给你一张图，所有信息同时出现在你眼前，布局、大小、位置、颜色都是信息。

第一步加一句话就行

具体操作简单到离谱。你平时怎么问AI还怎么问。只是在最后的最后，加上一句“把你的回答用HTML格式输出”。就这么简单。

举个例子。你问“帮我规划一个三天两夜的北京旅游行程”。正常它会给你一段文字，第一天上午干嘛下午干嘛。你看着也还行，但总觉得乱。加上那句话之后，它会发给你一大片代码。别慌。你把那些代码全部复制下来。在电脑上新建一个文本文档，粘贴进去。然后把文件名字改成旅游行程点html。注意那个点前面是英文句号，后面是html三个字母。保存之后双击这个文件，它会在你的浏览器里打开。你会看到一个带标题、带分段、甚至每个景点都配上了一个小卡片框的页面。有些AI还会给你加上颜色，比如故宫用红框，长城用绿框。这就很直观了对不对。

你可能担心自己看不懂代码。完全不用看懂。你就把它当做一个会说话的打印机。你只管说你要什么，它给你打印出一张纸。你看纸上的内容就行，不用管打印机怎么喷的墨。

第二步让输出更好玩

光有标题和框还不够。你可以继续加要求。比如你说“每个景点旁边加一个小图标”，或者“把行程做成一个表格，左边是时间右边是地点”，或者“给整个页面加上淡蓝色的背景”。这些要求都用大白话说就行。

你可能会想，AI能听懂这些吗？它能。因为它知道HTML是什么东西。HTML就是用来描述网页样子的语言。你说“加个背景”，它在代码里就对应一行设置背景色的命令。你说“做成表格”，它就生成表格的代码。你自己不用会写这些代码，你会说人话就行。

我试过一个更逗的。我让它做一个“家里找遥控器指南”。我说每次找不到遥控器都急得满头汗。它给我生成了一个网页。网页最上面画了一个大大的问号。下面分了好几个区域，沙发缝里、茶几底下、电视柜上面。每个区域旁边还有个打勾的方框。我找完一个地方就打一个勾。最后全打完了，页面下面蹦出一行字“恭喜你，可以去开电视了”。这个效果用纯文字描述就完全没那味儿。你看着那个页面，就像在玩游戏一样。

这其实就是把信息变成了交互。文字只能读，网页可以点。这个差别就像你看菜谱和炒菜。看菜谱你知道步骤，但炒的时候还得自己记。要是一个网页，你炒一步点一下，它告诉你下一步，那就轻松多了。

第三步从网页到更酷的玩法

网页只是第一步。我跟AI玩久了，发现它还能直接输出幻灯片。你让它“用HTML格式输出一套五页的幻灯片，每页一个观点”，它真的会给你一个网页，长得像PPT一样，一页一页的，还能点箭头切换。你把这个文件发给同事，人家还以为你用专业工具做的。

甚至你可以让它做小动画。比如你让它“做一个圆球从左边滚到右边的小动画，用HTML格式”。它会给你一段代码，你打开浏览器，真有一个球在动。虽然就几秒钟，但那个感觉特别神奇。你一句话就让AI给你写了个动画片。

这些事的共同点是：AI输出的不再是需要你费力解读的符号，而是可以直接看、直接点的界面。你从“阅读者”变成了“观看者”甚至“玩家”。你的大脑负担一下子就小了。

我有一个朋友是做培训的。他让AI生成一个“课堂提问计时器”的网页。打开之后有个大按钮，写着“开始计时”，点一下倒计时三十秒，时间到了屏幕变红。他上课的时候就用这个，学生回答问题限时三十秒。这个工具要是让他自己编程，得学一两个月。他让AI做，十分钟就搞定了。因为他就说了一句“帮我做一个网页，上面有个大按钮，点一下开始倒计时三十秒，时间到了屏幕变红，用HTML格式”。AI全给他弄好了。

这就像你以前要自己盖房子，现在你只要说“我想住一个朝南的带阳台的房子”，它就给你盖好了。你不懂砌砖抹水泥都没关系。

第四步未来的方向还在往前

现在的AI已经能输出HTML了。下一步它会输出啥？我觉得会是视频。你想想，你让AI“用视频格式解释什么叫黑洞”，它直接给你生成一段三十秒的动画，黑洞怎么把光吸进去都演给你看。那学东西得多快。再下一步可能就是交互式模拟器。比如你学物理，让AI“生成一个可以调节斜面和滑块重量的实验模拟器”，你直接在浏览器里拉滑块，看滑块怎么滑下来。这就不光是看了，还能动手试。

而且交互不只是点鼠标。你对着屏幕指指画画，AI也能看懂。比如你让它做一个“教人修水龙头”的网页。你看到图片里哪个零件不清楚，用手指一下（如果你用的是触屏电脑），或者用鼠标画个圈，AI就该知道你在问那个零件的事。这种指指点点的交流，比打字快多了。你跟身边的人问路不就是一边说一边指吗。

所以现在你跟AI说话，只能动嘴。未来你能动手、动眼、动全身。但现在你就能先动手试试让它输出HTML。这个门槛最低，收益最高。

实际操作时可能遇到的坑

我第一次试的时候也翻了车。AI给我一段代码，我存成点html文件，打开一看，满屏都是代码。啥也没有。后来才发现我复制的时候多复制了AI说的客套话。比如AI会说“好的，这是你要的HTML代码”，后面才是代码。我把那句客套话也存进去了。浏览器不认识中文，就当成普通文字显示了。

正确做法是只复制从小于号感叹号DOCTYPE html大于号开始，到最后的小于号斜杠html大于号结束。中间那一段才是真正的网页代码。你如果不确定，就让AI“只输出HTML代码，不要任何额外的解释”。它会听话的。

还有一个坑是文件后缀。有些电脑默认不显示后缀。你明明存成点html，它实际上还是点txt。你要让电脑显示文件扩展名。Windows系统在文件夹的查看菜单里勾选“文件扩展名”。Mac系统在访达的设置里调。或者你可以直接用浏览器打开这个文件。如果打开显示的是代码，就说明后缀错了。如果显示的是一个正常的网页，说明对了。

拿它来干些正经事

我说几个我常用的场景。做菜的时候，我让AI“把红烧肉的步骤做成一个网页，每一步下面加一个计时器按钮”。每做完一步点一下按钮，它显示用了多久。最后整个网页告诉我总时长。这个比纸菜谱好用多了。

学英语的时候，我让AI“做一个单词卡的网页，每张卡片正面英文反面中文，点击就翻转”。做出来就像真的单词卡一样。我背单词的时候点来点去，效率比翻书高。

给小孩出算术题，我让AI“做一个出题网页，每次刷新出十道二十以内的加减法，底下直接填答案并自动批改”。小孩一做题就停不下来，因为有即时反馈。以前写在纸上，做完还要等家长批改，热乎劲儿早过了。

开会的时候，我让AI“把这一堆讨论内容整理成一个网页，最上面是结论，中间是三个关键问题，下面是每个人的任务”。开会的时候打开这个网页投屏，所有人都看得清清楚楚，不用再问“所以我们要干嘛”这种问题。

这些网页你都可以随便改。你让AI“把背景色改成浅绿色”，它就会给你新的代码。你替换掉旧文件就行。整个过程不学任何编程知识。

最后的总结

这个技巧说白了就是一句话的事。但这句话把AI从“聊天机器人”变成了“设计助手”。你的大脑处理图像比处理文字快得多，所以让AI直接给你图像级的信息输出，你省力，它省事。

你现在就可以试一下。随便找个AI，问它一个问题，末尾加上“用HTML格式输出”。存成文件打开看看。你可能会被那个结果吓一跳，原来AI还能这么玩。等你习惯了，你再回头看那些纯文字的回复，就会觉得“唉，为啥不早点知道这招”。

未来的AI会越来越视觉化、交互化、沉浸化。但今天你就能先用上HTML这个最基础的工具。它不需要任何新设备、新软件，你电脑上现在就有浏览器。浏览器就是最好的播放器。

所以下次你跟AI聊天的时候，别光打字了。让它给你画出来。你负责问，它负责画。这个组合，比你想象的猛得多。