AI端侧应用、氛围编程

Tandem For OpenClaw：人类与智能体共用浏览器环境

#Chrome浏览器插件扩展 #AI智能体Agent #OpenClaw #系统思维训练指南

2026-03-16 1 5K banq

tandem-browser从底层设计成一个“人类与智能体共用浏览器环境”的系统

Tandem Browser是一款本地优先的Electron浏览器，专为与OpenClaw的人工智能协作而构建。
它并不是简单的“在浏览器里加个 AI 助手”，而是从底层设计成一个“人类与OpenClaw共用浏览器环境”的系统。

一、它解决的核心问题

现在很多 AI 自动化工具有一个很尴尬的问题：AI 想操作浏览器，但浏览器是给人设计的。

所以传统方案通常是：

Puppeteer / Playwright
headless browser
remote browser automation

这些方案的特点是：AI 在一个“虚拟浏览器”里操作人类在另一个浏览器里操作

两者是分离的。

而 Tandem 的思路是：人和 AI 用同一个浏览器。

真实的优势在于安全模型。

Tandem在Web内容和代理之间放置了一个完整的安全堆栈：具有域/IP阻止列表的网络屏蔽，扫描POST主体以查找凭据泄漏的出站防护，对运行时脚本的AST级别JavaScript分析，每个选项卡的行为监控，以及将模糊情况呈现给人类而不是默默进行的看门人通道。严格的层分离意味着页面JavaScript不能识别或观察代理层。

这不是你在事后才把它安装到Chrome上的东西。它必须在浏览器中。

人类正常浏览。OpenClaw在127.0.0.1:8765上获得了一个本地API，用于导航、提取、自动化和可观察性。Tandem不是一个通用的“AI浏览器”shell，后来添加了OpenClaw。它是一个OpenClaw优先的浏览器环境，设计成人类和OpenClaw可以在同一台机器上一起浏览。

Tandem由OpenClaw维护者构建，OpenClaw作为主要的AI运行时。

为什么选择Tandem For OpenClaw？

OpenClaw现在可以通过profile="user"连接到您的真实的Chrome会话。Tandem是当它被构建为浏览器而不是从一个浏览器改编时的样子。

使用Tandem，OpenClaw可以：

一个从一开始就为同一台机器上的人+代理协作而设计的浏览器
250端点本地API，用于选项卡、导航、快照、会话、devtools、网络模拟和受控自动化
一个六层安全模型，围绕人工智能可以访问实时网络内容这一事实构建
一个浏览器界面，其中人类停留在模糊或危险情况的循环中，具有明确的切换点而不是无声的自动化
本地优先工作流，不依赖于远程浏览器供应商或云自动化服务

Tandem和OpenClaw的内置浏览器工具是互补的。使用任何适合任务的工具。

典型的OpenClaw工作流

当OpenClaw需要多个脚本页面操作时，Tandem是最有用的。

示例如下：

跨多个选项卡的研究工作流，其中OpenClaw打开，检查和总结页面，而人类则继续浏览
SPA检查，OpenClaw使用快照、DOM搜索和网络或devtools表面，而不是仅从原始HTML进行猜测
会话感知任务，OpenClaw可以在人类的真实的认证浏览器上下文中运行
人在环工作流程，其中验证码、风险操作或不确定情况将呈现给人类，而不是隐藏

Tandem做什么

人类+人工智能通过一个本地浏览器会话共享浏览
用于选项卡、导航、屏幕截图、内容提取、会话、devtools界面和自动化的本地HTTP API
具有多层过滤和查看点的默认安全浏览
OpenClaw-第一个用于聊天、浏览器控制和本地代理工作流的运行时集成
本地优先的会话、历史记录、书签和设置持久性
Chrome风格的扩展加载和相关的兼容性工作

拆开看看Tandem这个三明治到底怎么做的

Tandem的设计其实就像个三层大汉堡。最上面一层是给咱们人类用的浏览器层，就是你最熟悉的那个样子。你该干嘛干嘛，打开网页，登录你的微信、淘宝，看视频，刷新闻，跟平时一模一样。浏览器的所有功能都在，多标签页、书签、历史记录，一个都不少。这一层是咱们的大本营，是你熟悉的世界。

中间这层，是给AI住的智能体层。

AI怎么控制浏览器呢？它不走寻常路，它通过一个藏在你电脑里的秘密通道，也就是一个本地API接口。比如说你电脑上有个叫http://127.0.0.1:8765的地址，AI就守在那儿等着。这个接口可不得了，它一口气给AI开放了大概250个操作命令！你可以把这些命令想象成给AI准备的超级游戏手柄。

这个手柄上有各种按键，有的叫“打开新标签页”，有的叫“跳到百度首页”，有的叫“扫描当前页面的所有文字”，有的叫“截个屏给我看看”，还有的叫“监控一下这个网页发出了什么网络请求”。AI就拿着这个手柄，在你电脑背后“咔咔咔”一顿操作。比如它想帮你查资料，就会按一下“打开标签页”按键，再按一下“导航到知乎”按键，然后按一下“截取页面快照”按键，分析完内容后，再按一下“在新标签页打开链接”按键。

而且最骚的是，这一切都是在你的眼皮子底下发生的，就在你的真实浏览器里！你看着AI像个小助手一样，自己打开新标签页，自己搜索，自己浏览，这感觉就像你养了一只电子宠物，它终于学会自己上网冲浪了！

把AI放家里，总得装个防盗门吧

最下面这一层，是这整个项目最精华、最刺激的部分，也是让我觉得这团队脑子真的清醒的地方。你想啊，你把AI放进你的真实浏览器里，这意味着什么？这意味着AI能接触到你的所有隐私！你的登录状态、你的cookies、你的密码、你在淘宝买的那些奇奇怪怪的东西。更要命的是，万一AI访问了一个恶意网站，那个网站反过来攻击AI怎么办？让AI帮你把银行卡密码套出来？那可真是引狼入室了！所以Tandem做了一个超牛逼的多层安全系统，就像给AI装了个360度无死角的防盗门。

这套系统里有什么狠货呢？

首先是个网络保镖，有个专门的黑名单，里面记着哪些网站是“问题分子”，AI一律不许去。然后是邮件扫描仪，AI发的每一个网络请求，尤其是那种提交表单的POST请求，它都要扫描一遍，看看有没有把你们的登录令牌、cookies、密码这些东西偷偷发出去。

再然后是个代码分析员，它会分析网页里的JavaScript代码，看看这些代码有没有在搞什么小动作，比如试图探测AI的存在。还有个行为监控器，实时盯着AI的举动，如果发现它操作速度异常快，像个自动化脚本，就会发出警报。

最厉害的是，有个“人类审批机制”。当AI要进行一些高危操作时，比如要转账、要删除文件、要下单买东西，它会停下来，弹出一个窗口：“主人，这里有个危险动作，请您确认一下，同意了我再继续。”这就保证了最终的决策权永远在你手里。而且所有网页里的JavaScript，都无法感知到AI层的存在，这就从根本上杜绝了网页反向攻击AI的可能性。这套安全设计，看得我直呼内行，这才是对用户负责的态度啊！

左边挂着QQ，右边站着AI，这浏览器比瑞士军刀还全能

说完里子，咱们再来看看Tandem的面子，也就是它的界面设计。

这浏览器的UI，那也是相当有性格。左边有个常驻的侧边栏，你打开一看，好家伙，这是把整个社交圈都搬进来了啊！Telegram、WhatsApp、Discord、Slack、Gmail、日历、Instagram、X（也就是以前的推特）。而且每个应用都有自己的独立登录态，你完全不用担心在浏览器里登录了工作用的Slack，再去登个人的WhatsApp会串号。这种感觉有点像Arc浏览器，又有点像Shift，还带点工作台的意思，把所有需要的东西都给你集中到一块儿，不用再来回切换应用了。

右边呢，则是一个叫Wingman的面板，也就是副驾驶。这就是AI的大本营。这里面东西可多了，有AI聊天框，你可以随时跟它唠嗑；有AI的行为日志，它每一步操作了什么，都有详细记录，方便你监督；还有当前页面的实时截图，AI看着图跟你交流，就不会发生“你帮我点一下那个红色的按钮”然后它点错了的尴尬；还有一个Agent context，也就是AI的思考背景板，它会记录当前任务的上下文信息。有了这个Wingman面板，AI就可以随时看着你的屏幕，你搜索什么，它看什么，然后给你提供建议，或者干脆说“这事儿交给我了”，然后自己动手操作起来。这种感觉就像你打游戏时，旁边坐了个大神，一边看你操作，一边给你支招，关键时刻还能接过手柄帮你通关！

AI给我打工的那些名场面，想想都美得冒泡

说了这么多，这玩意儿到底能用来干嘛？给你描绘几个让人心动的名场面。

第一个是AI研究员。你是一个学生或者研究员，需要写一篇关于某个课题的论文。以前你得自己打开几十个网页，一个一个看，然后总结，累得跟狗一样。现在好了，你只需要跟AI说：“帮我查一下这个课题，打开前20篇相关的论文网页，把每篇的摘要提取出来，做个对比表格，最后再给我写个1000字的综述。”然后你就可以悠闲地喝着咖啡，看着AI在你的浏览器里噼里啪啦一顿操作，自动打开新标签页，自动跳转，自动复制摘要，自动整理成表格。而你在这个过程中，还可以继续在另一个标签页里刷B站，美滋滋。

第二个名场面是登录态自动化。这绝对是上班族的福音！AI可以利用你已经登录的会话，去执行任务。比如你上班打开浏览器，登录了公司邮箱和Slack。然后你可以跟AI说：“帮我去Gmail里检查一下有没有来自老板的重要邮件，有的话提炼一下核心内容。然后再去Slack里，看看研发组今天有没有关于项目进度的新消息。最后再去Jira里，把我负责的那个任务的bug列表拉出来。” AI接到指令，直接在你已经登录的标签页里操作，根本不需要再输密码，也不需要再收验证码。因为AI用的就是你的真实身份，它就像你的影子，在你授权的范围内替你跑腿，效率简直起飞！

第三个名场面是SPA调试。如果你是个程序员，你肯定懂。在调试那些复杂的单页应用时，传统方案里AI只能看到静态的HTML，根本不知道背后的JavaScript状态是什么。但在Tandem里，AI可以直接调用DevTools，也就是浏览器的开发者工具！它可以观察网络请求，分析React组件的状态，查看数据流，就像个真正的调试大师一样。想象一下，你跟AI说：“我网站有个bug，你帮我看看为什么这个按钮点了没反应？” AI立刻打开DevTools，监控点击事件，分析网络请求，然后告诉你：“哦，是因为发送请求时，这个参数传错了。” 这简直是程序员的超级外挂！

第四个名场面是人类在环里的安全模式。这也是我最喜欢的一点。当AI遇到验证码，尤其是那种扭曲的文字或者点图的时候，它不会傻乎乎地乱猜，而是停下来找你：“主人，这有个验证码，我看不懂，您帮我过一下呗？”当你遇到要转账给一大笔钱，或者要永久删除一个文件时，AI会立刻警觉，暂停操作，弹出确认框：“这可是个大操作，您确定要这么做吗？我建议您再想想。” 这种human-in-the-loop的设计，既保证了效率，又守住了安全的底线，可以说是非常贴心了。