tandem-browser从底层设计成一个“人类与智能体共用浏览器环境”的系统
Tandem Browser是一款本地优先的Electron浏览器,专为与OpenClaw的人工智能协作而构建。
它并不是简单的“在浏览器里加个 AI 助手”,而是从底层设计成一个“人类与OpenClaw共用浏览器环境”的系统。
一、它解决的核心问题
现在很多 AI 自动化工具有一个很尴尬的问题:AI 想操作浏览器,但浏览器是给人设计的。
所以传统方案通常是:
- Puppeteer / Playwright
- headless browser
- remote browser automation
两者是分离的。
而 Tandem 的思路是:人和 AI 用同一个浏览器。
真实的优势在于安全模型。
Tandem在Web内容和代理之间放置了一个完整的安全堆栈:具有域/IP阻止列表的网络屏蔽,扫描POST主体以查找凭据泄漏的出站防护,对运行时脚本的AST级别JavaScript分析,每个选项卡的行为监控,以及将模糊情况呈现给人类而不是默默进行的看门人通道。严格的层分离意味着页面JavaScript不能识别或观察代理层。
这不是你在事后才把它安装到Chrome上的东西。它必须在浏览器中。
人类正常浏览。OpenClaw在127.0.0.1:8765上获得了一个本地API,用于导航、提取、自动化和可观察性。Tandem不是一个通用的“AI浏览器”shell,后来添加了OpenClaw。它是一个OpenClaw优先的浏览器环境,设计成人类和OpenClaw可以在同一台机器上一起浏览。
Tandem由OpenClaw维护者构建,OpenClaw作为主要的AI运行时。
为什么选择Tandem For OpenClaw?
OpenClaw现在可以通过profile="user"连接到您的真实的Chrome会话。Tandem是当它被构建为浏览器而不是从一个浏览器改编时的样子。
使用Tandem,OpenClaw可以:
- 一个从一开始就为同一台机器上的人+代理协作而设计的浏览器
- 250端点本地API,用于选项卡、导航、快照、会话、devtools、网络模拟和受控自动化
- 一个六层安全模型,围绕人工智能可以访问实时网络内容这一事实构建
- 一个浏览器界面,其中人类停留在模糊或危险情况的循环中,具有明确的切换点而不是无声的自动化
- 本地优先工作流,不依赖于远程浏览器供应商或云自动化服务
典型的OpenClaw工作流
当OpenClaw需要多个脚本页面操作时,Tandem是最有用的。
示例如下:
- 跨多个选项卡的研究工作流,其中OpenClaw打开,检查和总结页面,而人类则继续浏览
- SPA检查,OpenClaw使用快照、DOM搜索和网络或devtools表面,而不是仅从原始HTML进行猜测
- 会话感知任务,OpenClaw可以在人类的真实的认证浏览器上下文中运行
- 人在环工作流程,其中验证码、风险操作或不确定情况将呈现给人类,而不是隐藏
Tandem做什么
- 人类+人工智能通过一个本地浏览器会话共享浏览
- 用于选项卡、导航、屏幕截图、内容提取、会话、devtools界面和自动化的本地HTTP API
- 具有多层过滤和查看点的默认安全浏览
- OpenClaw-第一个用于聊天、浏览器控制和本地代理工作流的运行时集成
- 本地优先的会话、历史记录、书签和设置持久性
- Chrome风格的扩展加载和相关的兼容性工作
拆开看看Tandem这个三明治到底怎么做的
Tandem的设计其实就像个三层大汉堡。最上面一层是给咱们人类用的浏览器层,就是你最熟悉的那个样子。你该干嘛干嘛,打开网页,登录你的微信、淘宝,看视频,刷新闻,跟平时一模一样。浏览器的所有功能都在,多标签页、书签、历史记录,一个都不少。这一层是咱们的大本营,是你熟悉的世界。
中间这层,是给AI住的智能体层。
AI怎么控制浏览器呢?它不走寻常路,它通过一个藏在你电脑里的秘密通道,也就是一个本地API接口。比如说你电脑上有个叫http://127.0.0.1:8765的地址,AI就守在那儿等着。这个接口可不得了,它一口气给AI开放了大概250个操作命令!你可以把这些命令想象成给AI准备的超级游戏手柄。
这个手柄上有各种按键,有的叫“打开新标签页”,有的叫“跳到百度首页”,有的叫“扫描当前页面的所有文字”,有的叫“截个屏给我看看”,还有的叫“监控一下这个网页发出了什么网络请求”。AI就拿着这个手柄,在你电脑背后“咔咔咔”一顿操作。比如它想帮你查资料,就会按一下“打开标签页”按键,再按一下“导航到知乎”按键,然后按一下“截取页面快照”按键,分析完内容后,再按一下“在新标签页打开链接”按键。
而且最骚的是,这一切都是在你的眼皮子底下发生的,就在你的真实浏览器里!你看着AI像个小助手一样,自己打开新标签页,自己搜索,自己浏览,这感觉就像你养了一只电子宠物,它终于学会自己上网冲浪了!
把AI放家里,总得装个防盗门吧
最下面这一层,是这整个项目最精华、最刺激的部分,也是让我觉得这团队脑子真的清醒的地方。你想啊,你把AI放进你的真实浏览器里,这意味着什么?这意味着AI能接触到你的所有隐私!你的登录状态、你的cookies、你的密码、你在淘宝买的那些奇奇怪怪的东西。更要命的是,万一AI访问了一个恶意网站,那个网站反过来攻击AI怎么办?让AI帮你把银行卡密码套出来?那可真是引狼入室了!所以Tandem做了一个超牛逼的多层安全系统,就像给AI装了个360度无死角的防盗门。
这套系统里有什么狠货呢?
首先是个网络保镖,有个专门的黑名单,里面记着哪些网站是“问题分子”,AI一律不许去。然后是邮件扫描仪,AI发的每一个网络请求,尤其是那种提交表单的POST请求,它都要扫描一遍,看看有没有把你们的登录令牌、cookies、密码这些东西偷偷发出去。
再然后是个代码分析员,它会分析网页里的JavaScript代码,看看这些代码有没有在搞什么小动作,比如试图探测AI的存在。还有个行为监控器,实时盯着AI的举动,如果发现它操作速度异常快,像个自动化脚本,就会发出警报。
最厉害的是,有个“人类审批机制”。当AI要进行一些高危操作时,比如要转账、要删除文件、要下单买东西,它会停下来,弹出一个窗口:“主人,这里有个危险动作,请您确认一下,同意了我再继续。”这就保证了最终的决策权永远在你手里。而且所有网页里的JavaScript,都无法感知到AI层的存在,这就从根本上杜绝了网页反向攻击AI的可能性。这套安全设计,看得我直呼内行,这才是对用户负责的态度啊!
左边挂着QQ,右边站着AI,这浏览器比瑞士军刀还全能
说完里子,咱们再来看看Tandem的面子,也就是它的界面设计。
这浏览器的UI,那也是相当有性格。左边有个常驻的侧边栏,你打开一看,好家伙,这是把整个社交圈都搬进来了啊!Telegram、WhatsApp、Discord、Slack、Gmail、日历、Instagram、X(也就是以前的推特)。而且每个应用都有自己的独立登录态,你完全不用担心在浏览器里登录了工作用的Slack,再去登个人的WhatsApp会串号。这种感觉有点像Arc浏览器,又有点像Shift,还带点工作台的意思,把所有需要的东西都给你集中到一块儿,不用再来回切换应用了。
右边呢,则是一个叫Wingman的面板,也就是副驾驶。这就是AI的大本营。这里面东西可多了,有AI聊天框,你可以随时跟它唠嗑;有AI的行为日志,它每一步操作了什么,都有详细记录,方便你监督;还有当前页面的实时截图,AI看着图跟你交流,就不会发生“你帮我点一下那个红色的按钮”然后它点错了的尴尬;还有一个Agent context,也就是AI的思考背景板,它会记录当前任务的上下文信息。有了这个Wingman面板,AI就可以随时看着你的屏幕,你搜索什么,它看什么,然后给你提供建议,或者干脆说“这事儿交给我了”,然后自己动手操作起来。这种感觉就像你打游戏时,旁边坐了个大神,一边看你操作,一边给你支招,关键时刻还能接过手柄帮你通关!
AI给我打工的那些名场面,想想都美得冒泡
说了这么多,这玩意儿到底能用来干嘛?给你描绘几个让人心动的名场面。
第一个是AI研究员。你是一个学生或者研究员,需要写一篇关于某个课题的论文。以前你得自己打开几十个网页,一个一个看,然后总结,累得跟狗一样。现在好了,你只需要跟AI说:“帮我查一下这个课题,打开前20篇相关的论文网页,把每篇的摘要提取出来,做个对比表格,最后再给我写个1000字的综述。”然后你就可以悠闲地喝着咖啡,看着AI在你的浏览器里噼里啪啦一顿操作,自动打开新标签页,自动跳转,自动复制摘要,自动整理成表格。而你在这个过程中,还可以继续在另一个标签页里刷B站,美滋滋。
第二个名场面是登录态自动化。这绝对是上班族的福音!AI可以利用你已经登录的会话,去执行任务。比如你上班打开浏览器,登录了公司邮箱和Slack。然后你可以跟AI说:“帮我去Gmail里检查一下有没有来自老板的重要邮件,有的话提炼一下核心内容。然后再去Slack里,看看研发组今天有没有关于项目进度的新消息。最后再去Jira里,把我负责的那个任务的bug列表拉出来。” AI接到指令,直接在你已经登录的标签页里操作,根本不需要再输密码,也不需要再收验证码。因为AI用的就是你的真实身份,它就像你的影子,在你授权的范围内替你跑腿,效率简直起飞!
第三个名场面是SPA调试。如果你是个程序员,你肯定懂。在调试那些复杂的单页应用时,传统方案里AI只能看到静态的HTML,根本不知道背后的JavaScript状态是什么。但在Tandem里,AI可以直接调用DevTools,也就是浏览器的开发者工具!它可以观察网络请求,分析React组件的状态,查看数据流,就像个真正的调试大师一样。想象一下,你跟AI说:“我网站有个bug,你帮我看看为什么这个按钮点了没反应?” AI立刻打开DevTools,监控点击事件,分析网络请求,然后告诉你:“哦,是因为发送请求时,这个参数传错了。” 这简直是程序员的超级外挂!
第四个名场面是人类在环里的安全模式。这也是我最喜欢的一点。当AI遇到验证码,尤其是那种扭曲的文字或者点图的时候,它不会傻乎乎地乱猜,而是停下来找你:“主人,这有个验证码,我看不懂,您帮我过一下呗?”当你遇到要转账给一大笔钱,或者要永久删除一个文件时,AI会立刻警觉,暂停操作,弹出确认框:“这可是个大操作,您确定要这么做吗?我建议您再想想。” 这种human-in-the-loop的设计,既保证了效率,又守住了安全的底线,可以说是非常贴心了。