浏览器里能自动干活 自动办公不是梦

美国程序员现在能试用Nova Act SDK预览版,能用上亚马逊的Nova Micro、Lite和Pro语言模型,还有做图(Nova Canvas)和做视频(Nova Reel)的模型。这些模型本来在Amazon Bedrock上就有,但新网站nova.amazon.com用起来更方便。

亚马逊AI大佬Rohit Prasad说:"这个新网站让每个程序员都能轻松玩转亚马逊最牛的AI技术。"

Nova Act SDK能让程序员做出能上网干活的AI助手,类似OpenAI的Operator。亚马逊说这工具能把复杂任务拆成搜索、付款、问答这些简单操作,还能加详细说明让AI更靠谱。

亚马逊表示:我们认为AI助手就是能替人干活、能在电脑和现实世界办事的系统。现在这类助手还处在幼儿园阶段。

这次发布意味着亚马逊也加入了做AI助手的大军,这些AI能在电脑上自动干活。

有些专家觉得这技术可能是AI下一个爆发点:以后AI操作电脑的速度比人快多了,好多办公室工作都要被自动化了。

亚马逊放出更多例子来秀Nova Act的本事,说这系统比现在的更靠谱。
按亚马逊说法,这系统能把复杂活儿拆成简单指令,比如搜东西、付钱、回答屏幕上的问题。程序员能用Playwright工具包加自己的指令、调接口,还能直接操作浏览器。

亚马逊自己测试说,Nova Act在处理选日期、弹窗这些界面操作时,十次能有九次成功。比起Anthropic和OpenAI那些现成的模型,这套系统在ScreenSpot、GroundUI这些测试里表现更好。就算遇到完全没练过的场景——比如浏览器小游戏——Nova Act也能搞定。他们已经把这技术装进Alexa+语音助手了。

Nova Act只是迈向高级AI助手的第一步。他们打算重点用"强化学习"来训练AI适应各种场景,不光靠老办法调教。这思路和OpenAI那个电脑助手CUA差不多,都是靠强化学习来学上网。

现在这些AI还得靠人盯着:做这些系统的公司最终目标是让流程更稳更快,能同时处理好多办公任务。
亚马逊最终想造出能自己搞定多步骤任务的AI,比如策划婚礼或者处理复杂IT问题。演示视频里Nova Act就会在Outlook里设置请假自动回复。