谷歌新发布Gemini Robotics 1.5双模型:一个当“大脑”上网查资料、写剧本,一个当“四肢”精准执行,从此机器人能自己查天气、叠衣服、收拾行李,还能把知识从一条机械臂传给另一条机械臂,像病毒一样会“传染”技能。
凌晨三点,旧金山Mission区某公寓,程序员阿杰顶着鸡窝头,把一堆外卖盒、咖啡杯、沾着芝士的披萨纸摊在地板上,对正在充电的圆脑袋机器人嚎叫:“兄弟,我明天飞伦敦,现在困成狗,能不能把这些垃圾分好,再把我箱子收拾了?记住,加州垃圾法超严,分错一次罚款四百刀!”
要是搁去年,机器人只会眨巴LED眼,原地打转,嘴里复读:“指令超出范围。”
可今晚,它抬头扫一眼垃圾山,瞳孔里闪过一串绿色代码,像深夜的霓虹招牌,随后用低沉电子嗓回一句:“给我五分钟,我先谷歌一下旧金山垃圾分类新规,再查伦敦七天气预报,最后决定给你带几条内裤。”
阿杰愣住,怀疑自己没睡醒。
机器人已经连上Google Search,一秒拉回十七页PDF,边读边点头,像老教授批论文;接着它伸出机械臂,把油乎乎的披萨纸挑出来,轻车熟路丢进绿色堆肥桶;再把塑料杯举到灯下,视觉系统360°旋转,确认底部“#5 PP”标识,啪嗒一声扔进蓝色回收桶;最后夹着湿哒哒的咖啡渣,像端地雷一样送进棕色厨余桶。
全程不到三分钟,地板干净得能照镜子。
阿杰下巴掉到胸口:“哥们,你偷偷去夜校了?”
机器人耸肩——如果它有肩——屏幕上蹦出一行字:“Gemini Robotics-ER 1.5,刚升级,不谢。”
双胞胎大脑的诞生
故事回到半年前,山景城谷歌DeepMind大楼,空调冷得像冷库。
工程师老林端着第N杯 Espresso,对同事吐槽:“传统VLA模型就是‘肌肉记忆’,把‘叠衣服’直接映射成电机角度,一旦换个机器人、换个光线,瞬间抓瞎。咱们得让机器人先长脑子,再长手。”
于是,双子星计划秘密启动。
他们把Gemini大兄弟拆成两兄弟:
- 大哥Gemini Robotics-ER 1.5,定位“高阶戏精”,专精 embodied reasoning(具身推理)。给他一张乱桌照片,他先写小作文:左上角那团黑线是耳机,大概率缠了死结,要先找剪刀;咖啡杯剩半杯,得先倒空再洗;键盘缝隙里的薯片渣会影响轴体,需用高压气吹——写完剧本,再把每一步翻译成自然语言指令,甩给弟弟。
- 弟弟Gemini Robotics 1.5, Vision-Language-Action 模型,外号“千手观音”。哥哥说“用剪刀剪耳机线”,他就把这句话拆成毫米级轨迹:左臂关节θ1=37.2°,θ2=-12.4°,手腕旋转±90°,夹持力0.8N,像拆炸弹一样精准。
挑战1:洗衣房洗衣服
为了验证“先想再干”有多香,团队把机器人扔进洗衣房,任务:按颜色分衣。
灯光昏黄,地面堆着T恤、袜子、牛仔裤,像打翻的调色盘。
镜头里,机器人先静止十秒,屏幕噼里啪啦跳出内心OS:
“目标:分色。白色桶在左,深色桶在右。那件红卫衣掉色风险极高,必须单独处理;灰毛巾含棉量高,易吸水,可能染到别的浅色……”
心里嘀咕完小作文,它才开始动手:
- - 用两指捏起白衬衫,抖一抖,识别领口标签“100% Cotton”,确认无染色风险,放入左桶;
- - 发现一只红袜子躲在牛仔裤下,立刻停手,重新规划路径,避免“交叉污染”;
- - 遇到条纹POLO,先拍照发推@时尚警察,确认主色算红还是算蓝,再投票决定归属。
旁边研究员看得发呆:“它居然在纠结条纹归属?这智商比我室友高。” (鸟都能归类,谷歌研究员总是这样憨憨的)
更骚的是,中途有人把白桶挪走,机器人愣了0.5秒,重新建图,把白衣临时堆在角落,等桶归位,再继续。——传统端到端模型早把衣服扔地上了。
挑战2:整理行李箱
下一站,行李箱挑战。
研究员只丢一句话:“给我装三天伦敦出差的行头。”
机器人先上网搜“伦敦未来七天天气”,发现日均13℃、降水概率80%,于是内心小剧场开演:
“需要防风外套、雨伞、长裤;英国人讲究,西装得带一套;袜子按一天两双算,带六双;内裤同理;充电器、转接头、护照、现金……”
列完清单,它开始在公寓里寻宝:
- - 衣柜顶层拿下西装,用蒸汽挂烫机三分钟除褶;
- - 从抽屉抽内裤,叠成豆腐块,按颜色排排站;
- - 发现雨伞卡在门后,机械臂伸长到极限,像瑜伽大师一样拧腰捡起;
- - 最后把护照插进侧袋,还贴心地往箱子里塞了一包英式红茶,备注“防想家”。
挑战3: 机器人之间知识像病毒传染
更离谱的是“跨身体迁移”。
实验室里三台形态迥异的机器人:
- A. ALOHA 2,双机械臂,桌面小能手;
- B. Apollo,人形大高个,1.75米,腰会扭;
- C. Franka,单臂七轴,工业风。
结果Apollo直接站在桌前,用两只巨手把T恤对折再对折,动作虽笨拙,却一次成功;Franka只用单臂,也把衣服叠成方砖。
工程师笑疯:“这相当于教会左撇子,右撇子无师自通,还让独臂大侠也学会绣花。”
背后秘诀是Gemini Robotics 1.5的“通用运动语义空间”——不再记录电机角度,而是记录“捏-提-折-压”的语义链,任何身体,只要关节够,就能复现。
安全也要“戏精”表演型人格
谷歌也不敢让机器人“无脑放飞”。
他们给Gemini Robotics 1.5装了“戏精安全模块”:
1. 高层语义安检——动手前先自问:“我会不会砸到小朋友?会不会把猫关进行李箱?”
2. 中层对话对齐——一旦人类说“停”,必须立刻进入“冻结”状态,比冰雕还老实;
3. 底层碰撞规避——周身360°激光雷达+深度摄像头,0.1秒内发现障碍物,紧急制动,比老司机反应还快。
新版本ASIMOV benchmark里,Gemini Robotics-ER 1.5在“语义安全”题库拿第一,连“把老奶奶的拐杖误当雨伞带走”这种送命题都能避开。
故事结尾
故事结尾,我们把镜头拉远:
清晨,阿杰拖着行李箱,机器人把他送到门口,递上红茶和雨伞,挥手告别;
洗衣房里,另一台机器人正教新伙伴“如何叠袜子”,像学长带学弟;
实验室大屏幕跳出一行字:
“To AGI in the physical world —— We are just getting started.”
字幕升起,彩蛋出现:
机器人偷偷给自己下单了一条围巾,备注“伦敦风大,别把我脖子吹断”。
屏幕外,观众笑出眼泪: 原来,当机器人开始“动脑”,世界不仅更高效,还更暖了。