机器人谷歌Gemini Robotics 1.5开始动脑


谷歌新发布Gemini Robotics 1.5双模型:一个当“大脑”上网查资料、写剧本,一个当“四肢”精准执行,从此机器人能自己查天气、叠衣服、收拾行李,还能把知识从一条机械臂传给另一条机械臂,像病毒一样会“传染”技能。

凌晨三点,旧金山Mission区某公寓,程序员阿杰顶着鸡窝头,把一堆外卖盒、咖啡杯、沾着芝士的披萨纸摊在地板上,对正在充电的圆脑袋机器人嚎叫:“兄弟,我明天飞伦敦,现在困成狗,能不能把这些垃圾分好,再把我箱子收拾了?记住,加州垃圾法超严,分错一次罚款四百刀!”  
要是搁去年,机器人只会眨巴LED眼,原地打转,嘴里复读:“指令超出范围。”  
可今晚,它抬头扫一眼垃圾山,瞳孔里闪过一串绿色代码,像深夜的霓虹招牌,随后用低沉电子嗓回一句:“给我五分钟,我先谷歌一下旧金山垃圾分类新规,再查伦敦七天气预报,最后决定给你带几条内裤。”  
阿杰愣住,怀疑自己没睡醒。  

机器人已经连上Google Search,一秒拉回十七页PDF,边读边点头,像老教授批论文;接着它伸出机械臂,把油乎乎的披萨纸挑出来,轻车熟路丢进绿色堆肥桶;再把塑料杯举到灯下,视觉系统360°旋转,确认底部“#5 PP”标识,啪嗒一声扔进蓝色回收桶;最后夹着湿哒哒的咖啡渣,像端地雷一样送进棕色厨余桶。  
全程不到三分钟,地板干净得能照镜子。  
阿杰下巴掉到胸口:“哥们,你偷偷去夜校了?”  

机器人耸肩——如果它有肩——屏幕上蹦出一行字:“Gemini Robotics-ER 1.5,刚升级,不谢。”  

双胞胎大脑的诞生
故事回到半年前,山景城谷歌DeepMind大楼,空调冷得像冷库。  
工程师老林端着第N杯 Espresso,对同事吐槽:“传统VLA模型就是‘肌肉记忆’,把‘叠衣服’直接映射成电机角度,一旦换个机器人、换个光线,瞬间抓瞎。咱们得让机器人先长脑子,再长手。”  
于是,双子星计划秘密启动。  

他们把Gemini大兄弟拆成两兄弟:  

  • 大哥Gemini Robotics-ER 1.5,定位“高阶戏精”,专精 embodied reasoning(具身推理)。给他一张乱桌照片,他先写小作文:左上角那团黑线是耳机,大概率缠了死结,要先找剪刀;咖啡杯剩半杯,得先倒空再洗;键盘缝隙里的薯片渣会影响轴体,需用高压气吹——写完剧本,再把每一步翻译成自然语言指令,甩给弟弟。  
  • 弟弟Gemini Robotics 1.5, Vision-Language-Action 模型,外号“千手观音”。哥哥说“用剪刀剪耳机线”,他就把这句话拆成毫米级轨迹:左臂关节θ1=37.2°,θ2=-12.4°,手腕旋转±90°,夹持力0.8N,像拆炸弹一样精准。  
两兄弟每晚在云端对练:哥哥负责“脑洞”,弟弟负责“手活”,十万次模拟后,他们学会了一件事——先想,再干。  

挑战1:洗衣房洗衣服
为了验证“先想再干”有多香,团队把机器人扔进洗衣房,任务:按颜色分衣。  
灯光昏黄,地面堆着T恤、袜子、牛仔裤,像打翻的调色盘。  
镜头里,机器人先静止十秒,屏幕噼里啪啦跳出内心OS:  
“目标:分色。白色桶在左,深色桶在右。那件红卫衣掉色风险极高,必须单独处理;灰毛巾含棉量高,易吸水,可能染到别的浅色……”  

心里嘀咕完小作文,它才开始动手:  

  • - 用两指捏起白衬衫,抖一抖,识别领口标签“100% Cotton”,确认无染色风险,放入左桶;  
  • - 发现一只红袜子躲在牛仔裤下,立刻停手,重新规划路径,避免“交叉污染”;  
  • - 遇到条纹POLO,先拍照发推@时尚警察,确认主色算红还是算蓝,再投票决定归属。  

旁边研究员看得发呆:“它居然在纠结条纹归属?这智商比我室友高。”  (鸟都能归类,谷歌研究员总是这样憨憨的)

更骚的是,中途有人把白桶挪走,机器人愣了0.5秒,重新建图,把白衣临时堆在角落,等桶归位,再继续。——传统端到端模型早把衣服扔地上了。  

挑战2:整理行李箱
下一站,行李箱挑战。  

研究员只丢一句话:“给我装三天伦敦出差的行头。”  
机器人先上网搜“伦敦未来七天天气”,发现日均13℃、降水概率80%,于是内心小剧场开演:  
“需要防风外套、雨伞、长裤;英国人讲究,西装得带一套;袜子按一天两双算,带六双;内裤同理;充电器、转接头、护照、现金……”  

列完清单,它开始在公寓里寻宝:  

  • - 衣柜顶层拿下西装,用蒸汽挂烫机三分钟除褶;  
  • - 从抽屉抽内裤,叠成豆腐块,按颜色排排站;  
  • - 发现雨伞卡在门后,机械臂伸长到极限,像瑜伽大师一样拧腰捡起;  
  • - 最后把护照插进侧袋,还贴心地往箱子里塞了一包英式红茶,备注“防想家”。  
研究员翻着箱子,感动到想哭:“我亲妈都未必记得带红茶。”  (谷歌研究员都是妈宝理工男吗?)

挑战3: 机器人之间知识像病毒传染
更离谱的是“跨身体迁移”。
 
实验室里三台形态迥异的机器人:  

  • A. ALOHA 2,双机械臂,桌面小能手;  
  • B. Apollo,人形大高个,1.75米,腰会扭;  
  • C. Franka,单臂七轴,工业风。  
训练时只让ALOHA学“叠短袖”,学成后,把权重往云端一传,Apollo和Franka同步下载。  

结果Apollo直接站在桌前,用两只巨手把T恤对折再对折,动作虽笨拙,却一次成功;Franka只用单臂,也把衣服叠成方砖。  

工程师笑疯:“这相当于教会左撇子,右撇子无师自通,还让独臂大侠也学会绣花。”  

背后秘诀是Gemini Robotics 1.5的“通用运动语义空间”——不再记录电机角度,而是记录“捏-提-折-压”的语义链,任何身体,只要关节够,就能复现。  

安全也要“戏精”表演型人格
谷歌也不敢让机器人“无脑放飞”。  
他们给Gemini Robotics 1.5装了“戏精安全模块”:  
1. 高层语义安检——动手前先自问:“我会不会砸到小朋友?会不会把猫关进行李箱?”  
2. 中层对话对齐——一旦人类说“停”,必须立刻进入“冻结”状态,比冰雕还老实;  
3. 底层碰撞规避——周身360°激光雷达+深度摄像头,0.1秒内发现障碍物,紧急制动,比老司机反应还快。  

新版本ASIMOV benchmark里,Gemini Robotics-ER 1.5在“语义安全”题库拿第一,连“把老奶奶的拐杖误当雨伞带走”这种送命题都能避开。  

故事结尾
故事结尾,我们把镜头拉远:  
清晨,阿杰拖着行李箱,机器人把他送到门口,递上红茶和雨伞,挥手告别;  
洗衣房里,另一台机器人正教新伙伴“如何叠袜子”,像学长带学弟;  
实验室大屏幕跳出一行字:  
“To AGI in the physical world —— We are just getting started.”  
字幕升起,彩蛋出现:  

机器人偷偷给自己下单了一条围巾,备注“伦敦风大,别把我脖子吹断”。  

屏幕外,观众笑出眼泪:  原来,当机器人开始“动脑”,世界不仅更高效,还更暖了。