AI基础设施、芯片和机器人

星载推理：一颗卫星正运行谷歌Gemma 3视觉语言模型

#本地小语言模型 #AI基础设施 #物理前沿 #机器人

2026-06-21 4K banq

运行谷歌 Gemma 3 视觉语言模型的卫星在进行星载推理，而无需先将所有数据下传。

Loft Orbital 公司的 YAM-9 卫星搭载了 Gemma 3 系统，据报道这是首个部署在轨的视觉语言模型。与将每张图像都传输到地面进行分析不同，该卫星会对在太空中观测到的信息进行推理，并决定哪些信息值得发送。

实际优势在于带宽和延迟：下行链路窗口稀缺且成本高昂，因此，能够自主识别和优先处理任务的卫星将改变哪些任务值得占用无线电时间，这是一种新的边缘推断，这个边缘恰好位于近地轨道。

一颗卫星学会了自己找东西！2026年4月，YAM-9卫星在轨道上首次独立完成目标识别任务，无需地面人员帮忙。
这事意外之处在于：太空里跑了个大模型，用的还是市面上的现成货，而这玩意儿打开的门，可能比大多数人想的要大得多。

卫星学会了自己找东西

一颗地球观测卫星，在距离地面几百公里的轨道上，自己找到了它要找的东西。没有地面分析师瞪大眼睛盯着屏幕，没有一堆人围着数据折腾，它自己搞定了。这事发生在2026年4月，主角是一颗叫YAM-9的卫星，它干的事听起来像是科幻片里才会出现的桥段。

传统卫星的工作模式挺笨的。它们在天上飞，拿传感器一通狂拍，然后把海量数据打包扔回地面。地面的分析师们等着接收数据，再靠机器学习算法或者肉眼一张张看图，判断到底拍到了啥玩意。这过程效率不高，毕竟数据量大得吓人，分析师们光看照片看到眼瞎也不一定能及时找到关键信息。

YAM-9玩了个新花样。它上面搭载了一套名叫NAVI-Orbital的软件包，由NASA喷气推进实验室（JPL）那帮人开发的。这软件包驱动着谷歌DeepMind的Gemma 3视觉语言模型（VLM），让卫星能直接理解自然语言指令，然后自己对着拍到的图像找东西。研究人员说一句“识别自然环境与人类建设活动的交界区域”，或者“找找铁路枢纽周边的基础设施”，卫星就自己开干，完事把结果报回来。

Gemma 3这模型有个特点，它不是那种需要超级计算机才能跑的庞然大物。它天生就是给边缘计算场景用的，能跑在资源有限的硬件上。卫星上的计算环境跟地面数据中心比，那简直是破烂不堪，但Gemma 3能在那种环境里跑起来，这本身就把视觉语言模型“体积大、吃资源”的刻板印象给砸了。

这事在2026年4月16日发生，是已知的第一次有人把视觉语言模型扔到轨道上干活，还成功了。

传统卫星的笨办法该扔了

卫星在天上干活，过去的做法基本是“拍完再说”。传感器不管拍到啥，先存着，等经过地面站上空的时候一股脑往下扔。数据传到地面之后，分析师们再开始痛苦的筛选过程，拿算法跑，用肉眼找，从中扒拉出有用的信息。

这个模式的毛病在于，卫星拍下来的东西绝大部分其实没啥用，至少对于特定的任务来说没啥用。一堆云层照片、一大片没啥变化的海洋、一成不变的荒漠，真正有价值的可能就藏在几张图里。但为了这几张图，分析师得处理整个数据洪流。带宽是有限的，传数据还慢，等地面分析出结果，黄花菜都凉了。

Loft Orbital的AI老大Paul Lasserre打了个比方，说现在有了视觉语言模型，就能在太空里建立一种“常开、巡逻式”的监测层。你可以跟卫星说“帮我盯着这条边境线，有可疑情况告诉我”，卫星自己在那琢磨啥叫“可疑”，然后跟你来回沟通。这相当于把数据分析的工作从地面搬到了天上，卫星自己先筛一遍，只把有用的结果或者关键信息传回来，带宽占用和地面分析工作量都大幅减少。

NAVI-Orbital在轨道上用硬件加速的GPU跑推理，处理的是YAM-9自己拍的新鲜图像，事先没做过针对性的微调，就这么零样本直接上。这相当于证明了一件事：卫星边上那点可怜的算力，真能跑得动大模型。

硬件和软件怎么凑一块的

YAM-9这颗卫星，是Loft Orbital公司的产品。这家公司的商业模式不像传统卫星制造商那样造一颗卖一颗，它更像搞基础设施即服务的。卫星是个平台，第三方客户可以在上面部署自己的载荷和软件。YAM-9是2025年秋天发射的，主要任务就是给Loft的在轨AI项目当探路先锋。

这颗卫星上带了块关键的芯片，英伟达的Jetson Orin AGX GPU。这芯片在太空计算领域算是一线选手了，虽然跟地面数据中心那种动不动几百瓦功耗的大家伙没法比，但在太空里，功耗、体积、抗辐射能力都比算力本身更金贵，Jetson Orin算是平衡得不错的选择。

有了硬件，还得有软件。JPL的Juan Delfa Victoria带着团队搞了NAVI-Orbital软件包。这玩意说白了就是个“马鞍”，把Gemma 3这匹现成的马给套到YAM-9这辆车上。Gemma 3本身是市面上的现成货，不是专门为太空定制的。软件工程师们得想办法精简依赖库、压缩内存占用，让这模型能在太空那种资源受限的环境下跑得起来。

JPL那帮人搞NAVI-Space的初衷其实挺有意思。Delfa Victoria和同事Taran Cyriac John一开始想的是给探索月球或者火星的宇航员做个数字助手。宇航员穿着加压服，敲键盘不方便，干点啥都复杂，不如搞个像游戏和电影里那种能对话的AI助手。结果这想法最后落到近地轨道上，先让卫星自己学会找东西了。

近期的好处和远期的野心

这事分两步看。眼前的好处很直白，卫星能自己先在轨道上做一轮数据筛选，相当于数据的“初筛”。以前地面分析师得从海量原始数据里捞针，以后可能只需要处理卫星发回来的“针”就行，效率提升立竿见影。

往远了看，这是个“概念验证”，证明在太空里跑更大规模的AI基础设施是可行的。Loft的Lasserre说，既然概念验证已经通过了，接下来就是朝着那个方向走。目标是要建一个卫星星座，保证对地球上任何地点都能实时覆盖。按他的估算，需要50到100颗像YAM-9这样的卫星。Loft目前在轨运营12颗，离目标还有距离，但方向已经定了。

在轨道上部署这些小模型攒下来的经验，比如怎么管理功耗、怎么优化内存使用，这些看起来不起眼但至关重要的工程问题，会直接影响到未来能不能在太空部署更大规模的计算基础设施。

其他玩家也没闲着

YAM-9是第一个公开报道的在轨视觉语言模型案例，但绝对不会是最后一个。Planet Labs的卫星上也搭载了Jetson Orin处理器，目前主要做目标检测这类比较简单的活。不过他们发言人说了，其他AI应用包括视觉语言模型的研究也在推进中。

Kepler Communications手头运营着太空中最大的GPU集群，具体干了些啥不太愿意说。因为跟合作伙伴签了保密协议，他们拒绝透露是不是已经在太空部署了视觉语言模型。不过他们承认，自从1月份那些航天器发射之后，计算环境已经有“好几个没公开的使用案例”了。

国内这边也不甘示弱。之江实验室搞的“三体计算星座”已经实现了星间组网突破，在轨部署了10个人工智能模型和应用，包括80亿参数的天基遥感模型、6亿参数的通义千问大语言模型等，整体在轨算力达到5T OPS，支持1400亿参数模型在轨部署与推理，是目前全球算力规模最大的太空计算星座。中科西光航天也发布了“定量高光谱遥感智算星座”计划，要把高光谱遥感跟星上智能计算深度融合。此外还有用于天文观测的“全变源追踪猎人星座”计划（CATCH），由126颗微型卫星组成X射线观测星座，用于刻画极端宇宙动态全景。

太空算力这赛道，肉眼可见地要卷起来了。

给宇航员当助手的想法挺实在

YAM-9这事的技术根源，其实挺接地气。JPL的Delfa Victoria和Taran Cyriac John当初琢磨的不是什么高大上的卫星自主侦察，而是宇航员的实际困难。月球或者火星上的宇航员，穿着厚重的加压服，连键盘都摸不到，想干点正事各种费劲。他们就想，能不能提供一个像电子游戏和电影里那种能互动的AI助手。

这个想法最终变成了NAVI-Orbital，在近地轨道上先实现了。这中间的跨度挺大的，从帮宇航员按按钮，到让卫星自己看懂图片。不过核心逻辑倒是一脉相承：让人跟机器的交互变得自然，说话就行，不用编程。卫星能听懂“帮我看看这块区域有啥不寻常的”，宇航员也能问“我左手边那个环形山是什么结构”。技术路线没变，只是应用场景从月球表面挪到了几百公里高的轨道上。

别管它叫HAL 9000就行。

总结：一颗搭载现成视觉语言模型的卫星，在轨道上通过本地GPU推理完成了零样本图像分类与自然语言交互，首次验证了在轨自主目标识别能力。这事短期能帮地面分析师省点眼药水，长期看是在给太空里跑大模型铺路。