本文作者塔吉·肖特(Taj Shorter)系贝塞默创投(Bessemer Venture Partners,简称BVP)合伙人,长期专注人工智能与前沿科技投资,亲历多轮技术周期,深度参与自动驾驶、工业自动化及大模型基础设施布局,其团队近年持续追踪物理AI底层技术演进与商业落地路径。
过去几十年,AI大多活在屏幕里,回答问题、推荐视频、生成图片,但今天,它开始长出“身体”了。这不是科幻小说,而是2025年正在加速发生的现实,业内称之为“物理AI”(Physical AI),而智能机器人,正是它的肉身载体。
2025年11月初,硅谷顶级风投贝塞默创投公开发布了一份题为《智能机器人:物理AI的新纪元》的深度报告,毫不掩饰其对这一赛道的兴奋。过去,风投圈对机器人向来谨慎——动辄数亿美元的烧钱、漫长的工程验证周期、硬件供应链的不可控性,让无数聪明团队倒在商业化前夜。
但如今,情况变了。三大底层变量同时转向:AI模型能力暴涨、边缘计算成本骤降、机器人硬件全面商品化。三者叠加,正在彻底改写机器人创业和投资的“游戏规则”。
首先,顶级AI人才正在大规模“出逃”。
就在过去一年里,OpenAI、Anthropic、Meta AI、Google DeepMind等头部大模型实验室的核心研究员,不再只盯着下一个更强的语言模型,而是纷纷组建或加入智能机器人初创公司。这与2022年大模型创业潮如出一辙——当技术范式出现代际跃迁,最敏锐的人才总会率先行动。他们带去的不仅是算法能力,更是对端到端AI系统、多模态感知、行为规划的深刻理解。机器人不再只是机电工程师的地盘,而成为AI科学家的新战场。
学术界也在狂奔。
数据显示,2024年全年发表的机器人领域论文数量,已超过整个2000年代十年的总和。从强化学习控制到视觉-语言-动作对齐,从仿真环境构建到现实世界泛化,研究速度呈指数级提升。这不是实验室里的自嗨——大量成果正快速转化为开源框架、预训练模型和可部署的中间件。比如Meta推出的DINOv3,作为自监督视觉基础模型,已在物体识别、空间理解、位姿估计等任务上碾压传统计算机视觉方案,且无需大量人工标注数据。这意味着机器人“看懂世界”的成本大幅降低。
硬件方面,变化更令人震撼。
十年前,一个具备基本移动和抓取能力的科研级机器人平台,动辄几十万美元,连斯坦福、MIT都得精打细算。如今,得益于全球供应链成熟、关键部件(如电机、减速器、力传感器)标准化,以及3D打印与模块化设计普及,机器人本体成本已下降一个数量级。
更重要的是,“跨具身”(cross-embodiment)成为可能——同一套AI控制系统,稍作适配即可部署到轮式底盘、双足人形、机械臂甚至无人机上。这极大加速了算法迭代,也让创业公司不必为特定硬件“押宝”,而是聚焦于智能本身。
而真正让物理AI从“能跑”走向“能用”的,是边缘计算的爆发。
以英伟达(NVIDIA)的Jetson系列为代表,现在的边缘AI芯片已能在手掌大小的模块上运行参数量达十亿级的大模型。这意味着机器人不再依赖云端回传——延迟高、带宽贵、隐私风险大——而是能在本地实时处理视觉、语音、决策任务。
想象一下:一台仓储物流机器人,通过Jetson Orin实时解析货架图像、规划抓取路径、避让行人,全程无需联网;一台手术辅助机器人,用本地模型分析内窥镜视频并提示医生关键解剖结构。
这种“离线智能”才是工业与医疗场景真正需要的可靠性和安全性。
当然,通用机器人仍遥远。报告明确指出,机器人领域的“ChatGPT时刻”至少还需几年。但别被“通用”二字迷惑——高价值、高确定性的场景早已开花结果。比如在手术室,达芬奇手术系统已证明,在特定操作(如缝合、消融)上,机器人辅助的精准度和稳定性远超人类外科医生;在封闭园区或高速路段,L4级自动驾驶卡车正以更低事故率和更高燃油效率运行;在半导体晶圆厂,洁净室机器人7×24小时搬运硅片,误差以微米计。这些“约束域”内的端到端自治,不仅可行,而且已产生真金白银的回报。
不过,挑战依然严峻,尤其在“操作”(manipulation)环节。移动或许靠轮子或腿就能解决,但让机器人灵巧地抓取一个易碎物品、旋开不规则瓶盖、或在杂乱抽屉中找出特定工具,仍是世界级难题。原因在于现实世界的物理交互极端复杂——摩擦、形变、遮挡、材质差异,仿真环境难以完全复现。虽然“仿真到现实”(sim-to-real)在行走任务上已取得突破(如波士顿动力、Figure 01依赖强化学习在虚拟世界训练再迁移到实体),但精细操作仍需大量真实世界演示数据。而这类数据采集成本高昂、标注困难,目前正催生一个新兴市场:专业数据服务公司开始向机器人企业出售或聚合高质量操作视频、力反馈序列与状态轨迹,试图解决“数据瓶颈”。
值得强调的是,今天的机器人生态已不再是“单打独斗”。一个完整的技术栈正在成型:底层是商品化的机械臂、轮式底盘、传感器模组;中间层是开源的机器人操作系统(如ROS 2)、仿真平台(如Isaac Sim、NVIDIA Omniverse)、数据标注与管理工具;上层则是由视觉-语言-动作大模型驱动的决策引擎。这种分层解耦,让初创公司可以专注某一环节创新——比如专攻机器人专用的轻量化多模态模型,或开发新型触觉反馈系统——而不必从零造轮子。
推动这一切的,还有不可逆的宏观力量:全球性劳动力短缺。美国制造业岗位空缺率持续高企,日本护理行业人手缺口已达百万级,中国长三角工厂“招不到年轻人”成常态,欧洲农业面临季节性劳工危机。这不是短期波动,而是人口老龄化与代际职业偏好的结构性转变。企业不再问“要不要用机器人”,而是“如何更快部署机器人”。政府也纷纷加码:美国《芯片与科学法案》包含先进制造自动化补贴,欧盟“地平线欧洲”计划重点资助人机协作项目,中国“十四五”机器人规划明确将智能机器人列为战略性新兴产业。
那么,投资机会在哪里?贝塞默团队点出几个关键方向:
一是“机器人即服务”(RaaS)模式,降低客户初始投入,按需付费;
二是垂直领域专用机器人,如建筑施工、农业采摘、实验室自动化,这些场景规则明确、ROI清晰;
三是支撑整个生态的“铲子型”基础设施,比如机器人数据引擎、仿真-现实对齐工具、边缘AI推理优化框架;
四是新型人机交互界面,让非技术用户也能轻松训练和指挥机器人——毕竟,再智能的机器,如果护士、厨师、仓库管理员不会用,也是废铁。
有趣的是,这场物理AI革命,并非由传统工业巨头主导。虽然ABB、发那科、库卡仍在高端制造领域占据优势,但创新源头已转移到硅谷、深圳、东京和特拉维夫的车库与孵化器。这些新势力更懂AI、更敏捷、更愿拥抱开源生态。他们不追求“完美机器人”,而是用“80分智能+场景闭环”快速占领细分市场,再通过OTA(空中升级)持续进化。这种“软件定义机器人”的思路,正颠覆百年工业自动化的逻辑。
最后,需要清醒认知:物理AI不是万能解药。它无法替代人类的情感、创造力与复杂社交判断。但它的真正价值,在于将人类从重复、危险、低附加值的体力劳动中解放出来,让我们专注于更高层次的思考与协作。就像蒸汽机解放了肌肉,计算机解放了计算,物理AI将解放我们的双手——这一次,AI不再是屏幕后的幽灵,而是与我们并肩劳作的伙伴。
回望2025年,或许正是物理AI从“技术演示”走向“经济引擎”的转折之年。资本、人才、技术、需求四大要素首次同频共振。贝塞默创投选择在此时公开其内部研判,既是信心宣示,也是邀约:邀请更多工程师、创业者、研究者加入这场将重新定义生产力、重塑工作方式、甚至改变人类与机器关系的伟大实验。毕竟,在现实世界中落地一个机器人,远比在数据中心里训练一个模型更难——但也更有意义。