逛完机器人峰会，巴克莱“泼冷水”： “GPT时刻”还没到，真正商业化还很遥远

华尔街见闻06-09

巴克莱参访波士顿机器人峰会后直言：人形机器人终将到来，但通用自主机器人的时间表远比市场预期保守。安全门槛、硬件瓶颈、数据缺口、算力争夺，四座大山横亘眼前；短期真正确定的机会，藏在仓库、焊接等受控场景的窄任务机器人里。这场革命不是没有，只是比想象中更慢、更贵、更硬。

巴克莱参观完波士顿Robotics Summit & Expo后给人形机器人泼了一盆不算冷、但足够清醒的水：展示机、原型机、单任务机器人越来越多，行业也接受“AI要进入物理世界”这条路线；但要把完全自主、通用型人形机器人放到人类环境里大规模工作，时间表没有那么近。

据追风交易台，巴克莱主题投资分析师William Thompson在6月8日的研报告中写道，人形机器人会来，但真正的问题是何时、以多大规模到来。短期更确定的方向，是焊接、物流等受控场景里的单任务或多任务机器人；难度最高的通用人形机器人，还卡在安全、硬件、感知、数据和算力几道门槛前。

这也解释了为什么很多公司仍停留在试点阶段。机器人不仅要能动，还要在复杂环境中可靠地动；不仅要会识别物体，还要把识别转化为低延迟动作；不仅要训练模型，还要拿到足够的真实世界数据。与此同时，不少人形机器人公司开始纵向整合硬件制造，自己做电机、执行器，或借助汽车供应链压成本、保交付。

先落地的不是“通用人形”，而是窄任务机器人

短期部署更容易发生在受控环境：仓库、工厂、焊接、物流。这些场景目标清晰、路径相对固定、意外情况可控，机器人不必像人一样理解整个世界，只要完成有限任务。

通用人形机器人的难点不在演示，而在真实环境的长尾问题。地面不平、物品摆放混乱、人员移动、光线变化、布局不标准，这些都可能让机器人失效。工厂和仓库的失误后果通常低于公共道路，这让企业更愿意尝试“不完美但可监督”的系统，但这并不等于可以跳过安全和可靠性。

自动驾驶的经验被反复拿来类比。自动驾驶从早期乐观预期走向更广泛部署，经历了十年级别的安全审查、监管摩擦和公众信任重建。人形机器人也可能先经历一段“人在回路”的阶段：人类远程监督，必要时接管，让系统在真实场景里积累数据。

安全不是附加项，而是能否规模化的前置条件

传统工业机器人常被关在笼子里，执行编程好的动作；人形机器人则被设计成进入人类活动区域。这个变化把问题从“机器能不能完成动作”，推到“机器出错时谁承担后果”。

可靠性直接关系商业价值。机器人如果频繁停机，工厂损失的不只是设备效率，还有产线稳定性和员工信任。框架中提到，AI有望把可靠性从约85%提升到95%以上，但对很多工业场景来说，95%仍可能不够。越接近真实生产，容错率越低。

安全还包括网络安全。人形机器人本质上是联网的软件定义系统，集成传感器、执行器、AI模型和持续连接。一旦被非法访问、模型被篡改、数据被污染，问题就不只是IT事故，而可能变成物理世界里的运营风险。企业采用之前，会要求系统具备安全架构、更新机制和故障保护。

Physical AI 还没有自己的“GPT时刻”

大语言模型的爆发，有GPT-3这样的标志性时刻，也有更早的Transformer架构和自注意力机制打底。机器人领域还没有类似突破：一个能让机器在多环境、多任务、长尾场景中稳定感知、计划并行动的通用架构。

人类觉得简单的事情，机器往往最难。感知、导航、抓取、平衡，对人来说近乎本能，对机器人却是复杂工程。这正是莫拉维克悖论：逻辑推理、下棋这类人类觉得难的任务，算法可以做得很好；而人类儿童轻松完成的运动和感知，自动化极其困难。

行业正在尝试几条路径。其一是快慢系统：低延迟控制器负责反射式动作，高层模型负责规划和长期推理。其二是强化学习，让机器人通过试错改进控制策略。其三是VLA模型，即视觉-语言-动作模型，把视觉观察和语言指令转化为动作输出，让机器人理解“拿起红色杯子”这类指令并执行。

长期目标是机器人世界模型：一个系统能跨任务、跨环境，甚至跨不同机器人身体迁移能力。问题是，物理世界比文本世界麻烦得多。模型不仅要懂，还要在低延迟、低功耗、可控风险下动起来。

最大的数据缺口，是缺少“机器人视角”的世界

文本和图像模型吃的是互联网数据。机器人没有这样的资源库。YouTube上有大量人类活动视频，但缺少关节运动、执行器命令、传感器反馈这些关键运动学信息，不能直接教机器人如何与物理世界互动。

自动驾驶有一个独特优势：数以百万计的汽车可以在公共道路上采集数据。通用人形机器人现在做不到。真实机器人采数慢、贵、风险高，即便远程操作，每台机器每天能运行的小时数也有限，一次严重摔倒或碰撞就可能带来硬件损坏和停机。

仿真和数字孪生因此变得重要。开发者可以让成千上万个虚拟机器人并行练习，在不同地形、光照和任务中生成数据。它的价值更像“80/20”：先用仿真快速覆盖大量场景，再把有限的真机测试留给最难的部分。

但仿真到现实仍有缺口。机器人在虚拟环境里学会的动作，到了真实世界还需要校准和微调。特斯拉的Optimus路径就是一个例子：利用自动驾驶仿真经验训练人形机器人，马斯克还描述过“Optimus Academy”的设想，让数万台实体机器人在受控设施中训练，同时配合数百万台仿真机器人运行。

算力竞争会从数据中心打到每台机器人身上

Physical AI 对算力的需求分三层。

第一层是仿真算力。训练人形机器人需要大规模物理仿真和数字孪生，尤其是并行运行大量虚拟机器人，用于生成合成数据和强化学习。这会消耗AI数据中心资源。

第二层是基础模型训练。VLA模型需要融合视觉、语言、传感器输入并输出动作计划，参数规模可达100亿至200亿级别，训练周期长、GPU消耗高。人形机器人发展越快，与其他AI工作负载争夺算力的压力越大。

第三层是机器人本体上的边缘算力。部署后的机器人不能把所有决策都丢给云端。保持平衡、避障、抓取，往往需要几十毫秒内响应，大模型必须被压缩、蒸馏或重新设计，才能在电池供电的硬件上运行。NVIDIA的开放VLA模型GR00T N1.6约30亿参数，体现的就是“小型化、可部署”的方向。

这会同时推高两类需求：云端GPU用于训练和仿真，低功耗边缘硬件用于机器人本地推理。单台人形机器人的感知堆栈成本可达约2万美元，这个数字本身就说明，算力不是软件公司的边际成本问题，而会落进每台机器的BOM里。

硬件才是最慢的那条腿

软件可以快速迭代，硬件不行。电机、执行器、传感器、手部结构、电池系统，都要经过设计、供应、制造、装配和反馈周期。没有足够安全可靠的产品，就难以大规模建产能；没有规模化制造，又难以降成本、拿到更多真实反馈。这是典型的鸡生蛋问题。

行业还缺少成熟的通用零部件。峰会上能看到不少3D打印部件，它们适合原型验证，但不适合低成本量产。目标成本被多次锚定在单台约2万美元，思路借鉴汽车工业：标准化、模块化、减少零件数、让现场快速更换模块。

手部尤其难。领先设计希望单手达到约22个自由度，但一个相对灵巧度仍有限的人形机器人手，成本仍约2000美元。执行器也是大头，一台人形机器人通常需要30至60个执行器。供应商的竞争不只是卖电机，而是把固件、传感器、安全特性集成进去，提高力矩控制、故障检测和可靠性。

传感器同样卡规模化。机器人需要视觉、力、扭矩、触觉、平衡等多模态传感能力。高性能触觉传感器、关节力矩传感、身体自感知能力，都会增加成本和集成风险。当前不少传感器堆栈仍被认为太脆弱、太贵，或难以规模制造。

电池是另一个现实问题。若机器人电量不够支撑连续工作，企业就要准备备用机器人，成本继续上升。热插拔电池成为一条缓解路径，Boston Dynamics Atlas、Mentee Robotics即将推出的Mobileye人形机器人、Unitree G1/H1、AgiBot Expedition系列，都采用或支持按需换电，以减少停机时间。

垂直整合不是姿态，而是供应链压力下的选择

很多人形机器人公司开始自己做关键零部件，不只是为了讲故事，而是现成供应链还没准备好。

1X 自2015年以来持续打磨自有腱驱动电机，在加州工厂从铜线绕组到最终执行器组装全部内部完成，并已生产约1.7万个电机。Apptronik 为Apollo开发自有高扭矩执行器，同时与Jabil展开试点和战略制造合作，用于生产Apollo并在部分Jabil制造业务中部署。

Boston Dynamics 则计划借助现代汽车供应链的标准化部件，提高Atlas的可靠性和可制造性。特斯拉的路线更接近汽车复用：把电动车级电机、电力电子和自研FSD计算平台用于Optimus，长期目标是接近汽车式产量和成本，年产规模达到数万台、单位成本随时间降至约2万美元。

这条路并不轻。汽车供应链能提供规模制造经验，但人形机器人不是汽车。它需要更密集的关节、更复杂的触觉、更高的实时控制要求，还要在人类身边工作。制造能力只是门票，不是胜负手。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.