对话原力灵机唐文斌:纯“世界模型”路线走不通

华尔街见闻03-20

一场关于具身智能的“数据暗战”正在悄然打响。

今年 1 月,湖北人形机器人创新中心向智元机器人交付了数千小时的训练数据,完成了国内首例定制化人形机器人数据交易。

行业巨头方面,京东日前喊出了建成全球规模最大、场景最全的具身智能数据采集中心的口号,计划动员超10万内部员工及最多50万外部人员,开启一场史无前例的“人海战术”。

视线转向海外,韩国机器人公司 Robotis 于今年 1 月在乌兹别克斯坦设立子公司,计划在一块 11 万平方米的土地上建起一座巨大的“数据工厂”,用于收集机器人行为数据。

按小时计费的定制化交易、数十万人的大动员、远赴中亚建厂,这一系列举措都折射出整个具身智能行业沉重的“数据焦虑”。

与在互联网语料中成长的大语言模型不同,具身智能需要理解世界并与真实世界进行交互,这对数据的真实性、模态等都提出了更高的要求。

这也是原力灵机创始人兼CEO唐文斌当下正在攻坚的难题之一。

回溯履历,唐文斌更为人熟知的身份是上一波AI浪潮中明星独角兽旷视科技的联合创始人兼CTO。

成立仅一年的原力灵机已经悄然吸金超10亿元,拿下了阿里蔚来、君联、启明等头部机构的投资。

目前原力灵机已发布旗下首个具身原生大模型 DM0,并与华勤技术达成战略合作,实现数据采集机器人 DOS‑W1 的量产交付。

在经历了上一波AI落地的洗礼后,唐文斌对行业有了更多的敬畏之心。

在日前与华尔街见闻·全天候科技的对话中,唐文斌分享了原力灵机的数据采集思路:不依赖单一来源,而是以“质量✖数量✖多样性”的组合方式实施分布式采集,以此填满机器人的能力空间。

对于通过世界模型生成数据,让机器人能够模仿学习的路线,唐文斌认为这条路难以走通,他指出更为可行的范式是将世界模型与VLA(视觉-语言-动作)模型相统一。即不仅能预测未来世界,还能据此反推出所需的精准动作。

当行业玩家们正以各自的方式疯狂“囤积”数据粮草时,究竟哪种路线才能“笑到最后”,市场正在拭目以待。

以下是对话实录。

详解数据采集

全天候科技:能否分享你们的数据采集思路?

唐文斌:目前我们还是模仿加强化学习的方式。

模仿涉及数据分布的模拟。我们的目标是让数据尽可能地填满机器人的能力空间,见过足够多的东西。核心在于识别未见过场景的处理能力,数据的价值便在于此,所以我们的数据采集是围绕开放环境和实际场景展开。

但我们会希望数据保持高质量的同时,还能够尽可能的填满这个空间,所以我觉得数据是一个“质量✖数量✖多样性”的组合问题。

全天候科技:那数据如何进行采集?

唐文斌:其实我们并不依赖某一种数据来源,这样做也没必要,基本上是一个组合模式。真机数据方面,主要通过各种经过校准的传感器进行采集,具体包括类似外骨骼等,但确实采集成本会比较高。

同时,我们也会通过无本体和第一人称视角收集数据,形成更大规模的数据集,这其实就是介于真机和合成数据的中间派了。

除此之外,还有采集成本更低的互联网数据。

全天候科技:能否具体解释无本体采集?

唐文斌:无本体的意思就是说它可能是一个手套或手持夹爪,没有机械臂、机器人的身体,所以相当于就只是用了一个末端装置。我记录了这个末端装置的大致位置和状态,目前这种数据采集方式也被称为UMI。

今天,我们讨论的第一人称视角数据也很多,例如通过眼镜拍摄操作过程,这也是一种无本体的采集方式。

全天候科技:每个人的AI眼镜数据都具有隐私性,应该没有人愿意公开自己眼镜的数据供采集。你们怎么解决这个问题?

唐文斌:确实,如果我作为眼镜的用户,我也不想把我的数据分享给大家。但是训练的话,我们可以请一些第三方的数据采集员,通过日常佩戴眼镜记录工作流程,然后数据也会被记下来。

当然,我们也希望眼镜本身的功能可以更加强大,比如有立体视觉、多目的能力。同时我们未来可能还会增加手环、手套的装置用于采集数据。

所以整体来看我们采集的对象是多样化的。第一类是机器人本身,可以遥控操作;第二类是类似于夹爪等的无本体,即“人的身体+机器人末端”的装置;第三类是完全针对人体的采集;第四类则是对物理世界的描述。

全天候科技:例如在末端传感器中,主要采集的是力的数据吗?

唐文斌 :不只是力度,我们还是希望数据是多模态的,比如包括增加视角。

实操方面,因为手臂可能会遮挡部分数据,我们可以眼睛部位装配一个相机,两个手腕上也可能各有两个相机,形成多视角的数据。

全天候科技:这种采集成本会很高吗?

唐文斌:这其实就是一个数据质量、数量和多样性的复杂问题。如果需要采集所有模块的数据,成本将变得非常高昂。所以我们采用分布式的采集策略,有些数据我们会尽可能地保证其完整性,而有些数据为了降低成本、增加数量和提高速度,可能就不再那么注重完整性。

这是一个权衡的问题,我们拥有自己的采集工具,并且广泛地与其他行业合作。

全天候科技:今年2月你们跟华勤技术合作推出了数据采集机器人,能否分享这款机器人的情况?

唐文斌:这款机器人主要是用在科研的场景,有点类似于ALOHA机器人的形态,同行也有在做这个。(注:ALOHA代表"A Low-cost Open-source Hardware system for bimanual teleOperation",是一种用于双手远程操作的低成本开源硬件系统)

但是目前市场的数据采集机器人存在两大痛点,

一方面是可靠性,产品表现确实不尽如人意,例如频繁故障会对科研工作产生负面影响,降低工作效率。

我们目前也无法确保产品的长时间稳定性,所以我们的改进点是简化了修理过程,设计了模块化可拆卸的产品结构。一旦某个部件损坏,用户可以快速更换。例如很多地方的连接处都不是螺丝,是那种旋钮,所以可能30秒就能修好了;

另一方面是成本仍然比较高,所以我们通过与华勤的合作设计了一款类似ALOHA的产品,支持主从、拖拽式操作。最核心就是修得快,价格便宜。(注:主从是指人通过操控主臂,实现对从臂的实时远程控制,动作零延迟复刻,以此实现实现低成本、高精度的双臂精细操作数据的采集。)

全天候科技:同行买过这个机器人去采集数据吗?

唐文斌 :是的,其实行业的痛点还是比较一致的,所以其实大家都会买同行的产品回去搭配一起使用。

世界模型路线走不通

全天候科技:能不能聊一聊对世界模型和VLA的看法?

唐文斌:这里要区分两点,就是理解世界和生成世界是不一样的。

我们今天讨论的大模型能力,大家普遍关注的是它们理解世界的能力。世界模型实际上是在尝试预测未来,即预测下一帧可能会是什么样子的,而VLA的实质是与世界交互。

这些模型具有共通性,但又能够从不同的角度解决问题。

我们觉得最佳的策略是相结合。只有这样,我们才能真正理解并生成内容,理解和与世界交互。

理论上来说,如果能够预测未来世界,我们便能够反向推断出我们应该如何操作。而如果我们知道如何操作,那说明我们是能够预测未来的发展。

所以我们现在的技术框架里世界模型跟VLA是统一的,就是我们希望一个模型既能够理解这个世界,同时又能预测后续。

如此一来,模型不仅能执行动作,还能预测执行该动作后世界将如何变化。

全天候科技 :行业的技术框架是否和你们不同?

唐文斌:确实,目前一些公司主张仅使用世界模型。有观点是认为通过世界模型生成数据,让机器人能够模仿学习,这样就产生了一个无限的数据源。

但我自己觉得这条路是走不通的,因为如果世界模型已经实现了,那生成的问题就已经解决了,大家也不需要通过生成的数据再去训练机器人了。

那另外一条路就是我们和很多同行会去做的,就是通过预测未来世界模型,然后根据这个模型反推出所需的动作,这种方法涉及到先预测未来的场景或世界状态,再计算出相应的动作序列,这种范式其实就是我刚才讲的相结合统一的模型框架。

全天候科技 :从场景上来说,由于当前工厂的产线自动化程度很高,机器人进厂打工会不会没有用武之地?

唐文斌 :确实当前工厂的自动化解决方案已经相当成熟。但我们想去解决的是原来解决不了的问题,或者是原来解决起来成本很高的问题。

但其实大家看到的很多自动化产线对泛化性要求是没有那么高的,即不需要对象、环境和任务的泛化。例如可能SKU就几个,光照等外部环境条件已经过调节。

那当前解决不了的问题其实是对象多样化,环境也随时在变化,甚至可能会有很多不同的任务。

以物流场景为例,现在大家的机器人做的主要是搬运工作,但是没有做好手上的操作,因为这对泛化性的要求很高。

例如你购买了一瓶可乐和一包薯片,操作员就会把可乐和薯片分别包装好。由于商品种类繁多且环境条件不断变化,这个其实就很难用自动化设备解决。

还有包装的场景,以瓶装沐浴露为例,我们收到产品时会发现瓶口部缠一圈塑料膜,这是为了防止沐浴露泄露。

实际操作过程中,目前通常是操作人员基于经验,缠上保鲜膜再放入泡沫袋中,并在封口贴上标签,这就没办法通过自动化设备来完成。

我们现在主要是在物流、工业上有做一些尝试。

全天候科技:你们是倾向于在特定场景进行集中开发,还是想在多个场景同时铺开?

唐文斌:这个要分两头讲,观察大模型的发展,尤其是当前最新的进展,可以发现一个共同的趋势。如果我们现在只构建了一个垂直领域的模型,它是无法达到真正有泛化能力的模型,这是行不通的。

因此,从模型的角度来看,我们必须坚定地追求泛化性,追求更加通用的技术能力。

但从应用场景落地的角度来看,我们确实得一个一个场景去落地,逐一实现。

所以我们内部经常强调产品落地有两点核心,首先,我们的解决方案必须能够形成闭环,即解决客户业务中的所有问题和异常情况,满足所有流程需求。其次,我们需确保成本可控,让客户觉得合作划算。

只有在满足这两个前提条件时,客户才可能考虑规模化应用我们的产品。

所以我们每实施一个场景,都必须清晰地理解客户价值,并确保这两个要点都能得以实现。这是一个逐年下单的过程。

我们内部把这个过程描述为模型发展与应用落地之间的关系,它们之间存在45度夹角,即它们相关但并不绝对相关。

当然,我们的模型需要朝着那个通用方向发展。

对场景要有敬畏之心

全天候科技 :所以你们是主张通用机器人的路线吗?

唐文斌:我个人认为模型具有通用性,但硬件很难实现。

其实我们的双手非常灵活,一只可以执行精细操作,同时也能举起20斤的重物,甚至更厉害还能举起50斤的重物。

但是受到物理学和材料学的限制,能够举起2公斤商品的机械臂和能举起20公斤重物的机械臂肯定不同,因为它们的功率密度不同。

所以我们认为如果你采用一个通用的设计并应用到具体场景中,很容易发现这是欠设计或者过设计。

欠设计就是可能重量限制无法通过,或者是传感器的安装空间过于狭窄,导致无法解决问题;可能恰好能搞定,但这可能过度设计了,价格就会变得很高。

以轮式双臂为例,当重心较高时,它跑得更快。但一旦速度起来,它就很难停下来,否则就会摔倒。

这时我们可能会发现,在某些场景中,静止不动可能是一个更优的选择,让移动的车辆将物品送过来。

因此,可能在这些场合会存在过度设计的问题。

我们的内部逻辑是让模型具有通用性,并且能够适应不同的硬件平台。

全天候科技 :所以现在投资人比较看重你们的能力是模型?

唐文斌:对,我们团队的独特之处在于不仅从事机器人场景的研发,而且深入理解模型。我们在旷视的物流领域积累了丰富的经验,并且具备一定的规模,因此对产品有较深的理解,同时我们拥有一群专注于模型优化的专业人士。

全天候科技:因为很多可能某一个行业内的公司对于本行业的需求会比较了解,但你们是模型业务起家,会不会对场景需求的了解程度比较弱?

唐文斌:其实之前我们在旷视的时候就做了很多的场景了,所以我觉得我们还算是一帮被被教育过的人。

这其实是心态问题,其实机器人行业是需要两拨人,一波人更懂技术,一波人更懂场景,我们其实是站在中间的人。

其实光搞技术的人会对场景做很多的假设,他觉得不就是这些。但真实场景中的魔鬼隐藏在细节之中。例如当出现问题时,生产流程不能停,因此必须有完善的异常处理流程。

因此,技术工作的人必须对场景怀有敬畏之心。

但行业的人也有很多问题,我们历史上就是很多同事对技术上会有两种状态,一开始觉得技术无所不能,一旦涉及到AI智能,他们就会期望你能解决所有问题。然而当他们发现某些问题无法解决时,就会感到极度失望,进而选择回归到传统的、基于规则的方法。

但今天模型的发展其实既不是能达到无所不能,也不是什么都不行,是在一个中间阶段,并且斜率很高,处于快速发展状态。

所以我们非常需要能够既对场景有判断,理解算法及其发展速度的人。同时,也需要有人来设计应该如何着手解决当前的问题,让项目尽快启动。

我们今天所从事的所有工作实质上都是在满足需求。我们肯定会有自己视野上的局限。

所以我主张广泛学习和多角度观察,但我们也应有自己判断的标准,选择那些能够持续生存下来的场景。

全天候科技:那你们怎么定位自己的目标客群呢?是机器人公司,还是场景应用方?

唐文斌 :其实还是场景应用方。

坦白说,无论是国内还是国外的同行,大家所使用的模型都不太成熟。因此今天大家并没有达到将模型直接部署到机器人公司的设备上,经过简单训练后就能使用的状态。

我认为在模型尚未成熟的情况下,要实现场景落地应用,垂直整合是必要的。

如果我们自身都搞不定这个场景,却期望合作伙伴和客户能够解决,这无疑是美好的幻想。我相信有朝一日,我们可能自己做了一些垂直的场景,而可能更多的场景可以通过开放平台的方式,与我们的合作伙伴一起完成。他们既可以用我们的硬件,也可以只用我们的大脑,去自主探索更多可能性。

全天候科技:所以这是你们对模型开源的原因,就是希望更多人能加入进来?

唐文斌:开源有两方面的考虑。首先我们希望更多人使用我们的框架和模型,这样大家可以共同探索更多应用场景并推动技术的落地。其次,尽管当前行业热度很高,但整体模型的成熟度仍处于初级阶段,促进相互交流和进步至关重要。

全天候科技:你之前提到2026年的核心目标是每个场景部署1000台可持续运转的设备,能否分享一下这个目标完成的情况?

唐文斌:这可能要到下半年才能实现持续运行。目前我们还在进行POC测试。

我们对自有场景实现批量化的潜力还是很有信心的。

其实要让机器人能够持续运行,必须找到容错环节。坦白说,当前模型驱动的方法还无法做到百分之百的准确率。

如果任务失败怎么办?这个问题必须有答案。我们需要探讨通过什么种方式接管任务,让失败的任务能够被恢复。同时我们还需评估这种失败对企业的影响,判断这种影响是否可接受。

在采取了兜底方案之后,我们还需要确认整个系统的ROI。

全天候科技:说到ROI的话,那客户会直接提出说你们可以帮助产线节约多少钱吗?

唐文斌:客户通常会直接问我们能多久回本。

如果一个项目需要超过五年才能回本,那就不用做了。

如果预计两到三年内就能回本,那就是立马干。在当前的B2B环境中,我们大多数决策都是基于理性的分析,算清到底能为客户提升多少效率。比如机器人能够延长某些生产环节的运作时间,更高效地利用现有设备,为客户带来价值。

全天候科技 :能否剧透后续的模型更新情况?

唐文斌:今年我们的核心议题将集中在泛化性上。

全天候科技:去年才创业来做具身智能的模型,你觉得会不会太晚了?

唐文斌:其实在很多年前我们就很想做一个通用机器人了,当时我们觉得技术上不成熟。但是随着DeepSeek等大模型的发展后,确实让我对这件事变得更有信心了。

全天候科技:如果让你给2026年具身智能行业1个关键词,你觉得会是什么?

唐文斌:我想给2个关键词,一是模型能力的提升,二是场景的持续运行。

我认为当前的模型还处于早期阶段,但发展速度很快,所以我们要努力提升模型的算法能力,包括在对象、环境适应性和任务泛化性上都有所提升,模型的泛化能力是至关重要的。其次,关于场景的应用,我认为单纯的POC没太大意义,它只是一个起点,重点在于如何在实际场景中持续运行,今年确实已经到时候了。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment