“AI云新贵”Nebius CEO：“四层架构”对抗巨头，“只有不断移动才能生存”

华尔街见闻06-12

面对资本支出规模约为自身八倍的超大规模云服务商，市值约570亿美元的AI基础设施公司Nebius，正以一套从物理层延伸至智能体层的"四层架构"寻求差异化生存空间，并将客户多元化与软件平台能力视为抵御行业整合压力的核心武器。

Nebius联合创始人兼首席商务官Roman Chernin近日在访谈中阐述公司竞争战略。他表示，Nebius今年资本支出计划为200至250亿美元，而超大规模云服务商的同期资本支出规模约为Nebius的八倍。尽管存在明显资本劣势，Roman认为AI基础设施当前处于起点而非泡沫阶段——在他看来，代码生成是目前唯一真正在规模上跑通的AI应用场景，而这一突破距今不过数月。

资本市场对Nebius的关注度正在升温。知名分析师Leopold Aschenbrenner近期披露，Nebius占其个人投资组合约15%，持股比例约为5.3%，消息公布后公司股价出现跳涨。Roman对此保持克制："这是交付的机会，不是庆功的理由。回去做好工作。"

然而Roman坦言，公司面临的最大威胁并非直接竞争，而是行业过度整合。"如果世界最终只剩三五家超级公司控制一切，Nebius就只能在物理层为它们提供服务。世界越多元化、越去中心化，我们的生存空间就越大。"他以鲨鱼自比——"你游动，你才活着，我们必须不断前进。"

AI基础设施：起点而非泡沫

对于外界关于AI基础设施泡沫的担忧，Roman给出明确否定。他认为，真正意义上的算力需求规模化普及才刚刚开始，目前AI唯一真正跑通的规模化应用场景仅有编程一项，而这一突破发生在数月之前。

"即便你去看全球技术上相当先进的大公司，他们在AI应用上也才处于起步阶段，用在第一个百分之几的业务量上。"Roman以DeepSeek事件作为佐证：约15个月前DeepSeek发布当周，Nebius股价单周下跌约40%，市场担忧AI基础设施需求将萎缩；然而同一周，Nebius销售额创下公司历史最佳。

他将这一现象概括为AI领域的"杰文斯悖论"：每次智能变得更便宜，行业不会减少算力消耗，而是用同样的预算去解决更复杂的任务，或终于可以经济可行地解决那些此前成本模型跑不通的问题。"这种经济效益改善的动态，是非常值得观察的。"

"四层架构"：从裸金属到智能体

Nebius的核心竞争策略体现在其产品体系的分层设计上。Roman将公司的产品架构分为四个层次，认为越往高层走，可服务的客户群体越大，差异化壁垒也越高。

第一层是裸金属基础设施，面向微软、Meta等超大规模客户，以兆瓦为计量单位提供大宗算力合同。Roman坦言，这一层全球客户可能只有几十家，且客户自带完整软件栈，基础设施供应商能提供的附加价值有限。

第二层是多租户云，面向数百至数千个研究型团队，提供包括存储、计算、网络虚拟化在内的完整云环境，以GPU小时为计量单位。客户登录即可获得配置好的集群，直接开始训练或推理，无需处理底层基础设施。

第三层是托管推理平台，即Roman所称的"Nebius Token Factory"。目标客户是垂直AI公司和企业客户——他们构建产品，不做模型，不想自行处理GPU部署和推理优化，以Token为单位消耗算力。Roman表示，这一层可服务客户规模可达数千家。

第四层是尚在前瞻规划中的智能体层。在这一层，开发者无需考虑调用哪个模型或消耗多少Token，只需提交任务，由平台引擎自动决策执行路径——包括何时调用更智能的模型、何时并行调用多个轻量模型再由裁判模型择优。Roman表示，这一层将直接与OpenRouter等平台竞争，可服务开发者规模将达数万乃至更多。

Token Factory：以系统优化降低推理成本

Roman在访谈中披露，Token Factory目前支持约60个开源模型，通过模型蒸馏、投机解码、缓存优化等系统级技术手段，最高可将推理成本降低70%。他强调，这一成果并非依赖价格战，而是将模型打造成一个系统，在特定需求和约束下以最优经济效益运行的结果。

Token Factory同时为客户解决了开源模型频繁迭代带来的运维压力。Roman指出，目前几乎每隔数周就有新模型发布，每次新模型在某些基准测试上表现更优，但在另一些上未必。客户需要持续实验和切换，而这一负担由平台承担，确保客户始终运行在性能前沿。

Roman以金融科技公司Revolut为例说明企业客户迁移路径：该公司最初99%的推理预算集中在OpenAI等封闭模型上，随应用场景扩大经济模型难以为继，开始转向开源模型。这一过程需要先行建立评估体系和AI开发的CI/CD流程——Roman认为这一基础性投资被市场严重低估。但一旦基础打好，客户AI使用量便会指数级增长。"你从外面看，会觉得这些公司增长很慢，但这是在打基础。等他们打好基础，就会爆发式增长。"他预计，Revolut、Shopify、Booking.com等云原生企业完成冷启动后，AI使用量将出现爆发。

开源与封闭模型：并非零和博弈

Roman明确反对将"开源 vs. 封闭"视为对立命题。他认为，开源模型的崛起对OpenAI、Anthropic等前沿模型提供商的冲击，远不如市场担忧的那么大。

其逻辑在于：前沿模型提供商始终在向下一个前沿迈进，尚有大量未解决的任务等待攻克；每当某个任务找到更高效的解决方案，行业不会减少总算力消耗，而是将同等预算投入更复杂的未解决问题。"Anthropic和OpenAI还有大量尚未开垦的市场，仍在指数级增长。"

与此同时，他指出开源模型最重要的特性不只是开放，而是可微调、可继续训练，能够在特定场景下构建出性能超越通用前沿模型的专用模型。他预计，随着生命科学、机器人、网络安全等垂直领域专用模型持续涌现，这种分层化趋势将进一步深化，整个生态足以容纳不同层级的参与者共同获益。

资本劣势与生存哲学

面对超大规模云服务商的资本碾压，Roman的态度坦率且务实。他表示，若手握十倍资本，公司只会做一件事：更快建设更多数据中心、填入更多GPU。但他同时强调，资本在短期内并不能解决所有问题。"未来6个月，钱解决不了问题——6个月太短了，你只能用手里有的资源交付。到了24个月的维度，资本才能真正解锁大量事情。"

针对约40%数据中心规划审批遭拒的行业现状，Roman将其定性为组合管理问题：通过保持充分超额储备，即便某个项目延误，仍能向客户交付足够容量；大多数客户工作负载不绑定特定物理位置，可灵活调配。

在更深层的战略判断上，Roman认为Nebius最大的商业风险不是某个具体竞争对手，而是行业走向过度整合——少数超级平台控制一切将大幅压缩独立基础设施供应商的价值空间。他以乐观主义者自居，相信人类内在的探索与创造冲动将推动世界保持多元化，但他也承认这并非确定结论。

"就像鲨鱼——你游动，你才活着。我们没有时间停下来庆功，必须不断前进。"Roman说。

以下为访谈文字实录：

主持人： Roman，我太期待这次对话了。我认为Nebius是过去几年里最不可思议的故事之一，而未来几年更是令人振奋。感谢你接受我们的邀请。

Roman： 感谢邀请，很高兴来到这里。

AI基础设施：泡沫还是起点？

主持人： 我想从一个很多人都在思考的问题开始——我们现在处于AI基础设施的哪个阶段？很多人看到涌入的资本，认为这是泡沫；也有很多人说这才刚刚开始。你怎么看待当前AI基础设施是否存在泡沫？

Roman： 我不认为这是泡沫。泡沫怎么定义？如果问我是否相信我们需要再建设数十倍乃至数百倍的算力——我完全相信，当然我可能有些偏颇，毕竟如果我不这么相信，我也不会在做我们正在做的事。

我认为，我们正处于这个伟大时代的起点，Jensen称之为"有用的AI"，而真正意义上的规模化普及才刚刚开始。诚实地说，在所有可能的应用场景中，目前真正跑通的大概只有一个，那就是代码——编程场景大概是几个月前才开始真正发挥作用的。所以请把这件事放在正确的视角下看：我们距离第一个真正在规模上跑通的应用场景，也不过才几个月的时间。

如果你去看全球任何一家公司——除了那些跑得最快的初创公司——看看他们的AI应用程度，你会发现他们才刚刚开始，用在第一个百分之几的业务量上，探索第一批应用场景。哪怕是技术上相当先进的大公司，也才处于起步阶段。所以我的判断是，我们还只是刚刚开始。

即便你不相信马斯克关于未来和太空的一切愿景，仅从企业落地的角度来看，这也只是第一步。

开源对OpenAI和Anthropic真正的冲击

主持人： 过去6到12个月，代码场景确实跑通了。但有一种观点认为：由于成本问题，企业将大规模转向本地部署的开源模型，这个转变即将发生。如果真的发生，对OpenAI、Anthropic这样的模型提供商，以及对Nebius，都会是打击。这种观点哪里错了？

Roman： 首先，这不是未来的事，这已经是现在进行时了。我们看到很多案例——当一个客户或产品构建者达到一定规模后，他们就会开始寻找改善经济效益或加速增长的方法，这时很多人自然会开始考虑替代模型。

今天最好的建法，当然是在OpenAI、Anthropic、谷歌这样的一流提供商的前沿模型上构建，因为他们确实提供了全球最顶尖的能力。但是，当你把应用场景跑通、看到用户数据飞轮开始转动之后，你可能会发现有成本更低或质量更高的方式来服务同样的场景。你不需要全球最强的通用模型，你可以构建一个专用模型，在你的特定场景下表现甚至更好。

这些开源模型最重要的特点不仅仅是开放，而是它们可以微调、可以训练——你可以在它们的基础上继续训练，构建出在特定场景下性能更优的专用模型。

但这为什么不会伤害Anthropic和OpenAI？因为它们始终在向下一个前沿迈进。还有太多未解决的任务，或者说预算不受限制的任务，尚待解决。每当我们找到更高效地解决某个任务的方式，我们不会减少使用量，而是用同样的预算去解决更复杂的任务——这是一段持续的旅程。你始终在推动前沿，始终有更复杂的问题等待解决。一旦解决了，你可以向下迁移，降低成本或提升质量。而现在有太多未解决的任务，Anthropic和OpenAI还有大量尚未开垦的市场，仍在指数级增长。

主持人： 你真的相信这一点吗？这些公司很多估值已经达到万亿美元、趋于完美定价。如果它们创造的价值不断被侵蚀，而它们还要持续地从一个价值点跳跃到下一个价值点，同时开源不断从后方蚕食……你得持续找到足够多的问题，这日子不好过吧？

Roman： 其实大多数人的担忧恰恰是另一面——开源环境和专用模型生态是否足够强大，能不能撑起这个底座。我认为我们还处于如此早期的应用阶段，未解决的问题如此之多，关键在于整块蛋糕的大小。我认为这块蛋糕足够大，无论是最前沿的模型能力，还是高度调优的特定场景模型，以及我们可以在其上构建的整个开源和专用模型生态，都能分得一杯羹。

有个故事我很喜欢——大约15个月前发生了DeepSeek时刻，你应该记得，当时Nebius的股价在一周内下跌了大约40%。而讽刺的是，就在同一周，我们的销售额创下了公司历史最佳。市场担心AI变便宜了、基础设施公司不再被需要，但与此同时，大量用户发现他们可以用DeepSeek在生产环境中跑推理，而且经济模型跑得通，Cursor也在那时开始腾飞，成为最早从这些模型微调中受益的公司之一。

每次智能变得更便宜，我们不会减少消费，而是增加消费——因为我们可以在同样的预算下解决更复杂的任务，或者终于可以经济可行地解决那些我们早就知道技术上能解决但成本模型跑不通的问题。这种经济效益改善的动态，是非常值得观察的。

杰文斯悖论：AI越便宜，需求越大

主持人： 说到杰文斯悖论——产能提升反而带动更多需求——那你现在哪些方面推进得还不够快，希望可以更快？

Roman： 我们从四个维度来思考公司的建设。

第一个维度是容量——我们有多少兆瓦、吉瓦的算力，部署了多少GPU。我们是基础设施公司，必须足够大，如果规模不够，没人需要我们的存在。团队在这方面做得很出色，但永远不够快，因为现实世界有很多障碍——新建一个数据中心要走完整的供应链、监管审批流程，还要应对火灾、水患以及现实中发生的各种突发情况。

第二个维度是产品——要足够快地适应新型工作负载和新型客户群体。

AI基础设施的四层架构

Roman： 这个行业从最早建造模型的公司开始——OpenAI、大型超大规模云服务商、大型实验室等——他们对基础设施的需求基本上就是"给我算力"，市场上也确实有很多大型裸金属合同，我们也在做。但这只是我们构建内容的第一层：规模化的物理基础设施，供微软、Meta这样的大客户大规模消耗。

第二层是我们称之为"多租户云"的层级，面向以研究为主但规模更广的客户群——数百乃至数千个团队，他们不想处理物理基础设施，想要托管基础设施，即云计算层面的基础设施即服务，包括存储、计算、网络的虚拟化，以及API、可观测性、安全性等一套完整的云环境。你登录进来，集群就给你拨好了，你可以直接开始训练或推理，管理自己的应用或工作流，基础设施的事交给我们。

第一层用兆瓦来衡量，大家在大合同里谈的是兆瓦数；第二层用GPU小时来衡量，因为你卖的是高效的算力时间，附带存储和辅助服务，但核心单位还是算力。

第三层是托管推理。客户不想纠结GPU小时，不想分辨B200、H200、B300哪个更适合特定工作负载，不想自己部署vLLM、SGLang，不想做所有的优化工作。我们在这里的产品叫做"Nebius Token Factory"，这是一个托管推理平台。这里的新客户群体，我们称之为垂直AI公司或企业——他们构建产品，不做模型，而是在模型之上构建应用。这也正是你提到的专用模型和开源模型场景——当他们需要从Anthropic迁移或者多元化他们使用的模型时，就来到这里。

在这一层，计量单位变成了Token——你不再为GPU集群付费，而是消耗Token，构建应用时不需要考虑底层集群的事。

第四层是未来。因为现在人们在构建智能体应用和智能体工作流，在构建端到端智能体时，你甚至不需要考虑具体用哪个模型，不需要考虑生成多少Token，你只需要任务被高效执行并得到预期结果。平台能做的魔法，是替你判断在某次具体调用中该用哪个模型——是调用更智能的模型，还是用同样的推理预算调用两个更轻量的模型，再用一个裁判模型选出最优结果？用多大的上下文窗口？未来开发者可能甚至不需要考虑具体的Token类型，只需要思考任务的端到端执行。

第四层直接竞争的是OpenRouter这类平台。我们想在这一层带来的，和我们在下层做的事一样——优化引擎。你可以用各种开源或专有工具构建智能体，但当你需要扩展规模时，你开始思考经济性、可靠性和可重复执行性。这不只是模型选择问题，也不只是结果问题，而是一个系统工程问题——你需要让它可靠、可重复、经济可行。这里可能正是Nebius能创造价值的地方：就像我们不告诉客户怎么构建应用，而是说"如果你需要这个模型以这样的经济效益运转，我们帮你优化"——在这一层也是一样：如果你需要这个智能体以这样的预算和质量跑通，也许我们能帮你优化。当然，这还有些前瞻性的思考，不是我们现有的产品，而是我们看到客户正在演进的方向。

主持人： 如果你今天有10倍的容量，会有什么不同？你能在一夜之间卖出去吗？

Roman： 不是一夜之间，但我们肯定有那样的需求。关键不在于我们有没有需求，而在于如何构建需求组合——因为市场上有太多客户，你可以在他们之间做平衡。你可以卖裸金属，可以卖托管基础设施，可以卖推理服务，未来可以卖新的产品层。我们尽量构建多元化的客户组合，越往产品栈的高层走，我们能服务的客户群体越大：裸金属层可能只有全球几十家客户，托管基础设施层有几百家，推理层有几千家，到智能体层将会有数以万计的新开发者。

主持人： 在客户集中度方面，你愿意接受来自Meta或微软这样大客户的多高营收集中度？

Roman： 这是我们业务的核心问题，不只是Nebius，而是整个产品类别的核心问题。我们一直公开告诉投资者和客户：Nebius的长期战略是服务尽可能多元化的客户组合。

服务Meta、微软这个量级的客户，他们有完整的软件栈，真正需要你的只有物理基础设施——他们把自己的一切带过来，部署在你的基础设施上运行。在物理基础设施之上，你能提供的附加价值微乎其微。而且，光是在物理基础设施层面满足他们的需求就已经极具挑战性，因为他们要求的是全球最顶尖的超大规模基础设施。有人说这是大宗商品，但真正到了这个规模，什么都不是大宗商品。

这样的客户群体规模很小，而且服务他们不需要完整的软件栈。正因如此，Nebius从第一天起就在建软件栈——我们认为这对我们更有价值，也更有益于世界——因为这样我们能在物理基础设施层之上，为客户提供长期的深度支持。

主持人： 如果当下容量供不应求，你把价格翻倍，需求会有什么变化？

Roman： 这是个难回答的问题。其实我们几个月前刚刚涨价，目前供给压力依然相当大。但我们其实并不确切知道均衡点在哪里，原因是这不只是供需弹性的问题。训练是一次性成本，相对而言客户有一定的价格承受能力；但如果你相信整个行业在向推理迁移，推理是服务客户的运营成本，那么价格一旦超过某个临界点，客户产品的经济模型就会跑不通，他们就没办法增长，我们也跟着增长不了。所以这不是简单的供需弹性问题——价格确实有弹性，但我们同样希望对客户有实质意义，希望客户能健康发展。

而且成本不只是GPU时的价格，还有所有的优化空间，我们称之为TCO（总拥有成本）。这部分原因也是为什么我们要构建软件平台。客观上，人们太痴迷于容量、太痴迷于GPU的标价了。你可以把GPU定价在3美元、4美元或5美元，但根据应用场景和平台质量，它给客户带来的实际成本结果可以完全不同。推理能跑多久？一段时间内的有效不中断时长是多少？你能从模型中提取多少Token？这些优化加在一起，可以把Token成本改变一个数量级。所以如果你只做裸金属，你只能管价格；但如果你构建平台，提供高水平的服务，你能创造的经济价值就远远不止于基础设施成本了。

主持人： 在产品的多租户云层面，这一层的核心问题是什么？

Roman： 客户需要什么——这是所有产品工作的核心问题。我们看到从训练到推理的转变，从只用模型到构建智能体的转变，从主要是AI实验室消耗AI算力到企业客户大量涌入的转变。我们每时每刻都要问自己：Nebius的差异化价值在哪里？客户在朝哪个方向演进？我们规模还小，不能什么都做，必须非常清楚自己能比别人做得更好的是什么。

从训练到推理和智能体的迁移

主持人： 你在客户需求变化上看到了什么公众谈论得还不够多的东西？最近让你震惊的是什么？

Roman： 大家都在说从训练到推理的迁移，但这个视角太宏观了。这个迁移意味着人们在构建具体产品，这些产品有自己的经济模型和增长路径，不只是同样的GPU换了个用途。它带来了全新的需求——你需要构建推理平台，帮助客户不只是跑推理，还要解决他们推理所用的模型从哪里来。每个人都在拿开源模型微调，所以我们怎么帮客户做？当他们运行应用、跑推理的时候，会产生大量数据，我们怎么帮他们收集和利用这些数据来改进模型？

这就是人们喜欢讲的飞轮——跑推理、生成数据、观察数据、改进模型、持续提升产品质量。这里面有很多系统层面和AI层面的工作要做。

对我来说，现在最令人着迷的是：构建的门槛在持续下降。越来越多的构建者走进市场，他们不一定是AI研究员，也不一定是推理工程师。Nebius这样的公司能创造的价值，正是降低构建AI应用的门槛——把基础设施的复杂度、模型调优的复杂度、推理优化的复杂度都藏起来，让开发者专注于他们的客户和应用场景。这和使用Anthropic、OpenAI这样的封闭生态是一样的逻辑。

主持人： 你刚才提到了差异化。当大家拿Nebius和CoreWeave比较时——你们都跑GPU，都有英伟达关系，都有Meta作为客户——区别在哪里？

Roman： 我不太喜欢直接跟别人比较。我们的建设原则是全栈整合——"向下全栈"和"向上全栈"两个方向。向下全栈，是指我们深深扎根于物理世界——我们自建数据中心，自建机架和服务器，自建平台。控制这些下游的东西，让你能移动得更快，压缩更多成本，为客户提供更经济的解决方案。向上全栈，就是我们谈到的产品——跟随客户需求和客户细分的演进，不被局限于那批只需要基础设施的小客户群体，而是真正服务企业客户和产品公司，在他们需要我们的地方遇见他们。

这种差异体现在：更低的客户集中度，更多元化的客户组合，以及我们相信长期来看更好的企业市场定位。现在我们主要服务AI原生客户，但存量企业、非AI原生公司是一块巨大的市场，需要有人服务他们，而他们不会直接购买裸算力——他们需要平台，需要工具，需要供应商尊重他们的历史包袱并能与其复杂的遗留系统协作。他们不像创业公司那样灵活，有数据要迁移，有系统要整合，这才是真正的大赛局。

主持人： 第三层——托管推理——请解释给不了解的人听？

Roman： 很简单。假设你用OpenAI构建了一款出色的产品，跑通了应用场景，用户增长势头很好。唯一的问题可能是利润空间不够，或者你想更积极地利用数据来调优模型行为，但封闭生态不支持。于是你去查开源模型，发现benchmark上和OpenAI差距不大，推理成本可能便宜10倍，还能微调、应用你的数据、加速增长——听起来很美。

于是你从HuggingFace下载模型权重，找一个推理引擎比如vLLM或SGLang来跑，但发现事情并不像想象中那样顺利。因为要真正提取你期望的价值，你需要做各种优化：需要正确部署，不是只跑单个GPU的推理，而是你的产品跑在数十万个GPU上，你需要所有的编排、缓存、可观测性——你的客户会问你系统怎么运作——而这些在OpenAI上你都是现成的，因为它是生产服务，你不需要考虑基础设施的事。

这就是Token Factory这类产品存在的原因——托管推理平台，你可以跑现成的开源模型，也可以微调后部署自己的模型权重，我们负责其余的一切：所有优化技术、更好的经济效益、可靠性、下一批GPU在哪里找——这是一项托管服务。

Token Factory如何将推理成本降低70%

主持人： Token Factory支持60个开源模型，你之前提到通过优化可以将推理成本降低最高70%。我想问一个"蠢问题"——怎么让一个Token变得更便宜？

Roman： 这没什么魔法。你拿到一个基础模型，然后针对你的特定场景做优化——你可以做模型蒸馏，训练出一个更小但在同等质量下运行的模型；可以做投机解码；可以优化缓存；等等。本质上，你把一个模型做成一个系统，让它在你的特定需求和约束下，以最优的经济效益运行。

另外一个原因是模型更新的速度——几乎每周、每月都有新模型发布。今天MiniMax 3可能刚发布，Ultra版本也刚宣布。每隔几周就有新模型出来，每次新模型在某些benchmark上更好，但在另一些上不一定。你希望有人帮你持续实验和切换，确保你始终跑在前沿，让这个过程对你来说顺滑透明。

主持人： 模型迭代的节奏会持续吗？我甚至会说每隔几天就有新发布，5年后还会保持这种频率吗？

Roman： 我不知道。大概率我们会持续看到大量垂直领域的新模型出现并持续改进。我相信我们离"撞墙"还很远，还会看到大量模型改进发生。

我们也会看到更多新模态和更专用的模型进入赛场——生命科学模型、机器人模型、世界模型、视频模型、图像模型——每类都有自己的应用场景，大量针对特定场景高度优化的小型专用模型也会持续涌现。今天早上我刚和以色列一个团队聊过，他们在做一个专门用于构建网络防御智能体的基础模型——他们不是从零开始，而是在某个开源基础模型上针对网络防御场景的质量和延迟需求进行训练优化。这种模式还会持续发展，大量经过后训练的专用模型仍然需要优化推理和优化的基础设施来支撑。

主持人： Token使用量方面，有什么你认为现在还没有被充分讨论的、让你震惊的现象吗？

Roman： 大家都在谈增速，Anthropic、Cursor、Cognition在代码领域的快速增长，以及其他垂直领域——医疗、金融等开始出现的应用案例。但真正有趣的，是看非AI原生的大公司如何移动。

我给你举个例子。我们有个客户Revolut，刚开始合作时，他们推理预算的99%在封闭模型上，也就是OpenAI。他们开始攻坚一些应用场景，发现有些场景在经济上跑不通——无法真正替代或增强人工来完成他们想解决的任务。于是他们开始转向开源模型，但进展很慢，因为他们必须在公司内部自己搭建一整套引擎，首先要专注于构建评估体系。

这一点被很多人低估——构建持续改进和实验的基础设施有多重要。当你跑通了某个场景，但想换一个模型，你怎么知道你没有损害质量？你需要指标体系，需要验证机制，需要为AI开发建立CI/CD流程。很多像Revolut这样的客户，都需要先做这样的基础性投资——搞清楚如何安全地演进模型、如何将其安全地整合到生产流程中。

但是，一旦他们解决了这些基础性问题，他们就开始指数级增长。解决了"如何快速迭代"这个问题之后——他们知道如何演进、如何做决策——增速就会腾飞。我们在很多客户身上都看到了这个规律：有一段"冷启动期"，但一旦建好了快速迭代的系统，他们的AI使用量就会指数级增长，他们能使用的模型多了，能构建的产品多了，能解决的问题也多了。

你从外面看，会觉得这些公司增长很慢，但这是在打基础。等他们打好基础，就会爆发式增长。我认为我们会看到大量企业客户、云原生公司——Revolut、Shopify、Booking.com这些公司——解决完冷启动问题、建好快速迭代体系之后，AI使用量会像疯了一样增长。

主持人： 我一直认为开源不会对最大的模型提供商构成真正威胁，因为最大的企业客户要的是可靠性、安全性和便捷性，他们不想折腾底层架构。但你告诉我，Nebius能帮他们摆脱这些顾虑，以更低成本、更好体验转向替代方案，因为你把管道都藏起来了？

Roman： 对，但我要强调，这不是"封闭模型 vs 开源模型"的非此即彼。前沿封闭模型非常优秀，而且会越来越好，会解决大量我们现在还没有解决的问题。我们有如此多样化的应用场景需要解决，未来的市场足以容纳全球最智能的模型、最快的模型、以及介于两者之间的模型——足够智能同时足够便宜的模型。作为客户，你可以为每个具体任务选择合适的Token来源。

而到了智能体层，甚至不需要客户来做这个选择——引擎知道底层所有模型的能力，当你在OpenAI做研究时，你不需要考虑它要循环多少次、什么时候调用LLM、什么时候调用搜索、调哪个Prompt。这一切都在发生，你只是给出一个任务，推理引擎决定如何执行，你得到结果。未来很多企业场景和智能体任务都会以这种方式解决——开发者不需要编排所有的Token和模型，让最智能的模型处理最复杂的推理，让最快的模型做快速迭代。

主权AI、欧洲与模型建设的未来

主持人： 看到模型大爆发和专用化的趋势，有一件事非常清晰——欧洲在模型建设方面远远落后于美国和中国。你认为各个国家拥有自己的主权AI模型有多重要？

Roman： 看起来世界正在分裂，我们也许无法改变这一点。我认为，让足够好的基础模型在世界的主要地区可以获取是重要的。在欧洲，至少在我们所在的这部分世界，我们应该思考如何在这里拥有足够的能力。

过去几年关于主权AI的讨论，我认为太过于聚焦在兆瓦数和算力上，而不是真正关键的构建者层面。算力会来的，如果有需求，像Nebius这样的公司会去建。真正需要关注的，是如何拥有更多像Lovable、Black Forest Labs、Mistral这样的优秀公司，更多投资于研究和产品的人。他们会创造出足够的需求，推动飞轮转动，进而产生足够好的模型。

主持人： 今天最值得投资的方向是什么？给你四个选项：基础设施、通用模型、垂直模型、应用层。

Roman： 我们做基础设施，所以我认为这是个好地方。但说实话，我认为在这个行业里最了不起的，是那些敢于去构建面向终端用户产品的人。他们承担的是真正的风险——构建的东西有没有人需要——他们才是AI旅程中真正的英雄。

与超大规模云服务商正面竞争

主持人： 关于与英伟达的关系——这场婚姻里双方权力不对等，你怎么看这种权力动态？

Roman： 我们的思路很简单：做好我们该做的事，构建好我们的产品，讲好我们的故事，其他的自然会水到渠成。

英伟达在很大程度上仍然是一家工程师驱动的公司，我认为获得英伟达尊重的最好方式，是让英伟达的工程师尊重你的工程师。我们一遍又一遍地证明了我们知道自己在做什么，我们有一支强大的工程团队。他们看到了这一点，也尊重这一点，我们在硬件层、软件层和推理平台层都有大量工程师之间的横向交流。英伟达工程师越看重你，合作关系就越好。

也许我们的想法是错的，但我们就这么做，专注于做合理的事，专注于长期价值。听起来很空洞，人人都这么说。但说到底，把你该做的事做好就行了，不是吗？

主持人： 那"把该做的事做好"，今天最难的部分是什么？

Roman： 四个维度：规模建设、产品建设、客户服务，以及资本。

规模和产品我们前面谈过了。第三个维度是客户——我们是一个交付驱动的业务，云是销售后才真正开始的生意。你签了合同，你卖的是承诺，然后你必须满足客户。与客户紧密合作，覆盖客户，有一支强大的客户面向工程团队——这是第三个维度，要不断与客户沟通，了解他们，让他们了解你。

第四个维度是资本——最枯燥但也最激动人心的。我们在资本密集型赛道里与全球资本最雄厚的公司竞争。

如果给你无限预算，你会做什么不同的事？答案很简单：更快地建设。更快地建什么？数据中心，然后填满GPU。我们今年的资本支出计划是200到250亿美元，我们的竞争对手超大规模云服务商的资本支出是我们的八倍左右。如果我有10倍的资本，我就更快地建更多数据中心，更快地填满GPU，服务更多客户。

Gavin Baker曾经说过一句很有见地的话：监管和审批导致的数据中心建设延误实际上帮了我们，因为如果你今天能建10倍的数据中心，反而会造成过剩。这是个很好的问题——我们的投资者有时也问这个——关键在于时间跨度。

未来6个月，钱解决不了问题，6个月太短了，你只能用手里有的资源交付。接下来12个月，可以加速一些事情，但更多是容量约束问题。到了24个月的维度，资本可以解锁大量事情，建设可以大幅加速。我们建的不是一个数据中心，而是一个容量组合。执行力越强、资本越多，就能更多地并行推进——先锁定电力和土地，再建数据中心，再填入GPU，每个阶段需要更多资本，但我们尽量提前做好准备，确保到了下一阶段时，电力已经锁定，数据中心已经在运行。

主持人： 我们看到越来越多的公众对AI的抵触情绪，40%的数据中心在规划审批中被否。你们内部怎么看待这个问题？

Roman： 这是我们必须在其中运作的环境。有两个层面。

从商业角度，我们把这视为组合管理问题——保持充分的超额储备，即便某个数据中心被延误，我们仍然能向客户交付足够的容量。大多数客户不绑定在某个物理位置，可以把工作负载调配到有容量的地方。

另一方面，我们确实看到社区和地方政府要求我们深入合作，解释我们在做什么，回应他们的关切。这是现实，也是应尽的义务。可以类比当年Uber进入新市场时遭遇的反弹——有些关切是因为不了解，有些是合理的关切，都可以去解决。关键是参与进去，做好沟通工作，这就是应尽的职责。

主持人： 在地球上建数据中心已经这么复杂了，太空数据中心更是完全另一个量级。你怎么看？

Roman： 我觉得现在看到的一切都疯了，这件事也不例外。有这么多聪明的人在致力于让它发生，很可能他们会做到。我不敢说3年内太空计算会超过地球计算，我很谦逊——但我也不会说它不会发生。如果3年前有人告诉你，我们会建多吉瓦规模的互联超大算力集群，你会相信吗？我不会。但现在这已经是常规操作了。

快问快答

主持人： 5年后最常见但今天还不存在的职位是什么？

Roman： 我们正在让"开发者"这个身份平民化——我们每个人都能成为开发者，把一个想法转化为数字资产。我希望这种建设的平民化能打开大量我们现在甚至无法想象的机会。当数以千万计的新人获得把想法变为现实的能力，将会涌现出大量全新的业务和职位。

但随之而来的挑战，同时也是风险和机遇，是教育的变革。当所有人都能获取智能，人们应该学什么？你不需要记忆事实，所有知识都触手可及。怎么训练人们真正思考？怎么帮助人们在不断变化的职业环境中找到自己的位置？很多职业将不再稳定，如何持续学习新概念？这些都是巨大的机遇和风险。

主持人： 你有两个正在进入职场的女儿，你给她们什么建议？

Roman： 我告诉她们两件事将会是最重要的。第一，能够以共情的方式与人沟通——真正理解人，与人建立连接，有同理心。第二，创造力——艺术和创造力，我希望它们不会消失。我10年前认为数学和工程是最重要的，现在我已经完全不这么认为了。我很高兴她们比我当年更注重软技能。理解人、与人建立共情、保持创造力、勇于尝试新事物——如果你能帮孩子培养这两点，我认为10年后他们会很吃香。

Nebius最大的威胁不是竞争

主持人： 帮我完成这句话：Nebius最大的威胁不是竞争，而是……

Roman： 是整合，是过度集中。Nebius最大的商业威胁，是世界变得过于整合。就像我们谈到的，我们努力服务多元化的客户群体，在不同层级服务不同客户。如果世界最终只剩三五家超级公司、超级帝国控制一切，那Nebius这样的公司就只能帮它们在物理层提供服务。世界越多元化、越去中心化，我们的生存空间就越大。

主持人： 你认为这种极度整合有多大可能发生？我们确实在看到价值向越来越少的玩家集中。

Roman： 我希望不会发生。作为人类，多元化的世界也更好。我是乐观主义者——有太多人希望独立地构建自己的东西，有太多人有探索和创造的冲动，这种内生的力量会推动世界保持多元化。

主持人： Leopold Aschenbrenner最近披露了一笔对Nebius的大仓位——占他投资组合的15%左右，Nebius 5.3%的股份。你们内部怎么看这件事？

Roman： 我们当然注意到了，股价也跳涨了，是个大消息。我认为我们把它视为对我们所做事情的一种认可。但每次有人给我们这样的认可，我就告诉自己：他们给了你交付的机会和信任，回去做好你的工作，交付。

我们身处一个情绪化的市场，你必须始终脚踏实地。记住，所有这些来自客户和投资者的信任和认可，都是交付的机会，不是庆功的理由。回去做好工作。

我想我在这一点上更像俄国人——俄国人总是务实地看问题，总是预期会有什么事情发生，时刻做好准备。

这也是我们CEO和创始人Arkady的风格——每天醒来，新的客户，新的一天，你需要交付，没有任何东西是理所当然的。市场移动这么快，要保持相关性，你必须以同样的速度甚至更快的速度移动。

我应该承认，我们可能应该多一点庆祝，给团队更多认可——他们做到了很多艰难的事，但我们没有时间庆祝。不过，我们是不会停下来的——就像鲨鱼，你游动，你才活着，我们必须不断前进。

主持人： Roman，非常感谢你今天的到来，感谢你耐心回答我所有七拐八绕的问题，你真的太棒了。

Roman： 谢谢，是你太客气了。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

“AI云新贵”Nebius CEO：“四层架构”对抗巨头，“只有不断移动才能生存”

AI基础设施：起点而非泡沫

"四层架构"：从裸金属到智能体

Token Factory：以系统优化降低推理成本

开源与封闭模型：并非零和博弈

资本劣势与生存哲学

AI基础设施：泡沫还是起点？

开源对OpenAI和Anthropic真正的冲击

杰文斯悖论：AI越便宜，需求越大

AI基础设施的四层架构

从训练到推理和智能体的迁移

Token Factory如何将推理成本降低70%

主权AI、欧洲与模型建设的未来

与超大规模云服务商正面竞争

快问快答

Nebius最大的威胁不是竞争

Comments