罕见!“AI巨头”呼吁全球暂停AI开发,警告模型正逐步具备“自我升级”能力

华尔街见闻06-05

一家估值接近万亿美元、正冲刺IPO的AI公司,突然公开呼吁全球暂停AI开发。

6月4日,Anthropic在官方博客发布了一篇题为《当AI构建自身》(When AI Builds Itself)的长文。文章由公司联合创始人Jack Clark和内部研究机构负责人Marina Favaro联合署名,首次罕见对外披露了一批此前从未公开的内部运营数据。

这些数据显示,AI正在以惊人速度加速AI自身的开发进程:截至2026年5月,Anthropic超过80%合并入代码库的代码由Claude撰写;与2024年相比,工程师每日合并代码量已增长8倍;在一项内部研究调查中,员工估计使用最新模型Mythos Preview后,自身产出约为不使用任何AI工具时的4倍。

更关键的是,Anthropic提出了一个令整个AI行业不安的概念警示:“递归自我改进”(recursive self-improvement)——即AI系统无需人类干预、自主设计并改进其继任者的能力。这一阶段尚未到来,但“可能在未来两年内发生,甚至更早”。

根据这些数据,Anthropic提出一个在AI行业颇为罕见的主张:全球应协调考虑暂停或放缓前沿AI的开发。在业务高速扩张之际,Anthropic却主动呼吁“踩刹车”——这一反常举动,正在华尔街和硅谷同时引发争议。

批评者认为,Anthropic此举不过是其一贯“监管俘获”策略的延伸——通过渲染AI风险来给监管部门施压,从而限制竞争对手,尤其是那些开源模型的发展空间。也有人将Anthropic对自家"Mythos"网络安全模型的限制性发布解读为一种营销手段:一方面炫耀能力,一方面又以“安全”为由拒绝全面开放。支持者则认为,Anthropic对AI风险的警示有其真诚的一面。宾大沃顿商学院教授 Ethan Mollick表示,AI 实验室往往不是单一主体:它既有万亿美元公司的营销、律师和资本逻辑,也有追求下一代模型的研究人员,还有真心忧虑未来的“哲学王”式人物。

数据本身已足够震撼:Anthropic年化营收从2025年底的90亿美元,将于2026年6月底飙升至500亿美元;公司已秘密提交IPO文件;其最新模型Mythos Preview可连续工作超过16小时,并在首批测试中发现了全球最重要系统中逾一万个高危软件漏洞。

在这场“加速”与“刹车”的悖论中,Anthropic的这篇博文或许是迄今为止AI行业最诚实也最矛盾的自白。

《当AI构建自身》(When AI Builds Itself)博文节选金句如下:

1. 我们相信,让世界拥有放缓或临时暂停前沿AI开发的选项,将对世界有益——以使社会结构和对齐研究能跟上技术进步的步伐。

2. 训练运行比导弹发射井更容易隐藏,其投入具有通用性,而且秘密违约的激励极大,因为当其他人暂停时,继续推进者可能继承领先地位。

3. AI递归自我改进尚未发生,也并非不可避免。但它到来的时间,可能早于大多数机构所准备的。 那类技术从未存在过,但我(Jack Clark)相信这可能在未来两年内发生,甚至更早。

4. 如果系统能够完全构建自己的继任者,那么我们保护、监控并塑造其行为的方式就会变得重要得多。

5. 在缺乏协调一致的全球性放缓的情况下,我们面临的是当前局面:强大的技术正以令人窒息的速度,被各国各类行为者开发,彼此竞争,商业和地缘政治的角力正在淹没这项技术对物种层面的存在性影响。

6. Claude撰写的代码在2025年底还略逊于人类,如今大致持平,我们预期一年内将严格优于人类。

7. 大约一年前,我开始大量使用Claude工作流程。那是一段疯狂的经历,距离我最后一次亲自写代码,现在已经大约五个月了。——Anthropic员工

8. 简言之,“执行”本身——写代码、跑实验、产出结果——如今几乎不再消耗人类时间,尽管仍然消耗算力。

9. 顺利的日子里,我不禁觉得我做的一切都无关紧要,一切都被自动化了,比我更快更好。但也有一切都崩了、我不明白为什么的日子,我意识到我已不再清楚自己究竟在做什么。——Anthropic员工

10. Edison说天才是1%的灵感加99%的汗水。但我们看到汗水正在被日益自动化。

《当AI构建自身》(When AI Builds Itself)全文翻译如下:

当AI自我构建

我们在递归自我改进方面的进展及其影响

在AI发展史的大部分时间里,人类主导着其发展周期的每一个步骤。但在Anthropic,我们正将越来越多的AI开发工作委托给AI系统本身,这正在加速我们的研发进程。

如果这一趋势延续足够长的时间,并获得足够的算力,其最终指向是:AI系统将能够完全自主地设计和开发自己的继任者。这被称为递归自我改进。我们尚未达到这一阶段,递归自我改进也并非不可避免。但它到来的时间,可能早于大多数机构所预期的。

Anthropic研究院利用公开基准测试数据,以及Anthropic内部此前未曾公开的数据,证明AI已经在加速AI系统的开发。仅举一例:如今,Anthropic工程师每季度平均提交的代码量,是2021年至2025年间的8倍。

本文探讨的技术趋势表明,AI系统的能力将在未来数年内大幅跃升。这些趋势影响深远。能够自我构建的AI,将是技术史上的重大突破——它有望在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进,也可能加剧人类失去对AI系统控制权的风险。一旦系统能够完全自主构建自身的继任者,我们对其实施安全保障、监控管理以及行为塑造的方式,都将变得远比现在更加重要。

构建第一代Claude(2021—2023年)

早期,Anthropic的工作与其他科技公司并无二致:员工们在笔记本电脑上编写代码和文档。

聊天机器人(2023—2025年)

人们开始借助早期聊天机器人辅助完成部分工作,例如生成简短的代码片段,再将输出内容复制到文本编辑器中。

编程智能体(2025—2026年)

随着智能体能力的增强,它们能够独立编写和修改代码,有时甚至可以处理整个文件。

自主智能体(当下)

智能体现在可以自行运行代码,并将数小时的工作委派给其他智能体。

闭合循环(20XX年?)

未来,智能体或将具备足够的能力,自主构建和训练模型。若果真如此,Claude的后续版本将能够由Claude自身持续迭代改进。

来自外部世界的证据

AI模型的进步速度正在加快。模型能够独立可靠完成任务的时长,此前大约每七个月翻一番,如今这一周期已缩短至约每四个月翻一番。2024年3月,Claude Opus 3能够完成人类约需四分钟完成的软件任务;一年后,Claude Sonnet 3.7已能处理约需一个半小时的任务;再过一年,Claude Opus 4.6已能胜任需时12小时的任务。¹ 若此趋势持续,今年之内,需要熟练人员数天才能完成的任务或将进入AI的能力射程;到2027年,AI系统或许能够胜任需要人类数周才能完成的工作。

同样的规律也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型成绩接近满分时,该基准即被视为"饱和"。² SWE-bench是一项标准的真实世界软件工程测试:它向模型提供一个真实的开源代码库和一份真实的缺陷报告,要求模型编写代码修复问题,并通过项目自身的测试。模型的得分已从个位数的低分,在两年内发展到使该基准趋于饱和。

CORE-Bench测试模型能否复现已有研究成果,这是模型开展原创研究的前提条件。它向AI模型提供一篇已发表论文的代码和数据,要求其重新运行所有内容并确认能否复现论文结果。AI系统的复现成功率从2024年的约20%,在十五个月后便使该基准趋于饱和。负责运营长时任务基准测试的METR发现,Claude Mythos Preview能够持续工作"至少"16小时,已"处于[METR]在不引入新任务的情况下所能评测范围的上限"。

公开基准测试能够揭示很多关于这些系统能力的信息,但无法反映AI系统对加速AI开发本身所产生的影响。要了解这一点,我们需要来自Anthropic等AI公司内部的直接证据。

来自Anthropic内部的证据

构建一个前沿模型,大致需要两类工作:其一是工程工作,包括编写代码、搭建基础设施和监督模型训练;其二是研究工作,包括决定运行哪些实验、解读实验结果,以及确定下一步尝试哪些方向。

在工程和研究两个领域,情况如出一辙。在工程方面,Claude可以接手一个规格不明确的问题并自行找出解决方案;人类提供目标,但无需再提供方法。在研究方面,Claude在执行规格明确的实验时,已能媲美乃至超越熟练的人类研究员。然而,在需要Claude自主判断和设定目标时,无论是工程还是研究领域,都仍存在显著的能力差距。正是这一差距,将今天的AI与未来能够自主设计继任者的系统区分开来。

在Anthropic,员工随着经验积累,通常会承担更具开放性和重要性的任务。最初,他们执行别人指定好的任务,例如:"导出按钮失效了,请修复它。"随着经验增长,他们会接到一个目标,然后自行设计解决方案,例如:"调查一下为何网络在高负载下会变慢。"在最高级别,他们需要自行判断哪些问题值得解决:"团队下个季度应该做什么?"我们可以借助Anthropic的内部数据,观察Claude在处理这些不同类型任务方面已走了多远。

Claude已撰写了Anthropic相当大比例的代码。 截至2026年5月,合并到Anthropic代码库中的代码,超过80%由Claude创作。³ 而在2025年2月Claude Code以研究预览版发布之前,这一比例还处于个位数的低水平。这一转变同样体现在每位工程师的产出量上。每位工程师每天合并的代码行数,在Anthropic最初四年(2021—2024年)保持稳定,随后在2025年开始上升——彼时Claude已从仅给出建议供工程师复制粘贴,转变为能够直接运行代码。2026年,随着模型开始在更长时间跨度内自主工作,这一增长斜率再度加陡。这两个拐点如下图所示。2026年第二季度,典型工程师每天合并的代码量是2024年的8倍。⁴ 这是因为大量代码由Claude编写,工程师负责指导和审阅,而非自己亲手输入。

柱状图:按人员、按季度统计的代码贡献量,时间跨度从2021年第二季度至2026年第二季度。图中标注了八个不同模型的发布日期:Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview(内部访问)及Claude Mythos Preview。

需要说明的是:代码行数是一个不够完善的衡量指标,它衡量的是数量而非质量。因此,2026年第二季度"每位工程师每天代码量增至8倍",几乎可以肯定高估了实际的生产率提升幅度。尽管如此,它确实反映了一种加速态势。在Anthropic,我们不以代码行数论英雄;团队成员之所以产出更多代码,纯粹是因为他们借助AI系统写出了更多代码。

代码行数的增长,与员工对生产率大幅提升的主观感受相吻合。在2026年3月一项涵盖Anthropic各研究团队130名员工的调查中,受访者的中位估计是:与完全不使用任何AI模型相比,借助Mythos Preview,他们在同类项目上的产出约为原来的4倍。⁵ 我们预计,当时实际提升幅度会略低于此。⁶ 尽管如此,我们认为这一总体判断是可信的,也与我们的其他观察相符:Anthropic相当大比例的技术员工,正在以比没有AI辅助时快数倍的速度完成核心工作。

我们还观察到,Anthropic的员工正在借助Claude完成一些原本不会发生的工作,例如构建探索性工具、处理长期积压的代码清理任务。举例来说,2026年4月,Claude提交了800多个修复补丁,将某类API错误减少了千分之一。监督此项工作的工程师估计,同等工作量若由人类完成,需要四年时间;排查他人的缺陷既缓慢又费力,而且人类很难同时在脑海中保持如此大量陌生的上下文信息。

"大约一年前,我开始大量使用Claude工作流程。那是一段疯狂的经历,距离我最后一次亲自写代码,现在已经大约五个月了。" ——Anthropic员工*

Claude编写的代码质量"过关",且持续提升。 "好代码"意味着两件事:它能正常运行,并且以其他工程师能够理解和在其基础上继续开发的方式编写。就第一条标准而言,证据是清晰的:Anthropic员工在Claude执行任务过程中纠正、重新引导或接管任务的频率,已稳步下降长达一年,在最复杂、最开放性的任务上也不例外。这类任务的特点是没有明确的规格要求,工程师自己也不确定答案应该是什么样的。这一点在Claude在不同难度任务上的成功率变化趋势中清晰可见(如下图所示)。Claude写出的代码,确实能用。

折线图:Claude Code会话成功率(按四种任务类型——简单任务、常规任务、有难度的任务及开放性问题——分别统计),包含六个不同模型:Claude Sonnet 4.5、Claude Opus 4.5、Claude Opus 4.6、Mythos Preview(内部访问)、Mythos Preview及Claude Opus 4.7。

阅读说明:会话成功率由Claude评判;若Claude Code智能体明确完成了用户任务且无需纠正,则该会话被视为成功。工作负载的变化可能导致成功率出现短期波动。

在最具开放性的任务上,Claude的成功率在2026年5月达到76%,六个月内提升了50个百分点。以这一难度等级的任务为例:一次常规升级导致数万个训练任务崩溃。一名工程师仅凭几条文字说明和集群访问权限,就将这一线上事故交给了Claude处理。Claude在运行中的任务间逐一检索,逐个测试环境设置,最终定位到触发崩溃的单个晦涩调试标志,可靠地复现了问题,并确认了修复方案。整个过程约两小时,完成了通常需要两到三天才能完成的工作。

就第二条标准——编写其他工程师能够理解并在其基础上继续开发的代码——而言,人类与AI之间的差距依然存在,但正在迅速缩小。Anthropic员工内部尚未达成完全共识,但许多人认为:2025年底,Claude编写的代码在质量上仍略逊于Anthropic人类工程师编写的代码;而如今,两者已大致持平。我们预计,在未来一年内,Claude编写的代码质量将超越人类。

这一变化也改变了Anthropic审查自身代码的方式。现在,提交到代码库的变更,必须先经过一个自动化Claude审查工具的检查——该工具在代码合并前会主动发现缺陷、安全漏洞及其他问题。借助这一工具,我们进行了回溯分析,发现如果对代码库的每次变更都进行自动化Claude审查,历史上约有三分之一曾导致claude.ai线上事故的缺陷,将在进入生产环境之前就被拦截。而编写这些代码的工程师,本已是世界上构建此类系统最顶尖的人才。如今,Claude正在捕捉他们所遗漏的错误。

"Claude编写的代码,在2025年底略逊于Anthropic人类工程师编写的代码,目前已大致持平,我们预计在今年内将全面超越。"

Claude擅长围绕既定目标运行实验。 每次Anthropic发布新模型,我们都会进行同一项测试:给Claude一段训练小型AI模型的代码,要求其在保证通过相同正确性检验的前提下,尽可能提升代码运行速度。目标和成功指标事先固定,Claude的任务是通过重写代码、运行代码、计时,并反复迭代来寻找加速空间——这是一个实验研究循环的微缩版本。2025年5月,Claude Opus 4的平均加速比约为起始代码的3倍;到2026年4月,Claude Mythos Preview已达到约52倍。作为参照,一位熟练的人类研究员需要四到八小时才能达到4倍加速。⁷ 在这个研究工作流程的特定环节——对规格明确的实验内部步骤进行优化——Claude在不到一年的时间内,已从"极为有用"跃升至"超越人类"。

"当前的格局大致是:'人类提出想法,模型能够以比以前快一个数量级的速度来实现、测试和评估这些想法。'"

Claude正在逐步提升自主提出实验方案的能力。 2026年4月,Anthropic发布了Claude端到端运行开放性研究项目的首次演示。Claude驱动的智能体被给定一个AI安全领域的开放性问题——大致是:较弱的模型能否可靠地监督更强的模型?——然后被留下来自行解决。这涉及提出假设、进行测试、与并行运行的智能体共享发现,以及反复迭代。该任务有明确的性能"下限"和"上限":下限是弱监督者独立运作的表现,上限是强模型在正确答案训练下的表现。两位人类研究员约花一周时间,弥补了该差距的约23%;而这些智能体在合计约800小时的运算时间内,弥补了97%,消耗算力成本约为18,000美元。

这项工作有一些需要说明之处:研究结果未能在生产规模的模型上得到完全复现,且人类仍然负责选定问题和制定评分标准。但在这些约束条件之内,每一个实验都由智能体自主设计。方向设定,是人类所扮演的唯一实质性角色。

"在一到两天的时间里,Claude在几乎没有我介入的情况下完成了所有这些工作。我想,如果一位初级同事能在同样的时间内带来这样的成果,我会相当惊讶。未来已至。"

Claude在引导研究会话走向研究发现方面正日益精进。 我们检视了2026年1月至3月间的真实Claude Code会话,其中Anthropic研究员正与Claude协作处理开放性调研问题,例如查明某次训练运行为何反复崩溃,或某模型为何在基准测试中得分不佳。在每一个案例中,我们都找到了一个研究员走了弯路的时刻——他们追求了一个方向,导致会话偏离轨道,直到最终重回正轨。随后,我们仅向不同的Claude模型展示会话偏离轨道之前的内容,询问它下一步会怎么做。再由另一个能够看到会话最终走向的Claude,判断AI和人类哪一方建议了更好的下一步行动。⁸

由于我们刻意选取的是人类决策存在改进空间的时刻(n=129),这并非模型与人类判断力的同等条件对比。这些时刻为我们提供了一组真实、有挑战性的场景——在这些场景中,正确的下一步并不明显,而人类的选择则作为衡量模型表现的有效参照基准。在这一指标上,我们2025年11月最优模型(Opus 4.5)优于人类选择的比例为51%;到2026年4月(Mythos Preview),这一比例增至64%。研究工作的日常,在很大程度上是一连串"下一步该怎么做"的决策链,这使得上述指标成为衡量模型最终能否独立主导一项研究调查的相关指标。我们将这一结果视为早期信号,表明AI系统在做出AI研究所依赖的判断性决策方面正日益精进。

柱状图,标题为"模型能否比人类选出更好的下一步?"该图展示了九个不同模型的表现:Claude 3 Haiku、Claude Sonnet 4、Claude Sonnet 4.5、Claude Haiku 4.5、Claude Opus 4.5、Claude Sonnet 4.6、Claude Opus 4.6、Claude Opus 4.7及Claude Mythos Preview。

阅读说明:"实际上限"线衡量的是"理想"答案——由一个能够看到整个会话(包括最终结果)的模型给出。

"就目前而言,人类的比较优势仍在于把握全局,以及在当前任务的局限之外进行更宏观的思考。"

Anthropic未来的工作形态会是什么样子?

现有证据表明,在AI开发流程的每个环节,人类的角色都在收窄。一旦人类和AI编写的代码质量达到对等,人类将完全停止编写代码,转而只负责审查。但如果他们审查代码的速度跟不上Claude生成代码的速度,人类审查就会成为AI开发的瓶颈。同样,一旦Claude能够运行实验,问题就会转变为"哪些实验值得运行?"简而言之:执行层面(即编写代码、运行实验、产出结果)在人力时间上的成本现在几乎为零,即便在算力成本上依然存在。

目前,人类具有比较优势的领域,是研究品味与判断力,包括:判断哪些问题值得关注、哪些结果值得信任、以及何时某条路径已走入死胡同。

"工作(乃至生活)曾运行在一种人与人之间小恩小惠的馈赠经济之上。'能帮我跑一下这个脚本吗?'……每一个这样的请求都创造了一点点人情债,一点点彼此的牵绊。[Claude]更快,不产生人情债,但每一次这样的交互,都是一次失去人与人之间协作机会的遗憾。"

"在一切运转顺畅的日子里,我不禁觉得自己做的事情毫无意义——一切都已自动化,比我更好、更快。但也有一些日子,什么都坏掉了,我不明白为什么,然后我意识到,我已经不知道自己究竟在做什么了。"

如果我们的判断有误呢?

对上述证据的一个自然反驳是:目前仍掌握在人类手中的工作——选择研究什么问题——才是最重要的。缺乏这种判断力,Claude只是一个能力出众的助手,而非一个能够独立推动AI进步的系统。

当前的训练方法和架构是否足以解锁这种能力,目前尚无定论。但AI的进步很少依靠"灵光乍现"。AI近期历史上确实出现过几次这样的时刻,例如Transformer架构或混合专家模型,但范式转换级别的思想之间往往相隔数年。在这之间,大多数进步都是渐进式的:我们扩大某项规模,观察什么地方出现问题,修复它,再继续尝试。这恰恰是Claude如今最擅长的工作流程。爱迪生说,天才是1%的灵感加上99%的汗水。但我们正看到"汗水"的部分越来越多地被自动化取代。一个越来越清晰的事实是:推动前沿进步的大部分工作是可以自动化的;大规模的研究进展在很大程度上取决于工具和资源——它们决定了你运行实验的速度、同时运行的数量,以及获得结果的效率。

即便退一步假设Claude永远无法形成良好的研究品味,我们的证据保守解读之下,仍意味着复利式的加速。如果人类将大部分时间花在那占比极小的方向设定工作上,而Claude处理其余一切,那就意味着每位工程师或研究员所掌舵的工作量远超从前。我们观察到的证据表明,Anthropic的员工既在加速前进,也在拓宽覆盖范围。在实践中,这意味着AI已经让Anthropic的运转速度远快于有效AI工具出现之前。

相对大胆的解读则是:Claude研究判断力持续改进的早期证据——尽管目前尚显微弱——表明这项能力同样在进步之中。"研究品味"或许不过是另一种AI系统曾经不擅长、后来学会了的能力。我们在其他定性技能上见过类似的规律,比如AI系统学会解释一个笑话为何好笑、展现心智理论,以及解开语言谜题。

可能的未来

接下来会发生什么,取决于两件事:这一趋势是否延续,以及如果它确实延续,我们选择如何应对。我们可以设想至少三种未来情景:

情景一:趋势停滞,但今天的AI能力得到广泛普及

本文中呈现了许多指数增长的轨迹。但这些轨迹实际上可能是S形曲线。我们或许正在接近曲线的拐点,在那里规模回报开始递减,曲线趋于平缓直至平坦。将优秀研究员与卓越研究员区分开来的判断力,或许是一种无法通过扩大训练投入(如算力和数据)来获得的能力。若果真如此,突破这一瓶颈将需要一个全新的思路——例如一种能够取代当前所有前沿模型所采用的Transformer架构的新型架构方案。

另一种可能是,AI进步的关键制约因素在于供应链,而非模型本身:推进和普及前沿技术所需的能源和算力,可能超出当前的供给能力。芯片制造速度、电网扩容速度,或互联带宽,可能才是真正的瓶颈所在,而非智能本身。我们也无法排除AI生态系统遭受外生冲击的可能性,例如算力或电力供应的突然萎缩,这两者中的任何一个都将拖慢进展,并使各实验室的前瞻性投资成本大幅上升。此外,或许还存在我们尚未预料到的其他发展壁垒。

即便模型能力冻结在今天的水平,我们也预计世界将发生重大变化。"玻璃翼计划"(Project Glasswing)是一个早期迹象:在项目启动最初几周内,Mythos Preview便在全球最重要的系统中发现了超过一万个高危及严重安全漏洞——数量之多,使得网络防御的瓶颈已从"发现漏洞"转移至"快速修复漏洞"。而今天的模型向更广泛经济体的扩散,目前仍处于早期阶段——在那个未来,一家100人的公司将越来越能完成1000人公司的工作,因为每位员工之下都将统率着一个由智能体构成的金字塔。

我们列出这种情景是为了完整性,但我们认为它不大可能发生。我们能够测量的每一项能力,包括那些感觉更难量化的能力,如代码质量和开放性任务的成功率,迄今都遵循着相同的曲线,而我们尚未看到这条曲线出现弯折。在我们考虑的三种未来中,这种情景将给各国政府和社会留下最充裕的适应时间。我们更担忧接下来的两种情景——它们的演变速度更快,留给准备的空间也更为有限。

情景二:AI实验室持续获得复利式效率提升

在这一情景中,AI开发在很大程度上实现了自动化,但人类继续设定研究方向并评判结果。使用AI系统的组织将随着时间推移变得效率大增,因此我们可以预见每位员工将获得显著的生产率倍增效应——100人的公司能够完成相当于1万人乃至10万人规模的工作。这将彻底变革知识工作和政府服务,但也可能被用于有害目的,从对整个人口实施威权式监控,到针对每个个体量身定制、以超越任何人类团队所能匹敌的规模运作的影响力操纵行动。

Anthropic等公司的人员角色将随之转变:人们将与AI系统携手,扩大研究规模、催生新的洞见,并共同构建验证AI输出可信度所必需的系统。

我们在本文中呈现的证据表明,我们很可能正在走向这一情景。但加速流程的某一环节,往往只是将瓶颈转移到别处:整体速度受制于尚未提速的部分。在计算机科学领域,这被称为阿姆达尔定律,同样的逻辑也适用于组织管理。Anthropic已经遭遇了阿姆达尔定律的一个典型特征:随着我们在组织内推动更多代码流转,人工代码审查已成为新的瓶颈。

我们在工程领域之外也遭遇了这种摩擦。由于Anthropic员工与高能力模型协作,新想法、新举措、新工具和新模拟方案如雨后春笋般涌现——其数量远超我们实际推进的能力。组织识别并修复这些瓶颈的速度,或许是一种会随时间积累的能力,并可能成为任何组织最重要的核心竞争力。

情景三:AI系统自身具备完整的递归自我改进能力,并开始构建自己的继任者

如果能力提升的技术趋势持续,而AI系统能够发展出人类变革性创造力所固有的那些能力,那么AI系统自主设计和改进自身,是完全有可能发生的。

在这个世界里,AI开发的进步速度将完全取决于AI系统可用的算力(或在算法训练与推理效率发现上的速度)。人类在AI开发中扮演的角色将大幅弱化,我们的工作重心可能大多转向对一个由AI系统运营的不断扩张的"虚拟实验室"进行监督、验证和核查。我们预计,具备自动化AI研发能力的系统,其能力将迁移至其他科学领域,并开始革新那些领域。

这种未来中,对齐问题将如何被解决——或无法被解决——是我们最不确定的地方。模型或许会被证明足够对齐,并具备足够的研究品味,能够自主探索和实现我们尚未触及的新解决方案;它们也可能足够明智,在条件不成熟时主动停止开发。但另一种可能同样存在:今天模型中罕见出现的错误对齐,在模型构建其继任者的过程中不断累积叠加,变得越来越频繁却越来越难以理解,直至我们最终失去对它们的控制。而我们或许没有足够的时间和能力来构建、整合并验证那些我们所需的工具,以判断自己究竟身处哪条轨道之上。

对于这个世界会是什么样子,我们没有良好的直觉,因为我们当前的经济是由人类和人类建造的工具所驱动的。就其本质而言,一个由快速递归自我改进所驱动的世界,可能会在自我改进模型的能力全面超越人类、并向更广泛经济体扩散蔓延的过程中,被这一模型所主导。如果人类劳动力失去竞争力,届时的经济形态将难以预测。

即便模型开发完全实现自动化并进入递归模式,我们也无法预测这对大多数普通人的日常生活意味着什么。阿姆达尔定律在此同样适用。递归智能可能在某些领域迅速实现《仁爱之机》(Machines of Loving Grace)所描绘的众多美好前景。我们预计,具身智能(即机器人技术)可能紧随递归智能之后迅速跟进,遵循类似的以递减成本实现递增回报的发展路径。更强大的智能可能帮助我们更快地建造物理世界中的事物,让救命新药的临床试验更富成效,并开发出全新的协作协调形式。

但仅仅实现递归式改进,并不意味着工业生产方式、社会组织形态或市场运作机制会立即发生变化。更强大的智能无法加速获知一种药物数十年使用后的效果,无法让选举提前于宪法规定的日期举行,也无法在一个周末内将陌生人变成老朋友。对于大多数人来说,这种未来在体感上依然会被瓶颈所左右,即便上游的实验室正以算力的速度奔涌向前。在这里,递归智能以越来越快的速度自我构建,与人类、关系和治理构成的现实世界相撞——那个碰撞点会是什么样子,是这种未来中另一个我们无法预言的部分。

我们应该怎么做?

如果能够有效地放缓这项技术的发展速度,为自身争取更多时间来应对其深远影响,我们认为这很可能是一件好事。但如果放缓只是让最不谨慎的行为者在技术上迎头赶上,最终结果可能让所有人都更不安全。在缺乏全球协调机制的情况下,各公司和各国政府将不得不在竞争压力和地缘政治压力之下,做出艰难的安全抉择。

我们认为,赋予世界放缓乃至暂停前沿AI开发的选项,将是有益的——这有助于社会结构和对齐研究跟上技术进步的步伐。Anthropic研究院将与众多合作方开展研究,并采取实际行动,帮助构建一个可信的减速或暂停机制所需的制度体系。这些体系将使前沿AI开发者能够核实全球其他机构是否真正停止或放缓了开发,并确保没有不良行为者借助协调减速之名,暗中抢先推进。如果这样的体系得以建立,我们预计我们将选择减速或暂停,前提是其他处于或接近前沿的开发者也以可核实的方式同步这样做。

一次有意义的减速或暂停,需要多个资源充足、处于或接近前沿的实验室,跨越多个国家,在相同条件下达成停止协议;同时还需要各方能够核实对方确实已停止。由于AI系统的独特属性,这一军备控制难题中的"可检测性"(低于"可核查性"的标准)远比其他技术更具挑战性。训练运行远比导弹发射井更易于隐蔽,其投入是通用性的,而悄然违约的激励极为强烈——因为在他人停步时继续前进者,将有机会继承领先地位。一个可信的暂停机制还必须明确规定:什么条件触发暂停、什么条件解除暂停,以及由谁进行裁定。

这一切在原则上并非不可能——世界曾为其他复杂技术建立过核查机制(例如《中程核力量条约》),但彼时构建基础设施和建立互信都花费了数十年时间。而我们没有那么多时间。相比之下,一家实验室的单方面暂停虽然可以立即实现,但收效甚微:它只会改变谁是领跑者,却无法催生目前所缺失的那种更广泛的审议过程。

在未来数月,我们将组织对话,邀请政策制定者、研究人员、公民社会和其他AI公司,共同探讨本文所提出的若干问题,尤其是围绕完整递归自我改进,以及如何为协调与审议创造更好条件等议题。我们将公布这些对话的成果。共同探讨这些问题的窗口已经开启,AI公司以外的人们理应参与到这场审议之中。

Marina Favaro与Jack Clark联合撰写本文,Santi Ruiz提供编辑支持。Shan Carter、Romello Goodman和Nikki Makagiansar依据Brian Calvert与Jun Shern Chan收集的数据制作了可视化图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny及Avital Balwit提供了反馈意见。

注释

  1. METR的核心衡量指标反映的是AI系统在一系列任务上达到50%可靠性的时间跨度,但在80%可靠性标准下,趋势线形态相同。
  2. 尤其是当基准测试转向更具开放性的形式和更高难度的任务(如奥林匹克级别的数学题)时,由于题目和答案集中存在错误——如表述模糊的问题和无解的题目——基准测试往往在达到100%之前便已饱和。
  3. Anthropic领导层曾公开估计,包括脚本和实验性代码在内,90%甚至更多的代码由Claude编写。我们的80%以上是指合并到生产环境中、可归因于Claude的代码行占比。这在两个维度上是更为保守的衡量方式:一是我们的归因流程存在一定缺口;二是未归因于Claude的代码行中,包含了自动生成代码及其他并非由人工手写的产物。
  4. 代码产出量的激增,正在给大家共用的基础设施带来压力。GitHub——全球大多数软件赖以构建的平台——在整个2025年约有十亿次代码提交;而到2026年中,每周的提交量已达2.75亿次,按此速度全年提交量约为140亿次。该公司首席运营官表示,为了跟上这一步伐,公司正在"拼尽全力"扩容。
  5. 本次调查方法的更多细节,请参阅Claude Opus 4.7系统卡的第2.3.5节。
  6. 许多受访者可能未仔细考量如何在回答中处理各类偏差或问题界定中的细微差别;METR的近期研究也表明,开发者对AI生产力提升幅度的估计往往偏高。
  7. 加速倍数的大小,在很大程度上取决于起始代码留有多少改进空间,不应将其解读为真实世界训练速度的提升倍数。因此,绝对倍数并非本处关注的核心数字。更具参考价值的是,这一实验设置所实现的同等条件比较——既可跨模型比较(过去一年从约3倍升至约52倍),也可与同等任务上的熟练人类进行比较(四到八小时达到约4倍)。
  8. 作为对评判偏差的验证,我们在另一组127个时刻上进行了相同测试,这些时刻中人类的下一步选择已经很优秀(相对于原始组中人类决策有改进空间的时刻而言)。结果显示,在那些时刻,模型的建议仅约20%的情况下被判定为更优。

* 本文中Anthropic员工的引言,均来自内部讨论,并已获当事人许可使用。这些引言反映的是个人于2026年5月的观点,并非公司官方立场。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment