比剧透提前!Anthropic发布Claude Opus 4.8:更“诚实”、可调思考强度、新功能协调数百智能体

华尔街见闻05-29

继4月推出Claude Opus 4.7后,仅一个多月时间,Anthropic便火速更新旗舰模型序列。

当地时间周四,Anthropic正式发布Claude Opus 4.8,不仅较前代版本进一步强化编程、智能体(Agent)和复杂任务处理能力,还新增用户可控“思考投入”机制,以及面向大型任务的新功能“动态工作流”(Dynamic Workflows),使模型能着手解决超大规模的复杂问题。

相比前代Claude Opus 4.7,Opus 4.8新增了“快速模式”(Fast Mode),在该模式下,模型的运行速度可提升至常规的2.5倍,现在的成本仅为此前模型的三分之一。

值得注意的是,此次新一代Claude Opus模型的上线时间甚至早于此前代码泄露与业内爆料所暗示的“6月中旬左右”发布时间。在当前AI大模型竞争持续升温之际,Anthropic显然正在加快旗舰模型的迭代节奏。

Claude Opus 4.8有哪些新变化?核心卖点:更强智能体、更高“诚实度”、思考投入可调

Anthropic将Claude Opus 4.8定义为Opus系列最新升级版本,重点提升方向包括编码、智能体的能力、企业工作流与复杂知识任务。

与传统模型固定推理模式不同,Anthropic此次引入了“投入控制”(effort control)机制,允许用户直接控制Claude为任务投入多少“思考资源”。

简单而言,用户可以在速度、成本和推理深度之间自行权衡:简单任务可减少计算投入以降低token消耗,复杂任务则可提高推理强度,换取更高质量输出。

与此同时,Anthropic特别强调了Opus 4.8的一项关键改进——“诚实度”(honesty)。

Anthropic称,大模型长期存在一个典型问题:在证据不足时容易仓促下结论,甚至高置信度输出未经验证内容。

据Anthropic介绍,Opus 4.8在面对不确定信息时,更倾向主动标记疑点、表达不确定性,而不是“强行给出答案”;模型产生无依据结论的倾向也明显下降。

Anthropic称,内部评估结果也印证了这一点:数据显示,Opus 4.8允许其编写代码中存在缺陷却未加提示的概率,仅为其前代模型的四分之一左右。

Anthropic还提到,发布前对Opus 4.8进行了详尽的“对齐性”(Alignment)评估,结果显示,新模型“在支持用户自主权、始终维护用户最佳利益等‘亲社会特质’的各项衡量指标上,均达到了新的高度。”

评估结果还显示,Opus 4.8 出现“未对齐行为”(即偏离预期行为,例如进行欺骗或协助滥用)的概率显著低于 Opus 4.7,且已达到与Anthropic目前对齐性最佳的模型——Claude Mythos预览版——相媲美的水平。

在智能体方面,Anthropic同步推出研究预览版“动态工作流”。

这一新功能被整合进Claude Code,可让模型在单个任务中协调数百个并行子智能体,自动规划、拆解、执行并验证复杂流程。

Anthropic举例称,新系统能够完成覆盖数十万行代码的大规模代码库迁移任务,从任务启动、执行到合并提交实现端到端处理。

测评成绩:智能体与浏览器操作能力继续拉升

Anthropic公布的评测数据显示,Claude Opus 4.8继续强化其在智能体和“计算机使用”场景中的优势。

其中,在衡量浏览器智能体和在线操作能力的Online-Mind2Web基准测试中,Opus 4.8获得84%的成绩,Anthropic称其表现优于Opus 4.7,也胜过GPT-5.5。

Anthropic表示,该模型在长流程任务中保持了更稳定的目标一致性和工具调用能力,更适合自主工程Agent、法律分析、金融研究以及企业复杂流程场景。

多家合作伙伴也在官方材料中给出背书。

例如,AI编程产品Devin开发商指出,Opus 4.8改善了此前版本存在的注释冗长、工具调用问题;法律与税务工作流平台CoCounsel则称,新模型在一致性和推理质量方面有明显提升。

常规定价不变 新增“快速模式”选项

价格方面,Anthropic并未提高标准使用成本。

Claude Opus 4.8维持与Opus 4.7一致的常规定价:每百万输入token收费5美元,每百万输出token收费25美元。

同时,Anthropic新增“快速模式”(Fast Mode)方案,定价为每百万输入token收费10美元,主打更快响应体验。

Anthropic同时继续保留Prompt Caching、批处理折扣等企业级成本优化机制。

已在哪些平台上线?云厂商同步接入

Anthropic表示,Claude Opus 4.8已正式上线Claude生态。

消费端与企业端方面,Pro、Max、Team、Enterprise用户均可直接使用。

开发者则可通过Claude API调用claude-opus-4-8模型。

此外,Anthropic同步在主要云平台开放部署,包括亚马逊的AWS、谷歌云以及微软的Foundry。

不止模型更新,Anthropic下一步想做什么?

除发布新模型外,Anthropic此次更新释放出的更重要信号,或许是其正在从“模型能力竞争”进一步迈向“智能体系统竞争”。

Dynamic Workflows、多Agent协作、长流程自动执行、用户可调思考强度等新功能,都显示出Anthropic希望推动Claude从聊天模型向“长期自主执行系统”演进。

公司在公告中也反复强调,未来重点方向将继续围绕Agent能力、企业复杂工作流、工具调用、跨会话记忆与长期任务执行展开。

Anthropic表示,作为Glasswing项目的一部分,目前已有少数机构开始试用Claude Mythos预览版,并将其应用于网络安全相关工作中。鉴于此类模型具备极高的能力水平,在正式面向大众发布之前,必须先行建立更为强健的网络安全防护体系。

目前,Anthropic在构建这些安全防护措施方面正取得迅速进展,并预计,在未来数周内,即可将Mythos级别的模型正式向所有客户开放。

从时间线上看,Anthropic显然正在加速新品节奏:4月中旬才推出Opus 4.7,一个多月后便发布4.8,而且较此前外界根据泄露代码推测的发布时间进一步提前。

在OpenAI、谷歌等厂商持续推进Agent和推理模型竞争的背景下,Anthropic选择用更快的迭代速度、更多系统级功能升级,继续押注高端企业AI市场。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment