blog
2026-06-05

罕见!“AI巨头”Anthropic呼吁全球暂停AI开发,警告模型正逐步具备“自我升级”能力

罕见!“AI巨头”Anthropic呼吁全球暂停AI开发,警告模型正逐步具备“自我升级”能力!一家估值接近万亿美元、正冲刺IPO的AI公司,突然公开呼吁全球暂停AI开发。

6月4日,Anthropic在官方博客发布了一篇题为《当AI构建自身》(When AI Builds Itself)的长文。文章由公司联合创始人Jack Clark和内部研究机构负责人Marina Favaro联合署名,首次罕见对外披露了一批此前从未公开的内部运营数据。

这些数据显示,AI正在以惊人速度加速AI自身的开发进程:截至2026年5月,Anthropic超过80%合并入代码库的代码由Claude撰写;与2024年相比,工程师每日合并代码量已增长8倍;在一项内部研究调查中,员工估计使用最新模型Mythos Preview后,自身产出约为不使用任何AI工具时的4倍。

更关键的是,Anthropic提出了一个令整个AI行业不安的概念警示:“递归自我改进”(recursive self-improvement)——即AI系统无需人类干预、自主设计并改进其继任者的能力。这一阶段尚未到来,但“可能在未来两年内发生,甚至更早”。

根据这些数据,Anthropic提出一个在AI行业颇为罕见的主张:全球应协调考虑暂停或放缓前沿AI的开发。在业务高速扩张之际,Anthropic却主动呼吁“踩刹车”——这一反常举动,正在华尔街和硅谷同时引发争议。

批评者认为,Anthropic此举不过是其一贯“监管俘获”策略的延伸——通过渲染AI风险来给监管部门施压,从而限制竞争对手,尤其是那些开源模型的发展空间。也有人将Anthropic对自家"Mythos"网络安全模型的限制性发布解读为一种营销手段:一方面炫耀能力,一方面又以“安全”为由拒绝全面开放。支持者则认为,Anthropic对AI风险的警示有其真诚的一面。宾大沃顿商学院教授 Ethan Mollick表示,AI 实验室往往不是单一主体:它既有万亿美元公司的营销、律师和资本逻辑,也有追求下一代模型的研究人员,还有真心忧虑未来的“哲学王”式人物。

数据本身已足够震撼:Anthropic年化营收从2025年底的90亿美元,将于2026年6月底飙升至500亿美元;公司已秘密提交IPO文件;其最新模型Mythos Preview可连续工作超过16小时,并在首批测试中发现了全球最重要系统中逾一万个高危软件漏洞。

在这场“加速”与“刹车”的悖论中,Anthropic的这篇博文或许是迄今为止AI行业最诚实也最矛盾的自白。

Anthropic呼吁全球暂停AI开发

1. 我们相信,让世界拥有放缓或临时暂停前沿AI开发的选项,将对世界有益——以使社会结构和对齐研究能跟上技术进步的步伐。

2. 训练运行比导弹发射井更容易隐藏,其投入具有通用性,而且秘密违约的激励极大,因为当其他人暂停时,继续推进者可能继承领先地位。

3. AI递归自我改进尚未发生,也并非不可避免。但它到来的时间,可能早于大多数机构所准备的。 那类技术从未存在过,但我(Jack Clark)相信这可能在未来两年内发生,甚至更早。

4. 如果系统能够完全构建自己的继任者,那么我们保护、监控并塑造其行为的方式就会变得重要得多。

5. 在缺乏协调一致的全球性放缓的情况下,我们面临的是当前局面:强大的技术正以令人窒息的速度,被各国各类行为者开发,彼此竞争,商业和地缘政治的角力正在淹没这项技术对物种层面的存在性影响。

6. Claude撰写的代码在2025年底还略逊于人类,如今大致持平,我们预期一年内将严格优于人类。

7. 大约一年前,我开始大量使用Claude工作流程。那是一段疯狂的经历,距离我最后一次亲自写代码,现在已经大约五个月了。——Anthropic员工

8. 简言之,“执行”本身——写代码、跑实验、产出结果——如今几乎不再消耗人类时间,尽管仍然消耗算力。

9. 顺利的日子里,我不禁觉得我做的一切都无关紧要,一切都被自动化了,比我更快更好。但也有一切都崩了、我不明白为什么的日子,我意识到我已不再清楚自己究竟在做什么。——Anthropic员工

10. Edison说天才是1%的灵感加99%的汗水。但我们看到汗水正在被日益自动化。

《当AI构建自身》(When AI Builds Itself)全文翻译如下:

当AI自我构建

我们在递归自我改进方面的进展及其影响

在AI发展史的大部分时间里,人类主导着其发展周期的每一个步骤。但在Anthropic,我们正将越来越多的AI开发工作委托给AI系统本身,这正在加速我们的研发进程。

如果这一趋势延续足够长的时间,并获得足够的算力,其最终指向是:AI系统将能够完全自主地设计和开发自己的继任者。这被称为递归自我改进。我们尚未达到这一阶段,递归自我改进也并非不可避免。但它到来的时间,可能早于大多数机构所预期的。

Anthropic研究院利用公开基准测试数据,以及Anthropic内部此前未曾公开的数据,证明AI已经在加速AI系统的开发。仅举一例:如今,Anthropic工程师每季度平均提交的代码量,是2021年至2025年间的8倍。

本文探讨的技术趋势表明,AI系统的能力将在未来数年内大幅跃升。这些趋势影响深远。能够自我构建的AI,将是技术史上的重大突破——它有望在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进,也可能加剧人类失去对AI系统控制权的风险。一旦系统能够完全自主构建自身的继任者,我们对其实施安全保障、监控管理以及行为塑造的方式,都将变得远比现在更加重要。

构建第一代Claude

早期,Anthropic的工作与其他科技公司并无二致:员工们在笔记本电脑上编写代码和文档。

聊天机器人

人们开始借助早期聊天机器人辅助完成部分工作,例如生成简短的代码片段,再将输出内容复制到文本编辑器中。

编程智能体

随着智能体能力的增强,它们能够独立编写和修改代码,有时甚至可以处理整个文件。

自主智能体

智能体现在可以自行运行代码,并将数小时的工作委派给其他智能体。

闭合循环

未来,智能体或将具备足够的能力,自主构建和训练模型。若果真如此,Claude的后续版本将能够由Claude自身持续迭代改进。

罕见!“AI巨头”Anthropic呼吁全球暂停AI开发,警告模型正逐步具备“自我升级”能力

来自外部世界的证据

AI模型的进步速度正在加快。模型能够独立可靠完成任务的时长,此前大约每七个月翻一番,如今这一周期已缩短至约每四个月翻一番。2024年3月,Claude Opus 3能够完成人类约需四分钟完成的软件任务;一年后,Claude Sonnet 3.7已能处理约需一个半小时的任务;再过一年,Claude Opus 4.6已能胜任需时12小时的任务。¹ 若此趋势持续,今年之内,需要熟练人员数天才能完成的任务或将进入AI的能力射程;到2027年,AI系统或许能够胜任需要人类数周才能完成的工作。

同样的规律也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型成绩接近满分时,该基准即被视为"饱和"。² SWE-bench是一项标准的真实世界软件工程测试:它向模型提供一个真实的开源代码库和一份真实的缺陷报告,要求模型编写代码修复问题,并通过项目自身的测试。模型的得分已从个位数的低分,在两年内发展到使该基准趋于饱和。

CORE-Bench测试模型能否复现已有研究成果,这是模型开展原创研究的前提条件。它向AI模型提供一篇已发表论文的代码和数据,要求其重新运行所有内容并确认能否复现论文结果。AI系统的复现成功率从2024年的约20%,在十五个月后便使该基准趋于饱和。负责运营长时任务基准测试的METR发现,Claude Mythos Preview能够持续工作"至少"16小时,已"处于[METR]在不引入新任务的情况下所能评测范围的上限"。

公开基准测试能够揭示很多关于这些系统能力的信息,但无法反映AI系统对加速AI开发本身所产生的影响。要了解这一点,我们需要来自Anthropic等AI公司内部的直接证据。

来自Anthropic内部的证据

构建一个前沿模型,大致需要两类工作:其一是工程工作,包括编写代码、搭建基础设施和监督模型训练;其二是研究工作,包括决定运行哪些实验、解读实验结果,以及确定下一步尝试哪些方向。

在工程和研究两个领域,情况如出一辙。在工程方面,Claude可以接手一个规格不明确的问题并自行找出解决方案;人类提供目标,但无需再提供方法。在研究方面,Claude在执行规格明确的实验时,已能媲美乃至超越熟练的人类研究员。然而,在需要Claude自主判断和设定目标时,无论是工程还是研究领域,都仍存在显著的能力差距。正是这一差距,将今天的AI与未来能够自主设计继任者的系统区分开来。

在Anthropic,员工随着经验积累,通常会承担更具开放性和重要性的任务。最初,他们执行别人指定好的任务,例如:"导出按钮失效了,请修复它。"随着经验增长,他们会接到一个目标,然后自行设计解决方案,例如:"调查一下为何网络在高负载下会变慢。"在最高级别,他们需要自行判断哪些问题值得解决:"团队下个季度应该做什么?"我们可以借助Anthropic的内部数据,观察Claude在处理这些不同类型任务方面已走了多远。

Claude已撰写了Anthropic相当大比例的代码。 截至2026年5月,合并到Anthropic代码库中的代码,超过80%由Claude创作。³ 而在2025年2月Claude Code以研究预览版发布之前,这一比例还处于个位数的低水平。这一转变同样体现在每位工程师的产出量上。每位工程师每天合并的代码行数,在Anthropic最初四年(2021—2024年)保持稳定,随后在2025年开始上升——彼时Claude已从仅给出建议供工程师复制粘贴,转变为能够直接运行代码。2026年,随着模型开始在更长时间跨度内自主工作,这一增长斜率再度加陡。这两个拐点如下图所示。2026年第二季度,典型工程师每天合并的代码量是2024年的8倍。⁴ 这是因为大量代码由Claude编写,工程师负责指导和审阅,而非自己亲手输入。

罕见!“AI巨头”Anthropic呼吁全球暂停AI开发,警告模型正逐步具备“自我升级”能力

柱状图:按人员、按季度统计的代码贡献量,时间跨度从2021年第二季度至2026年第二季度。图中标注了八个不同模型的发布日期:Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview(内部访问)及Claude Mythos Preview。

来源于:https://news.china.com/socialgd/10000169/20260605/49531907.html    如有侵权请联系我们