数字经济头条 > “最怕”AI失控的人,放弃了?

“最怕”AI失控的人,放弃了?

作者:数科邦 发布时间:2026-02-26 4 0 0

两年前,如果你问一个AI圈的人,哪家公司最在乎安全,十有八九会提到Anthropic。

这家由前OpenAI核心成员创立的公司,一直以“安全优先”作为自己最重要的品牌标签。它甚至在官方文件里白纸黑字写下承诺:如果AI能力达到某个危险门槛,公司将主动暂停训练,直到安全措施跟上为止。

这份文件有个专属名字:《负责任扩展政策》。Anthropic的联合创始人兼CEO曾多次公开表示,这是他们区别于其他AI公司最根本的东西:不是最快,而是最负责任。

但就在近两天,这一切悄悄变了。

屏幕截图 2026-02-26 181402.png

01 一份政策,一次删除

当地时间2月24日,Anthropic低调发布了RSP第三版。

和过去两个版本相比,这一次更新有一个关键变化,那条被视为“硬性红线”的暂停训练承诺,从文件中消失了。

原来的逻辑很清晰:一旦模型能力触碰到预设的危险阈值(比如,足以协助生物武器研发的科学理解能力),公司必须暂停训练新模型,直到对应的安全防护措施就绪。这是一种“if-then”的条件约束机制,相当于给自己上了一道锁。

2023年RSP中“暂停训练承诺”原文,核心是如果无法及时部署所需安全措施,则必须暂时暂停训练更强模型

新版本里,这道锁消失了。

在 2026 年 2 月 24 日博客与 RSP 3.0 正文中,“暂停训练”的承诺不再出现,取而代之的是以路线图、风险报告与外部评审为核心的透明度机制。 

这意味着一套更“灵活”的框架:前沿安全路线图、风险报告机制、非约束性的公开承诺。简单来说,这个锁变成了旋转门,从“做不到就不许动”,变成了“边做边说、透明披露”。

Anthropic对这次调整给出了自己的解释。

“我们正在将《负责任扩展政策》重构为两个组成部分:

1)我们认为无论其他机构采取何种行动,Anthropic 都能够自行地履行承诺;

2)一套更具雄心的建议方案,其落实需要行业与政府层面的协调行动。

随着我们逐步接近更高等级的 AI 安全级别,事先精确界定所需的具体安全防护措施将变得愈发困难。”

用简单的话来理解:Anthropic发现原来设定的能力阈值“比预期更模糊”。模型能力是连续增长的,并不会在某一天突然“越过”某条清晰的红线。既然边界本来就说不清,刚性暂停的机制也就失去了可操作性。

这个解释有一定的道理。但问题在于:如果边界本来就模糊,为什么两年前要以这份承诺作为“招牌”,又为什么偏偏在这个时间点修改?

02 不久前,OpenAI也改了一个词

事情并不只发生在Anthropic。

OpenAI的2024年度IRS表格(990表)于2025年11月公开发布,覆盖2024财年,在这份文件里,“safely”一词首次从使命陈述中消失。

旧版本是这样写的:构建安全的、造福全人类的通用人工智能,不受财务回报需求的约束。

新版本删掉了一个词:safely(安全地)。

现在它变成了:确保通用人工智能造福全人类。

有人评论这是小题大做,一个副词的删改不值得这么敏感。但也有评论指出,OpenAI最初从非营利机构转型为“封顶利润公司”时,“安全”这个词是他们用来说服外界自己没有迷失的最后防线。

现在连这一道防线也撤了,底线在哪里?

03 资本和商业竞争优先?

把两件事放在一起看,两家竞争对手动作出奇一致。

就在RSP 3.0发布两周前,Anthropic宣布完成300亿美元融资,估值升至约3800亿美元。OpenAI据媒体报道也正在敲定新一轮融资,估值甚至高达 8300亿美元。这两家公司已经不再是靠信念驱动的AI研究机构,而是背负着巨大市值预期的商业实体。

在这个体量下,"暂停训练"意味着暂停产品迭代,暂停商业落地,暂停估值增长的预期。Anthropic首席科学家Jared Kaplan的一句话,或许最能代表这种现实压力:“如果竞争对手飞速前进,我们单方面承诺暂停训练没有意义。”

AI这场竞赛,已经不是几家头部公司之间的商业博弈了。开源社区、各个国家都在快速推进,没有任何一家公司可以靠“我们先暂停”来换取整个行业的同步冷静。

Anthropic在官方说明里也坦承,他们最初设想的“由我们设立安全标准,其他公司跟进,并没有完全实现”。虽然OpenAI和Google DeepMind确实建立了类似框架,但这些框架更多是形式上的对标,而不是实质上的约束。

更重要的是,监管环境也在变。Anthropic在文件中明确提到,当前的政治气候对监管不友好,政府行动迟缓,企业不愿意单方面承担安全成本。

这是一个很现实、也很令人不安的问题。

04 “透明披露”能替代“硬性约束”吗?

Anthropic一再强调,RSP 3.0并不是放弃安全,而是换了一种更成熟的方式,就是从刚性承诺变成透明机制。

这种说法有没有道理?在一定程度上,有。

原来的版本确实存在缺陷:能力阈值说不清楚,暂停时机没法判断,执行层面本来就有模糊地带。把一个不可执行的承诺继续挂在那里,除了维持公关形象,实际意义也有限。

RSP 3.0保留了很多实质性的安全机制。比如,Anthropic已经在2025年5月正式激活了ASL-3级别的防护标准,这是针对化学和生物武器风险的专项防护措施,包括一套复杂的输入输出分类器,用来拦截可能被滥用的内容。这项工作是真实存在的,不是口号。

但批评者的担忧也有其道理。

硬性约束和透明披露,本质上不是同一回事。

硬性约束是“做不到就必须停止”,它的价值在于提前锁死选项,让决策者在压力面前无路可退。透明披露是“你可以知道我在做什么”,它依赖的是外部的舆论压力和内部的自律。

问题在于:当资本压力足够大、竞争焦虑足够强,透明披露能否真的约束住实际行为?

05 那么,谁来设红线?

有一种更悲观的解读。2026年,AI安全正在越来越多地变成一个公关语言。

我们可以看到,几乎所有主流AI公司都有一份“安全框架”,都有一份“负责任使用政策”,都有一套听起来严肃的承诺文件。但这些文件是为了约束自己,还是为了告诉监管机构和公众“我们已经在管了,我是负责任的,你们不用‘操心’了”?

但是,Anthropic和OpenAI,有权利修改自己的“安全框架”,在真正的商业压力面前,安全承诺的边界是可以移动的。

现在回头看,2023年Anthropic发布RSP 1.0时的逻辑,其实预设了一个重要前提:政府和社会会跟上。

原来的设想是:企业率先设立安全标准,以此推动行业形成自律共识,同时给监管机构提供参考蓝本,最终形成政府层面的多边协调机制。

这条路没有完全走通。

监管跟不上技术和商业的变化,安全共识在散开,竞争在加速。企业单方面守住安全红线的成本越来越高,外部的约束机制还没有建立起来。

在这个真空期里,没有人能给出一个清晰的答案:如果企业不再设红线,谁来设?

Anthropic的联合创始人们本就是因为担心AI失控而离开OpenAI,才创立了这家公司。他们的初心,是成为AI竞赛里那个“负责任的参与者”。

两年多过去,他们仍然在做大量严肃的安全研究,仍然有一批真正在意这些问题的工程师和研究员在内部推动。RSP 3.0也保留了相当多的实质性安全机制。

但是,底线会越来越低吗?

在一个没有人愿意踩刹车的赛道上,所有人都在加速,这场比赛会开向哪里,没人知道。


声明:转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。文字、图片版权均属权利人,如涉及作品内容、版权和其它问题,请及时与我们联系。

标签:

评论:

您还可以输入0/300个字
        • 无搜索结果