两年前,如果你问一个AI圈的人,哪家公司最在乎安全,十有八九会提到Anthropic。
这家由前OpenAI核心成员创立的公司,一直以“安全优先”作为自己最重要的品牌标签。它甚至在官方文件里白纸黑字写下承诺:如果AI能力达到某个危险门槛,公司将主动暂停训练,直到安全措施跟上为止。
这份文件有个专属名字:《负责任扩展政策》。Anthropic的联合创始人兼CEO曾多次公开表示,这是他们区别于其他AI公司最根本的东西:不是最快,而是最负责任。
但就在近两天,这一切悄悄变了。

01 一份政策,一次删除
当地时间2月24日,Anthropic低调发布了RSP第三版。
和过去两个版本相比,这一次更新有一个关键变化,那条被视为“硬性红线”的暂停训练承诺,从文件中消失了。
原来的逻辑很清晰:一旦模型能力触碰到预设的危险阈值(比如,足以协助生物武器研发的科学理解能力),公司必须暂停训练新模型,直到对应的安全防护措施就绪。这是一种“if-then”的条件约束机制,相当于给自己上了一道锁。
2023年RSP中“暂停训练承诺”原文,核心是如果无法及时部署所需安全措施,则必须暂时暂停训练更强模型
新版本里,这道锁消失了。
在 2026 年 2 月 24 日博客与 RSP 3.0 正文中,“暂停训练”的承诺不再出现,取而代之的是以路线图、风险报告与外部评审为核心的透明度机制。
这意味着一套更“灵活”的框架:前沿安全路线图、风险报告机制、非约束性的公开承诺。简单来说,这个锁变成了旋转门,从“做不到就不许动”,变成了“边做边说、透明披露”。
Anthropic对这次调整给出了自己的解释。
“我们正在将《负责任扩展政策》重构为两个组成部分:
1)我们认为无论其他机构采取何种行动,Anthropic 都能够自行地履行承诺;
2)一套更具雄心的建议方案,其落实需要行业与政府层面的协调行动。
随着我们逐步接近更高等级的 AI 安全级别,事先精确界定所需的具体安全防护措施将变得愈发困难。”
用简单的话来理解:Anthropic发现原来设定的能力阈值“比预期更模糊”。模型能力是连续增长的,并不会在某一天突然“越过”某条清晰的红线。既然边界本来就说不清,刚性暂停的机制也就失去了可操作性。
这个解释有一定的道理。但问题在于:如果边界本来就模糊,为什么两年前要以这份承诺作为“招牌”,又为什么偏偏在这个时间点修改?
02 不久前,OpenAI也改了一个词
事情并不只发生在Anthropic。
OpenAI的2024年度IRS表格(990表)于2025年11月公开发布,覆盖2024财年,在这份文件里,“safely”一词首次从使命陈述中消失。
旧版本是这样写的:构建安全的、造福全人类的通用人工智能,不受财务回报需求的约束。
新版本删掉了一个词:safely(安全地)。
现在它变成了:确保通用人工智能造福全人类。
有人评论这是小题大做,一个副词的删改不值得这么敏感。但也有评论指出,OpenAI最初从非营利机构转型为“封顶利润公司”时,“安全”这个词是他们用来说服外界自己没有迷失的最后防线。
现在连这一道防线也撤了,底线在哪里?
03 资本和商业竞争优先?
把两件事放在一起看,两家竞争对手动作出奇一致。
就在RSP 3.0发布两周前,Anthropic宣布完成300亿美元融资,估值升至约3800亿美元。OpenAI据媒体报道也正在敲定新一轮融资,估值甚至高达 8300亿美元。这两家公司已经不再是靠信念驱动的AI研究机构,而是背负着巨大市值预期的商业实体。
在这个体量下,"暂停训练"意味着暂停产品迭代,暂停商业落地,暂停估值增长的预期。Anthropic首席科学家Jared Kaplan的一句话,或许最能代表这种现实压力:“如果竞争对手飞速前进,我们单方面承诺暂停训练没有意义。”
AI这场竞赛,已经不是几家头部公司之间的商业博弈了。开源社区、各个国家都在快速推进,没有任何一家公司可以靠“我们先暂停”来换取整个行业的同步冷静。
Anthropic在官方说明里也坦承,他们最初设想的“由我们设立安全标准,其他公司跟进,并没有完全实现”。虽然OpenAI和Google DeepMind确实建立了类似框架,但这些框架更多是形式上的对标,而不是实质上的约束。
更重要的是,监管环境也在变。Anthropic在文件中明确提到,当前的政治气候对监管不友好,政府行动迟缓,企业不愿意单方面承担安全成本。
这是一个很现实、也很令人不安的问题。
04 “透明披露”能替代“硬性约束”吗?
Anthropic一再强调,RSP 3.0并不是放弃安全,而是换了一种更成熟的方式,就是从刚性承诺变成透明机制。
这种说法有没有道理?在一定程度上,有。
原来的版本确实存在缺陷:能力阈值说不清楚,暂停时机没法判断,执行层面本来就有模糊地带。把一个不可执行的承诺继续挂在那里,除了维持公关形象,实际意义也有限。
RSP 3.0保留了很多实质性的安全机制。比如,Anthropic已经在2025年5月正式激活了ASL-3级别的防护标准,这是针对化学和生物武器风险的专项防护措施,包括一套复杂的输入输出分类器,用来拦截可能被滥用的内容。这项工作是真实存在的,不是口号。
但批评者的担忧也有其道理。
硬性约束和透明披露,本质上不是同一回事。
硬性约束是“做不到就必须停止”,它的价值在于提前锁死选项,让决策者在压力面前无路可退。透明披露是“你可以知道我在做什么”,它依赖的是外部的舆论压力和内部的自律。
问题在于:当资本压力足够大、竞争焦虑足够强,透明披露能否真的约束住实际行为?
05 那么,谁来设红线?
有一种更悲观的解读。2026年,AI安全正在越来越多地变成一个公关语言。
我们可以看到,几乎所有主流AI公司都有一份“安全框架”,都有一份“负责任使用政策”,都有一套听起来严肃的承诺文件。但这些文件是为了约束自己,还是为了告诉监管机构和公众“我们已经在管了,我是负责任的,你们不用‘操心’了”?
但是,Anthropic和OpenAI,有权利修改自己的“安全框架”,在真正的商业压力面前,安全承诺的边界是可以移动的。
现在回头看,2023年Anthropic发布RSP 1.0时的逻辑,其实预设了一个重要前提:政府和社会会跟上。
原来的设想是:企业率先设立安全标准,以此推动行业形成自律共识,同时给监管机构提供参考蓝本,最终形成政府层面的多边协调机制。
这条路没有完全走通。
监管跟不上技术和商业的变化,安全共识在散开,竞争在加速。企业单方面守住安全红线的成本越来越高,外部的约束机制还没有建立起来。
在这个真空期里,没有人能给出一个清晰的答案:如果企业不再设红线,谁来设?
Anthropic的联合创始人们本就是因为担心AI失控而离开OpenAI,才创立了这家公司。他们的初心,是成为AI竞赛里那个“负责任的参与者”。
两年多过去,他们仍然在做大量严肃的安全研究,仍然有一批真正在意这些问题的工程师和研究员在内部推动。RSP 3.0也保留了相当多的实质性安全机制。
但是,底线会越来越低吗?
在一个没有人愿意踩刹车的赛道上,所有人都在加速,这场比赛会开向哪里,没人知道。
声明:转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。文字、图片版权均属权利人,如涉及作品内容、版权和其它问题,请及时与我们联系。
2017-12-13 2049
2022-11-02 995
2021-02-03 1549
2023-09-28 886
2021-04-22 1364
2017-10-15 3024