“最怕”AI失控的人，放弃了？

数字经济头条 > “最怕”AI失控的人，放弃了？整合行业各界信息，传递最新资讯

“最怕”AI失控的人，放弃了？

作者：数科邦发布时间：2026-02-26 4 0 0

两年前，如果你问一个AI圈的人，哪家公司最在乎安全，十有八九会提到Anthropic。

这家由前OpenAI核心成员创立的公司，一直以“安全优先”作为自己最重要的品牌标签。它甚至在官方文件里白纸黑字写下承诺：如果AI能力达到某个危险门槛，公司将主动暂停训练，直到安全措施跟上为止。

这份文件有个专属名字：《负责任扩展政策》。Anthropic的联合创始人兼CEO曾多次公开表示，这是他们区别于其他AI公司最根本的东西：不是最快，而是最负责任。

但就在近两天，这一切悄悄变了。

屏幕截图 2026-02-26 181402.png

01 一份政策，一次删除

当地时间2月24日，Anthropic低调发布了RSP第三版。

和过去两个版本相比，这一次更新有一个关键变化，那条被视为“硬性红线”的暂停训练承诺，从文件中消失了。

原来的逻辑很清晰：一旦模型能力触碰到预设的危险阈值（比如，足以协助生物武器研发的科学理解能力），公司必须暂停训练新模型，直到对应的安全防护措施就绪。这是一种“if-then”的条件约束机制，相当于给自己上了一道锁。

2023年RSP中“暂停训练承诺”原文，核心是如果无法及时部署所需安全措施，则必须暂时暂停训练更强模型

新版本里，这道锁消失了。

在 2026 年 2 月 24 日博客与 RSP 3.0 正文中，“暂停训练”的承诺不再出现，取而代之的是以路线图、风险报告与外部评审为核心的透明度机制。

这意味着一套更“灵活”的框架：前沿安全路线图、风险报告机制、非约束性的公开承诺。简单来说，这个锁变成了旋转门，从“做不到就不许动”，变成了“边做边说、透明披露”。

Anthropic对这次调整给出了自己的解释。

“我们正在将《负责任扩展政策》重构为两个组成部分：

1）我们认为无论其他机构采取何种行动，Anthropic 都能够自行地履行承诺；

2）一套更具雄心的建议方案，其落实需要行业与政府层面的协调行动。

随着我们逐步接近更高等级的 AI 安全级别，事先精确界定所需的具体安全防护措施将变得愈发困难。”

用简单的话来理解：Anthropic发现原来设定的能力阈值“比预期更模糊”。模型能力是连续增长的，并不会在某一天突然“越过”某条清晰的红线。既然边界本来就说不清，刚性暂停的机制也就失去了可操作性。

这个解释有一定的道理。但问题在于：如果边界本来就模糊，为什么两年前要以这份承诺作为“招牌”，又为什么偏偏在这个时间点修改？

02 不久前，OpenAI也改了一个词

事情并不只发生在Anthropic。

OpenAI的2024年度IRS表格（990表）于2025年11月公开发布，覆盖2024财年，在这份文件里，“safely”一词首次从使命陈述中消失。

旧版本是这样写的：构建安全的、造福全人类的通用人工智能，不受财务回报需求的约束。

新版本删掉了一个词：safely（安全地）。

现在它变成了：确保通用人工智能造福全人类。

有人评论这是小题大做，一个副词的删改不值得这么敏感。但也有评论指出，OpenAI最初从非营利机构转型为“封顶利润公司”时，“安全”这个词是他们用来说服外界自己没有迷失的最后防线。

现在连这一道防线也撤了，底线在哪里？

03 资本和商业竞争优先？

把两件事放在一起看，两家竞争对手动作出奇一致。

就在RSP 3.0发布两周前，Anthropic宣布完成300亿美元融资，估值升至约3800亿美元。OpenAI据媒体报道也正在敲定新一轮融资，估值甚至高达 8300亿美元。这两家公司已经不再是靠信念驱动的AI研究机构，而是背负着巨大市值预期的商业实体。

在这个体量下，"暂停训练"意味着暂停产品迭代，暂停商业落地，暂停估值增长的预期。Anthropic首席科学家Jared Kaplan的一句话，或许最能代表这种现实压力：“如果竞争对手飞速前进，我们单方面承诺暂停训练没有意义。”

AI这场竞赛，已经不是几家头部公司之间的商业博弈了。开源社区、各个国家都在快速推进，没有任何一家公司可以靠“我们先暂停”来换取整个行业的同步冷静。

Anthropic在官方说明里也坦承，他们最初设想的“由我们设立安全标准，其他公司跟进，并没有完全实现”。虽然OpenAI和Google DeepMind确实建立了类似框架，但这些框架更多是形式上的对标，而不是实质上的约束。

更重要的是，监管环境也在变。Anthropic在文件中明确提到，当前的政治气候对监管不友好，政府行动迟缓，企业不愿意单方面承担安全成本。

这是一个很现实、也很令人不安的问题。

04 “透明披露”能替代“硬性约束”吗？

Anthropic一再强调，RSP 3.0并不是放弃安全，而是换了一种更成熟的方式，就是从刚性承诺变成透明机制。

这种说法有没有道理？在一定程度上，有。

原来的版本确实存在缺陷：能力阈值说不清楚，暂停时机没法判断，执行层面本来就有模糊地带。把一个不可执行的承诺继续挂在那里，除了维持公关形象，实际意义也有限。

RSP 3.0保留了很多实质性的安全机制。比如，Anthropic已经在2025年5月正式激活了ASL-3级别的防护标准，这是针对化学和生物武器风险的专项防护措施，包括一套复杂的输入输出分类器，用来拦截可能被滥用的内容。这项工作是真实存在的，不是口号。

但批评者的担忧也有其道理。

硬性约束和透明披露，本质上不是同一回事。

硬性约束是“做不到就必须停止”，它的价值在于提前锁死选项，让决策者在压力面前无路可退。透明披露是“你可以知道我在做什么”，它依赖的是外部的舆论压力和内部的自律。

问题在于：当资本压力足够大、竞争焦虑足够强，透明披露能否真的约束住实际行为？

05 那么，谁来设红线？

有一种更悲观的解读。2026年，AI安全正在越来越多地变成一个公关语言。

我们可以看到，几乎所有主流AI公司都有一份“安全框架”，都有一份“负责任使用政策”，都有一套听起来严肃的承诺文件。但这些文件是为了约束自己，还是为了告诉监管机构和公众“我们已经在管了，我是负责任的，你们不用‘操心’了”？

但是，Anthropic和OpenAI，有权利修改自己的“安全框架”，在真正的商业压力面前，安全承诺的边界是可以移动的。

现在回头看，2023年Anthropic发布RSP 1.0时的逻辑，其实预设了一个重要前提：政府和社会会跟上。

原来的设想是：企业率先设立安全标准，以此推动行业形成自律共识，同时给监管机构提供参考蓝本，最终形成政府层面的多边协调机制。

这条路没有完全走通。

监管跟不上技术和商业的变化，安全共识在散开，竞争在加速。企业单方面守住安全红线的成本越来越高，外部的约束机制还没有建立起来。

在这个真空期里，没有人能给出一个清晰的答案：如果企业不再设红线，谁来设？

Anthropic的联合创始人们本就是因为担心AI失控而离开OpenAI，才创立了这家公司。他们的初心，是成为AI竞赛里那个“负责任的参与者”。

两年多过去，他们仍然在做大量严肃的安全研究，仍然有一批真正在意这些问题的工程师和研究员在内部推动。RSP 3.0也保留了相当多的实质性安全机制。

但是，底线会越来越低吗？

在一个没有人愿意踩刹车的赛道上，所有人都在加速，这场比赛会开向哪里，没人知道。

声明：转载目的在于传递更多信息，并不代表赞同其观点和对其真实性负责。文字、图片版权均属权利人，如涉及作品内容、版权和其它问题，请及时与我们联系。

标签：

动真格！银联携手商业银行、支付机构发布支付APP对抗支付宝微信
2017-12-13 2049
国务院“数字经济发展情况报告”，释放了哪些信号
2022-11-02 995
各地就地过年补贴来啦！最高2000元！
2021-02-03 1549
进一步发挥数字经济引擎作用
2023-09-28 886
5G产业链盈利加速兑现机构布局细分龙头
2021-04-22 1364
影响共享经济发展的四个因素
2017-10-15 3024

“最怕”AI失控的人，放弃了？

评论：

咨询热线