Ben Mann 与 Anthropic：AI 安全的探索与未来展望

在人工智能迅猛发展的时代，Benjamin Mann 与 Anthropic 的故事代表了对 AI 安全与伦理的深刻思考。这一探索不仅是技术路线的选择，更是对人工智能发展方向的根本性反思。

1. Ben Mann 离开 OpenAI 的背景与决策

1.1 离开 OpenAI 的核心原因：对 AI 安全优先级的担忧

Benjamin Mann 离开 OpenAI 并共同创立 Anthropic 的核心驱动力在于他对 OpenAI 内部 AI 安全优先级的深切担忧。根据 Mann 在多个场合的表述，他认为在 OpenAI，安全考量并未被置于首要位置 [1] [3]。

"那些主要关注 AGI 安全和准备工作的研究人员在 OpenAI 内部日益被边缘化"

— 前 OpenAI 治理研究员 Daniel Kokotajlo

这种边缘化体现在多个方面，包括安全团队未能获得承诺的计算资源。例如，有报道指出，OpenAI 从未兑现其向"超级对齐"（Superalignment）团队提供 20% 计算能力的承诺[16]。

Mann 的担忧也延伸到了 OpenAI 对模型发布策略的态度。前政策负责人 Miles Brundage 曾指责 OpenAI 试图"改写"其 AI 安全历史，尤其是在 GPT-2 模型的发布事件上[16]。

1.2 创立 Anthropic 的使命：构建安全、对齐的 AI 系统

出于对 OpenAI 在 AI 安全方面优先级的担忧，Benjamin Mann 与 Dario Amodei、Daniela Amodei 等前 OpenAI 核心成员共同创立了 Anthropic，其核心使命是构建可靠、可解释、可操控且将安全与伦理考量深植于发展理念的 AI 系统 [6]。

Anthropic 致力于确保 AI 的发展能够惠及全人类，并将 AI 安全和价值对齐置于公司战略的核心位置 [4]。为了确保其长期承诺得到制度性保障，Anthropic 采用了公益公司（Public-Benefit Corporation, PBC）的结构 [6]。

1.3 带领 OpenAI 安全团队集体出走

Benjamin Mann 离开 OpenAI 并创立 Anthropic 的一个显著特点是，他并非孤身一人，而是与 OpenAI 的几乎整个安全团队一同离开 [2]。这一举动在当时引起了业界的广泛关注，并凸显了 OpenAI 内部在 AI 安全优先权问题上存在的深刻分歧。

关键人才流失数据

近一半曾专注于超强 AI 长期风险的员工离开 OpenAI[1] [3]
Jan Leike 公开指责 OpenAI 缺乏对安全的优先考虑[16]
治理研究员 Daniel Kokotajlo 等多位核心安全专家离职

这种集体出走的现象，反映了 Mann 及其同事对 OpenAI 在 AI 安全方向上偏离的严重不满，以及他们共同致力于解决 AI 对齐和安全挑战的决心。

2. Anthropic 的 AI 安全与对齐技术路线

2.1 核心理念：宪法式 AI (Constitutional AI)

Anthropic 在 AI 安全和对齐领域的核心理念是"宪法式 AI"（Constitutional AI, CAI） [6] [14]。这一理念旨在通过赋予 AI 模型一套明确的、类似宪法的指导原则（Constitutional Principles），来引导和约束其行为，使其与人类价值观和伦理准则保持一致。

阶段一：监督学习

模型通过迭代的自我批判和微调来修正有害的 AI 响应，依据宪法原则指出不当之处并引导生成更符合原则的回复。

阶段二：强化学习

AI 模型根据宪法原则对不同的响应进行评估，生成偏好数据，通过 RLAIF 训练新的模型。

与传统的基于人类反馈的强化学习（RLHF）相比，宪法式 AI 强调让 AI 模型根据预设的宪法原则进行自我批判和修正 [14]。

2.2 关键技术：基于 AI 反馈的强化学习 (RLAIF)

基于 AI 反馈的强化学习（Reinforcement Learning from AI Feedback, RLAIF）是宪法式 AI 实现过程中的一项关键技术 [14]，它构成了 Anthropic 在 AI 对齐方法上的重要创新。

RLAIF vs RLHF 优势对比

效率提升

减少对大量人工标注的依赖，加速迭代周期

透明度增强

明确的目标编码，增加模型行为可解释性

客观性提高

减少人类主观偏见，提升一致性和可重复性

2.3 创新实践：模型上下文协议 (Model Context Protocol, MCP)

模型上下文协议（Model Context Protocol, MCP）是 Anthropic 在提升 AI 模型实用性和安全性方面的一项重要创新实践 [12]，旨在解决当前 AI 助手在访问和处理外部数据时面临的挑战。

MCP 核心价值

用单一协议取代碎片化的集成方式
为连接 AI 系统与数据源提供通用开放标准
已获得 OpenAI、Google、微软等行业主要参与者支持[35] [81]

通过 MCP，开发者不再需要为每个数据源维护单独的连接器，而是可以针对一个标准协议进行开发。Anthropic 已经分享了针对 Google Drive、Slack、GitHub 等流行企业系统的预构建 MCP 服务器[12]。

2.4 对齐方法：从人类反馈 (RLHF) 到 AI 自我批判与纠正

Anthropic 在 AI 对齐方法上经历了一个从早期依赖人类反馈（RLHF）到更侧重于 AI 自我批判与纠正的演进过程 [6] [14]。

传统 RLHF

依赖人类标注

宪法式 AI

AI 自我批判

从依赖人类主观判断到基于明确宪法原则的客观评估

Anthropic 认为，CAI 和 RLAIF 的组合相较于纯粹的 RLHF，在效率、透明度和客观性方面具有优势 [14]。通过这种方式，Anthropic 试图构建一种更具可扩展性和可控性的 AI 对齐机制。

3. Ben Mann 对 AI 未来的预测与应对策略

3.1 AGI 的时间表预测：2027-2028 年的可能性

关键预测

Benjamin Mann 预测 AGI 最早可能在 2027 年至 2028 年实现 [2] [4]

这一预测基于他对当前 AI 技术发展速度，特别是"扩展法则"（scaling laws）持续有效的观察和判断[4] [9]。Mann 认为，AI 的进步仍在加速，而非趋于平稳，并且大多数人错误地判断了指数级增长的真正含义。

预测依据

扩展法则持续有效
AI 进步仍在加速
指数级增长被低估
计算能力持续提升

3.2 AGI 的衡量标准："经济图灵测试"

为了更实际地界定 AGI 的到来，Benjamin Mann 提出了一个名为"经济图灵测试"（Economic Turing Test）的衡量标准 [4] [9]。

经济图灵测试标准

当 AI 系统能够在长达一个月的时间内，在多种复杂且有经济价值的任务上，持续表现优于人类承包商，并且能够通过雇佣经理的判断

AGI 已经实现

这个标准与传统图灵测试不同，它更侧重于 AI 系统在真实世界经济任务中的表现能力[10]。Mann 认为，真正的 AI 潜力不仅体现在对话的流畅性上，更重要的是其在不同经济领域的实际应用能力。

3.3 AI 对就业的影响：不可避免的 20% 结构性失业

重要预测

Benjamin Mann 预测 AI 的发展将不可避免地导致高达 20% 的结构性失业 [2] [4]

这一预测基于他对 AI 技术，特别是 AGI 潜力的判断，即 AI 系统将能够在越来越多的经济任务中取代人类劳动力。Mann 认为，随着 AI 能力的持续增强，大量依赖此类技能的工作岗位将面临被自动化替代的风险。

社会挑战

• 大量个体面临生计困难
• 可能加剧社会不平等
• 引发社会矛盾
• 需要大规模再培训计划

应对建议

• 构建完善的社会安全网
• 探索全民基本收入 (UBI)
• 个人积极拥抱 AI 工具
• 机构共同努力应对冲击

3.4 AI 的安全挑战与"噩梦场景"

Benjamin Mann 对 AI 的未来发展抱有希望，但也对其潜在的安全挑战和"噩梦场景"（nightmare scenarios）表达了深切的担忧 [2] [4]。

"噩梦场景"风险估计

0-10%

发生极端负面结果的可能性

虽然概率看似不高，但考虑到其潜在的毁灭性影响，这已足以引起高度警惕[9]

潜在风险类型

• 超级智能 AI 失控

• AI 被恶意利用

• AI 目标与人类价值观严重错位

• 灾难性后果

3.5 应对策略：强调 AI 安全研究与社会准备

面对 AI 技术飞速发展带来的机遇与挑战，Benjamin Mann 提出的核心应对策略是强调 AI 安全研究的重要性以及进行广泛的社会准备 [4] [9]。

技术层面

持续投入 AI 安全研究
开发先进对齐技术 (CAI, RLAIF)
建立风险评估管理框架
提升系统透明度和可解释性

社会层面

大规模职业技能再培训
构建更健全的社会保障体系
提升公众对 AI 的认知
推动法律法规和伦理准则

在个人层面，Mann 建议人们积极拥抱 AI 工具，提升自身在 AI 时代的竞争力，并且他也在思考如何教育下一代，以更好地适应 AI 驱动的未来[4] [9]。

4. Anthropic 的发展历程与主要成就

4.1 公司创立与早期发展

Anthropic 由 Benjamin Mann、Dario Amodei（CEO）和 Daniela Amodei（总裁）等前 OpenAI 核心成员于 2021 年创立 [6]。公司的创立背景是创始团队对 OpenAI 在 AI 安全优先权方面的担忧。

创始团队核心背景

Dario Amodei (CEO)

在 OpenAI 期间开发了"迭代放大"和"辩论"等 AI 安全与对齐框架

Daniela Amodei (总裁)

负责制定关键的安全协议和伦理准则，如"AI 安全网格世界"框架

为了确保其长期承诺得到制度性保障，Anthropic 采用了公益公司（Public-Benefit Corporation, PBC）的结构 [6]，这在法律上要求公司在追求利润的同时，必须优先考虑公共福利。

4.2 核心产品：Claude 系列模型的推出与迭代

Anthropic 的核心产品是其 Claude 系列大型语言模型（LLMs），该系列模型以信息论创始人克劳德·香农（Claude Shannon）的名字命名[19]。

Claude 系列模型发展历程

早期版本

应用 RLHF 和宪法式 AI 技术，确保安全性和对齐性

Claude 3.5 Sonnet

在代码生成方面表现出色，帮助开发者快速构建 MCP 服务器实现[12]

Claude Opus 4

自主编写代码长达近 7 个小时，远超前代模型 45 分钟的限制[20] [22]

Claude 系列模型通过 Amazon Bedrock 等平台向各类规模的企业客户提供服务，帮助它们重塑业务策略和改善用户体验[21]。

4.3 融资与估值：获得亚马逊、谷歌等巨头支持

Anthropic 自成立以来，凭借其独特的技术路线和强大的团队背景，获得了资本市场的高度关注和巨额融资。

融资时间	投资方/领投方	融资金额	估值/备注
2022年4月	FTX, Lightspeed, Bessemer 等[53]	5.8亿美元	其中 FTX 投资 5 亿美元[53]
2023年9月	亚马逊 (Amazon)[41] [52]	高达40亿美元	Anthropic 将利用 AWS 作为主要云服务提供商[41]
2023年10月	谷歌 (Google)[41] [52]	20亿美元	Anthropic 选择谷歌云作为其首选云服务提供商之一[41]
E轮融资	Lightspeed Venture Partners (领投)[41]	3.5亿美元	估值约 61.5 亿美元[41]
总计/其他	—	约80亿美元[52]	估值据称已超过 1000 亿美元[30] [62]
财务表现	—	—	年化收入已达 30 亿美元 (截至2025年5月)，预计2027年实现盈亏平衡[41]

4.4 行业影响：推动 AI 安全与对齐的标准化

Anthropic 不仅在 AI 模型研发上取得了显著成就，还在推动整个 AI 行业向更安全、更负责任的方向发展方面发挥了积极作用。

MCP 行业合作

模型上下文协议（MCP）获得了包括 OpenAI、Google、微软在内的行业主要参与者支持[35] [81]

OpenAI Google Microsoft Block Apollo

安全实践引领

• 发布模型卡（Model Cards）
• 建立 AI 安全等级（ASLs）
• 制定负责任扩展政策
• 推广宪法式 AI 理念

通过推广 MCP 这样的开放标准，Anthropic 不仅提升了自身在行业中的影响力，也为构建一个更加协同和互操作的 AI 未来做出了贡献。

4.5 未来方向：持续投入 AI 安全研究与应用探索

展望未来，Anthropic 明确表示将继续坚定不移地投入 AI 安全研究，并将其作为公司发展的核心驱动力。Ben Mann 多次强调，随着 AI 模型能力的不断增强，安全和对齐问题的重要性只会越来越突出[27] [58]。

未来发展规划

技术研发

持续深化宪法式 AI、RLAIF 等核心技术研究

产品创新

完善和迭代 Claude 系列模型，探索新的模型架构

行业合作

推动行业标准制定，参与政策讨论和公共教育

在应用层面，Anthropic 致力于将其安全可靠的 AI 技术应用于更广泛的领域，以解决现实世界的问题并创造社会价值。通过技术研发、产品创新、行业合作和公共倡导等多方面的努力，Anthropic 旨在引领 AI 技术朝着对人类长远利益负责的方向发展。

Ben Mann 与 Anthropic

核心发现

关键技术