Anthropic深度解析

张开发
2026/4/10 13:48:57 15 分钟阅读

分享文章

Anthropic深度解析
Anthropic一家用人类命名的公司正在经历最人性化的矛盾作者爱分享的阿Q标签AnthropicClaudeAI安全Constitutional AI大模型工程实践写在前面我一直觉得 Anthropic 是 AI 圈里最难被简单定义的一家公司。说它守护安全但它 2026 年 2 月刚刚把安全团队的冻结权给悄悄撤掉了说它技术领先但两次源码泄露都是同一个低级 npm 配置错误说它商业成功但其核心卖点恰恰是我们比对手更不急着赚钱。这种矛盾不是公关失误也不是管理混乱——它是一家用人类命名的公司在真正面对人类时的必然状态理想与现实的裂缝从第一天就存在只是被越来越大的营收数字不断撑宽。一、从 OpenAI 出走这件事远比你想象的复杂2021 年Dario Amodei 带着妹妹 Daniela 和 7 名同事离开 OpenAI创立了 Anthropic。“Anthropic这个词源自希腊语 Anthropos意思是人类”。外界习惯把这次出走描述成一次壮烈的原则之争一群相信 AI 安全的人无法接受 OpenAI 的商业化路线所以出走创业。这个故事很好听也确实有一定真实性。但现实比这更微妙。┌────────────────────────────────────────────────────────────┐ │ 两条路线的本质分歧 │ ├────────────────────────┬───────────────────────────────────┤ │ OpenAI │ Anthropic │ ├────────────────────────┼───────────────────────────────────┤ │ 性能优先安全迭代 │ 安全优先功能殿后 │ │ 快速商业化获取资源 │ 可控性先于能力扩张 │ │ AGI 赛跑参与者 │ AI 风险研究机构同时也是赛跑者│ │ 直接面向消费者 │ 聚焦企业级高价值客户 │ └────────────────────────┴───────────────────────────────────┘说白了这不只是理念分歧也是商业路线分歧。Dario 判断更安全这个标签在高价值的企业客户中是稀缺资产金融、医药、法律这些行业不需要最强模型他们需要最可预期的模型。这个判断是正确的。《财富》全球 500 强前十中有 8 家成了 Anthropic 的客户年化营收从 10 亿美元涨到近 140 亿美元只用了 14 个月。安全被成功变现了。二、Constitutional AI一套真正有意思的技术哲学Anthropic 在技术层面的核心贡献是 Constitutional AI宪法 AI这个东西值得认真聊一聊。传统的 RLHF基于人类反馈的强化学习有个根本问题人类标注员自身有偏见、有疲劳、有局限。你让一个人看一千条输出并打分他第九百条的判断跟第一条已经不一样了。Constitutional AI 的思路是不依赖人工打分给模型一套明文原则“宪法”让它自己审查、自己修改。Constitutional AI 工作流简化版 第一阶段生成 ┌──────────────────────────────────────────┐ │ 用户输入 → 模型生成初始回复 │ └──────────────────────────────────────────┘ ↓ 第二阶段自我审查RLAIF 核心 ┌──────────────────────────────────────────┐ │ 模型读取宪法原则 │ │ 对初始回复进行批判 │ │ · 这个回复是否有害 │ │ · 这个回复是否诚实 │ │ · 这个回复是否真正有帮助 │ └──────────────────────────────────────────┘ ↓ 第三阶段修订 ┌──────────────────────────────────────────┐ │ 生成修订版本进行偏好对比训练 │ │ 反复迭代直到满足原则约束 │ └──────────────────────────────────────────┘ 核心优先级无害Harmless 诚实Honest 有帮助Helpful这套框架有几个我觉得真正聪明的地方一是它把价值观显式化了。大多数公司的安全机制是黑盒的Anthropic 把原则写下来理论上可以被审计、被质疑、被迭代。这在整个行业是异类。二是它用 AI 来监督 AI。这本质上是一种扩展方案——人类没法监督无限量的输出但另一个模型可以。RLAIF基于 AI 反馈的强化学习之所以后来成为行业标配Anthropic 的这批论文功不可没。三是优先级的排序是诚实的。无害 诚实 有帮助这个顺序意味着有时候 Claude 会拒绝帮你即便你的请求并非真的危险。这确实引发了不少过度保守的批评但这个拒绝至少是按照一套公开规则做出的不是随机的。三、Claude Code一次值得解剖的工程实践2026 年 3 月Claude Code 做了约 10 次密集更新。让我印象深刻的不是功能本身而是它展现出的工程设计思路。3 月 31 日泄露的 51.2 万行 TypeScript 源码这件事后面还要聊让行业罕见地看到了一个顶尖 AI 工具的内部构造Claude Code 核心架构源码泄露后整理 ┌─────────────────────────────────────────────────────┐ │ 用户层 │ │ CLI (Commander) ←→ 终端 UI (React Ink) │ │ 交互式 REPL 模式 / 无头 SDK 模式 │ └──────────────────────┬──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────┐ │ 调度层 │ │ │ │ Coordinator Agent ──→ Worker Agent × N │ │ ↓ Fork 隔离试错防止上下文污染 │ │ StreamingToolExecutor工具并发/串行调度 │ └──────────────────────┬──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────┐ │ 优化层 │ │ │ │ Prompt Cache静态段/动态段分离最大化命中率 │ │ ToolSearch动态加载非核心工具节省上下文 │ │ Auto Mode Classifier侧查询 LLM 评估风险 │ └─────────────────────────────────────────────────────┘几个细节让我印象深刻Fork 子 Agent 机制。试错过程在隔离的子 Agent 里进行只把最终结论传回主 Agent。这意味着主会话的上下文不会被一堆失败尝试污染对长任务的连贯性至关重要。提示词缓存的分段设计。把系统提示静态和会话数据动态分开缓存通过确定性排序和哈希路径最大化缓存命中率——这是纯粹的工程细节但可能直接影响几十倍的推理成本。Auto 模式的安全机制。不是简单的允许/拒绝而是用一个侧查询 LLM 实时评估每个操作的风险等级低风险自动执行高风险强制暂停。这个设计把安全检查从人工环节变成了架构内置能力。Claude Code 的技术路线清楚地指向一个方向从工具走向基础设施。不是一个你问它、它答你的助手而是一个能在你不看它的时候持续工作的 Agent 平台。四、两次源码泄露暴露的问题远不止 npm 配置2025 年 2 月Claude Code v0.2.8 因为误留inline-source-map泄露了一次。2026 年 3 月 31 日Claude Code v2.1.88 因为误留cli.js.map59.8MB完整泄露了 51.2 万行 TypeScript 源码。13 个月同类错误发生两次。泄露本身的技术原因其实很简单任何一条 CI 检查都能防住# .npmignore 加这一行就够了*.map# 或者 CI 中加这个检查npmpack --dry-run|grep\.map$exit1但他们没有。这说明什么不是工程师不知道怎么写 CI而是在一家研发了世界最复杂 AI 系统的公司里发布流程的基础安全审查居然是手工的或者根本没有。这个矛盾是有点讽刺的。Anthropic 花了大量资源思考超级 AI 如何不伤害人类却没有在 npm 发布脚本里加一行 grep。更有意思的是外部反应。源码泄露后 2 小时韩国开发者 Sigrid Jin 用 OpenAI Codex 把整个系统的 Python 重写版claw-code做了出来获得 5 万 GitHub 星。有人开玩笑说这才是真正意义上的开源。五、安全负责人辞职这件事比我们想象的更严肃2026 年 2 月Anthropic 安全负责人 Sharma 辞职留下世界处于危险之中的声明。与此同时Anthropic 官网悄悄把安全承诺改成了风险报告原来允许安全团队冻结高风险模型发布的条款被弱化了。原安全承诺简化 修订后的风险报告框架 ───────────────────────────────────────────────────── 安全团队拥有发布冻结权 安全团队提供评估建议 发现高风险可直接叫停 最终决策由管理层判断 公开透明的能力评估指标 更灵活的内部评估机制Anthropic 的解释大概是随着对 AI 系统的理解加深需要更灵活的安全框架。听起来合理但配合安全负责人的辞职声明这个解释很难让人完全放心。背景是美国五角大楼曾要求 Anthropic 解除 Claude 的安全限制被拒绝了。但商业压力来自四面八方不只是政府。当年化营收逼近 140 亿美元、估值 600 亿美元的时候安全第一不再只是一种价值观更是一个成本中心。我没有证据说 Anthropic 已经堕落。但一个让原则性的安全负责人辞职的公司不管出于什么原因都应该被认真审视。尤其是当它把安全作为核心竞争力对外销售的时候。六、关于任何人都能成为开发者这个判断Anthropic《2026年智能体编码趋势报告》的核心结论是编程门槛正在消失这是自图形界面以来最大的范式转移。报告里有一些真实的数据支撑Augment Code 客户原需 4-8 个月的项目借助 Claude 只用 2 周完成乐天工程师用 Claude Code 在 7 小时内完成了 1250 万行代码库的复杂功能Anthropic 法务团队用 Claude 把合同审核从 3 天压到了 24 小时。这些案例是真实的但我对任何人都能成为开发者这个表述有保留意见。我认为更准确的描述是 原来 现在用 AI ───────────────────────────────────── 写代码需要学编程 写代码需要学会提需求 调试需要理解错误信息 调试需要判断 AI 的输出是否正确 架构需要经验积累 架构需要判断 AI 建议的取舍 安全需要专业知识 安全需要理解 AI 的局限 门槛没有消失门槛的形状变了一个法务人员确实可以用 Claude 构建自动化工作流但她需要清楚地知道这个工作流在什么边界条件下会出错需要能够判断 AI 的输出是否符合业务逻辑需要在出错时有能力介入和纠正。这不是零门槛这是门槛从会写代码变成了会判断 AI。后者在某些场景下其实更难因为它需要领域知识而领域知识比代码技能更难快速获取。不过话说回来这个方向是对的。技术的历史本来就是一部门槛不断下移的历史——汇编到高级语言命令行到图形界面每一次都有人担心真正的工程师会消失但每一次都带来了更大规模的软件创造。这次大概也不会例外。七、我对 Anthropic 的整体判断把上面这些拼在一起我对 Anthropic 的看法大概是这样的它是目前在 AI 安全问题上想得最深的公司之一。Constitutional AI 不是公关材料是真正有技术含量的研究方向对整个行业的对齐研究贡献是实质性的。但它同时也是一家公司受制于公司的所有逻辑。当营收增长 14 倍当军方施压当竞争对手步步紧逼安全第一这四个字的权重不可避免地在被重新定价。它的工程基本功配不上它的技术雄心。设计了多 Agent 协调、KAIROS 自主守护进程、提示词缓存优化这些精妙机制的团队却在同一个 npm 配置问题上摔了两跤。这不是个别工程师失误是某种系统性的疏忽。Claude Code 的方向是对的但它在重新定义一个问题当 AI Agent 可以在你不看的时候运行一周、自主修改代码库我是否理解这个系统在做什么变成了一个比代码写得好不好更重要的问题。尾声Anthropic 用人类命名自己这件事我一直觉得挺有意思。人类这个词里包含的不只有理性和善意也有疲惫、妥协、自我欺骗和短视。一家叫 Anthropic 的公司在追求 AI 安全的路上暴露出这些人类特质从某种意义上说反而是诚实的。真正让我担心的不是它犯了错而是它在安全这件事上是当前这个行业最好的选项之一。这说明的不是 Anthropic 有多好而是这条路上整个行业离足够好还差得远。╔─────────────────────────────────────────────────╗ ║ ║ ║ AI 的最大问题不是能力 ║ ║ 而是我们没有足够好的方式来信任它 ║ ║ ║ ║ Anthropic 在尝试解决这个问题 ║ ║ 尽管方式并不完美 ║ ║ ║ ╚─────────────────────────────────────────────────╝参考资料36氪 · 砺石商业评论:以人类为名Anthropic如何打造宪法式人工智能(2026-03-31)腾讯云开发者:Anthropic最新2026趋势报告人类最大一次编程革命势不可挡(2026-04-02)博客园 · warm3snow:Claude Code源码泄露全复盘51.2万行代码裸奔Anthropic在同一个坑里摔了两次(2026-04-01)松山湖开发者村:Claude Code 2026年3月全面进化Auto模式、Computer Use与云端持续执行(2026-03-30)Anthropic:2026 Agentic Coding Trends Report(2026-02)Dario Amodei 离开 OpenAI 相关背景资料新浪财经 (2026-02-10)

更多文章