DeepSeek 寻求 3 亿美元融资:打破两年策略,从实验迈向工业状态

张开发
2026/4/18 18:50:17 15 分钟阅读

分享文章

DeepSeek 寻求 3 亿美元融资:打破两年策略,从实验迈向工业状态
DeepSeek开启外部融资DeepSeek 开始接触外部资本。The Information 引述四位知情人士报道DeepSeek 正在寻求至少 3 亿美元的首次外部融资估值不低于 100 亿美元。若将时间倒回两年前这几乎是不可能的事。当时该公司是中国 AI 行业中最反常识的存在。当其他公司都在融资、扩张、构建生态、抢占入口时DeepSeek 却刻意收缩不对外发声不频繁推出产品不参与大厂叙事甚至与资本保持距离。很多投资人尝试接触得到的反馈均为没有融资计划。在高度资本驱动的行业里这种姿态违背工业逻辑但也使 DeepSeek 一度被视为异类样本一个试图在 AI 时代验证“少资源路径”的团队。此次融资信号的关键不在于金额和估值而在于它打破了持续两年的策略前提DeepSeek 不再将自己隔离于体系之外。DeepSeek的防火墙梁文锋对外部资本的排斥有深刻根源。2022 年前后量化行业受政策打压幻方管理规模从千亿缩减大半。梁文锋手握大量富余的 GPU 集群和现金曾想通过投资入股或与云厂商合作的方式利用算力。他专门招聘两人负责战投考察了低空经济、智能硬件、SaaS 等科技项目最终都未投资。当时 DeepSeek 内部认为外部能做的事自己也能做。2023 年 7 月DeepSeek 正式成立。梁文锋从一开始就为公司划定界限不接受外部融资不稀释股权不被他人的商业化时间表束缚。他希望打造一个纯粹的研究机构追求 AGI、开展开源项目、让技术说话。他有足够的底气早在 2019 年他就投入 2 亿元自研深度学习训练平台萤火一号2021 年又投入 10 亿元建设萤火二号大量采购英伟达 A100使幻方成为国内屈指可数的万卡集群公司。疫情期间芯片供应紧张时幻方已提前囤货。2025 年幻方全年收益率 56.6%营收超 50 亿人民币。梁文锋资金充裕相比之下VC 的资金反而可能成为负担因为其带有对赌、估值压力和变现要求。他直言VC 都是为 LP 管钱都要赚钱所以难以达成共识。2025 年 1 月R1 发布训练成本约 560 万美元性能逼近 OpenAI 的顶级系统。“用十分之一的钱做出同级模型”这让行业认识到顶级模型能力并非只能通过大量资源堆叠获得。此时DeepSeek 的意义得到放大它不仅提供了一个模型更展示了一种可能性即在资源不占优的情况下仍可进入核心竞争区。其防火墙不仅稳固还成为行业故事的一部分。然而故事需要不断续写。裂缝出现裂缝并非突然出现自 R1 发布后便开始显现只是初期信号分散。首先是人员的变动顶级模型团队的核心成员市场价值高项目空档期时易成为市场目标。最早离开的是罗福莉V3 架构的关键开发者2025 年底转投小米接手 MiMo 大模型团队。同期第一代大语言模型核心作者王炳宣去了腾讯多模态方向的核心研究员阮翀加入元戎启行担任首席科学家OCR 系列核心作者魏浩然也在今年春节前后离职。接着是郭达雅1994 年生中山大学博士在 DeepSeek 仅两年却参与了 V3、R1、Coder、Math、Prover 等几乎所有标志性模型的研发。他提出的 GRPO 算法是 R1 的核心技术底座论文总被引超过 37000 次在同龄的中国 AI 研究者中难逢敌手。前两天郭达雅加入字节跳动从事智能体方向。不到一年时间五位核心研发骨干相继离开。这不仅是人员流失在模型研发中经验高度依赖路径核心成员的离开会直接影响下一轮迭代的效率和节奏。他们离开的原因与薪资和期权有关。猎头圈消息称大厂给 DeepSeek 核心技术人员的开价普遍是原薪资的两到三倍。字节 Seed 团队从 2025 年 9 月起推出专项期权津贴按职级每月发放 9 万到 13.5 万元不等的期权价格低于内部回购价。梁文锋的管理哲学在中国科技行业较为独特不加班、不打卡、不设 KPI员工工作时间灵活。这种文化在团队规模较小时运行良好但当外部高薪诱惑出现时自由就显得不足。更关键的是期权问题DeepSeek 从未融资没有市场化的估值锚点员工手中的股权承诺无法兑换成现金。而大厂的期权有行权价、内部回购机制和 IPO 预期。郭达雅的离开可能还与公司业务方向有关DeepSeek 没有 Agent 产品R1 发布时甚至不支持 function call函数调用他想从事智能体方向公司却没有相关业务。除人员变动外产品节奏也出现问题。下一代旗舰 V4 原计划春节前后发布后推迟到 2 月、3 月目前预计 4 月下旬发布。延期原因至少有三层一是技术路线发生质变V4 要打造的是系统级工程涉及万亿参数 MoE 架构、原生多模态、百万 token 上下文、全新的 Engram 条件记忆机制训练验证复杂度大幅提升二是身份包袱DeepSeek 以低成本实现顶级性能为立身之本V4 若性能提升有限却增加推理成本支撑估值和声誉的故事将出现裂痕三是国产芯片深度适配多方信源称 V4 将全面运行在华为昇腾 950PR 芯片上这是一个独立的巨型工程消耗大量研发资源。到 2026 年 4 月DeepSeek 已有 15 个月没有大版本更新。在此期间OpenAI 迭代四五轮Anthropic 连续推出 Claude 4.5/4.6/4.7国内同行如智谱、月之暗面、字节也在应用层快速发展。所有人都在加速只有 DeepSeek 进展缓慢。此前很多人认为这是定力的表现但现在看来更像是主动选择延长“实验室状态”。然而当外部环境加速时节奏就不再完全由自己掌控。竞争逻辑转变若单独看 DeepSeek 的处境易归因于公司内部问题但关键变量来自外部。过去 15 个月行业竞争维度发生巨大变化。早期大模型竞争核心在于架构、训练方法和工程优化2026 年后算力池规模、人才密度、应用层反馈速度成为主导因素三者共同决定迭代速度。海外头部公司的收入结构体现了这一趋势。Anthropic 年化收入从 90 亿美元增至 300 亿美元仅用四个月增量主要来自 Claude Code 编程智能体。Cursor 代码编辑器估值 600 亿美元GitHub Copilot 覆盖 2000 万开发者。资金流向能直接产出代码、工具和应用的产品。国内同行也在迅速跟进字节、阿里、腾讯布局 Coding 和 Agent 产品线智谱和月之暗面的 API 在年初的小龙虾热潮中需求大增源于它们在 Coding 方向的投入。显然单点模型能力仍重要但不再是唯一决定因素资源、组织、系统能力成为关键变量。中国几家头部公司虽动作路径不同但都将模型能力嵌入更大系统。DeepSeek 在全球开源社区人气高GitHub 上有 17 万颗星2.6 万个企业账户每月 57 亿次 API 调用但它缺乏自己的 IDE、Coding 工具、Agent 产品和终端用户付费的垂直应用。梁文锋坚持模型是一切的根基其近期署名论文方向为条件记忆机制、超连接优化 Transformer表明 DeepSeek 仍专注于解决底层问题。这种执着在 R1 时代得到验证但当竞争扩展到能力、产品和生态的综合比拼时仅有强大的基础能力是不够的。3 月 29 日晚间DeepSeek 遭遇上线以来最长的服务中断超过 7 小时波及数亿用户官方未解释原因。中断期间竞品流量上升部分企业客户考虑多平台冗余策略。一次宕机虽不会击垮公司但凸显了用户规模扩大后基础设施投入仅靠效率优化已无法满足需求。幻方的利润虽能支撑但并不轻松。3 亿美元的意义3 亿美元对 100 亿美元的估值来说稀释比例不到 3%与 Anthropic 和 OpenAI 等巨头相比这一数字较为克制。梁文锋融资的目的可能不在资产负债表上。首先融资使期权有了锚点。100 亿美元的定价确定后核心团队的股权将具有实际价值这对防止人才流失至关重要。其次这是 V4 的保险金。华为昇腾的全量适配需要资源同时媒体报道称 DeepSeek 也在用英伟达最新一代 Blackwell 芯片训练下一代模型该芯片受出口管制影响获取节奏不确定两条硬件路线并行使资金消耗大幅增加。最后这是进入下半场的入场券。AI 竞争已进入模型、产品、生态、资本四轮驱动阶段仅有优秀的模型而缺乏资本背书和产品生态只能成为产业链中的高级供应商。从 V4 的研发方向看梁文锋可能已意识到这一点多方信源显示V4 规划包含 AI 搜索、长期记忆和代码能力的大幅提升这些都是 Agent 时代的底层能力。DeepSeek 在弥补短板融资是为了及时跟上行业发展。外界可能将此次转向视为妥协但换个角度看这更像是从实验状态向工业状态的进化。AI 行业成本上升人才通胀超出预期依靠个人风格和单一利润源支撑超级独角兽越来越困难。梁文锋过去的选择有其逻辑但行业节奏最终会对所有企业产生约束。3 亿美元的融资是梁文锋首次公开承认这一现实。

更多文章