DeepSeek
"深度求索",2025 年初以 DeepSeek-R1 推理模型震动全球 AI 界。以极低推理成本(每百万 token 2-4 元)颠覆全球定价体系,被视为中国 AI "效率革命" 的代表。创始人 梁文锋 坚持不融资、不上市,资金由母公司幻方量化承担。
基本信息
| 维度 | 内容 |
|---|---|
| 成立 | 2023 年(由幻方量化孵化) |
| 总部 | 杭州,中国 |
| 估值 | 市场传言 ¥729 亿(公司否认外部融资) |
| 创始人/CEO | 梁文锋(同时是幻方量化创始人) |
| 母公司 | 幻方量化(顶级量化对冲基金) |
| 实体结构 | 自主独立,不接受外部融资 |
关键数据
| 指标 | 数值 | 时间 |
|---|---|---|
| 推理价格 | ¥2-4 / 百万 token | 2025(行业最低,颠覆全球定价) |
| 模型论文引用 | 超过同期 OpenAI | 2025 |
| 训练成本 | 远低于 GPT-4(自爆 R1 训练 < $600 万) | 2025 |
核心产品
- DeepSeek-R1 — 推理模型,2025-01 发布震动全球
- DeepSeek-V3 — 通用 MoE 模型(671B 参数,每 token 激活 37B)
- DeepSeek Coder / Math — 垂类模型系列
- DeepSeek Chat — C 端对话产品(chat.deepseek.com)
- 开源 + API — 模型权重全部开源,API 价格极低
技术亮点 / 护城河
- MLA + MoE 高效架构 — Multi-head Latent Attention + 极致稀疏 MoE,推理成本下降一个量级
- GRPO 强化学习方法 — Group Relative Policy Optimization 替代 PPO,训练成本大幅降低
- 完全开源 + 极低 API 价 — 颠覆 OpenAI / Anthropic 定价体系
- 量化基因 + GPU 集群 — 母公司幻方量化储备数万张 A100/H100,独立训练能力
AI 时代角色
DeepSeek 是 2025 年全球 AI 最重要的搅局者。其 R1 模型把"推理时计算"从 OpenAI o1 独占技术变成开源标配,被誉为"中国 AI 的 Sputnik 时刻"。模型 + API 价格冲击迫使全球厂商重新定价,直接促成全球 LLM 推理价格 1 年下降 90%+。其"不融资不上市"策略使其成为全球 AI 格局中最独特的存在。
客户与供应链关系
↑ up::幻方量化自有 GPU 集群(A100 / H100 数万张)/ 华为昇腾 ↓ down::全球数百万开发者(DeepSeek API)/ chat.deepseek.com C 端用户 / 模型权重开源后无数下游集成方 ⚔ competitor::OpenAI Anthropic 阿里巴巴 Qwen / Meta Llama / 智谱AI / 月之暗面 Llama MiniMax Qwen 混元大模型 百度链 通义千问 阿里链 ∈ belongs_to::4-02-模型工厂
资本运作 / IPO 预期
★☆☆☆☆ — 创始人明确表态不融资不上市,短期 IPO 概率极低。但若母公司幻方策略改变或资本压力增加,仍有可能上市
关键事件
- 2023 DeepSeek 成立(幻方量化孵化)
- 2024-05 DeepSeek-V2 开源 + 价格战开启
- 2025-01 2025-01-DeepSeek-R1震动全球AI界 — R1 推理模型颠覆全球
- 2025-03 DeepSeek-V3 开源
- 2026-04 DeepSeek V4 发布——首个公开说明训练侧使用国产算力的通用大模型(华为昇腾参与训练),通过 MXFP4 量化感知训练 + TileLang 算子语言 + 自研 MegaMoE2 融合内核三大设计实现去英伟达化。Pro-Max 版本 Codeforces 评分 3206(人类选手第 23 名),LiveCodeBench Pass@1 93.5,SWE-bench Verified 80.6(与 Claude Opus 4.6 持平)。1M token 上下文场景下单 token FLOPs 仅为 V3.2 的 27%、KV 缓存 10%。CSA + HCA + mHC 混合注意力架构 + Muon 优化器 + 领域专家独立训练后训练范式。(据东吴证券 2026-04)
在 Goldman Sachs「Navigating China Internet」5 大 AI 辩论报告中的视角
GS 把 DeepSeek 视为中国 AI 模型缩小中美差距的关键 catalyst — DeepSeek、Qwen、Doubao、MiniMax 多家中国模型在不同 leaderboard 进入头部,多模态/推理/Agent 能力快速逼近美国 frontier。
DeepSeek 在推理成本上的展示直接触发中国 hyperscaler 的国产芯片转向、token 价格从年降 -40% 稳定到 flat 或上涨 — 是 GS 对中国 AI 模型链整体看多的底层支撑。
[据 Goldman Sachs 2026-05-04 中国互联网/AI 模型 5 大辩论](../来源摘要/Navigating China Internet_AI models_ Framing five key AI debates; Buy Alibaba (on CL); upgrade MiniMax to Buy.pdf.md)