大语言模型
"LLM = Large Language Model",基于 Transformer 架构 在海量文本上预训练的通用语言模型。2026 年全球 LLM 市场规模 $105.7 亿(CAGR 34.4%,2035 达 $1,498.9 亿),是 4-02-模型工厂 子行业核心。
定义
LLM 是参数规模在数十亿至万亿级的语言模型,通过大规模文本预训练 + 微调对齐获得通用语言理解和生成能力。典型代表:GPT-4o / o3、Claude 4.5、Gemini 2.5、Llama 4、DeepSeek-R1/V3、Qwen 3、GLM-4。
技术细节
核心架构演进
- Transformer(2017)— Attention Is All You Need 论文奠基
- GPT-3(2020)— 1750 亿参数,开启 scaling laws 时代
- MoE 架构(2022 后)— Mixtral / DeepSeek-V3 普及
- 推理时计算(2024 OpenAI o1)— Chain-of-Thought 长思考链
- 多模态 LLM(2024 后)— GPT-4o / Gemini 多模态原生
关键能力
- In-context Learning — 少样本/零样本学习
- Reasoning — 推理链能力(OpenAI o3 / Claude / DeepSeek-R1)
- Tool Use — 函数调用 / Agent 工具
- Long Context — 200K 至 200 万 token 上下文
主要玩家
闭源前沿
开源前沿
演进历史
- 2017 Google "Attention Is All You Need"(Transformer 论文)
- 2018 BERT(Google)+ GPT-1(OpenAI)
- 2020 GPT-3(1750 亿参数)
- 2022-11 ChatGPT 引爆全球
- 2023 GPT-4 / Claude / Bard 群雄混战
- 2024 推理模型(o1)+ MoE 普及
- 2025 DeepSeek R1 推理革命 + 万亿参数开源(月之暗面 Kimi K2)
在 AI 产业链中的角色
LLM 是 4-02-模型工厂 的核心产品。其上游需要 2-01-核心逻辑芯片 GPU 算力 + 3-03-数据中心 + 4-01-数据引擎 数据;下游驱动几乎所有 AI 应用(5-06-AI办公与企业服务 / 5-03-AIGC-数字媒体-创意工具 / 5-09-AI金融-量化交易 等)。
相关概念
- Transformer 架构 — LLM 的算法基石
- 混合专家模型(MoE)— 主流架构
- 推理模型(Reasoning)— LLM 升级方向
- 多模态模型 — LLM 横向扩展
- 长上下文窗口 — LLM 关键能力维度
增量补充(2026-05-29)
- 市场规模数据溯源:正文"2026 全球 LLM 市场 $105.7 亿、CAGR 34.4%、2035 达 $1,498.9 亿"经核对,与 Precedence Research《Large Language Model Market》(2026 = $10.57B、2026-2035 CAGR 34.44%、2035 = $149.89B)逐项精确吻合(T2 市场研究机构)。注:第三方市场咨询机构对 LLM 市场口径差异较大(Business Research Insights 给 CAGR 79.8%、Roots Analysis 给 2026 = $11.63B),本页采用的 Precedence 口径为相对保守且广被引用的一档。
∈ belongs_to::4-02-模型工厂